Ich stehe gerade vor einer kleinen, aber für mich wichtigen Entscheidung in meinem aktuellen Projekt und wollte mal hören, wie ihr das so handhabt. Es geht um die Auswahl der richtigen Metriken für ein Klassifikationsmodell, bei dem die Klassen leider sehr unausgeglichen sind. Ich habe stundenlang mit Precision, Recall und F1-Score herumgespielt, aber irgendwie fühlt es sich an, als würde ich mir die Welt schönrechnen, nur um eine gute Zahl auf dem Papier zu haben. Besonders der F1-Score fühlt sich manchmal wie ein fauler Kompromiss an, der die echten Probleme in den falsch klassifizierten Fällen meines konkreten Datensatzes einfach zudeckt. Wie geht ihr damit um, wenn die Standardmetriken euch nicht das Gefühl geben, dass sie die praktische Tauglichkeit des Modells wirklich abbilden?
Es fühlt sich oft so an als müsste man die richtige Metrik finden um die reale Schwierigkeit des Problems abzubilden F1 Score wirkt oft wie ein Kompromiss der nur Zahlen schön macht dabei merkt man kaum welche Kosten echte Fehlklassifikationen verursachen und ob der Modus wirklich nützlich ist
Aus meiner Sicht muss man Metriken nicht isoliert betrachten man definiert Kosten fuer falsche Positive und falsche Negative und wählt dann eine Metrik die diese Kosten reflektiert Dazu eignen sich ROC AUC PR AUC und Kalibrierung der Wahrscheinlichkeiten sowie eine gezielte Schwellenbestimmung entsprechend der Geschäftsnutzen
Ich neige dazu zu glauben dass unausgeglichene Klassen oft zu einem trivialen Vorhersageverhalten verleiten aber das ist selten hilfreich und oft verschwinden die wichtigen Fälle hinter der Metrik wie die Suche nach dem best möglichen F1 Score
Ich bleibe skeptisch es gibt je nach Anwendung so viel Kontext da koennen kleine Unterschiede in der Metrik grosse Unterschiede in der Praxis bedeuten und eine Live Testphase oder ein geringer Rauschpegel im Datenfenster kann viel mehr Aufschluss geben
Vielleicht lohnt es sich die Idee der Metriken zu verlangsamen und den Fokus auf die Zielsetzung zu legen wie verifizierbare Auswirkungen der Vorhersagen Zeitersparnis Kostenreduzierung oder Fehlentscheidungsfolgen statt einer perfekten Metrik zu jagen Sollte man nicht eher die Zielgröße definieren und den Modellprozess darauf ausrichten?
Ein Konzept das ich beim Blick in die Praxis interessant finde ist die Kalibrierung der Wahrscheinlichkeiten und die Verwendung von Metriken mit Reliabilitaetsanalysen damit man sieht wie gut das Modell Wahrscheinlichkeiten einschätzt