Was tun, wenn SMOTE das modell zu gut aussehen lässt und echte Muster fehlen?
#1
Ich stehe gerade vor einer seltsamen Situation in meinem aktuellen Projekt und muss das einfach mal loswerden. Ich arbeite mit einem ziemlich unausgeglichenen Datensatz und habe nach einigem Herumprobieren eine SMOTE-Variante angewendet, um die Minderheitsklasse zu verstärken. Jetzt sehen die Metriken auf dem Papier zwar viel besser aus, aber ich habe dieses ungute Gefühl, dass das Modell irgendwie "künstlich" gut geworden ist und die realen Muster in den Originaldaten nicht mehr so gut greift. Irgendwie fühlt es sich an, als hätte ich das Problem nur verschoben.
Zitieren
#2
Ich verstehe dein ungutes Gefuehl gut. SMOTE hat die Minderheitsklasse verstärkt und die Metriken sieht besser aus doch das Muster kann durch die kuenstlich erzeugten Beispiele verzerrt sein. Hast du geprüft ob der Vorteil auch bei echten unveraenderten Daten besteht oder nur im Trainingssetup. Manchmal verschiebt sich der Fokus und man glaubt etwas gefunden zu haben, das in der echten Welt weniger robust ist.
Zitieren
#3
Aus analytischer Sicht wirkt es so als wuerden die Nachbarn in der Merkmalswelt die Grenzen verschieben. SMOTE kann Korrelationen verzerren und ein Overfitting auf die synthetischen Punkte beguenstigen. Eine Pruefung waere der Blick auf Kalibrierung, Resampling im Cross Validation und der Vergleich gegen ein Modell ohne Balancing. Vielleicht passt der Ansatz besser zu einem Kosten gewichteten Lernziel als zu einer reinen Balancierung.
Zitieren
#4
Ich bleibe skeptisch und frage mich ob du nicht die Grundannahmen Ueberpruefst. Wenn die Modelle besser auf dem Papier wirken aber die echten Muster fehlen bleibt der Nutzen zweifelhaft. Die Fehlklassifikationen sollten genauer analysiert werden und welche Merkmale treiben sie an.
Zitieren
#5
Vielleicht willst du das Thema neu rahmen statt zuzustimmen. Anstatt die Daten zu balancieren lass das Modell im Umfeld der echten Unausgewogenheit arbeiten. Kosten sensible Lernverfahren oder Anomalie Erkennung koennten besser zu deiner Aufgabe passen. Und vielleicht fasst du den Zielkonflikt neu zusammen statt eine vermeintlich einfache Loesung zu suchen.
Zitieren


[-]
Schnellantwort
Nachricht
Geben Sie hier Ihre Antwort zum Beitrag ein.

Bestätigung
Bitte den Code im Bild in das Feld eingeben. Dies ist nötig, um automatisierte Spambots zu stoppen.
Bestätigung
(Keine Beachtung von Groß- und Kleinschreibung)

Gehe zu: