Wie finde ich fehler in der datenaufbereitung, die zu sprunghaften modellen führen?
#1
Ich stehe gerade vor einem kleinen Rätsel in meinem aktuellen Projekt. Eigentlich wollte ich nur einen einfachen Klassifikator trainieren, aber die Performance auf den Validierungsdaten schwankt so unberechenbar, obwohl ich die Trainingsdaten mehrfach gemischt habe. Es fühlt sich an, als würde das Modell jedes Mal etwas völlig anderes aus den Daten lernen. Ich frage mich, ob ich vielleicht unbewusst einen Fehler in der Datenaufbereitung mache, der diese Instabilität verursacht. Hat jemand ähnliche Erfahrungen mit dieser Art von sprunghaften Ergebnissen gemacht?
Zitieren
#2
Das klingt wirklich frustrierend ich kenne solche sprunghaft unberechenbaren Effekte aus eigenen Projekten und sie treffen oft unerwartet zu
Zitieren
#3
Mein erster Verdacht geht in Richtung Datenaufbereitung vielleicht mischt du mehrfach oder es gibt einen versteckten leak im Preprocessing der jedes mal andere Korrelationen sichtbar macht
Zitieren
#4
Vielleicht verwechselt du Klassifikationsziele mit Regressionsmetriken und wunderst dich dann warum die Validierung springt
Zitieren
#5
Du könntest mal die Pipeline schrittweise prüfen zum Beispiel fixiere den Seed robuste Normalisierung und schaue ob der Split wirklich neutral bleibt
Zitieren
#6
Ich frage mich ob du die Prämisse wirklich so gemeint hast oder ob der Kontext der Daten eine Rolle spielt und das Modell sich daran orientiert
Zitieren
#7
Was würdest du sagen soll man erst das Konzept der Datenaufbereitung neu bewerten oder direkt auf ein stabileres Validierungssetup umsteigen?
Zitieren


[-]
Schnellantwort
Nachricht
Geben Sie hier Ihre Antwort zum Beitrag ein.

Bestätigung
Bitte den Code im Bild in das Feld eingeben. Dies ist nötig, um automatisierte Spambots zu stoppen.
Bestätigung
(Keine Beachtung von Groß- und Kleinschreibung)

Gehe zu: