Ich stecke gerade in meinem ersten richtigen Data Science Job fest und frage mich, wie ihr mit der ständigen Unsicherheit umgeht. Mein letztes Modell lieferte auf den Testdaten gute Ergebnisse, aber als ich es im echten System laufen ließ, fiel die Performance deutlich ab. Jetzt grüble ich, ob ich einfach mehr Daten brauche, ob das Problem vielleicht in den fehlenden Edge Cases liegt, oder ob mein gesamter Feature-Engineering-Ansatz in die falsche Richtung geht. Manchmal fühlt sich diese ganze Arbeit an wie ein Schuss ins Blaue.
Es fühlt sich an wie ein ständiges Balancieren, wenn die echten Nutzungsdaten anders reagieren als im Test und die Unsicherheit bleibt deutlich spürbar.
Vielleicht hilft es sich nicht auf mehr daten festzulegen sondern den data drift zu beobachten und die modellannahmen regelmäßig zu prüfen.
Vielleicht verstehst du das problem falsch und es geht eher um beobachtungsfehler im logging oder zeitliche drift als um fehlende edge cases.
Was wenn die frage nach datenmengen gar nicht das eigentliche problem trifft und es eher an der skalierung der features liegt?
Ich bin skeptisch ob mehr daten wirklich helfen wenn die datenqualität leidet oder die labels nicht sauber sind, vielleicht lohnt sich eine kritische prüfung der fehlerquellen.
Man könnte das thema neu rahmen als frage danach wie wir uns Unsicherheit vorstellen statt als problem das gelöst werden muss vielleicht hilft eine andere metapher