Ich stehe gerade vor einer kleinen, aber für mich wichtigen Entscheidung in meinem Projekt und wollte mal hören, wie andere das handhaben. Ich arbeite an einer Zeitreihenanalyse für lokale Wetterdaten und habe eine Menge fehlender Werte aus verschiedenen Quellen. Ich bin mir unsicher, ob ich sie einfach fallen lassen soll oder ob ich versuchen sollte, sie mit einem Modell zu rekonstruieren. Besonders bei den historischen Aufzeichnungen frage ich mich, ob das Füllen der Lücken die eigentlichen Muster im Datensatz nicht mehr verzerrt, als es hilft. Irgendwie fühlt sich beides falsch an.
Ich verstehe dein Dilemma es fühlt sich an als müsste man eine Lücke bei den fehlenden Werten im Gedächtnis der Daten schließen
Aus analytischer Sicht macht es Sinn die Unsicherheit der fehlenden Werte zu modellieren statt sie einfach zu ersetzen
Was wenn das Füllen der Lücken das Muster eher verzerrt als es hilft?
Vielleicht interpretierst du die Lücken als Fehler statt sie als Signal für Unregelmäßigkeiten zu sehen
Eine Idee wäre eine mehrfache Imputation die die Unsicherheit der Schätzungen abbildet statt eine einzige Wertersatzregel zu verwenden
Ich würde mit einer leichten modellbasierten Ergänzung anfangen dann die Ergebnisse gegen robuste Metriken prüfen und offen lassen was kommt