Ich stehe gerade vor einer kleinen, aber für mich wichtigen Entscheidung in meinem Projekt und wollte mal hören, wie ihr das so handhabt. Ich arbeite an einer Zeitreihenanalyse und habe jetzt endlich einen soliden Datensatz, der sauber aufbereitet ist. Eigentlich könnte ich direkt mit dem Modellieren loslegen, aber irgendwie zögere ich. Ich habe das Gefühl, ich sollte noch mehr Zeit in die explorative Datenanalyse investieren, bevor ich überhaupt an die erste Modellschätzung denke. Andererseits habe ich Sorge, dass ich mich dann in Details verliere und die eigentliche Fragestellung aus den Augen verliere. Wie geht ihr diesen Schritt zwischen Daten und dem ersten Modell an?
Explorative Datenanalyse macht Sinn als Orientierungshilfe und kein Ersatz für die eigentliche Frage. Ich starte mit einer kurzen EDA um grobe Muster Saisonalitäten und Ausreißer zu erkennen und behalte die Forschungsfrage dabei präsent. Danach suche ich mir ein Baseline Modell das stabil läuft und messe den ersten Fit gegen eine einfache Benchmark. Bleibt die Frage offen oder die Muster widersprechen passe ich die Richtung an statt in Details zu versinken
Ich neige dazu das EDA Tempo nicht zu hoch zu setzen und direkt mit einem robusten Baseline Modell zu starten damit man schnell eine Orientierung hat. Wenn der Datensatz sauber ist kann das erste Modell schon Aufschluss geben und man versteht besser worauf es bei der Datenaufbereitung tatsächlich ankommt. Manchmal lohnen sich kleine Experimente mehr als eine lange Diagnostikphase
Vielleicht ist die Trennung zwischen Explorative Datenanalyse und Modellierung eine künstliche Scheidung der Praxis. Könnte es nicht sinnvoller sein mit einem leichten Prototyp zu starten und die EDA im Prozess entstehen zu lassen?