Login

Ich stehe gerade vor einer kniffligen Entscheidung bei einem Projekt und wollte mal fragen, wie ihr das handhabt. Wir haben einen neuen Datenstrom aus IoT-Sensoren, der eigentlich perfekt für unsere Vorhersagemodelle wäre. Das Problem ist die schiere Menge an Rohdaten – die sind so ungefiltert und teilweise redundant, dass ich mir nicht sicher bin, ob wir sie direkt verwenden können oder ob das unsere Prozesse nur verlangsamt. Ich frage mich, ob wir nicht besser eine Art Datenbereinigung vor dem eigentlichen Laden durchführen sollten. Irgendwie habe ich das Gefühl, dass der Aufwand für die spätere Bereinigung sonst explodiert. Wie sind eure Erfahrungen damit, wenn ihr vor ähnlichen Mengen an Rohinformationen steht?

Das klingt nach einer echten Zwickmühle. Rohdaten von IoT Sensoren sind oft eine Last und gleichzeitig eine Chance. Wenn ihr die Rohdaten direkt in die Modelle schiebt wird die Pipeline schwerfällig und die Kosten steigen. Ich würde erstmal mit kleinen Tests arbeiten und einen klaren Probebereich definieren. So seht ihr schnell ob sich die Datenbereinigung vor dem Laden wirklich lohnt.

Aus analytischer Sicht macht es Sinn einen zweistufigen Ansatz zu fahren. Zuerst die eingelesenen Daten validieren und Duplikate entfernen sowie Typen prüfen und Einheiten vereinheitlichen. Dann die Daten weiter filtern und Merkmale ableiten. Parallel dazu kann man Rohdaten speichern, um die Möglichkeit späterer Nachbearbeitung zu bewahren. Wenn die Datenmenge wirklich groß ist, lohnt sich Downsampling und das Arbeiten mit Fenstern statt einzelner Werte.

Ich habe den Eindruck manche gehen zu sehr ins Panikprinzip rein. Man muss ja nicht alles speichern oder sofort rein fressen. Eigentlich reicht es oft zu schauen welche Messungen wirklich stabil sind und welche nur Rauschen mit sich tragen.

Skeptisch erinnere ich mich daran dass Pre Cleaning oft nur Kosten verschiebt. Wenn das System zu stark gepriesen wird landet man bei einem Framework das komplex ist und am Ende doch lauwarm läuft. Vielleicht ist Edge Verarbeitung sinnvoller und man zieht erst in den Cloud Aufträge nach wenn klar ist welche Werte wirklich wichtig sind.

Ein anderer Blickwinkel wäre ein Data Contract der beschreibt welche Datenformen das Modell wirklich braucht. Es geht hier weniger um eine perfekte Sauberkeit sondern um eine klare Vereinbarung was erwartet wird und wie mit Ausnahmen umzugehen ist. So fragt man nicht erst später wozu das gut war sondern steuert es von vorne.

Wie groß ist der Nutzen der Vorab Bereinigung wirklich und lohnt sich der Aufwand im Verhältnis zur Zeit bis der Prototyp läuft?

Login
Benutzername:
Passwort:	Passwort vergessen?
	Merken