Ich stecke gerade in einem kleinen Projekt fest und frage mich, wie ihr das handhabt. Bei mir müssen ständig neue, unstrukturierte Daten aus externen Quellen in unser bestehendes Schema integriert werden. Das führt jedes Mal zu manuellen Anpassungen und irgendwie fühlt sich das System dadurch immer fragiler an. Ich überlege, ob ein Schema-on-Read-Ansatz für diese Art von Problem sinnvoller wäre. Mich würde interessieren, ob jemand ähnliche Erfahrungen gemacht hat.
Schema on Read klingt verlockend, doch mein erster Eindruck ist, dass man damit nur die eigentliche Frage nach der Konsistenz verschiebt und am Ende wieder Chaos entsteht oder?
Technisch gesehen könnte Schema on Read flexibel funktionieren, aber dazu braucht es klare Metadaten, einen gut gepflegten Data Catalog und Regeln wie Data Contracts, sonst wird die Rohdatenflut schneller unbrauchbar.
Ich dachte bis vorhin, man schmeißt einfach alles in den Data Lake und lässt das System schon merken was sinnvoll ist, aber so einfach ist es nicht, oder habe ich das falsch gesehen?
Vielleicht sollte man die Fragestellung nicht beantworten sondern hinterfragen, ob das Schema wirklich das zentrale Problem trifft oder ob es eher Governance und Change-Flow sind?
Man könnte das Thema neu rahmen als eine Frage der Bedeutungszuweisung zwischen Nutzenden und Datenquellen statt als eine technische Lösung.
Ich bin gespannt wie andere es anders machen und ob ein offenes Modell wirklich mehr Stabilität bringt oder ob es nur das Gefühl von Freiheit ohne Struktur gibt.