Ich stecke gerade in einem Projekt fest, wo ich eigentlich nur eine einfache Datenbereinigung machen wollte, aber jetzt habe ich plötzlich mehrere tausend Kundendatensätze, die alle leicht unterschiedliche Adressformate haben. Mir ist klar geworden, dass ich eigentlich eine Art von Datenstandardisierung brauche, bevor ich überhaupt weiterarbeiten kann. Ich frage mich, wie andere mit so einer Situation umgehen, wenn die Daten einfach von Anfang an chaotisch sind.
Oh Mann das muss frustrieren Adressformchaos macht Projekte schwer und ich spüre wie sich dein Druck aufbaut weil die Daten nicht zusammenpassen
Analytisch gesagt beginne mit der Festlegung eines Adressschemas und einer kanonischen Schreibweise Danach erfolgt ein Mapping der Rohdaten auf dieses Schema Das ist Teil der Datenstandardisierung und danach eine Validierung und automatische Korrekturen
Vielleicht habe ich die Aufgabe zu streng genommen Dabei geht es dir womöglich mehr darum zu verstehen wer zu welchem Datensatz gehört statt nur Formate zu vereinheitlichen
Was wenn der eigentliche Knackpunkt die Datenquelle ist und nicht die Bereinigung?
Vielleicht ist das alles nur ein Marketing Begriff und der Aufwand übersteigt den Nutzen
Eine andere Perspektive könnte sein die Daten als Fluss zu sehen mit Gateways und einer Data Quality Pipeline die erst trennt was wichtig ist statt sofort zu glätten