Wie lässt sich der datenverlust in unserer batch-pipeline erklären?
#1
Ich stehe gerade vor einem kleinen Problem mit unseren Datenpipelines und wollte mal fragen, ob das jemand anders auch so kennt. Bei uns läuft seit einiger Zeit ein Batch-Job, der nachts Kundendaten aus verschiedenen Quellen zusammenführt. Eigentlich lief der immer problemlos durch, aber seit der letzten Änderung an einem Quellsystem beobachte ich sporadisch leichte Abweichungen in den aggregierten Kennzahlen am nächsten Morgen. Es fühlt sich an, als ob irgendwo auf dem Weg ein minimaler Datenverlust auftritt, aber ich kann den Punkt einfach nicht lokalisieren. Hat jemand eine Idee, woran das liegen könnte oder wonach ich suchen sollte?
Zitieren
#2
Das klingt wirklich frustrierend Ich kann verstehen dass dich die leichten Abweichungen nervös machen Denn seit der letzten Änderung wirkt es so als ob irgendwo ein kleiner Datenverlust auftreten könnte Was du brauchst ist eine klare Spurensuche
Zitieren
#3
Starte mit einer Baseline der Nachtläufe Verifiziere Rohdaten gegen die aggregierten Zahlen und prüfe ob alle Keys vorhanden sind und ob Duplikate vorkommen Prüfe Zeitstempel Unterschiede und ob die Lade Logs konsistente Meldungen auswerfen Achte auf Anzeichen eines Datenverlusts
Zitieren
#4
Vielleicht glaubt ihr der Fehler liegt in der Aggregation Dabei könnte es auch sein dass die Quelle gelegentlich andere Felder mitliefert Die Metrik ändert sich dadurch nur scheinbar und der echte Verlust liegt nicht dort
Zitieren
#5
Ist es wirklich sinnvoll von einem konstanten Minimalverlust auszugehen Oder könnte es sein dass ihr einfach nur mit Verschiebungen im Verteilungsprofil arbeitet und die Erwartung einer perfekten Bilanz unrealistisch ist
Zitieren


[-]
Schnellantwort
Nachricht
Geben Sie hier Ihre Antwort zum Beitrag ein.

Bestätigung
Bitte den Code im Bild in das Feld eingeben. Dies ist nötig, um automatisierte Spambots zu stoppen.
Bestätigung
(Keine Beachtung von Groß- und Kleinschreibung)

Gehe zu: