Wie identifiziere und bereinige ich duplikate in sqlite-bestelldaten?
#1
Ich sitze gerade an einem Projekt, bei dem ich historische Bestelldaten für eine Trendanalyse aufbereiten muss. Die Daten sind in einer alten SQLite-Datenbank gespeichert, und ich habe festgestellt, dass einige Transaktionen über die Jahre hinweg doppelt erfasst wurden, vermutlich durch manuelle Korrekturen. Ich frage mich, wie ich diese Duplikate am besten identifizieren und bereinigen kann, ohne dabei die Integrität der verknüpften Datensätze zu gefährden. Besonders bei den Stammdaten der Kunden macht mir das Sorgen.
Zitieren
#2
Zuerst klarmachen was ein duplikat ist und welche schluessel die logik definiert. In sqlite koennen zwei tranaktionen als duplikate gelten wenn sie gleiche transaktionszeit gleiche summe und dieselbe kunden referenz haben. Erzeuge eine staging tabelle mit feldern trans_id order_key customer_id datum betrag und flag duplicate. Identifiziere zeilen mit einer row nummerierung ueber die relevanten schluessel und behalte das erste exemplar waehrend die anderen als duplikate markiert werden. Fuehre danach eine bereinigung aus indem du die duplikate entfernst und sicherstellst dass referenzierte tabellen weiterhin korrekt verbunden bleiben
Zitieren
#3
Ich frage mich ob es wirklich duplikate sind oder einfach korrigierte transaktionen die wie duplikate wirken. Vielleicht lohnt es sich zuerst zu klaeren welche regeln wirklich gelten und welche datenquelle die duplikate erzeugt hat.
Zitieren
#4
Es nervt mich zu sehen dass stammdaten der kunden durch doppelt erfasste bestellungen unklar werden. Der drang die daten sauber zu halten ist gross auch wenn es historik braucht.
Zitieren
#5
Vielleicht macht es sinn den fokus zu verschieben statt Duplikate zu loeschen. Man koennte ein klares flag setzen und die Duplikate fuer trendberechnungen sichtbar halten damit die analyse bleibt flexibel.
Zitieren
#6
Sollte man die fachlogik hinter den Duplikaten hinterfragen statt einfach zu entfernen?
Zitieren
#7
Eine loesung die ich interessant finde ist die deduplizierung auf aggregierter ebene zuerst zu testen und danach schritte zur bereinigung der transaktionszeilen zu planen
Zitieren


[-]
Schnellantwort
Nachricht
Geben Sie hier Ihre Antwort zum Beitrag ein.

Bestätigung
Bitte den Code im Bild in das Feld eingeben. Dies ist nötig, um automatisierte Spambots zu stoppen.
Bestätigung
(Keine Beachtung von Groß- und Kleinschreibung)

Gehe zu: