Ich sitze gerade über meinen Daten und frage mich, ob ich mir vielleicht zu viele Gedanken über Ausreißer mache. In meiner letzten Analyse habe ich einen Wert, der so weit vom Rest entfernt liegt, dass er alles verzerrt, aber ich kann keinen Fehler in der Datenerhebung finden. Es fühlt sich falsch an, ihn einfach zu löschen, nur weil er unbequem ist. Andererseits wirft ein einzelner Punkt alle meine Ergebnisse über den Haufen. Wie geht ihr mit so einer Situation um, wenn euch ein einzelner Datenpunkt den ganzen Datensatz kaputtzumachen droht?
Ich kenne das Gefühl. Ein einzelner Punkt fühlt sich an wie eine Drohung gegen alles was man bisher gehofft hat und gleichzeitig wie ein persönlicher Angriff auf die Glaubwürdigkeit der Daten. Es macht wütend traurig und unsicher zugleich.
Aus analytischer Sicht braucht man einen Plan bevor man entscheidet was mit einem Ausreißer passiert. Man schaut auf Robustheit statt auf perfekte Passform. Man kann zuerst die Verteilung prüfen zum Beispiel die IQR Regel dann testen ob der Punkt ein Messfehler war oder ob er als Signal bleibt. Danach entscheidet man ob man ihn entfernt oder modelliert.
Vielleicht ist der Ausreißer ja gar kein Fehler sondern ein Hinweis darauf dass der Datensatz zwei Welten vereint. Wenn man sich weigert ihn zu berücksicht könnte man übersehen dass es zwei Gruppen gibt die unterschiedliche Mechanismen haben.
Was passiert wenn man den Punkt getrennt betrachtet und ihn in eine separate Komponente packt statt ihn zu löschen?
Ich bleibe skeptisch ob der Punkt wirklich den ganzen Datensatz zerstört hat. Vielleicht ist der Rest doch widerstandsfähiger als es scheint und der zentrale Trend bleibt auch ohne ihn sichtbar.
Vielleicht lohnt es sich den Fokus zu verschieben und nicht nur auf die Ausreißerquote zu schauen sondern auf die Geschichte der Daten. Wenn man sich fragt warum etwas so anders ist schiebt sich eine breitere Idee wie Robustheit in den Vordergrund.