Ich stecke gerade in einem Projekt fest, wo ich versuche, die Auslastung unserer Server über die letzten zwei Jahre zu verstehen. Die Rohdaten sind eine echte Mischung aus verschiedenen Logformaten und manuellen Einträgen, und ich habe das Gefühl, ich verbringe mehr Zeit mit Säubern und Sortieren als mit eigentlicher Analyse. Irgendwann fragt man sich, ob man den Wald vor lauter Bäumen noch sieht. Wie geht ihr eigentlich mit so einer zähen Datenaufbereitung um, bevor ihr überhaupt zu den interessanten Fragen kommt? Das frisst gerade echt viel meiner Motivation.
Klingt nach einer echten Energiezehrung der Motivation. Wenn sich Rohdaten wie ein Durcheinander anfühlen verliert man schnell den Blick für das Ziel der Auslastung. Vielleicht gehst du da ähnlichen Weg wie ich und erst mal die Frustration spürst bevor es wieder Sinn macht
Aus einer analytischen Sicht hilft oft eine schrittweise Bereinigung statt einem großen Aufarbeiten. Erst Standardisierung der Formate und Vereinheitlichung der Zeitstempel dann eine leichte Aggregation pro Tag oder Stunde. Danach lässt sich erkennen ob Muster bleiben oder neue auftauchen
Vielleicht übersiehst du dass die eigentliche Frage gar nicht der Messwert ist sondern wie klar wir die Zielsetzung definieren?
Ich bleibe skeptisch ob saubere Daten allein die Lösung sind. Man fragt sich ob das Problem eher in der Geschichte der Logs liegt oder in der Frage ob man überhaupt zwei Jahre sinnvoll vergleichen kann
Vielleicht geht es nicht nur um Auslastung sondern um Muster im Einsatz der Systeme. Ein Konzept wie Anomalieerkennung oder Change Point Analyse könnte helfen auch ohne den kompletten Datensalat zu kennen