Ich stehe gerade vor einer kniffligen Frage bei meinem aktuellen Projekt und weiß nicht so recht, wie ich weiterdenken soll. Ich arbeite an einer Zeitreihenanalyse für Energieverbräuche und habe eine Menge unstrukturierter Textdaten aus Wartungsprotokollen, die ich irgendwie sinnvoll einbeziehen möchte. Es fühlt sich an, als würde mir da eine wichtige Dimension fehlen, wenn ich die nur als einfache Kategorien behandle. Ich frage mich, ob es einen gangbaren Weg gibt, diese Protokolle in mein bestehendes Modell zu integrieren, ohne den gesamten Ansatz über den Haufen zu werfen. Vielleicht hat jemand von euch schon mal etwas Ähnliches versucht und kann von seinen Erfahrungen berichten.
Aus der Perspektive der Zeitreihenanalyse macht es Sinn Textdaten nicht losgelöst zu lassen sondern als zusätzliche Merkmale zu integrieren. Man könnte Textdaten zu Features verarbeiten zum Beispiel mit TF IDF oder Embeddings und diese Features mit den Energiedaten in einem gemeinsamen Modell kombinieren oder einen zweigleisigen Ansatz verfolgen bei dem der Textpfad und der Zeitpfad getrennt lernen und dann die beiden Repräsentationen zusammenführen.
Ich sehe bei dem Vorhaben eine Gefahr denn Textdaten sind oft noisy unstrukturiert und jargonreich. Deshalb braucht es robuste Repräsentationen und eine sinnvolle Validierung damit das Zeitreihenmodell nicht von Stimmungswechseln oder Logbefundungen übermannt wird.
Vielleicht missverstehe ich das Vorhaben etwas und denke sofort an eine Stimmungsanzeige aus den Protokollen statt an harte Merkmale. Die Kernerzählung der Logs schiebt man in eine Kategorie wie Wartungstypen oder Ereignisse und dann glaubt man das sei ausreichend für die Zeitreihenanalyse.
Willst du wirklich jede Zeile der Protokolle in das Modell pressen oder reicht es die Kernthemen zu extrahieren?
Eine neue Blickrichtung könnte sein dass man Text und Messdaten zusammen in einen gemeinsamen latenten Raum bringt zwei Pfade laufen über zeit und Sprache und am Ende steht eine Art multimodales Zeitmodell statt einer rauen fusion.
Ich habe es mal so gemacht Embeddings aus Logs generiert und mit der Zeitreihe kombiniert war nicht perfekt aber manchmal hilfreich.