Login

Ich stecke gerade in einem Projekt fest, bei dem ich versuche, die Qualität von Kundenservice-Gesprächen automatisch zu bewerten. Meine Features sind hauptsächlich aus Transkripten abgeleitet, aber ich habe das Gefühl, dass ich etwas Entscheidendes übersehe. Die Tonlage oder die Pausen zwischen den Sätzen könnten vielleicht genauso viel aussagen wie die reinen Worte. Ich frage mich, ob jemand schon mal ähnliche Erfahrungen mit der Analyse von unstrukturierten Audiodaten gemacht hat und wie man da rangeht, ohne sich komplett zu verlieren.

Ja ich habe ähnliche Projekte gesehen. Die reine Transkriptqualität verengt den Blick. Tonlage Sprechtempo Pausenlängen und Betonungen sagen oft mehr über Zufriedenheit oder Frustration aus als die Worte selbst. Statt nur Wortlisten zu bauen würde ich die Audiospuren als Zeitreihen behandeln und prosodische Features wie Intonation Rhythmus und Lautstärke extrahieren und dann mit den Transkript Labels mischen.

Man hört oft wie der Kunde sich im Ton verzieht wenn er sich missverstanden fühlt. Ich würde versuchen Probanden zu annotieren wie sich Tonlage Pausen und Wärme in der Stimme verändern und das als Zusatzlabels zu den Text Labels machen. Das macht das Modell empfindlicher aber man darf sich nicht in den Details verlieren.

Ich frage mich ob man nicht zu sehr auf den Klang fixiert und die Bedeutung aus den Augen verliert. Vielleicht reicht es wenn das Transkript den Kern sagt und die Stimme nur Nebengeräusch bleibt. Pausen zu quantifizieren ist schwer und manchmal überstrahlt die Textinformation doch alles.

Ich schlage vor die Analyse neu zu rahmen als Untersuchung der Gesprächsdynamik statt nur als Qualitätskennzahl. Wir könnten das Thema Tonlage Pausen und Sprechakt Muster verwenden um Muster zu finden die Hinweis geben ohne zu behaupten dass sie eindeutig sind. Eine Idee die ins Gebiet der Pragmatik führt ohne sie zu erklären.

Ich würde mit einer baseline nur aus Text starten und dann schrittweise prosodische Features hinzufügen. Wichtig ist eine klare Versionierung damit man sieht was hilft und was nicht.

Aus meiner Sicht funktioniert eine mehrschichtige Herangehensweise besser. Ein Modell das Textanalyse mit Audiosignal verknüpft muss die zeitliche Struktur berücksichtigen also wie Pausen und Lautstärke sich über Abschnitte verteilen. Man braucht robuste Merkmale die auch bei schlechter Aufnahme funktionieren und eine Evaluationsstrategie die nicht nur Textscore betrachtet. Man sollte auch die Datenmischung bedenken denn es gibt Unterschiede je nach Kunde oder Kanal. Vielleicht wird so eine bessere Intuition für echte Gespräche sichtbar ohne sich in der Komplexität zu verlieren.

Login
Benutzername:
Passwort:	Passwort vergessen?
	Merken