Lügen für die Wissenschaft: Projekt VACE erforscht Muster in der menschlichen Stimme

12.10.2021, Nachgeforscht :

Lügen, bis sich die Balken biegen – und das im Dienste der Wissenschaft? Diese Chance bietet sich flunkerwilligen Proband:innen im Forschungsprojekt VACE (Voice Analysis for Customer Emotions), das das Institut für Dienstleistungsmanagement (CROSS) der HNU derzeit gemeinsam mit dem Technologietransferzentrum Günzburg (TTZ) durchführt. Wissenschaftler entwickeln, trainieren und testen dort eine künstliche Intelligenz (KI), die kleinste Veränderungen in der menschlichen Sprache erfasst.

Die Rückschlüsse, die sich dadurch ziehen lassen, dienen der Optimierung von Marketingstrategien und können langfristig sogar für die Alzheimerfrüherkennung genutzt werden. Fabian Thaler, wissenschaftlicher Mitarbeiter für das Gebiet AI / Speech Recognition an der HNU, hat uns erklärt, welche bislang bestehende Forschungslücke das Projekt schließt – und wie aus einer KI (k)ein Lügendetektor wird. Einen Praxistest gab's obendrein: Wir haben selbst an den VACE-Experimenten teilgenommen und unsere Erfahrungen festgehalten.

[1]

Menschliche Sprache: ein spannendes Forschungsfeld

Kaum eine menschliche Leistung ist so kompliziert wie die des Sprechens: Initiiert durch neuronale Signale und Prozesse im Gehirn sind daran über 100 Muskeln und etliche Organe im gesamten Körper beteiligt – so kommt neben Kehlkopf, Lippen und Nase beispielsweise das Zwerchfell zum Einsatz, sobald wir die Stimme heben. Auch die Körperspannung spielt eine entscheidende Rolle. Angesichts dieses komplexen Zusammenspiels aus motorischen und kognitiven Vorgängen liegt es nahe, dass die Stimme eines Menschen so einiges über seine physische und psychische Verfassung verrät. Für Prof. Dr. Heiko Gewald (öffnet neues Fenster), Fabian Thaler (öffnet neues Fenster) und Prof. Dr. Stefan Faußer (öffnet neues Fenster) am Institut für Dienstleistungsmanagement der HNU (CROSS) (öffnet neues Fenster) sind Sprache und die menschliche Stimme deshalb vor allem eins: ein hochinteressantes Forschungsfeld.

Voice Analysis for Customer Emotions (VACE) widmet sich einer technisch gestützten Analyse von inneren Überzeugungen in gesprochener Sprache. Im Fokus steht die Erfassung und Interpretation von Mustern aus der Stimme potenzieller Kunden, um Unternehmen eine Möglichkeit zur Optimierung des individuellen Kundenhandlings zu bieten.

Zur Projektseite (öffnet neues Fenster)

[2]

Ziel des Projekts: die „innere Überzeugung“ auf auditiver Ebene herausfiltern

Dabei geht es den Wissenschaftlern vor allem um das große Potenzial, das die Stimmanalyse durch KI bietet: Ob sprachbasierte Coronatests oder Persönlichkeitstests in Recruitingprozessen, KI-gestützte Sprach- und Stimmanalysen werden immer häufiger eingesetzt. Gewald, Thaler und Faußer widmen sich der technisch gestützten Analyse von Überzeugungen in der gesprochenen Sprache. Mit dem Projekt VACE verfolgen die Wissenschaftler in zwei unterschiedlichen Unterprojekten und Datensets ein übergeordnetes Ziel: Sie wollen die „innere Überzeugung“ von Sprechenden auf auditiver Ebene extrahieren und dadurch tatsächliche Absichten operationalisieren. Die auf diese Weise identifizierten Marker werden im Rahmen des VACE-Projekts dazu eingesetzt, optimierte Marketingstrategien zu entwickeln. Denn: Je genauer die Bedürfnisse, Wünsche und Absichten von Kund:innen ausgelotet werden, desto individueller kann auf einzelne Bedarfe eingegangen werden, und so lässt sich letztlich nicht nur die Kundenzufriedenheit erhöhen, sondern auch das Marketingbudget gezielter einsetzen.
Zu diesem Zweck bringen die Forscher einer prototypisch entwickelten KI bei, subtilste Modifikationen in der Stimme zu erkennen – im Prinzip eine dem Lügendetektor ähnliche Vorgehensweise. Der bezieht mit Hautleitfähigkeit, Blutdruck und Puls allerdings noch weitere Parameter in seine Analyse ein, während die VACE-Studien rein auf die Akustik des Gesprochenen fokussieren.

Proband:innen gesucht

Neugierig geworden? Wer als Proband:in selbst einmal im Dienste der Wissenschaft zwischen Dichtung und Wahrheit oszillieren möchte oder als studentische Hilfskraft am Projekt mitwirken möchte, kann Fabian Thaler direkt per Mail kontaktieren.

Das TTZ Günzburg

Das vom Freistaat Bayern getragene Technologietransferzentrum Big Data basiertes Marketing (TTZ Günzburg) (öffnet neues Fenster) wurde 2020 als In-Institut der Hochschule für angewandte Wissenschaften Neu-Ulm (HNU) im schwäbischen Günzburg gegründet und betreibt angewandte Forschung und Entwicklung im Bereich des Data Driven-Marketings.

Das interdisziplinäre Team berät Unternehmen strategisch wie operativ bei der Entwicklung und Implementierung von Prototypen und Konzepten für die Nutzung von Künstlicher Intelligenz im Marketing.

[3]

Hula-Hoop auf dem Mount Everest – oder: Warum für den Algorithmus nur der Ton die Musik macht

Den Forschern geht es dabei nicht um eine direkte Kommunikation zwischen Mensch und Maschine oder darum, aus maschinell erfasster Sprache Sinn zu extrahieren; das fällt in den Einsatzbereich des sogenannten Natural Language Processing (NLP). In ihren Experimenten ist es vielmehr zwingend notwendig, die semantische Ebene hinter der akustischen zurücktreten zu lassen – wichtig ist nicht, was gesprochen wird, sondern wie. „Wenn ich Dir beispielsweise erzähle, dass ich letzte Woche auf dem Mount Everest nackt Hula-Hoop getanzt habe, weißt du sofort, dass ich dir gerade einen Bären aufbinde“, sagt Fabian Thaler. „Der Algorithmus versteht das nicht. Er kann aber, und das ist das Interessante für uns, rein auf akustischer Ebene erkennen, dass irgendwas an der Geschichte faul sein muss – etwa, weil sich meine Tonlage ändert oder die Stimme zittert“. Zum Abgleich dienen der KI Stimmproben: Der Algorithmus lernt vor einer im Vorfeld erhobenen Vergleichsfolie, Veränderungen in der Tonlage, dem Sprechtempo oder der Intonation aufzuspüren.

[4]

„Es liegt mir auf der Zunge“: Alzheimerfrüherkennung durch Stimmanalyse

Langfristig soll diese Forschung neben der Optimierung von Marketingstrategien noch einem anderen Zweck dienen: der Alzheimerfrüherkennung. Bereits im Frühstadium können nämlich feinste Nuancen in der Sprachproduktion auf diese degenerative Erkrankung hinweisen. Noch vor deutlich erkenn- und hörbaren Sprach- und Kommunikationsstörungen oder einer Aphasie, dem vollständigen Sprachverlust, sind beispielsweise Wortfindungsprobleme und syntaktische oder semantische Defizite Symptome, deren frühzeitiges Erkennung ein Einschreiten ermöglicht. Die Analyse von Sprache kann also dazu beitragen, diese Erkrankung früher zu erkennen – etwa im Rahmen von Apps, die regelmäßige Sprachtests vorsehen und damit eine individuelle Vermessung der Sprache erlauben.
Die Forschung am CROSS schließt damit eine Forschungslücke. Während im internationalen Kontext bereits entsprechende Datensets erzeugt wurden, liegen für den deutschsprachigen Raum nämlich noch keine äquivalenten Studien vor, wie Fabian Thaler erklärt. Weil sich mögliche Marker von Sprache zu Sprache und von Kultur zu Kultur aber stark unterscheiden können und die internationalen Ergebnisse somit nicht ohne Abstriche übertragbar sind, ist ein deutscher Korpus zwingend nötig.

Unser Gesprächspartner

Fabian Thaler

ist wissenschaftlicher Mitarbeiter für den Bereich AI / Speech Recognition am Institut für Dienstleistungsmanagement (CROSS). Nach seinem Bachelorstudium der Wirtschaftsinformatik absolvierte er den Master Business Intelligence and Business Analytics (öffnet neues Fenster) an der HNU. Er stellte in seiner Masterarbeit unter Beweis, dass sich mit Techniken des maschinellen Lernens Handlungsempfehlungen für eine potentielle Alzheimererkrankung ableiten lassen, und führt die Forschung in diesem Bereich derzeit im Rahmen eines Dissertationsprojekts fort.

Wenn ich nicht gerade forsche/arbeite, dann …
…verbringe ich meine Zeit am liebsten mit meiner Familie und/oder Freunden (im Idealfall auf einem Konzert).

Meine aktuelle Lektüre:
Dr. Leon Windscheid: Besser Fühlen – Eine Reise zur Gelassenheit

Mein Fachgebiet in drei Worten:
KI optimal einsetzen

Meine nächste Publikation wird ...
... sich mit den Möglichkeiten der Erkennung/Einordnung des Wahrheitsgehalts von Erzählungen (Sprache) auf rein akustischer Ebene mithilfe von künstlicher Intelligenz beschäftigen.

Wissenschaftlich arbeiten/promovieren ist …
... eine für mich persönlich sehr spannende und vielschichtige Tätigkeit, bei der man jeden Tag auf eine andere Art herausgefordert wird und dadurch nicht nur das eigene Forschungsgebiet vorantreiben, sondern auch sich selbst immer wieder neu erfinden und weiterentwickeln kann.

Natürliche Sprache ist das Interface der Zukunft.
Fabian Thaler

[5]

Daten, Daten, Daten: Stimmproben-Futter für den Algorithmus

„Die erste und wichtigste Aufgabe ist natürlich, eine passende Datenbasis zu schaffen“, sagt Fabian Thaler. Je mehr Stimmproben vorliegen, desto besser kann der Prototyp daraufhin trainiert werden, etwaige Abweichungen in den Audiostreams zu identifizieren. Die enstprechenden Proben sammelt das CROSS-Team in zwei unterschiedlichen Studien.
Die Studie des ersten Teilprojekts, den Debattierclub, hatten die Forscher schon einmal durchgeführt. Ziel war es, herauszufinden, ob verbale Aussagen, die nicht mit der tatsächlichen Meinung der Sprechenden übereinstimmen, Diskrepanzen in den akustischen und linguistischen Merkmalen aufweisen. Der Algorithmus arbeitete in vielen Fällen erfolgreich – weil die Studie aber nicht ausreichend Teilnehmer:innen hatte, geht das Projekt nun in eine dritte Runde. Die Proband:innen erhalten per Mail ein zufällig ausgewähltes, polarisierendes Thema, 30 Minuten Vorbereitungszeit und eine bestimmte Rollenzuteilung; erfahren also erst kurz vorher, ob sie zu besagter Fragestellung eine Pro- oder Kontra-Haltung einnehmen und entsprechend argumentieren sollen.
Im zweiten Teilprojekt dürfen die Proband:innen noch kreativer werden: Sie präsentieren den Forschern fünf vorher vorbereitete kurze Erzählungen, mindestens eine davon muss erfunden sein. „Es gab einige äußerst phantasievolle Erzählungen, die wir im Bewertungsteam relativ einstimmig als Lüge identifizieren konnten“, berichtet Fabian Thaler aus den bisherigen Samples. „Da ist jetzt das Spannende, herauszufinden, ob die KI das unabhängig vom abstrusen Inhalt ebenfalls als Lüge identifizieren kann“.

[6]

Vom Spektrum zum Cepstrum

Dafür müssen die Audiodaten allerdings erst einmal eingespeist werden. Wie das funktioniert, zeigt uns Fabian Thaler direkt im System. Der erste Schritt in der automatischen Spracherkennung besteht darin, bestimmte Merkmale aus dem digitalen Audiosignal zu extrahieren. „Das klassische Spektrum, wie es jeder von Audioaufnahmen kennt, ist für unsere Analyse zu ungenau“, erläutert er. „Wir müssen das Ganze quasi wieder umdrehen und der menschlichen Stimme annähern“. Bezeichnet wird das als Cepstrum – ein Anagramm aus Spektrum. Sogenannte MFCCs (Mel Frequency Cepstral Coefficients), die dabei herausgefiltert werden, ermöglichen Rückschlüsse auf eine Vielzahl akustischer Sprachmerkmale.

Loss und Accuracy — Mit diesen Metriken wird der Erfolg des maschinellen Lernens bewertet: Die Klassifizierungsgenauigkeit ("accuracy") steht für den Anteil an korrekten Vorhersagen des Algorithmus; der logarithmische Verlust ("loss") zeigt falsche Vorhersagen. Die blaue Linie bezieht sich dabei auf die Trainings-, die orangene auf die Testdaten.

**Die Konfusionsmatrix zeigt die Klassifizierungsleistung des Algorithmus**

[7]

Quo vadis, Stimmanalyse?

Die automatisierte Verarbeitung natürlicher Sprache ist auf dem Vormarsch und eröffnet mannigfaltige Möglichkeiten in fast allen Bereichen unseres Lebens. Spracherkennungssysteme werden immer besser darin, menschliche Sprache zu verstehen – doch eine KI ist immer nur so gut wie die Datengrundlage, mit denen sie versorgt wird. In den nächsten Wochen und Monaten stehen bei Fabian Thaler deshalb etliche weitere Märchenstunden im Kalender: Für eine ausreichende Datenbasis werden viele weitere Stimmproben von freiwilligen Proband:innen gesammelt, eingespeist und vermessen. Wir begleiten ihn und das Projekt weiterhin und werden an dieser Stelle ein regelmäßiges Update veröffentlichen.

Was ist eigentlich...?

Speech Recognition

ist ein interdisziplinäres Teilgebiet der Informatik und Computerlinguistik. Im Zentrum steht die Entwicklung von Methoden und Technologien, die die Erkennung und Übersetzung von gesprochener Sprache in Text durch Computer ermöglichen.

Machine Learning

ist ein Bereich von Künstlicher Intelligenz. Mit Techniken des maschinellen Lernens können IT-Systeme Muster in Datensätzen erkennen, aus denen Lösungen entwickelt werden können.

Ein bisschen flunkern kann so schwierig doch nicht sein, denke ich mir, während ich mich im Internet über das Thema schlaumache. Eine schnelle, unwissenschaftliche Googlesuche verrät: Der Mensch lügt bis zu 200 Mal pro Tag, und das meist unbewusst. Da sollte es doch eigentlich ein Kinderspiel sein, sich für den guten Forschungszweck ein paar hanebüchene Geschichten aus den Fingern zu saugen. Doch bevor ich mich als Käpt’n Blaubärin präsentieren darf, gehe ich erst einmal als Probandin für das erste Forschungsprojekt an den Start: den Debattierclub. Hier muss ich zwar keine eigenen Fabeln erdichten, aber gegebenenfalls gegen meine eigene Einstellung – eben jene „innere Überzeugung“, die das VACE-Team auditiv aufspüren möchte – argumentieren. Zu viele Informationen kann mir Fabian Thaler im Vorfeld natürlich nicht geben, schließlich soll ich möglichst unvoreingenommen an die Sache herangehen.

Gespannt öffne ich die Einladungsmail, hoffe auf ein interessantes Thema – und Volltreffer: Ich soll für die Wiedereinführung der Todesstrafe in Deutschland inklusive öffentlicher Hinrichtungen plädieren. Mir fallen sofort zig Gegenargumente ein, die ich mit flammender Inbrunst vortragen könnte, aber eine befürwortende Haltung vertreten, die mir der Algorithmus vielleicht sogar abnehmen könnte…? Das wird eine Herausforderung, zumal meine Schauspielkarriere schon in der Mittelstufen-Theatergruppe von allenfalls mäßigem Erfolg gekrönt war. Ich bin versucht, mir ein paar Pro-Argumente zurechtzugoogeln – das wurde mir aber im Vorfeld untersagt, und als vorbildliche Probandin halte ich mich selbstverständlich an alle Anweisungen. Dass nur der Audiostream aufgezeichnet wird, kommt mir aber immerhin entgegen: Um meine erhitzten Wangen oder ein nervöses Augenzucken, das Rückschlüsse auf mögliche Flunkereien liefern könnte, muss ich mir schon einmal keine Sorgen machen.

Nach einer kurzen Einführung via Zoom geht es auch direkt los: Bild aus, Ton an, the stage is mine. Ich trinke noch hastig einen Schluck Wasser, räuspere mich und beginne mein Plädoyer für eine Wiedereinführung der Todesstrafe samt öffentlicher Hinrichtungen. Mühsam trage ich meine zusammengekratzten Argumente vor, kiekse und gatze und spicke meine Rede unfreiwillig mit etlichen Ähms und Hmms.

„Du hast relativ schnell gesprochen“, erklärt mir Fabian Thaler in der anschließenden Besprechung, „das wäre für die KI eventuell ein Indikator dafür, dass Aussage und innere Haltung nicht übereinstimmen“. Ich erkläre ihm, dass ich grundsätzlich zum schnellen Reden neige – kann die KI das unterscheiden? Kann sie nicht, erläutert Wissenschaftler, berücksichtigt wird das aber dennoch: Ein Fragebogen, den man im Vorfeld ausfüllt, unterstützt die Forscher in der anschließenden Auswertung dabei, die Analyse von Faktoren wie Nervosität oder anderen Dispositionen zu bereinigen. In den nächsten Wochen wird die KI mit meinem Audiostream gefüttert und meine „innere Überzeugung“ auf Herz und Nieren geprüft. Spannend!

War die Teilnahme am Debattierclub noch die Pflicht für lernwillige Lügner:innen, kommt nun die Kür. Für das zweite Projekt muss ich noch tiefer in die Phantasiekiste greifen: Ich soll fünf etwa einminütige Geschichten vorbereiten und präsentieren. Was genau ich den Forschern auftische, bleibt dabei mir überlassen. Ob Erzählungen aus dem letzten Urlaub, Kindheitserinnerungen oder Erlebnisse aus dem Arbeitsalltag, wichtig ist nur, dass mindestens eine meiner Stories erstunken und erlogen ist. Schaffe ich es, die Wissenschaftler zu überlisten – ihnen also entweder glaubwürdige Lügen als wahr oder auch wahre Geschichten als erdichtet zu verkaufen – steigen meine Chancen auf eine Belohnung. Da versteht es sich von selbst, dass ich meine Geschichten minutiös vorbereite. „Wer einmal lügt, dem glaubt man nicht“? Das wollen wir doch einmal sehen… Weil das CROSS-Team für diese Studie noch weitere Proband:innen sucht, kann ich an dieser Stelle nicht zu viel verraten – nur so viel: eine Baronin Münchhausen ist auch im zweiten Experiment nicht aus mir geworden.

Zum Weiterlesen

Wer sich tiefergehend in die Thematik Künstliche Intelligenz einlesen möchte, dem empfiehlt Fabian Thaler zum Einstieg "Macht Euch die Maschinen untertan. Vom Umgang mit künstlicher Intelligenz" von Andrian Kreye.

Lügen für die Wissenschaft: Projekt VACE erforscht Muster in der menschlichen Stimme

[1]

[2]

Proband:innen gesucht

Das TTZ Günzburg

[3]

[4]