KI lernt, Sprechintentionen vorherzusagen
Die Forschung untersucht, wie KI erkennen kann, wann Leute vorhaben zu sprechen, anhand von Beschleunigungsdaten.
― 10 min Lesedauer
Inhaltsverzeichnis
- Einführung und Motivation
- Verwandte Arbeiten
- Turn Taking
- Menschliche Absichten
- Techniken zur Vorhersage des nächsten Sprechers
- Forschungsfrage
- Experimenteller Ansatz
- Extraktion erfolgreicher Fälle
- Extraktion erfolgloser Fälle
- Das Modell
- Erkenntnisse aus der explorativen Studie und Annotationen
- Quantitative Bewertung des Modells
- Statistische Analyse
- Zukünftige Forschung
- Datensatzüberlegungen
- Fazit
- Originalquelle
- Referenz Links
Menschen können oft erkennen, wann jemand anders gleich sprechen will. Diese Fähigkeit kann in vielen Situationen nützlich sein, besonders wenn ein Roboter oder KI Gespräche leitet. Das Ziel dieser Forschung ist es, KI beizubringen, wann Leute sprechen wollen, basierend auf Daten von Beschleunigungssensoren, die Bewegungen messen können. Beschleunigungssensoren sind eine gute Wahl, weil sie die Privatsphäre der Menschen respektieren und einfach in realen Situationen verwendet werden können, wie z.B. bei smarten Abzeichen.
In dieser Studie haben wir Daten von einer echten sozialen Veranstaltung genutzt, um ein Machine-Learning-Modell zu trainieren, das erkennen kann, wann jemand sprechen möchte. Wir haben einige Fälle markiert, in denen Leute sprechen wollten, aber keine Gelegenheit dazu hatten. Das Modell wurde darauf trainiert, erfolgreiche Sprechversuche zu erkennen und wurde sowohl an erfolgreichen als auch an erfolglosen Versuchen getestet. Wir haben herausgefunden, dass es einige Informationen in den Beschleunigungssensordaten über die Sprechabsichten gibt, aber nicht genug, um präzise Vorhersagen zu treffen. Zum Beispiel ändern Leute oft ihre Haltung, wenn sie sprechen wollen, aber sie können auch aus anderen Gründen ihre Haltung ändern und wollen vielleicht trotzdem sprechen, ohne sich zu bewegen. Das deutet darauf hin, dass wir vielleicht zusätzliche Methoden brauchen, um der KI zu helfen, besser vorherzusagen, wann jemand gleich sprechen wird.
Einführung und Motivation
Wenn KI herausfinden könnte, wann jemand sprechen will, könnte das in verschiedenen sozialen Situationen helfen. Zum Beispiel könnte ein Roboter eine Gruppendiskussion leiten und erkennen, wann jemand etwas beitragen möchte, aber keine Chance dazu bekommt. Das könnte Gespräche produktiver machen und es jedem ermöglichen, seine Gedanken zu teilen.
KI, die Sprechabsichten erkennt, könnte auch schüchternen Menschen helfen, sich mehr einbezogen und engagiert zu fühlen. Es unterstützt eine bessere Gruppendynamik und sorgt dafür, dass jeder die Möglichkeit hat, teilzunehmen. Viele verschiedene KI-Systeme könnten von dieser Fähigkeit profitieren, besonders soziale Roboter, die Gespräche erleichtern. Wenn ein Roboter bemerken kann, wenn jemand bereit scheint zu sprechen, könnte er sanft dazu anregen, seine Gedanken zu teilen, und das Gespräch angenehmer gestalten.
Die Vorhersage des nächsten Sprechers ist etwas anders als das Erkennen von Sprechabsichten. Sie konzentriert sich nicht nur darauf, wann jemand sprechen möchte, sondern auch darauf, wann er Gelegenheiten verpasst, dies zu tun. Diese Absichten vorherzusagen ist knifflig, weil sie oft von persönlichen Gefühlen und nicht von klaren Signalen abhängen. Während einige soziale Hinweise darauf hindeuten können, dass jemand bereit ist zu sprechen, ist nicht jede Absicht sichtbar. Vorhandene Forschung hat sich hauptsächlich darauf konzentriert, vorherzusagen, wer als nächstes spricht, anstatt die Absichten zu sprechen.
Aktuell gibt es nicht viele Techniken, die darauf abzielen, diese Absichten ausserhalb von Laborumgebungen zu erkennen. Diese Forschung zielt darauf ab, die Lücke zwischen der Vorhersage, wer als nächstes spricht, und dem Verständnis der Absichten, sprechen zu wollen, zu schliessen.
Verwandte Arbeiten
Diese Studie bezieht sich auf drei Forschungsbereiche: Turn-Taking in Gesprächen, die Vorhersage, wer als nächstes spricht, und das Verständnis individueller Sprechabsichten. Die meisten Forschungsarbeiten haben sich auf das Management von Gesprächsübergängen und die Vorhersage des nächsten Sprechers konzentriert, während weniger Studien tatsächlich die Absichten zu sprechen behandelt haben.
Turn Taking
Das Management von Gesprächsübergängen ist entscheidend für interaktive Diskussionen und umfasst komplexe soziale Verhaltensweisen. Studien haben untersucht, wie Turn-Taking während Gesprächen organisiert wird. Es ist üblich, dass Gespräche kurze Überlappungen haben, wenn mehr als ein Sprecher gleichzeitig spricht, und verschiedene Techniken können helfen, diese Übergänge zu steuern.
Einige Forschungen haben soziale Hinweise identifiziert, die Turn-initiale Signale genannt werden und die mit dem Erhalt des nächsten Turns korrelieren. Zum Beispiel kommt es häufig vor, dass jemand wegschaut oder Lippenbewegungen macht, bevor er das Wort ergreift. Diese Hinweise können sehr wichtige Indikatoren sein und können kombiniert helfen, vorherzusagen, wer als nächstes spricht.
Menschliche Absichten
Forschung in den Sozialwissenschaften unterstreicht, wie gut Menschen die Absichten anderer aus deren Handlungen ableiten können. Menschen simulieren oft, was sie bei anderen beobachten, um zu schätzen, was diese denken könnten. Zu wissen, wie Menschen die Absichten anderer interpretieren, kann helfen, Modelle zu entwickeln, die besser vorhersagen, wann jemand sprechen will.
Eine Studie hat sich darauf konzentriert, nicht realisierte Sprechabsichten zu identifizieren, indem Atemmuster beobachtet wurden, was darauf hindeutet, dass Atmung anzeigen kann, ob jemand plant, das Wort zu ergreifen. Obwohl Atemhinweise subtil sein können, können sie wertvolle Einblicke bieten.
Techniken zur Vorhersage des nächsten Sprechers
Viele bestehende Methoden zur Vorhersage, wer als nächstes sprechen wird, basieren auf sowohl verbalen als auch non-verbalen Hinweisen. Durch die Betrachtung dieser Techniken können wir Einblicke gewinnen, wie man Sprechabsichten erkennen kann. Einige Studien haben Atem- und Mundöffnungs-Muster untersucht, um Sprechübergänge vorherzusagen. Es hat sich gezeigt, dass sich die Atemmuster je nachdem ändern, ob ein Sprecher seinen Turn behält oder ihn an jemand anderen abgibt.
Die Verwendung mehrerer Hinweise zusammen, wie z.B. Blickrichtung, kann die Vorhersagen verbessern. Wenn ein Sprecher zum Beispiel einen Zuhörer ansieht, ermutigt das oft zu einer Reaktion, was die Verbindung zwischen Blickverhalten und Sprechverhalten zeigt.
Forschungsfrage
Diese Forschung versucht herauszufinden, wie gut Daten von Beschleunigungssensoren Sprechabsichten in realen Situationen vorhersagen können. Die Hauptfrage untersucht, ob Daten von Beschleunigungssensoren effektiv sowohl erfolgreiche als auch erfolglose Sprechabsichten identifizieren können.
Um das besser zu verstehen, haben wir zwei Unterfragen:
- Wie gut können Daten von Beschleunigungssensoren erfolgreiche Sprechabsichten vorhersagen?
- Wie gut können sie erfolglose Sprechabsichten vorhersagen?
In unserer Forschung definieren wir "Sprechabsichten" speziell als die Absicht, einen Turn zu ergreifen und laut zu sprechen, während Signale wie Back-Channels ignoriert werden.
Um unsere Unterfragen zu testen, schlagen wir zwei Hypothesen vor:
- Ein mit Daten von Beschleunigungssensoren trainiertes Modell, das erfolgreiche Sprechabsichten zeigt, wird besser abschneiden als zufälliges Raten.
- Ein mit denselben Daten trainiertes Modell wird auch besser darin sein, erfolglose Sprechabsichten vorherzusagen im Vergleich zu zufälligen Vermutungen.
Zufälliges Raten ist die Basislinie, die wir verwenden, um zu überprüfen, ob die Daten von Beschleunigungssensoren wertvolle Informationen zur Erkennung von Sprechabsichten haben.
Experimenteller Ansatz
Wir haben damit begonnen, uns auf die Ableitung erfolgreicher Sprechabsichten zu konzentrieren und haben dann auch erfolglose Absichten betrachtet. Zunächst haben wir versucht, ein Modell basierend auf bestehenden Techniken zur Vorhersage des nächsten Sprechers aufzubauen, fanden diese aber für unsere Ziele unbrauchbar. Stattdessen haben wir bestehenden Code angepasst, um nur Daten von Beschleunigungssensoren zu verwenden und dabei die Privatsphäre zu respektieren.
Wir gingen davon aus, dass Sprechabsichten direkt als Ja- oder Nein-Frage behandelt werden können – entweder will jemand sprechen oder nicht. Um unser Modell zu bewerten, haben wir Fälle untersucht, die als falsch-positive klassifiziert wurden, also in denen fälschlicherweise eine Chance zum Sprechen vorhergesagt wurde. Wir haben Fälle von wahrgenommenen erfolglosen Sprechabsichten annotiert, um sowohl erfolgreiche als auch erfolglose Absichten zu analysieren.
In unserer explorativen Studie haben wir uns die Daten der Beschleunigungssensoren genau angesehen, um Merkmale zu entdecken, die auf Sprechabsichten hinweisen könnten. Durch unsere Beobachtungen haben wir Daten von einer sozialen Netzwerkveranstaltung gesammelt, bei der die Menschen frei miteinander interagierten.
Extraktion erfolgreicher Fälle
Um erfolgreiche Sprechinstanzen zu identifizieren, haben wir Mikrofondaten verwendet, die anzeigen, wann ein Teilnehmer spricht. Wir mussten Probleme lösen wie:
- Mikrofone, die Hintergrundgeräusche aufnehmen.
- Kurze Back-Channel-Antworten, die als vollständige Sprache gezählt werden.
- Falsche Klassifizierung aufgrund kurzer Pausen, während jemand noch spricht.
Nachdem wir die Mikrofondaten verarbeitet hatten, extrahierten wir Zeitfenster, die Absichten zeigten, mit dem Sprechen zu beginnen. Das beinhaltete die Suche nach Momenten in den Daten, in denen jemand anfing zu sprechen, und das Markieren der Momente, die darauf hindeuteten.
Extraktion erfolgloser Fälle
Um erfolglose Sprechabsichten zu verstehen, haben wir ein spezifisches 10-minütiges Segment des Ereignisaudios annotiert. Während dieser Zeit haben wir notiert, wann Teilnehmer sprechen wollten, aber nicht konnten, und diese als beginnende oder fortlaufende Absichten gekennzeichnet.
Wir haben verschiedene Hinweise aufgezeichnet, die darauf hindeuteten, dass jemand sprechen wollte, wie Veränderungen in der Haltung oder hörbare Signale wie Lippenklatschen. Nachdem wir die Annotationen abgeschlossen hatten, haben wir sie in ein für unsere Analyse verwendbares Format konvertiert.
Das Modell
Um unsere Hauptfragen zu beantworten und unsere Hypothesen zu testen, haben wir ein Modell angepasst, das ursprünglich Beschleunigungs-, Audio- und Videodaten kombinierte. Für unsere Forschung konzentrierten wir uns jedoch ausschliesslich auf die Daten von Beschleunigungssensoren.
Das Modell verarbeitet Zeitintervalle von Aufzeichnungen der Beschleunigungssensoren, bevor jemand spricht, die als positive Beispiele gekennzeichnet sind. Wir haben spezifische Zeitintervalle festgelegt, um zu sehen, welche Dauer die besten Vorhersagen lieferte und sicherzustellen, dass wir die Intervalle ordnungsgemäss zur Bewertung verwendeten.
Um die Leistung des Modells zu bestimmen, haben wir die Fläche unter der ROC-Kurve (AUC) gemessen. Dieser Wert hilft zu bewerten, wie gut das Modell zwischen erfolgreichen und erfolglosen Sprechabsichten unterscheidet.
Erkenntnisse aus der explorativen Studie und Annotationen
Aus der explorativen Studie haben wir festgestellt, dass einige soziale Hinweise gute Indikatoren dafür sind, wann Menschen sprechen wollen. Wir haben bemerkt, dass Verhaltensweisen wie Lippenklatschen oder näher zu jemandem zu lehnen den Wunsch zu sprechen anzeigen. Ausserdem wurde das Räuspern ebenfalls als ein anfängliches Signal zum Sprechen wahrgenommen.
Quantitative Bewertung des Modells
Wir haben unser Modell unter verschiedenen Zeitintervallen getestet, um zu sehen, wie effektiv es Sprechabsichten vorhersagen konnte. Durch die Verwendung von vier verschiedenen Zeitrahmen von 1 bis 4 Sekunden konnten wir die Leistung des Modells in verschiedenen Szenarien vergleichen.
Für jeden Fall – ob alle Sprechabsichten, erfolgreiche Absichten oder erfolglose Absichten vorherzusagen – haben wir sichergestellt, dass positive Proben mit den tatsächlichen Sprechinstanzen übereinstimmten und negative Proben nicht mit Sprechperioden überlappten.
Statistische Analyse
Um die Leistung des Modells zu analysieren, haben wir t-Tests verwendet, um unsere Ergebnisse mit zufälligem Raten zu vergleichen. Wir haben überprüft, ob das Modell signifikant besser abschnitt als reiner Zufall.
Die Ergebnisse haben gezeigt, wie gut das Modell zwischen verschiedenen Sprechabsichten unterscheiden konnte und bestimmte Trends basierend auf den verschiedenen getesteten Zeitrahmen hervorgehoben.
Zukünftige Forschung
Basierend auf den Ergebnissen und Einschränkungen unserer Experimente schlagen wir mehrere zukünftige Forschungspfade vor. Erstens würde eine Erhöhung der Anzahl annotierter erfolgloser Sprechabsichten helfen, die Genauigkeit des Modells zu verfeinern. Darüber hinaus könnte das Trainieren des Modells mit erfolgreichen und erfolglosen Proben zusammen bessere Einblicke liefern.
Wir haben auch erkannt, dass es notwendig ist, die Parameter des Modells weiter zu optimieren. Die Einbeziehung anderer Modalitäten, wie Audio oder Video, könnte die Leistung verbessern. Durch das Verständnis aller Hinweise, die zu Sprechabsichten führen, könnten wir ein robusteres System zur Erkennung bauen, wann Menschen planen zu sprechen.
Datensatzüberlegungen
Die Wahl eines geeigneten Datensatzes war zu Beginn des Forschungsprozesses entscheidend. Wir haben vier Datensätze basierend auf ihren Merkmalen, der Verfügbarkeit von Daten von Beschleunigungssensoren und den Bedingungen während der Datensammlung verglichen. Letztendlich wurde der REWIND-Datensatz gewählt, aufgrund seiner reichhaltigen Aufnahmen von einer sozialen Netzwerkveranstaltung in freier Interaktion.
Fazit
Diese Forschung konzentrierte sich auf die Vorhersage von Sprechabsichten mithilfe von Daten von Beschleunigungssensoren. Wir haben Absichten in erfolgreiche und erfolglose Fälle kategorisiert und einen Teil der erfolglosen Fälle annotiert. Unsere Experimente haben gezeigt, dass Daten von Beschleunigungssensoren sowohl erfolgreiche Sprechabsichten als auch bestimmte erfolglose Absichten besser vorhersagen konnten als zufällige Vermutungen. Die Ergebnisse deuten jedoch darauf hin, dass die Zuverlässigkeit verbessert werden muss, und zukünftige Arbeiten sollten explizitere Muster erkunden, die helfen können, diese sozialen Hinweise abzuleiten.
Titel: Inferring Intentions to Speak Using Accelerometer Data In-the-Wild
Zusammenfassung: Humans have good natural intuition to recognize when another person has something to say. It would be interesting if an AI can also recognize intentions to speak. Especially in scenarios when an AI is guiding a group discussion, this can be a useful skill. This work studies the inference of successful and unsuccessful intentions to speak from accelerometer data. This is chosen because it is privacy-preserving and feasible for in-the-wild settings since it can be placed in a smart badge. Data from a real-life social networking event is used to train a machine-learning model that aims to infer intentions to speak. A subset of unsuccessful intention-to-speak cases in the data is annotated. The model is trained on the successful intentions to speak and evaluated on both the successful and unsuccessful cases. In conclusion, there is useful information in accelerometer data, but not enough to reliably capture intentions to speak. For example, posture shifts are correlated with intentions to speak, but people also often shift posture without having an intention to speak, or have an intention to speak without shifting their posture. More modalities are likely needed to reliably infer intentions to speak.
Autoren: Litian Li, Jord Molhoek, Jing Zhou
Letzte Aktualisierung: 2024-01-11 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2401.05849
Quell-PDF: https://arxiv.org/pdf/2401.05849
Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.