Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften # Mensch-Computer-Interaktion # Rechnen und Sprache # Maschinelles Lernen

Forscher wägen Vor- und Nachteile von LLMs in der qualitativen Forschung ab

Ein tiefer Blick auf die Meinungen von Forschern zur Nutzung von Sprachmodellen in qualitativen Studien.

Shivani Kapania, William Agnew, Motahhare Eslami, Hoda Heidari, Sarah Fox

― 20 min Lesedauer


LLMs in der qualitativen LLMs in der qualitativen Forschung: Meinungen von Forschern Forschung unter die Lupe nehmen. Einschränkungen von LLMs in der Die Herausforderungen und
Inhaltsverzeichnis

In diesem Abschnitt schauen wir uns an, wie Forscher mit Sprachmodellen (LLMs) interagiert haben. Wir erkunden ihre Gedanken, Gefühle und Beobachtungen zur Nutzung von LLMs als Ersatz für menschliche Teilnehmer. Sie haben mehrere Schwächen festgestellt, wenn es darum ging, LLMs in der Forschung zu verwenden. Während sie davon abriet, sich ausschliesslich auf LLMs für Daten zu verlassen, erkannten sie einige Situationen, in denen LLMs nützlich sein könnten, aber mit vielen Warnungen.

Einstellungen von Forschern zu LLMs

Bevor die Forscher LLMs einsetzten, teilten sie ihre Gefühle zu diesen Technologien. Die meisten Forscher hatten eine Mischung aus Zweifel und Neugier. Einige Teilnehmer merkten an, dass LLMs ihnen bei Aufgaben wie Schreiben und Brainstorming geholfen haben. Zum Beispiel fanden sie LLMs nützlich, um wichtige Teile einer Diskussion zu erkennen, die mehr Aufmerksamkeit benötigten. Einige Forscher waren offen dafür, neue Wege zu finden, LLMs zu nutzen, sahen sie aber hauptsächlich als Werkzeuge, um zu untersuchen, wie LLMs funktionieren, und nicht als Werkzeuge, um menschliches Verhalten zu verstehen.

Forscher diskutierten, was qualitative Forschung erreichen möchte. Sie verwendeten oft Metaphern der Distanz, um ihre Punkte zu verdeutlichen. Eine Forscherin, Alice, äusserte Zweifel, ob die Verwendung von etwas, das weit entfernt von der tatsächlichen Quelle ist, wertvolle Einblicke in menschliches Verhalten geben könnte. Sie schlug vor, dass es vielleicht überhaupt nicht helfen könnte. Jenna fügte hinzu, dass die Stärke qualitativer Forschung in der Fähigkeit liege, einzigartige persönliche Erfahrungen festzuhalten.

Die Forscher reflektierten über ihre Arbeitsumgebungen. Harper, die in der Industrie arbeitete, konzentrierte sich auf Storytelling mit qualitativen Daten. Sie betonte, dass ihre Daten überzeugend genug sein müssten, um ihrem Team zu helfen, die richtigen Entscheidungen zu treffen. Harper räumte ein, dass, während LLMs schnell einfache Antworten generieren könnten, sie daran zweifelte, dass sie tiefere Annahmen oder subtile Details aufdecken könnten, die schwerer in Worte zu fassen sind. Insgesamt waren die Forscher skeptisch gegenüber der Verwendung von LLMs, waren aber neugierig, was sie durch die Erkundung der Technologie lernen könnten.

Überblick über Interaktionsdaten

Als die Forscher mit dem Interview-Probe interagierten, stellten sie fest, dass die Antworten der LLMs oft widerspiegelten, was sie von menschlichen Teilnehmern gehört hatten. Die Ideen aus den LLM-Antworten stimmten häufig mit denen überein, die ihre menschlichen Interviewpartner teilten. Viele fanden die Antworten des Modells glaubwürdig. Zum Beispiel beobachtete Henri, dass einige LLM-Ausgaben über Seniorenwohnanlagen dem entsprachen, was ältere Erwachsene in seiner Forschung äusserten. Nachdem sie ähnliche Antworten gesehen hatte, die mit ihren Ergebnissen übereinstimmten, dachte Nadia darüber nach, wie ihre Rekrutierungsmethoden, die auf sozialen Medien basierten, möglicherweise die Sichtweisen von Menschen, die online nicht sehr aktiv sind, einschränken könnten, ähnlich wie das LLM, das hauptsächlich aus Online-Inhalten lernt. Obwohl sie keine grossen Fehler in den Fakten fand, hatte sie immer noch das Gefühl, dass der fehlende Kontext die Interpretation der Daten komplizieren könnte.

Mehrere Forscher kommentierten die Detailgenauigkeit in den LLM-Antworten, die viele auf die spezifischen Anweisungen zurückführten, die sie in den Eingabeaufforderungen gegeben hatten. Amir bemerkte, dass er "beeindruckt von dem Detaillierungsgrad" war, während Laila sagte, die Ausgaben ergaben "tatsächlich Sinn" statt wie Unsinn zu wirken. Allerdings waren nicht alle zufrieden. Mario und Rida waren frustriert über die übermässigen Details. Mario machte einen wichtigen Punkt, dass es einen grossen Unterschied zwischen Detail und Tiefe gibt. Er erklärte, dass LLMs eine Menge Informationen liefern könnten, ohne tatsächlich in die tiefere Bedeutung einzutauchen. Die Forscher fanden sich oft gezwungen, ihre Frageansätze zu ändern, um fokussiertere Antworten von den LLMs zu erhalten, und sie mussten zu Beginn der Interaktionen keine Beziehung aufbauen.

Cameron fand die LLM-Antworten zunächst ebenfalls beeindruckend und überlegte, ob diese Methode in ihren Interviews nützlich sein könnte. Sie erstellte zwei verschiedene Beschreibungen für Personas, um zu sehen, wie das LLM reagieren würde. Die erste Persona war detailliert über ihren Hintergrund: "Stell dir vor, du bist eine 18-jährige Latina aus Südost-Texas, die gerade an einer Ivy-League-Schule angenommen wurde." Die zweite Beschreibung war allgemeiner: "Stell dir vor, du bist ein College-Bewerber."

Nachdem sie die Unterschiede in den Antworten zwischen den beiden Personas beobachtet hatte, stellte Cameron fest, dass die allgemeinere Persona eine Erzählung von jemandem mit reichlich Ressourcen und Vorbereitung präsentierte. Im Gegensatz dazu stellte die detailliertere Persona eine Erzählung dar, die Herausforderungen im Zusammenhang mit dem Hintergrund der Latina-Studentin hervorhob. Cameron hatte das Gefühl, dass das LLM dazu neigt, Stereotypen über Ivy-League-Studenten zu verstärken und die Stärken, die Individuen aus bestimmten Gemeinschaften mitbringen, zu übersehen. Das führte zu ihrer Besorgnis, dass die Umfänglichkeit der LLM-Ausgaben die Forscher in die Irre führen könnte zu glauben, sie bräuchten keine menschlichen Teilnehmer mehr. Aber durch die Arbeit mit den Personas erkannte sie, dass das LLM dazu neigt, Annahmen über Gemeinschaften widerzuspiegeln, anstatt authentische Erfahrungen darzustellen.

Beim Ausprobieren unterschiedlicher Beschreibungen für die Teilnehmer hoben die Forscher die Herausforderungen hervor, entweder zu detailliert oder nicht detailliert genug zu sein. Weniger Informationen in den Eingabeaufforderungen führten zu Antworten, die auf Annahmen beruhten, während Nolan, der umfangreiche Details bereitstellte, bemerkte, dass die Antworten des Modells einfach wiederholten, was er in die Persona einbrachte, was er amüsant, aber nicht nützlich fand. Die Analyse der Interaktionsdaten zeigte Fälle, in denen das LLM spezifische Merkmale den Identitäten in den Personas zuordnete. Zum Beispiel stellte eine Modellantwort für Esme fest, dass das Non-Binär-Sein und das Schwarzsein ein Bedürfnis nach Repräsentation in den Medien prägten. Andere Antworten, wie die von Nico, vermittelten, wie eine gemischte Erfahrung im Fernlernen davon abhing, ein 45-jähriger College-Student im zweiten Jahr zu sein. Die Interviewpartner wiesen darauf hin, dass die Tendenz des LLM, Identitäten zu vereinfachen, die nuancierte Natur tatsächlicher Lebenserfahrungen übersehen könnte.

Einschränkungen von LLMs als Forschungsteilnehmer

Als Nächstes diskutieren wir die wichtigsten Einschränkungen bei der Verwendung von LLMs, um menschliche Erfahrungen zu verstehen. Einige Bedenken beziehen sich auf Stil und Bedeutung in den Antworten, während andere sich auf Themen wie Zustimmung und die Autonomie potenzieller Teilnehmer konzentrieren. Obwohl einige dieser Probleme durch besseres Prompt-Design oder durch die Einbeziehung einer breiteren Datenbasis angegangen werden können, warnten die Interviewpartner, dass diese Anpassungen die Glaubwürdigkeit des Forschungsprozesses untergraben könnten, wenn Forscher das Gefühl haben, Antworten "korrigieren" oder diktieren zu müssen.

Begrenzte Detailgenauigkeit in den Antworten

Die Klarheit qualitativer Daten ist entscheidend, um reale Erfahrungen zu vermitteln, einschliesslich spezifischer Personen, Einstellungen, Ereignisse und Motivationen, die echte Lebenserfahrungen widerspiegeln. Viele Forscher äusserten Frustration über die LLM-Antworten und betrachteten diese als zu abstrakt und von der Realität entfernt. Sie bemerkten, dass das Sammeln detaillierter Geschichten von menschlichen Teilnehmern Geschick und Aufwand erfordert, was das Modell oft nicht nachahmen kann. Während einige Forscher Aufforderungen erstellen konnten, die Geschichten hervorbrachten, hinterfragten sie dennoch, ob diese Antworten gültig waren. Sophia, die die Rolle der Technologie in der Gig-Arbeit untersuchte, bemerkte, dass die vage Erwähnung eines "unsicheren Viertels" durch das LLM den spezifischen Kontext fehlte, der notwendig war, um geschlechter- und rassenbezogene Diskussionen zu analysieren.

Die Forscher bemerkten auch, dass die LLM-Antworten oft die Spontaneität und Energie vermissten, die in echten Interviews vorhanden ist. In ihrer Forschung gingen menschliche Teilnehmer manchmal vom Thema ab und teilten interessante Geschichten, die die Daten bereicherten. Daria teilte mit, dass die LLM-Antworten sehr fokussiert waren, während ihre Teilnehmer oft persönliche Anekdoten erzählten, wie zum Beispiel ein Auto, das an einem geschäftigen Abend liegen blieb, was die Daten bereicherte. Rida fügte hinzu, dass zwar ihre Teilnehmer selten ausführliche Details über ihr Alltagsleben preisgaben, sie jedoch in Interviews allmählich mehr über ihre Routinen offenbarten. LLMs hingegen neigten dazu, Erfahrungen in einer formellen und distanzierten Weise zu kommunizieren, die das nuancierte Verständnis, das oft in persönlichen Interviews vorhanden ist, nicht festhalten konnte. Esme hob hervor, dass Interviews intime Austauschformen sein können, die eine Maschine nicht nachahmen kann, und merkte an, dass ein Teilnehmer eine persönliche Erfahrung teilte, die wahrscheinlich nicht von einem LLM stammen würde.

Für Forscher, die sensible Themen abdeckten, war der Mangel an emotionaler Tiefe in LLM-Antworten umso auffälliger. Nadias Forschung zu den Erfahrungen von Einwanderern beinhaltete Diskussionen über Trauma und Schwierigkeiten, die emotionales Gewicht trugen. Im Gegensatz dazu wurden die LLM-Antworten als flach und ohne die echten Gefühle beschrieben, die in menschlichen Interaktionen entstehen. Die Forscher äusserten ihre Frustration, wenn die LLM-Ausgaben es nicht schafften, das volle Spektrum menschlicher Emotionen auszudrücken, das entscheidend ist, um komplexe Geschichten von Teilnehmern zu erzählen. Einige Modelle zielen darauf ab, höfliche und zustimmende Antworten zu erzeugen, was zu einem Verlust des detaillierten Erzählens führt, das in der qualitativen Forschung wichtig ist.

Verstärkter Forscherbias

Bei der Simulation von Forschungsteilnehmern durch LLMs haben Forscher erhebliche Kontrolle, was ihre Rolle bei der Wissensproduktion komplizieren kann. Die Erstellung von Personas erfordert Annahmen darüber, wie potenzielle Teilnehmer sein könnten. Forscher müssen entscheiden, welche Eigenschaften sie einbeziehen, was direkte Auswirkungen darauf hat, wie das Modell reagiert. Obwohl traditionelle Interviews ebenfalls mit Auswahlverzerrungen konfrontiert sind, machen LLMs diese Entscheidungen sichtbarer und entscheidender. Die Teilnehmer äusserten Bedenken, dass dies unbeabsichtigt ihre Vorurteile verstärken könnte, da Forscher ihre Eingabeaufforderungen an ihre Erwartungen an die Daten anpassen könnten. Dieses Risiko von Bestätigungsbias entsteht daraus, dass Forscher das LLM mehrfach fragen können und dabei subtil unterschiedliche Antworten erhalten.

Die Forscher betonten, dass qualitative Forschung ein andauernder Prozess der Sinnstiftung ist. Daten warten nicht einfach darauf, gesammelt zu werden; sie werden durch das Engagement der Forscher mit Gemeinschaften und die Interpretation dessen, was sie lernen, geformt. Harper, die mit religiösen Gruppen arbeitete, stellte fest, dass die Präsenz eines Forschers die Dynamik einer Gemeinschaft beeinflussen kann. Sie reflektierte darüber, wie ihre Überzeugungen und Einstellungen ihren Forschungsansatz beeinflussten. Yue erwähnte ebenfalls, wie ihre Präsentation die Informationen, die die Teilnehmer in Interviews bereitstellten, erheblich prägen konnte. Ob sie als hörende Person oder als jemand, der mit der Gehörlosengemeinschaft vertraut war, wahrgenommen wurde, konnte die Tiefe der Antworten verändern.

Die Forscher bemerkten auch den Unterschied zwischen Insider- (emic) und Aussenperspektiven (etic) beim Studieren von Gemeinschaften. Nadia wies darauf hin, dass, wenn Forscher keine persönliche Erfahrung mit einem Thema haben, sie möglicherweise Stereotypen in den Daten nicht erkennen. Esme beschrieb dieses Problem als "Fallschirmwissenschaft", wo simulierte Erfahrungen auf einem begrenzten Verständnis einer Gemeinschaft basieren. Nikita teilte mit, dass sie nur Gemeinschaften erforschen würden, in denen sie eigene Erfahrungen haben, und betonte die Bedeutung, aus der Gemeinschaft zu stammen, die untersucht wird.

Im Gegensatz dazu können Forscher, die Teil der Gemeinschaft sind, wertvolle Einblicke bringen, um zu beurteilen, ob die Daten echte Erfahrungen widerspiegeln. Dabei könnte die Verwendung von LLMs, um Teilnehmer zu simulieren, zu Begegnungen führen, die ihre Gemeinschaft widerspiegeln, aber dennoch ungenau bleiben. Nikita beschrieb diese Situation als ähnliches wie das "gruselige Tal", wo Maschinenantworten menschenähnlich erscheinen, aber beunruhigend falsch sind. Laila hatte ein unbehagliches Gefühl, wenn sie die Antworten des Systems las, das versuchte, ihre Erfahrungen widerzuspiegeln, und beschrieb es als "gruselig und unehrlich." Dies weckte Bedenken darüber, wie diese Simulationen zu emotionalem Unbehagen führen und negative Auswirkungen auf die Forscher haben könnten.

Unklare Natur von LLMs

Die teilnehmenden Forscher hatten Schwierigkeiten zu bestimmen, welche Art von Wissen in den LLM-Antworten dargestellt wird, einschliesslich der Frage, ob sie einen einzigen Standpunkt widerspiegeln. Sie hatten das Gefühl, dass LLM-Antworten oft verschiedene Perspektiven von Teilnehmern in einer Antwort miteinander kombinierten. Daria beschrieb sie als eine "Simulation von Geschichten, die von Menschen geteilt wurden." Elliot, dessen Arbeit Erfahrungen von Arbeitern in Managementumgebungen untersuchte, stellte fest, dass das Modell Gedanken von sowohl Arbeitern als auch Management vermischte und manchmal den Standpunkt des Managements als Vorteile präsentierte, die die Arbeiter nicht wirklich erfahren. Um den breiteren Kontext zu verstehen – wie Bezahlung, Konflikte und Strukturen – glaubte Elliot, dass es notwendig sei, partielle und situierte Wissensbestände genau darzustellen.

Die LLM-Ausgaben zeigten eine Sensibilität für die Formulierungen, die in den Eingabeaufforderungen verwendet wurden. Daria beobachtete, dass als sie die Fragen von "Transparenzproblemen" auf "Erfahrungen mit App-Informationen" änderte, sich der Ton des Modells änderte. Die Teilnehmer hoben hervor, dass kleine Änderungen der Sprache die Antworten von negativ auf positiv kippen konnten. Diese Inkonsistenz könnte die Zuverlässigkeit qualitativer Daten gefährden.

Die Forscher äusserten Bedenken über das Fehlen von Transparenz hinsichtlich der Daten, die LLMs trainieren. Wenn das Ziel darin besteht, spezifische Gruppen zu verstehen, ist die Gültigkeit der von LLM generierten Antworten fraglich, wenn nicht klar ist, ob die Stimmen dieser Gruppen in den Trainingsquellen vertreten sind. Sophia verdeutlichte, dass die Antworten erheblich variieren könnten, je nachdem, ob das Modell aus Arbeiterforen oder unternehmensgesteuerten Quellen gelernt hatte. Nikita wies darauf hin, dass der Kontext an die Zeit gebunden ist und stellte die Frage, ob das Modell aktuelle Ansichten oder Durchschnittswerte aus der Vergangenheit widerspiegelt. Ohne Klarheit über die Datenquellen fiel es den Forschern schwer, die Wahrhaftigkeit der LLM-Ausgaben zu bewerten.

Risiko der Ausschliessung von Stimmen der Gemeinschaft

Die Verwendung von LLMs in der qualitativen Forschung birgt das Risiko, unterrepräsentierte Stimmen zum Schweigen zu bringen. Laila, die Schwarze soziale Mediengestalter studierte, stellte fest, dass LLMs oft auf Stereotypen zurückgriffen, wenn es um bestimmte Themen ging. Sie äusserte Bedenken, dass LLMs zwar allgemeine Gefühle über eine Gemeinschaft erfassen könnten, aber oft authentische Darstellungen der Mitglieder verpassten. Esme beobachtete, dass die LLM-Ausgaben allgemeine Themen über die schwarze Geschichte enthielten, die in bestimmten Kontexte nicht mit den Erfahrungen schwarzer Schöpfer resonierten.

Die Forscher führten diese Mängel auf die Trainingsdaten und die Prozesse zurück, die zur Erstellung aktueller LLMs führen. Sie hatten das Gefühl, dass die Maschine höfliche Antworten erzeugen konnte, aber die komplexen, chaotischen Realitäten menschlicher Erfahrungen verpasste. Amir erwähnte, dass seine Teilnehmer oft starke Meinungen äusserten, die kontrovers sein könnten, was LLMs nicht nachahmen konnten. Henri, der Ergotherapeuten studierte, fand heraus, dass LLMs "beste Praxisantworten" präsentieren konnten, aber nicht die Widersprüche erfassen konnten, die in realen Gesprächen vorkommen.

Die Teilnehmer hatten auch Zweifel daran, wie LLMs Antworten basierend auf spezifischen Identitäten generieren. Wenn Personas zu kulturellen, ethnischen oder sozialen Identitäten zugeordnet wurden, war oft unklar, ob die Maschine auf echten Erfahrungen oder nur auf oberflächlichen Eigenschaften beruhte. Forscher fragten sich, wie viel Gewicht einem Modell beigemessen werden sollte, das eine Persona simuliert und ob seine Antworten die realen Erfahrungen von Mitgliedern innerhalb dieser Identitätsgruppe sinnvoll widerspiegeln würden. Diese Überlegungen offenbarten ein Unbehagen mit der Einfachheit, komplexe Identitäten einer Maschine zuzuweisen, die keine echten Lebenserfahrungen hat.

Erosion von Autonomie und Zustimmung

Die Simulation menschlichen Verhaltens mit LLMs wirft wichtige ethische Fragen zu Autonomie und Zustimmung der Teilnehmer auf. Eine Möglichkeit, wie Teilnahme und Handlungsmacht in der Forschung zum Ausdruck kommen, ist, wenn Teilnehmer ihre Meinungsverschiedenheiten äussern. Interviewpartner teilten mehrere Fälle, in denen ihre menschlichen Teilnehmer die Interpretationen oder Formulierungen der Forscher in Frage stellten. Dieses Engagement ist entscheidend, um sicherzustellen, dass die gesammelten Daten die Erfahrungen der Teilnehmer genau widerspiegeln, die von den ursprünglichen Annahmen der Forscher abweichen können. Auf der anderen Seite bemerkten die Forscher, dass LLMs selten Widerspruch zeigten, es sei denn, sie wurden dazu angeregt. Wie Daria erklärte, hatten viele Teilnehmer in ihren Studien ihre eigenen Agenden und passten ihre Antworten entsprechend an.

Einige Interviewpartner äusserten Frustration über die Neigung des Modells, ihren Punkten zuzustimmen, anstatt ehrliches Feedback zu geben. Esme verglich dies mit einem Improvisationskomedieszenario, in dem Darsteller allem zustimmen, was ihre Partner sagen, während die Menschen in ihrer Forschung oft widersprechen. Hugo hatte das Gefühl, dass das Modell dazu neigt, die "bevorzugte Antwort" zu geben, wenn es um Wahrnehmungen von Robotern in Pflegeeinrichtungen ging.

Menschliche Teilnehmer gehen oft voller Eifer in Interviews, um ihre Geschichten zu teilen. Nicos Arbeit mit Fernlernen offenbarte, dass viele Schüler die Interviews als Gelegenheit nutzten, um ihren Unmut über ihre Erfahrungen auszudrücken. Die Teilnehmer suchten häufig nach Möglichkeiten, ihre Standpunkte zu teilen, wobei sie eigene Begriffe einführten, die Nico dann aufgriff. Nikita betonte, dass sie es bevorzugten, mit Menschen zu interagieren, anstatt mit einer Maschine, die Antworten zu sensiblen Themen gibt.

Die Verwendung von LLMs wirft ernsthafte Bedenken hinsichtlich der Zustimmung auf. LLMs könnten Antworten zu empfindlichen Themen erzeugen, über die Einzelpersonen zögern würden zu sprechen, was die Grenzen, die normalerweise in Interviews respektiert werden, überschreiten würde. Sophia beobachtete, dass ein Teilnehmer sich unwohl fühlte, bestimmte Themen direkt anzusprechen, und stellte fest, dass sie das Zögern spürten, tiefer einzutauchen. Sich auf ein Modell zu verlassen, das ohne Zustimmung der tatsächlichen Datensubjekte trainiert wurde, wirft ethische Bedenken auf, ähnlich den Debatten über die unbefugte Verwendung von Künstlerarbeiten in KI-generierter Kunst. Die Nutzung von LLMs, um Antworten basierend auf dem, was Menschen online geteilt haben, abzuleiten, wirft Fragen zur Autonomie auf, ein Prinzip, das für eine ethische Forschung entscheidend ist.

Bedrohung der Validität qualitativer Forschung

LLMs stellen nicht nur Risiken für die Integrität qualitativer Forschungsmethoden dar, sondern auch für den Status qualitativer Arbeiten in der Akademie. Viele Forscher teilten die Sorge, dass qualitative Forschung häufig abgewertet wird und oft als weniger rigoros im Vergleich zu quantitativen Methoden angesehen wird. Die Einführung von LLMs könnte qualitative Ansätze weiter marginalisieren, indem sie andeutet, dass die tiefgehende Arbeit von Maschinen dupliziert und schneller erledigt werden kann.

Die Forscher befürchteten, dass LLMs eine Mentalität des "Abkürzens" fördern könnten. Der Einsatz von LLMs könnte qualitative Forschung auf reine Datensammlung reduzieren und dabei die iterative, kollaborative Natur, die besser für das Sammeln nuancierter Einsichten geeignet ist, aus den Augen verlieren. Qualitative Forschung ist ein fortlaufender Prozess, der den Dialog, die Reflexion und die Zusammenarbeit mit Teilnehmern umfasst. Wenn Forscher über einen längeren Zeitraum mit Menschen interagieren, schaffen sie dauerhafte Beziehungen. Daria, Esme und Elliot teilten Erfahrungen fortlaufender Interaktionen mit Teilnehmern über die formalen Projekte hinaus, was die Bedeutung dieser Beziehungen beim Verständnis komplexer Themen zeigt. Wenn LLMs menschliche Antworten ersetzen, verschiebt sich die kollaborative Natur der qualitativen Forschung in einen transaktionalen Ansatz, der Daten ohne dauerhafte Gemeinschaftsengagement abzieht.

Ein weiteres grosses Anliegen unter den Forschern war, dass die Verwendung von LLMs das Vertrauen zwischen qualitativen Forschern und den Gemeinschaften, mit denen sie arbeiten, schädigen könnte. Viele verletzliche Gruppen haben eine Skepsis gegenüber Forschern entwickelt, die historisch Daten extrahiert haben, ohne Unterstützung zu bieten. Die Einführung von LLMs könnte dieses Misstrauen verschärfen, wenn Forscher beginnen, die Standpunkte der Teilnehmer durch maschinengenerierte Antworten zu ersetzen. Yue, die häufig mit der Gehörlosengemeinschaft interagiert, äusserte die Sorge, dass diese Praxis das Vertrauen in die Forschung weiter untergraben würde, insbesondere in Gemeinschaften, die bereits vorsichtig in Bezug auf Fehlrepräsentation sind. Die Reduzierung dieser Stimmen auf algorithmische Ausgaben untergräbt den Wert ihrer Narrative und gefährdet das Vertrauen, das Forscher hart erarbeitet haben.

Die Forscher reflektierten über breitere Ängste, die mit der Abhängigkeit von LLMs für qualitative Forschung verbunden sind. Für Nikita fühlte sich die Nutzung von LLMs "dystopisch" an, wo beispielsweise trans* Stimmen von wichtigen Diskussionen ausgeschlossen werden könnten, während Technologie ihre Erfahrungen verzerrt. Cameron fasste diese Ängste zusammen und wies darauf hin, dass solche Werkzeuge die grundlegenden Gründe übersehen, warum qualitative Methoden existieren: um Daten zu erhalten, die reichhaltig und in den Lebenserfahrungen der Menschen verwurzelt sind. Während LLMs fliessende, kontextuell relevante Texte produzieren mögen, fehlt diesen Ausgaben die Tiefe und Authentizität, die nur durch direkte Interaktion mit Teilnehmern entsteht.

Mögliche Verwendungen von LLMs in der qualitativen Forschung

Obwohl die meisten Forscher sich unwohl dabei fühlten, LLMs zur Generierung von gefälschten Forschungsdaten zu nutzen, betrachteten einige Szenarien, in denen LLMs einen Nutzen haben könnten. Als Gedankenexperiment erkundeten wir spezifische Bereiche, in denen LLMs möglicherweise effektiver sein könnten, ohne direkte Interaktionen zu ersetzen. Es ist wichtig zu erwähnen, dass es bei diesen Verwendungen unter den Teilnehmern keine klare Einigung gab. Jede Idee brachte auch potenzielle Nachteile mit sich.

Die Interviewpartner empfahlen, LLMs zu verwenden, um Teilnehmer in kontrollierten Lernumgebungen zu simulieren, in denen die Einsätze geringer sind als in tatsächlichen Studien. Dieser Ansatz könnte neuen Forschern helfen, sich auf bestimmte Aspekte zu konzentrieren und Folgefragen zu formulieren. Einige äusserten jedoch Bedenken und merkten an, dass das Auffordern eines LLMs ganz anders ist, als wirklich mit menschlichen Teilnehmern zu interagieren. Daria erwähnte, dass sie das Modell mehrere Male auffordern musste, bevor sie detaillierte Antworten erhielt. Die Forscher betonten, dass es entscheidend ist, die emotionalen Aspekte des Interviewens – sowohl ihre eigenen als auch die der Teilnehmer – zu meistern, was schwer mit LLMs nachzuvollziehen ist. Jasmine warnte, dass unerfahrene Forscher, die LLMs verwenden, möglicherweise schlechte Gewohnheiten entwickeln, wie zum Beispiel das Versäumnis, Rapport aufzubauen oder nonverbale Hinweise zu ignorieren – Fähigkeiten, die entscheidend für reale Interviews sind.

Für viele Forscher könnten LLMs bestenfalls dabei helfen, Interviewprotokolle zu testen, insbesondere wenn es schwierig ist, Teilnehmer zu rekrutieren. In solchen Fällen könnten LLMs als Stellvertreter dienen, um Forschern zu zeigen, welche Arten von Antworten ihre Fragen hervorrufen könnten. Mario warnte jedoch, dass die Abhängigkeit von LLMs die Aufmerksamkeit der Forscher möglicherweise in unerwartete Richtungen lenken könnte.

Mehrere Forscher erwähnten, dass die Entscheidung, LLMs zu verwenden, vom Forschungsthema und den beteiligten Gemeinschaften abhängt. In sensiblen Bereichen wie Unterdrückung und Diskriminierung schlugen einige Forscher vor, dass sie helfen könnten, die Belastung für echte Teilnehmer zu verringern, während andere warnten, dass LLMs die Authentizität von Lebenserfahrungen weiter verringern könnten. Nadia äusserte Skepsis über die Fähigkeit von LLMs, komplexe menschliche Erfahrungen wie die Navigation von Geschlechtsidentität oder Sexualität am Arbeitsplatz genau zu simulieren. Im Gegenzug erkannte sie an, dass einige Gemeinschaften, wie Hassgruppen, zu riskant sein könnten, um sie direkt zu studieren, und schlug vor, dass LLMs helfen könnten, Strategien zur Bekämpfung von Online-Hass zu entwickeln. Nikita war der Meinung, dass es für Forscher am besten sei, mit Mitgliedern der Gemeinschaft zusammenzuarbeiten, um die Fähigkeiten zu entwickeln, die nötig sind, um herausfordernde Themen zu navigieren, anstatt sich auf LLMs zu stützen.

Durch diese Erkundung von LLMs in der qualitativen Forschung wird deutlich, dass, während es Potenzial für eine begrenzte Nutzung gibt, die erheblichen Einschränkungen und ethischen Bedenken ebenfalls eine sorgfältige Überlegung wert sind. Die Forscher bleiben skeptisch gegenüber dem Ersatz von genuine menschlicher Interaktion durch maschinengenerierte Antworten und betonen den Wert von tiefgreifendem, nuanciertem Engagement mit Menschen, um deren Erfahrungen zu verstehen.

Originalquelle

Titel: 'Simulacrum of Stories': Examining Large Language Models as Qualitative Research Participants

Zusammenfassung: The recent excitement around generative models has sparked a wave of proposals suggesting the replacement of human participation and labor in research and development--e.g., through surveys, experiments, and interviews--with synthetic research data generated by large language models (LLMs). We conducted interviews with 19 qualitative researchers to understand their perspectives on this paradigm shift. Initially skeptical, researchers were surprised to see similar narratives emerge in the LLM-generated data when using the interview probe. However, over several conversational turns, they went on to identify fundamental limitations, such as how LLMs foreclose participants' consent and agency, produce responses lacking in palpability and contextual depth, and risk delegitimizing qualitative research methods. We argue that the use of LLMs as proxies for participants enacts the surrogate effect, raising ethical and epistemological concerns that extend beyond the technical limitations of current models to the core of whether LLMs fit within qualitative ways of knowing.

Autoren: Shivani Kapania, William Agnew, Motahhare Eslami, Hoda Heidari, Sarah Fox

Letzte Aktualisierung: 2024-09-28 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2409.19430

Quell-PDF: https://arxiv.org/pdf/2409.19430

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Ähnliche Artikel