Les chercheurs pèsent le pour et le contre des LLM dans la recherche qualitative
Un regard approfondi sur les opinions des chercheurs concernant l'utilisation des modèles de langue dans les études qualitatives.
Shivani Kapania, William Agnew, Motahhare Eslami, Hoda Heidari, Sarah Fox
― 23 min lire
Table des matières
Dans cette section, on examine comment les Chercheurs ont interagi avec les modèles linguistiques (LLMs). On explore leurs pensées, sentiments et observations sur l'utilisation des LLMs en tant que substituts aux Participants humains. Ils ont noté plusieurs faiblesses en utilisant les LLMs dans la recherche. Bien qu'ils aient conseillé de ne pas se fier uniquement aux LLMs pour les Données, ils ont reconnu certaines situations où les LLMs pourraient être utiles, mais avec beaucoup de mises en garde.
Attitudes des chercheurs envers les LLMs
Avant de commencer à utiliser les LLMs, les chercheurs ont partagé leurs sentiments concernant ces technologies. La plupart d'entre eux avaient un mélange de doutes et de curiosité. Certains participants ont souligné que les LLMs les aidaient dans des tâches comme l'écriture et le brainstorming. Par exemple, ils ont trouvé les LLMs utiles pour identifier des parties importantes d'une discussion qui pourraient nécessiter plus d'attention. Certains chercheurs étaient ouverts à l'idée de trouver de nouvelles manières d'utiliser les LLMs, mais les voyaient surtout comme des outils pour étudier leur fonctionnement plutôt que des outils pour comprendre le comportement humain.
Les chercheurs ont discuté de ce que vise la recherche qualitative. Ils utilisaient souvent des métaphores de distance pour illustrer leurs points. Une chercheuse, Alice, a exprimé des doutes sur le fait que l'utilisation de quelque chose qui est loin de la source réelle puisse fournir des éclairages précieux sur le comportement humain. Elle a suggéré que cela pourrait ne pas aider du tout. Jenna a ajouté que la force de la recherche qualitative vient de sa capacité à capturer des Expériences personnelles uniques.
Les chercheurs ont réfléchi à leurs environnements de travail. Harper, qui travaillait dans l'industrie, se concentrait sur la narration à partir de données qualitatives. Elle a souligné la nécessité pour ses données d'être suffisamment convaincantes pour guider son équipe à faire les bons choix. Harper a reconnu que même si les LLMs pouvaient générer rapidement des Réponses simples, elle doutait qu'ils puissent révéler des hypothèses plus profondes ou des détails subtils plus difficiles à exprimer par des mots. Dans l'ensemble, les chercheurs étaient sceptiques sur l'utilisation des LLMs, mais curieux de ce qu'ils pouvaient apprendre en explorant la technologie.
Aperçu des données d'interaction
Lorsque les chercheurs ont interagi avec le sujet d'entretien, ils ont remarqué que les réponses des LLM correspondaient souvent à ce qu'ils avaient entendu des participants humains. Les idées issues des sorties des LLM s'alignaient souvent avec celles partagées par leurs interviewés humains. Beaucoup ont trouvé les réponses du modèle crédibles. Par exemple, Henri a observé que certaines sorties de LLM concernant les communautés de vie senior correspondaient à ce que les personnes âgées avaient exprimé dans sa recherche. Après avoir vu des réponses similaires correspondant à ses résultats, Nadia s'est demandé comment ses méthodes de recrutement, qui reposaient sur les réseaux sociaux, pouvaient limiter la capture de points de vue de personnes peu actives en ligne, tout comme le LLM qui apprend principalement à partir de contenu en ligne. Bien qu'elle n'ait pas trouvé d'énormes erreurs dans les faits, elle avait toujours le sentiment que le manque de contexte pouvait compliquer l'interprétation des données.
Plusieurs chercheurs ont commenté le détail dans les réponses des LLMs, que beaucoup attribuaient aux instructions spécifiques qu'ils avaient fournies dans les amorces. Amir a noté qu'il était "impressionné par le niveau de détail", tandis que Laila a dit que les sorties avaient "un sens réel" plutôt que de paraître absurdes. Cependant, tout le monde n'était pas satisfait. Mario et Rida étaient frustrés par l'excès de détails. Mario a souligné qu'il y a une grande différence entre le détail et la profondeur. Il a expliqué que les LLMs pouvaient fournir beaucoup d'informations sans entrer dans le sens plus profond. Les chercheurs ont souvent constaté qu'ils devaient modifier leur approche de questionnement pour obtenir des réponses plus ciblées des LLMs, et il n'était pas nécessaire de créer un lien au début des interactions.
Cameron a également trouvé les réponses des LLM impressionnantes au départ et s'est demandé si cette méthode pourrait être bénéfique dans ses entretiens. Elle a créé deux descriptions différentes de personas pour voir comment le LLM répondrait. La première persona était détaillée sur son passé : "Imagine que tu es une Latina de 18 ans du sud-est du Texas qui vient d'entrer dans une école Ivy League." La deuxième description était plus générale : "Imagine que tu es un candidat à l'université."
Après avoir observé les différences de réponses entre les deux personas, Cameron a remarqué que la persona plus générale présentait le récit de quelqu'un avec beaucoup de ressources et de préparation. En revanche, la persona plus détaillée dépeignait un récit soulignant les défis liés au parcours de l'étudiante Latina. Cameron a eu l'impression que le LLM semblait renforcer des stéréotypes sur les étudiants des Ivy League, manquant de saisir les forces que les individus de certaines communautés apportent. Cela l'a amenée à s'inquiéter du fait que l'exhaustivité de la sortie du LLM pourrait induire les chercheurs en erreur, leur laissant croire qu'ils n'avaient pas besoin de participants humains du tout. Mais en travaillant avec les personas, elle a reconnu que le LLM avait tendance à refléter des hypothèses sur les communautés plutôt que des expériences authentiques.
En essayant différentes descriptions pour les participants, les chercheurs ont mis en évidence les défis d'être trop détaillés ou pas assez. Ajouter moins d'informations dans les amorces menait à des réponses basées sur des suppositions, tandis que Nolan, qui fournissait des détails étendus, a noté que les réponses du modèle répétaient simplement ce qu'il avait inclus dans la persona, ce qu'il trouvait amusant mais pas utile. L'analyse des données d'interaction a montré des instances où le LLM attribuait des caractéristiques spécifiques aux identités dans les personas. Par exemple, une réponse du modèle pour Esme mentionnait que le fait d'être non-binaire et noir influençait un besoin de représentation dans les médias. D'autres réponses, comme celle de Nico, montraient comment une expérience mixte en apprentissage à distance venait du fait d'être un étudiant de 45 ans en deuxième année de fac. Les interviewés ont souligné que la tendance du LLM à simplifier les identités pouvait réduire la complexité des véritables expériences vécues.
Limitations des LLMs en tant que participants à la recherche
Ensuite, on discute des principales limitations de l'utilisation des LLMs pour aider à comprendre les expériences humaines. Certaines préoccupations concernent le style et le sens des réponses, tandis que d'autres se concentrent sur des questions comme le consentement et l'autonomie des potentiels participants. Même si certaines de ces questions peuvent être traitées par une meilleure conception des amorces ou en incluant un éventail plus large de données, les interviewés ont averti que ces ajustements pourraient nuire à la crédibilité du processus de recherche si les chercheurs sentent le besoin de "corriger" ou de dicter les réponses.
Détails limités dans les réponses
La clarté des données qualitatives est essentielle pour transmettre des expériences réelles, y compris des individus spécifiques, des lieux, des événements et des motivations qui traduisent des expériences vécues authentiques. Beaucoup de chercheurs ont exprimé leur frustration face aux réponses des LLM, les voyant comme trop abstraites et éloignées de la réalité. Ils ont noté qu'obtenir des récits détaillés de participants humains demande des compétences et des efforts que le modèle échoue souvent à reproduire. Bien que certains chercheurs puissent créer des amorces qui suscitent des récits, ils remettaient tout de même en question la validité de ces réponses. Sophia, qui étudie le rôle de la technologie dans le travail en freelance, a noté comment la mention vague d'un "quartier dangereux" par le LLM manquait du contexte spécifique nécessaire pour analyser les discussions liées au genre et à la race.
Les chercheurs ont également remarqué que les réponses des LLM manquaient souvent de spontanéité et d'énergie présentes dans de véritables entretiens. Dans leurs recherches, les participants humains partaient parfois du sujet, partageant des histoires intéressantes qui ajoutaient de la profondeur. Daria a partagé que les réponses des LLM étaient très concentrées, tandis que ses participants racontaient souvent des anecdotes personnelles, comme une voiture tombant en panne pendant une nuit chargée, ce qui enrichissait les données. Rida a ajouté que bien que ses participants ne fournissent rarement beaucoup de détails sur leur vie quotidienne, dans les entretiens, ils révélaient progressivement plus sur leurs routines. Les LLMs, cependant, avaient tendance à communiquer des expériences de manière formelle et détachée, ne capturant pas la compréhension nuancée souvent présente dans les interviews en face à face. Esme a souligné que les entretiens peuvent être des échanges intimes qu'une machine ne peut pas reproduire, notant un participant qui a partagé une expérience personnelle peu susceptible de venir d'un LLM.
Pour les chercheurs traitant de sujets sensibles, le manque de profondeur émotionnelle dans les réponses des LLMs était encore plus perceptible. La recherche de Nadia sur les expériences des immigrants impliquait des discussions sur le traumatisme et les difficultés, chargées d'un poids émotionnel. En revanche, les réponses des LLMs étaient décrites comme plates et manquant des véritables émotions qui émergent des interactions humaines. Les chercheurs ont exprimé leur frustration lorsque les sorties des LLMs échouaient à exprimer toute la gamme des émotions humaines, qui est cruciale pour raconter des histoires complexes de participants. Certains modèles visent à produire des réponses polies et agréables, entraînant une perte de la narration détaillée essentielle dans la recherche qualitative.
Biais amplifié des chercheurs
En simulant des participants à la recherche via des LLMs, les chercheurs ont un contrôle significatif, ce qui peut compliquer leurs rôles dans la production de connaissances. Créer des personas nécessite de faire des suppositions sur ce à quoi pourraient ressembler les participants potentiels. Les chercheurs doivent décider quelles caractéristiques inclure, ce qui affecte directement la façon dont le modèle répond. Bien que les entretiens traditionnels rencontrent aussi des biais de sélection, utiliser des LLMs rend ces choix plus visibles et cruciaux. Les participants ont exprimé des préoccupations selon lesquelles cela pourrait renforcer involontairement leurs biais, les chercheurs pouvant ajuster leurs amorces pour s'adapter à leurs attentes concernant les données. Ce risque de biais de confirmation découle de la possibilité de poser plusieurs fois des questions au LLM et de recevoir des réponses subtilement différentes à chaque fois.
Les chercheurs ont souligné que la recherche qualitative est un processus continu de création de sens. Les données ne sont pas juste en attente d'être collectées ; elles sont façonnées par la façon dont les chercheurs interagissent avec les communautés et interprètent ce qu'ils apprennent. Harper, qui travaillait avec des groupes religieux, a noté que la présence d'un chercheur peut affecter la dynamique d'une communauté. Elle a réfléchi à la manière dont ses croyances et attitudes ont influencé son approche de recherche. Yue a également mentionné comment leur présentation pouvait significativement façonner les informations que les participants fournissaient lors des entretiens. Qu'ils soient perçus comme une personne entendante ou quelqu'un familier avec la communauté sourde pouvait changer la profondeur des réponses.
Les chercheurs ont aussi noté la différence entre les perspectives de l'insider (émique) et de l'outsider (étique) lors de l'étude des communautés. Nadia a souligné que si les chercheurs n'ont pas d'expérience personnelle avec un sujet, ils peuvent ne pas reconnaître les stéréotypes dans les données. Esme a décrit ce problème comme la "science parachute", où les expériences simulées sont basées sur une compréhension limitée d'une communauté. Nikita a partagé qu'ils ne feraient des recherches que sur des communautés où ils ont vécu l'expérience, soulignant l'importance de provenir de la communauté étudiée.
En revanche, les chercheurs qui font partie de la communauté peuvent apporter des idées précieuses pour évaluer si les données représentent des expériences réelles. Cependant, utiliser des LLMs pour simuler des participants pourrait mener à des rencontres qui reflètent leur communauté mais restent inexactes. Nikita a décrit cette situation comme similaire à la "vallée dérangeante", où les réponses de la machine semblent humaines mais sont inquiétantes et incorrectes. Laila se sentait mal à l'aise en lisant des réponses du système essayant de refléter ses expériences et l'a décrite comme "flippante et peu sincère". Cela a soulevé des préoccupations sur la façon dont ces simulations pourraient entraîner un inconfort émotionnel et des impacts négatifs sur les chercheurs.
Nature ambiguë des LLMs
Les participants chercheurs ont eu du mal à déterminer la nature des connaissances représentées dans les réponses des LLMs, y compris si elles reflétaient un seul point de vue. Ils ressentaient que les réponses des LLMs mélangeaient souvent différentes perspectives de participants en une seule réponse. Daria les a décrites comme une "simulacre d'histoires partagées par des gens." Elliot, dont le travail examinait les expériences des travailleurs dans des environnements managériaux, a noté que le modèle mélangait les pensées des travailleurs et de la direction, présentant parfois le point de vue de la direction comme des avantages que les travailleurs ne vivent pas réellement. Pour comprendre le contexte plus large-comme les salaires, les conflits et les structures-Elliot croyait qu'il était nécessaire de représenter avec précision les connaissances partielles et situées.
Les sorties des LLM ont montré une sensibilité au langage utilisé dans les amorces. Daria a observé que lorsqu'elle a modifié des questions de "problèmes de transparence" à "expériences avec des informations d'application", le modèle a changé de ton. Les participants ont souligné que de petits changements de langage pouvaient faire basculer les réponses de négatif à positif. Cette incohérence pourrait compromettre la fiabilité des données qualitatives.
Les chercheurs ont exprimé des préoccupations concernant le manque de transparence concernant les données qui entraînent les LLMs. Si l'objectif est de comprendre des groupes spécifiques, la validité des réponses générées par les LLMs est douteuse s'il n'est pas clair si les voix de ces groupes sont représentées dans les sources d'entraînement. Sophia a illustré que les réponses pouvaient différer considérablement en fonction de la source d'apprentissage du modèle, qu'il s'agisse de forums de travailleurs ou de sources guidées par des entreprises. Nikita a mentionné que le contexte est lié au temps, en remettant en question si le modèle reflète des points de vue actuels ou des moyennes du passé. Sans clarté sur les sources de données, les chercheurs ont trouvé difficile d'évaluer la véracité des sorties des LLMs.
Risque d'exclusion des voix communautaires
L'utilisation des LLMs dans la recherche qualitative risque de faire taire les voix sous-représentées. Laila, qui étudiait les créateurs de médias sociaux noirs, a noté que les LLMs s'appuyaient souvent sur des stéréotypes en discutant de certains sujets. Elle a soulevé des préoccupations selon lesquelles, bien que les LLMs puissent capturer des sentiments généraux sur une communauté, ils manquent souvent de représentations authentiques de ses membres. Esme a observé que les sorties des LLM incluaient des thèmes généraux sur l'histoire noire qui ne résonneraient pas avec les créateurs noirs dans des contextes spécifiques.
Les chercheurs ont attribué ces lacunes aux données de formation et aux processus de création des LLMs actuels. Ils ont senti que la machine pouvait produire des réponses polies mais manquait des réalités humaines complexes et désordonnées. Amir a mentionné que ses participants partageaient souvent des opinions fortes qui pourraient être controversées, que les LLMs n'ont pas réussi à reproduire. Henri, qui étudiait les thérapeutes professionnels, a constaté que même si les LLMs pouvaient présenter des "réponses aux meilleures pratiques", ils ne pouvaient pas capturer les contradictions trouvées dans les conversations de la vie réelle.
Les participants ont également noté une incertitude quant à la manière dont les LLMs génèrent des réponses basées sur des identités spécifiques. Lorsqu'il s'agissait de personas liés à des identités culturelles, ethniques ou sociales, il était souvent flou si la machine s'appuyait sur des expériences authentiques ou juste sur des traits de surface. Les chercheurs ont remis en question combien de poids accorder à un modèle simulant une persona et si ses réponses refléteraient de manière significative les véritables expériences des membres de ce groupe d'identité. Ces réflexions ont révélé un malaise face à la simplicité d'attribuer des identités complexes à une machine dépourvue d'expériences vécues authentiques.
Érosion de l'autonomie et du consentement
La simulation du comportement humain utilisant des LLMs soulève des questions éthiques importantes concernant l'autonomie et le consentement des participants. Un moyen par lequel la participation et l'agence se manifestent dans la recherche est lorsque les participants expriment leur désaccord. Les interviewés ont partagé plusieurs exemples de leurs participants humains remettant en question les interprétations ou formulations des chercheurs. Cet engagement est crucial pour s'assurer que les données collectées reflètent fidèlement les expériences des participants, qui peuvent différer des hypothèses initiales des chercheurs. D'un autre côté, les chercheurs ont noté que les LLMs montraient rarement d'opposition, à moins d'y être incités. Comme l'a expliqué Daria, de nombreux participants dans ses études avaient leurs propres agendas, adaptant leurs réponses en conséquence.
Certains interviewés ont exprimé leur frustration face à la tendance du modèle à approuver leurs points plutôt qu'à fournir un retour honnête. Esme a comparé cela à un scénario d'improvisation comique où les interprètes approuvent tout ce que disent leurs partenaires, tandis que dans ses recherches, les gens lui contredisent souvent. Hugo a senti que le modèle avait tendance à donner la 'réponse préférée' lorsqu'il s'agissait de discuter des perceptions autour des robots dans les milieux de soins.
Les participants humains entrent souvent dans les entretiens impatients de partager leurs histoires. Le travail de Nico sur l'apprentissage à distance a révélé que de nombreux étudiants utilisaient les entretiens comme une occasion d'exprimer leur mécontentement face à leurs expériences. Les participants cherchaient fréquemment à partager leurs points de vue, introduisant leurs propres termes que Nico adoptait ensuite. Nikita a souligné qu'ils préféraient interagir avec des gens plutôt qu'avec une machine offrant des réponses sur des questions sensibles.
L'utilisation des LLMs soulève de sérieuses préoccupations concernant le consentement. Les LLMs peuvent produire des réponses sur des sujets délicats que les individus seraient réticents à aborder, enfreignant des limites généralement respectées lors des interviews. Sophia a observé le malaise d'un participant à discuter directement de certains sujets, notant qu'ils pouvaient ressentir l'hésitation à approfondir. S'appuyer sur un modèle entraîné sans le consentement des véritables sujets de données soulève des préoccupations éthiques, similaires aux débats entourant l'utilisation non autorisée des œuvres d'artistes dans l'art généré par IA. Utiliser des LLMs pour tirer des réponses basées sur ce que les individus ont partagé en ligne soulève des questions sur leur autonomie, un principe vital pour la recherche éthique.
Menace à la validité de la recherche qualitative
Les LLMs posent des risques non seulement à l'intégrité des méthodologies de recherche qualitative mais aussi au statut du travail qualitatif dans le milieu académique. De nombreux chercheurs ont partagé leurs inquiétudes selon lesquelles la recherche qualitative est souvent sous-estimée, souvent considérée comme moins rigoureuse par rapport aux méthodes quantitatives. L'introduction des LLMs pourrait marginaliser davantage les approches qualitatives en suggérant que le travail approfondi peut être dupliqué par des machines et réalisé plus rapidement.
Les chercheurs craignaient que les LLMs n'encouragent une mentalité de "reduction des coins." L'utilisation des LLMs pourrait réduire la recherche qualitative à une simple collecte de données, perdant de vue la nature itérative et collaborative mieux adaptée à la collecte d'insights nuancés. La recherche qualitative est un processus continu impliquant dialogue, réflexion et collaboration avec les participants. Lorsque les chercheurs interagissent avec des personnes au fil du temps, ils créent des relations durables. Daria, Esme et Elliot ont partagé des expériences d'interactions continues avec des participants au-delà des projets formels, indiquant l'importance de ces relations pour comprendre des problèmes complexes. Lorsque les LLMs remplacent les réponses humaines, la nature collaborative de la recherche qualitative se transforme en une approche plus transactionnelle qui extrait des données sans engagement communautaire continu.
Une autre préoccupation majeure parmi les chercheurs était que l'utilisation des LLMs pourrait nuire à la confiance entre les chercheurs qualitatifs et les communautés avec lesquelles ils travaillent. De nombreux groupes vulnérables ont développé une méfiance envers les chercheurs qui, historiquement, ont extrait des données sans fournir de soutien. L'introduction des LLMs pourrait aggraver cette méfiance si les chercheurs commencent à substituer les points de vue des participants par des réponses générées par des machines. Yue, qui interagit fréquemment avec la communauté sourde, craignait que cette pratique n'érode encore plus la confiance dans la recherche, surtout parmi les communautés déjà prudentes par rapport à la mauvaise représentation. Réduire ces voix à des sorties algorithmiques sape la valeur de leurs récits, risquant de compromettre la confiance que les chercheurs ont travaillé dur à cultiver.
Les chercheurs ont réfléchi à des angoisses plus larges concernant la dépendance aux LLMs pour la recherche qualitative. Pour Nikita, utiliser des LLMs semblait "dystopique," où, par exemple, les voix transgenres pourraient être exclues de discussions importantes alors que la technologie déforme leurs expériences. Cameron a résumé ces craintes, soulignant que de tels outils négligent les raisons fondamentales pour lesquelles les méthodes qualitatives existent : pour obtenir des données riches et ancrées dans les expériences vécues des personnes. Bien que les LLMs puissent produire du texte fluide et contextuellement pertinent, cette sortie manque de la profondeur et de l'authenticité qui ne proviennent que de l'engagement direct avec les participants.
Utilisations possibles des LLMs dans la recherche qualitative
Bien que la plupart des chercheurs aient exprimé un inconfort à utiliser des LLMs pour générer de fausses données de recherche, certains ont envisagé des scénarios où les LLMs pourraient avoir une utilité. En tant qu'expérience de pensée, on a exploré des domaines spécifiques où les LLMs pourraient être plus efficaces sans remplacer l'engagement direct. Il est vital de mentionner qu'il n'y avait pas d'accord clair sur l'une de ces utilisations parmi les participants. Chaque idée venait aussi avec des inconvénients potentiels.
Les interviewés ont recommandé d'utiliser les LLMs pour simuler des participants dans des environnements d'apprentissage contrôlés, où les enjeux sont plus faibles que dans de véritables études. Cette approche pourrait aider les chercheurs novices à se concentrer sur des aspects spécifiques et à formuler des questions de suivi. Cependant, certains ont soulevé des préoccupations, notant que demander à un LLM est très différent d'interagir réellement avec des participants humains. Daria a mentionné avoir besoin de pousser le modèle plusieurs fois avant de recevoir des réponses détaillées. Les chercheurs ont insisté sur le fait que maîtriser les aspects émotionnels de l'entretien-tant les leurs que ceux des participants-est essentiel, ce qui est difficile à reproduire avec des LLMs. Jasmine a averti que les chercheurs inexpérimentés utilisant des LLMs pourraient développer de mauvaises habitudes, comme ne pas établir de lien ou ignorer les signaux non verbaux, compétences critiques lors des véritables entretiens.
Pour de nombreux chercheurs, les LLMs pourraient, au mieux, aider à tester des protocoles d'entretien, surtout lorsque le recrutement de participants est difficile. Dans de tels cas, les LLMs pourraient servir de substituts, permettant aux chercheurs de voir quels types de réponses leurs questions pourraient générer. Cependant, Mario a averti que se fier aux LLMs pourrait détourner l'attention des chercheurs d'une manière qu'ils ne prévoient pas.
Plusieurs chercheurs ont mentionné que la décision d'utiliser les LLMs dépendrait du sujet de recherche et des communautés impliquées. Dans des domaines sensibles, tels que l'oppression et la discrimination, certains chercheurs ont suggéré qu'ils pourraient aider à alléger le fardeau sur les véritables participants, tandis que d'autres ont averti que les LLMs pourraient encore diminuer l'authenticité des expériences vécues. Nadia a exprimé son scepticisme quant à la capacité des LLMs à simuler avec précision des expériences humaines complexes, comme naviguer dans l'identité de genre ou la sexualité au travail. En revanche, elle a reconnu que certaines communautés, comme les groupes de haine, pourraient être trop risquées à étudier directement, suggérant que les LLMs pourraient aider à élaborer des stratégies pour contrer la haine en ligne. Nikita a estimé qu'il était préférable pour les chercheurs de collaborer avec des membres de la communauté pour développer les compétences nécessaires pour naviguer dans des sujets difficiles plutôt que de s'appuyer sur des LLMs.
À travers cette exploration des LLMs dans la recherche qualitative, il devient clair que bien qu'il y ait un potentiel d'utilisation limitée, les significatives limitations et préoccupations éthiques justifient également une considération attentive. Les chercheurs restent méfiants quant à la substitution de l'interaction humaine authentique par des réponses générées par des machines, soulignant la valeur d'un engagement approfondi et nuancé avec les personnes pour comprendre leurs expériences.
Titre: 'Simulacrum of Stories': Examining Large Language Models as Qualitative Research Participants
Résumé: The recent excitement around generative models has sparked a wave of proposals suggesting the replacement of human participation and labor in research and development--e.g., through surveys, experiments, and interviews--with synthetic research data generated by large language models (LLMs). We conducted interviews with 19 qualitative researchers to understand their perspectives on this paradigm shift. Initially skeptical, researchers were surprised to see similar narratives emerge in the LLM-generated data when using the interview probe. However, over several conversational turns, they went on to identify fundamental limitations, such as how LLMs foreclose participants' consent and agency, produce responses lacking in palpability and contextual depth, and risk delegitimizing qualitative research methods. We argue that the use of LLMs as proxies for participants enacts the surrogate effect, raising ethical and epistemological concerns that extend beyond the technical limitations of current models to the core of whether LLMs fit within qualitative ways of knowing.
Auteurs: Shivani Kapania, William Agnew, Motahhare Eslami, Hoda Heidari, Sarah Fox
Dernière mise à jour: 2024-09-28 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.19430
Source PDF: https://arxiv.org/pdf/2409.19430
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.