L'IA peut-elle remplacer les humains dans l'extraction de connaissances ?
Explorer le rôle des LLM dans l'extraction de connaissances procédurales à partir du texte.
Valentina Anita Carriero, Antonia Azzini, Ilaria Baroni, Mario Scrocca, Irene Celino
― 7 min lire
Table des matières
- Qu'est-ce que les graphes de connaissance ?
- Le défi de la connaissance procédurale
- Le rôle des Grands Modèles de Langage
- Questions de recherche
- Tester les eaux : expériences préliminaires
- Le processus de demande
- Le cadre expérimental
- Évaluation des résultats
- Le débat sur la qualité et l'utilité
- Qu'avons-nous appris ?
- La route à suivre
- Une conclusion originale
- Source originale
- Liens de référence
La connaissance procédurale, c'est tout savoir-faire. Pense à ça comme suivre une recette pour cuire un gâteau : tu dois connaître les étapes, les ingrédients, et comment les mélanger pour obtenir un bon résultat. Dans le monde numérique, représenter ce genre de connaissance peut être compliqué. C'est là que les Graphes de connaissance procédurale (PKGs) entrent en jeu, agissant comme une carte qui montre clairement et de manière organisée les étapes nécessaires pour accomplir une tâche.
Qu'est-ce que les graphes de connaissance ?
Imagine que ton cerveau est un réseau d'idées interconnectées. Les graphes de connaissance, c'est un peu la même chose mais sur un ordi. Ils relient différentes informations via des nœuds (comme des points sur une carte) et des arêtes (les lignes qui les relient). Chaque nœud peut représenter n'importe quoi, d'une étape dans une recette aux outils nécessaires pour accomplir une tâche.
Donc, si tu veux comprendre comment réparer cette porte qui grince, un graphe de connaissance va te donner tout ce qu'il te faut, y compris les étapes, les outils, et même le temps que ça pourrait prendre.
Le défi de la connaissance procédurale
Extraire des connaissances d'un texte présente un défi unique. Les procédures sont souvent décrites en langage naturel, ce qui peut être brouillon et ambigu. Les instructions claires pour une personne peuvent être une devinette confuse pour une autre.
Disons que tu lis un manuel d'entretien qui dit : "Assure-toi de bien serrer les vis." Que veut dire "bien serrer" ? Tu dois utiliser une clé ou un tournevis ? C'est quoi "serré" ? Cette vagueur rend difficile l'extraction des étapes nécessaires pour un graphe de connaissance.
Grands Modèles de Langage
Le rôle desLes Grands Modèles de Langage (LLMs) sont des outils plutôt cool conçus pour analyser et générer du texte. C'est comme des assistants super malins qui peuvent lire plein d'infos rapidement. Quand il s'agit d'extraire des connaissances procédurales, ils peuvent parcourir le texte et identifier les étapes et actions clés, rendant le processus de création d'un graphe de connaissance plus efficace.
Mais est-ce que les LLMs peuvent vraiment remplacer les annotateurs humains ? C'est la question piège !
Questions de recherche
Pour explorer ça, plusieurs questions surgissent :
- Est-ce que les LLMs peuvent vraiment remplacer les humains pour créer un graphe de connaissance procédurale à partir de texte ?
- Comment les gens perçoivent-ils la qualité des résultats produits par les LLMs ?
- Les résultats dérivés des LLMs sont-ils utiles pour suivre les étapes d'une procédure ?
- Les humains pensent-ils différemment à propos du travail produit par les LLMs par rapport à d'autres humains ?
Tester les eaux : expériences préliminaires
Avant de plonger dans les expériences principales, il y a eu des tests préliminaires. Ces premières expériences ont montré des résultats mitigés. Différentes personnes interprétaient la même procédure de manières diverses, ce qui menait à des désaccords sur ce que les étapes étaient réellement. Ça ressemble à un débat de famille sur comment faire la sauce spaghetti parfaite, non ?
Les humains ajoutaient souvent leur touche, changeant les mots ou même suggérant des étapes supplémentaires qui n'étaient pas dans le texte d'origine. Pendant ce temps, les LLMs avaient tendance à rester fidèles au texte, produisant des résultats basés sur des interprétations strictes.
Le processus de demande
Concevoir des demandes pour les LLMs est une partie cruciale de cette expérimentation. Une demande, c'est juste une façon fancy de dire : "Voilà ce que je veux que tu fasses." Par exemple, tu pourrais demander à un LLM de sortir les étapes d'une recette de cuisine ou d'une procédure d'entretien.
Dans ce cas, deux demandes ont été testées :
- Génère une sortie semi-structurée décrivant les étapes, actions, outils, et tout timing impliqué.
- Transforme cette sortie en un graphe de connaissance formel, en utilisant une ontologie spécifique (un cadre structuré pour organiser l'information).
Cette approche en deux étapes a permis au LLM de prendre son temps et de produire des résultats plus clairs.
Le cadre expérimental
Dans l'étude principale, les participants avaient des tâches pour évaluer les annotations produites par les LLMs et par des annotateurs humains. Chaque évaluateur pouvait voir les procédures d'origine et les connaissances semi-structurées qui avaient été extraites.
Il y avait deux groupes d'évaluateurs : un qui croyait que la sortie venait d'un humain et un autre qui savait que c'était d'un LLM. Ce petit truc a permis aux chercheurs de voir si les gens jugeaient les résultats différemment selon qu'ils pensaient qu'un humain ou une machine avait fait le travail.
Évaluation des résultats
Une fois les Évaluations reçues, c'était le moment de s'amuser-analyser les résultats ! Les évaluateurs humains ont noté la qualité des sorties, tant des LLMs que des annotateurs humains. Les résultats ont montré que les gens pensaient généralement que les sorties des LLMs étaient correctes, mais ils étaient un peu sceptiques sur leur utilité dans des situations pratiques.
Le débat sur la qualité et l'utilité
Quand il s'agissait de qualité, la plupart des évaluateurs ont noté les connaissances générées par les LLMs comme assez précises. Cependant, quand on leur a demandé leur utilité, les scores ont chuté. Il semble que, bien que les LLMs aient bien suivi les directives, les gens n'étaient pas totalement convaincus que les résultats étaient aussi pratiques ou utiles qu'ils auraient dû l'être.
Les évaluateurs ont aussi exprimé un biais contre les LLMs, peut-être à cause d'idées préconçues sur ce que les machines peuvent et ne peuvent pas faire. C'est un cas classique de humains s'attendant à la perfection de leurs semblables tout en tenant les machines à un standard différent.
Qu'avons-nous appris ?
Alors, quelle est la leçon de toute cette recherche ?
- Les LLMs peuvent extraire des connaissances procédurales avec une qualité plutôt correct, souvent comparable à celle des annotateurs humains.
- Il y a un scepticisme notable sur l'utilité des connaissances extraites dans des applications réelles.
- Un biais existe ; les évaluateurs jugent peut-être inconsciemment les sorties des LLMs plus sévèrement que celles des humains.
La route à suivre
Regardant vers l'avenir, il y a beaucoup à explorer ! La recherche espère élargir l'évaluation, en s'attaquant à des procédures plus complexes, des tâches industrielles aux corvées quotidiennes. Il y a aussi la possibilité de fusionner la créativité humaine avec l'efficacité des LLMs pour améliorer les résultats globaux.
Que se passe-t-il quand on donne aux LLMs des ensembles d'entraînement plus divers ? Peuvent-ils apprendre à être plus intuitifs ? Ont-ils la chance d'évoluer comme les humains ?
Une conclusion originale
Dans un monde où la technologie évolue rapidement, l'exploration de l'extraction de connaissance procédurale commence à peine. Le voyage de mélange de l'intuition humaine avec les capacités des machines est comme préparer une nouvelle recette de gâteau ; ça demande le bon mélange d'ingrédients, de la patience, et une pincée d'humour !
Après tout, qui ne voudrait pas d'un assistant numérique qui peut les aider à réparer cette porte qui grince tout en leur rappelant de faire une pause et de déguster une part de gâteau ?
Titre: Human Evaluation of Procedural Knowledge Graph Extraction from Text with Large Language Models
Résumé: Procedural Knowledge is the know-how expressed in the form of sequences of steps needed to perform some tasks. Procedures are usually described by means of natural language texts, such as recipes or maintenance manuals, possibly spread across different documents and systems, and their interpretation and subsequent execution is often left to the reader. Representing such procedures in a Knowledge Graph (KG) can be the basis to build digital tools to support those users who need to apply or execute them. In this paper, we leverage Large Language Model (LLM) capabilities and propose a prompt engineering approach to extract steps, actions, objects, equipment and temporal information from a textual procedure, in order to populate a Procedural KG according to a pre-defined ontology. We evaluate the KG extraction results by means of a user study, in order to qualitatively and quantitatively assess the perceived quality and usefulness of the LLM-extracted procedural knowledge. We show that LLMs can produce outputs of acceptable quality and we assess the subjective perception of AI by human evaluators.
Auteurs: Valentina Anita Carriero, Antonia Azzini, Ilaria Baroni, Mario Scrocca, Irene Celino
Dernière mise à jour: 2024-11-27 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2412.03589
Source PDF: https://arxiv.org/pdf/2412.03589
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://example.org/procedure-ontology
- https://example.org
- https://ttl.summerofcode.be/
- https://www.prolific.com/
- https://lm-kbc.github.io/
- https://github.com/cefriel/procedural-kg-llm
- https://purl.org/net/p-plan
- https://w3id.org/ep-plan
- https://w3id.org/ro/wfprov
- https://www.sparontologies.net/
- https://knowledge.c-innovationhub.com/k-hub/procedure
- https://purl.org/cerif/frapo/
- https://www.w3.org/2006/time
- https://wikihow.com/
- https://github.com/zharry29/wikihow-goal-step
- https://platform.openai.com/docs/models/gpt-3-5-turbo
- https://www.langchain.com/
- https://www.springer.com/gp/computer-science/lncs
- https://www.springer.com/lncs