Intégrer les LLM dans les pratiques d'ingénierie des connaissances
Explorer le rôle et les défis des LLM dans l'ingénierie des connaissances.
― 9 min lire
Table des matières
L'Ingénierie des connaissances (KE) consiste à capturer, organiser et maintenir des informations pour que les machines puissent les comprendre. Cela mène souvent à la création de graphes de connaissances (KG), qui représentent les entités du monde réel et leurs relations de manière structurée. Malgré les progrès dans le domaine, des défis subsistent, surtout quand il s'agit de gérer de gros ensembles d'informations et de s'assurer qu'elles restent à jour. Les ingénieurs des connaissances font face à des obstacles comme travailler avec différentes langues et formats et évaluer la qualité des connaissances qu'ils gèrent.
Le rôle des grands modèles linguistiques (LLMs)
Récemment, les LLMs, qui sont des outils d'IA avancés entraînés sur d'énormes quantités de texte, ont commencé à jouer un rôle dans la KE. Ils peuvent automatiser certaines tâches, aidant ainsi les ingénieurs des connaissances à gagner du temps et à améliorer leur efficacité. Cependant, comprendre comment utiliser au mieux ces modèles en KE est encore un domaine en développement.
Objectifs de recherche
Pour comprendre comment les LLMs peuvent aider les ingénieurs des connaissances, une étude a été réalisée lors d'un hackathon, où les participants ont partagé leurs expériences et leurs défis dans l'utilisation de ces modèles. L'étude visait à recueillir des informations sur plusieurs aspects clés, notamment :
- Les défis auxquels les ingénieurs des connaissances font face en utilisant les LLMs.
- Comment ils évaluent les résultats générés par les LLMs.
- Les compétences nécessaires pour travailler efficacement avec les LLMs.
- Leur conscience de l'utilisation responsable et éthique des LLMs.
Résumé du hackathon
Durant le hackathon, des chercheurs et des praticiens de divers horizons se sont réunis pour examiner comment les LLMs peuvent aider dans les tâches de KE. Les participants ont rencontré différents défis, notamment en essayant d'identifier des ensembles de données appropriés pour les tests, en rédigeant des invites efficaces et en s'assurant de l'exactitude des résultats.
Résultats clés du hackathon
Défis dans l'utilisation des LLMs
Les participants ont indiqué que trouver le bon ensemble de données était crucial pour leurs tâches. Sans ces données fondamentales, il était difficile d'avancer. Beaucoup ont exprimé que, bien que les LLMs aient le potentiel d'assister dans la création d'ensembles de données, ils avaient souvent du mal à formuler efficacement les invites pour les modèles.
La formulation peut être une tâche complexe. Certains ingénieurs des connaissances manquent d'expérience en traitement du langage naturel, ce qui rend plus difficile la création d'invites efficaces. D'autres ont souligné que la nature itérative du test des invites peut prendre du temps, surtout lorsqu'on vise des résultats cohérents.
L'évaluation des résultats générés par les LLMs posait également des difficultés. L'absence de références standardisées pour les tâches de KE signifie que de nombreuses Évaluations doivent être effectuées manuellement. Cela rend l'évaluation de la qualité des résultats plus complexe. Même lorsque des évaluations automatiques peuvent être appliquées, elles ne couvrent souvent pas l'ensemble de ce qui doit être évalué.
Compétences nécessaires pour une utilisation efficace des LLMs
À travers les discussions, il est devenu clair que plusieurs compétences sont importantes pour les ingénieurs des connaissances travaillant avec les LLMs :
- Compétences en communication : Être capable de partager des idées et d'écouter les autres est crucial, surtout dans des équipes diverses.
- Création d'ontologies : Savoir comment créer des représentations structurées des connaissances aide à formuler des invites efficaces.
- Rédaction d'invites : Comprendre comment construire et affiner itérativement les invites est une compétence essentielle qui améliore l'interaction avec les LLMs.
- Compétences en codage : La maîtrise du codage aide les ingénieurs à interagir plus efficacement avec les LLMs, surtout lors de l'automatisation des tâches.
- Approche scientifique : Être capable de définir des objectifs et des expériences peut rationaliser les tâches de KE.
Cependant, de nombreux participants ont noté des lacunes dans leurs connaissances, notamment en ce qui concerne la création d'ontologies et la formulation efficace d'invites.
Conscience des considérations éthiques
Lorsqu'ils ont discuté de l'IA responsable, de nombreux participants semblaient conscients du concept de biais mais n'étaient pas profondément engagés sur la façon de le réduire. Il y avait une compréhension générale que le biais peut provenir des sources de données, mais un manque de connaissance sur comment y faire face en pratique était évident. Certains intervenants ont souligné que le biais pourrait également provenir de la manière dont les LLMs traitent les données et créent des résultats.
Confiance et adoption de la technologie LLM
Les avis étaient partagés concernant la fiabilité des LLMs. Certains participants étaient optimistes quant au potentiel des LLMs pour accélérer les tâches et aider dans les activités de KE, tandis que d'autres restaient sceptiques sur leur précision et leur fiabilité. Des préoccupations ont été soulevées quant au fait que les LLMs ne sont pas toujours à jour ou ne fournissent pas d'informations exactes. Ces doutes étaient accompagnés d'une forte conviction que, bien que les LLMs puissent aider dans certaines tâches, ils ne remplaceraient pas la nécessité d'une supervision humaine dans le processus de KE.
L'importance de l'évaluation
Un aspect essentiel de l'ingénierie des connaissances est l'évaluation de la qualité. Pour que les KG soient fiables, ils doivent être évalués pour leur exactitude, leur pertinence et leur exhaustivité. Le processus d'évaluation nécessite souvent une expertise humaine, en particulier lorsqu'il s'agit d'évaluer la signification sémantique et les relations dans les données que les machines peuvent avoir du mal à interpréter correctement.
Techniques d'évaluation actuelles
Les méthodes d'évaluation existantes peuvent varier considérablement en fonction des tâches de KE spécifiques. Certaines techniques conventionnelles incluent la mesure de l'exactitude à l'aide de scores F1 ou la comparaison des résultats avec des normes de référence. Cependant, ces méthodes peuvent ne pas couvrir tous les aspects des tâches de KE, en particulier lorsqu'il s'agit d'évaluer la profondeur et la qualité de la représentation des connaissances.
Suggestions pour de nouvelles métriques d'évaluation
Les participants ont suggéré plusieurs idées pour améliorer les pratiques d'évaluation, notamment :
- Développer des ontologies de référence pour des comparaisons plus efficaces.
- Créer des outils qui peuvent aider à identifier les erreurs dans les résultats.
- Employer des techniques d'autres domaines, comme la vérification des faits ou les tests adversariaux, pour garantir la qualité du contenu généré par les LLMs.
Le besoin de développement des compétences
L'intégration des LLMs dans les processus de KE marque un changement qui pourrait nécessiter de nouveaux ensembles de compétences. Bien que la KE traditionnelle ait encore de la valeur, s'adapter à ces avancées sera crucial. La formation dans des domaines comme la rédaction d'invites et la sensibilisation aux biais sera importante pour que les ingénieurs des connaissances puissent travailler efficacement aux côtés des outils d'IA.
Le rôle de la formation
Pour tirer pleinement parti des avantages des LLMs, il est clair qu'il y a un besoin de programmes de formation complets. Ces programmes devraient couvrir les bases de l'IA, les considérations éthiques et les compétences pratiques nécessaires pour interagir avec les LLMs. Ce n'est qu'alors que les ingénieurs des connaissances pourront naviguer efficacement dans les complexités de l'utilisation de ces outils.
Introduction des cartes KG
Une solution potentielle pour améliorer la transparence et la responsabilité dans les KG est l'introduction de "cartes KG". Ces cartes fourniraient un moyen structuré de documenter la provenance, l'exhaustivité et la sécurité des KG. Semblables aux cadres existants en documentation des données, ces cartes KG visent à aider les ingénieurs des connaissances à s'assurer que les KG qu'ils construisent sont fiables et éthiques.
Composants des cartes KG
Les cartes KG devraient idéalement inclure des informations sur :
- Provenance : Détails sur les sources et origines des données.
- Construction : Explication de comment le KG a été construit et des méthodologies utilisées.
- Connaissances : Description de la gamme d'informations représentées.
- Exhaustivité : Évaluation de la couverture et de la représentativité du KG.
- Sécurité : Présentation des biais éventuels ou des considérations éthiques associées aux données.
Conclusion
Alors que les LLMs continuent d'évoluer, ils auront un impact considérable sur le domaine de l'ingénierie des connaissances. Bien qu'il y ait des avantages significatifs à travailler avec ces systèmes avancés, des défis liés à l'évaluation, au développement des compétences et aux considérations éthiques doivent être abordés. En favorisant une compréhension plus profonde de ces domaines et en introduisant des outils comme les cartes KG, le domaine peut améliorer la qualité et la fiabilité de la représentation des connaissances tout en intégrant de manière responsable la technologie de l'IA dans tous les aspects de l'ingénierie des connaissances.
Directions futures
D'autres recherches sont nécessaires pour explorer comment les LLMs peuvent efficacement soutenir les utilisateurs moins expérimentés dans le développement des KG. Il y a aussi un besoin de méthodologies plus robustes pour identifier et atténuer les biais dans les KG assistés par LLM. Alors que les ingénieurs des connaissances travaillent pour embrasser ces changements, il sera crucial de rester concentré sur le développement de pratiques qui privilégient la transparence, la responsabilité et les considérations éthiques dans l'utilisation des technologies d'IA.
Titre: Knowledge Prompting: How Knowledge Engineers Use Large Language Models
Résumé: Despite many advances in knowledge engineering (KE), challenges remain in areas such as engineering knowledge graphs (KGs) at scale, keeping up with evolving domain knowledge, multilingualism, and multimodality. Recently, KE has used LLMs to support semi-automatic tasks, but the most effective use of LLMs to support knowledge engineers across the KE activites is still in its infancy. To explore the vision of LLM copilots for KE and change existing KE practices, we conducted a multimethod study during a KE hackathon. We investigated participants' views on the use of LLMs, the challenges they face, the skills they may need to integrate LLMs into their practices, and how they use LLMs responsibly. We found participants felt LLMs could contribute to improving efficiency when engineering KGs, but presented increased challenges around the already complex issues of evaluating the KE tasks. We discovered prompting to be a useful but undervalued skill for knowledge engineers working with LLMs, and note that natural language processing skills may become more relevant across more roles in KG construction. Integrating LLMs into KE tasks needs to be mindful of potential risks and harms related to responsible AI. Given the limited ethical training, most knowledge engineers receive solutions such as our suggested `KG cards' based on data cards could be a useful guide for KG construction. Our findings can support designers of KE AI copilots, KE researchers, and practitioners using advanced AI to develop trustworthy applications, propose new methodologies for KE and operate new technologies responsibly.
Auteurs: Elisavet Koutsiana, Johanna Walker, Michelle Nwachukwu, Albert Meroño-Peñuela, Elena Simperl
Dernière mise à jour: 2024-08-02 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2408.08878
Source PDF: https://arxiv.org/pdf/2408.08878
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://dl.acm.org/ccs.cfm
- https://www.dagstuhl.de/22372
- https://king-s-knowledge-graph-lab.github.io/knowledge-prompting-hackathon/
- https://www.microsoft.com/en-gb/microsoft-teams/group-chat-software
- https://otter.ai/
- https://help-nv.qsrinternational.com/20/win/Content/about-nvivo/about-nvivo.htm
- https://forms.office.com/Pages/DesignPageV2.aspx
- https://huggingface.co/
- https://pytorch.org/
- https://git-scm.com/
- https://huggingface.co/docs/hub/datasets-cards
- https://huggingface.co/docs/hub/model-cards
- https://proceedings.neurips.cc/paper_files/paper/2013/file/1cecc7a77928ca8133fa24680a88d2f9-Paper.pdf
- https://ojs.aaai.org/index.php/AAAI/article/view/11573