OpenDebateEvidence : Transformer l'analyse d'argumentation
Un ensemble de données complet pour améliorer l'analyse des arguments dans les débats.
― 8 min lire
Table des matières
- Importance de l'extraction d'arguments
- Limitations des ensembles de données existants
- Collecte d'OpenDebateEvidence
- Traitement des données
- Aperçu des formats de débat
- Débat Politique
- Débat Lincoln-Douglas
- Débat Public
- Caractéristiques de l'ensemble de données
- Métadonnées riches
- Structure d'argument
- Évaluation de la performance du modèle
- Techniques de fine-tuning
- Résultats des expérimentations
- Directions futures
- Explorer de nouvelles techniques
- Intégration de plusieurs types de données
- Expansion de l'ensemble de données
- Conclusion
- Source originale
- Liens de référence
OpenDebateEvidence est une nouvelle et grosse collection de documents qui vise à améliorer notre façon d'analyser et de résumer les arguments. Cette collection est basée sur des débats qui se déroulent dans les lycées et universités américaines. Avec plus de 3,5 millions de documents, elle est conçue pour aider les éducateurs, chercheurs et débatteurs à mieux comprendre les différents types d'arguments et comment les communiquer efficacement.
Les données dans OpenDebateEvidence proviennent de débats compétitifs qui ont lieu tout au long de l'année scolaire. Ces débats impliquent souvent des équipes qui argumentent pour et contre divers sujets, en utilisant des Preuves de recherches et d'autres sources pour soutenir leurs revendications. Le jeu de données est particulièrement utile parce qu'il inclut des informations détaillées sur chaque argument, comme quand et comment il a été utilisé dans un débat, ce qui ajoute un contexte précieux aux documents.
Importance de l'extraction d'arguments
L'extraction d'arguments est le processus d'identification et de classification des arguments dans un texte. C'est important pour développer des outils avancés capables de comprendre et de générer du texte comme un humain. En travaillant avec des textes complexes comme ceux des débats, les modèles de langage peuvent apprendre à créer et évaluer des arguments de manière plus efficace. Cela a des usages pratiques dans des domaines comme le droit, l'éducation et le discours public.
OpenDebateEvidence aide à avancer l'extraction d'arguments en fournissant une richesse d'exemples détaillés de structures argumentatives. Ces exemples permettent aux chercheurs et développeurs de former des modèles qui peuvent analyser et résumer les débats plus efficacement.
Limitations des ensembles de données existants
Les collections précédentes de données sur les débats, comme DebateSum, offraient des exemples limités et ne couvraient pas toute la gamme des arguments observés pendant les saisons de débat. La taille plus petite et le focus de ces ensembles de données les rendaient moins utiles pour entraîner des modèles complets. Ils manquaient souvent de la variété des arguments et des types de preuves qui sont cruciaux pour comprendre les débats compétitifs.
OpenDebateEvidence comble ces lacunes en offrant un ensemble de données beaucoup plus grand qui capture la richesse des arguments tout au long de la saison de débat. Cela en fait une ressource plus robuste pour étudier comment les arguments sont construits et communiqués.
Collecte d'OpenDebateEvidence
OpenDebateEvidence a été créée grâce au projet OpenCaseList, qui collecte et partage des preuves de débat. Les données incluent des arguments provenant de divers formats de débat, comme le débat politique, le débat Lincoln-Douglas et le débat public. Chaque document dans l'ensemble de données correspond à une seule pièce de preuve utilisée dans un débat, classée par format et enrichie de Métadonnées comme l'auteur, la date et les détails de citation.
Cette collection couvre des sujets de 2012 à 2023, avec des contributions de milliers d'écoles et de débatteurs. L'étendue des métadonnées permet une analyse détaillée et aide à organiser l'information efficacement.
Traitement des données
Pour garantir la qualité de l'ensemble de données, un traitement minutieux a été effectué. Les documents ont été stockés dans un format de fichier spécifique, nécessitant un processus d'extraction détaillé. Cela impliquait de décomposer les documents en leurs composants essentiels, d'éliminer le formatage inutile et d'organiser clairement l'information. Chaque pièce de preuve a été catégorisée, assurant qu'elle soit facile à localiser et à comprendre.
De plus, la suppression des doublons était une étape cruciale pour garder l'ensemble de données propre. Cela impliquait de comparer des portions de texte à travers les documents et d'éliminer celles qui étaient trop similaires. L'objectif était de maintenir une représentation unique de chaque argument.
Aperçu des formats de débat
OpenDebateEvidence couvre trois formats principaux de débat compétitif.
Débat Politique
Ce style implique des équipes qui argumentent pour ou contre une politique spécifique basée sur une résolution annuelle. Chaque round peut durer jusqu'à 90 minutes et présente des discours structurés suivis d'une session de questions-réponses. Les débatteurs utilisent des preuves détaillées pour soutenir leurs arguments, qui peuvent provenir de rapports, d'articles et d'autres sources crédibles.
Débat Lincoln-Douglas
Ce format est un débat un contre un axé sur les valeurs et les considérations éthiques. Les sujets changent tous les deux mois, et les rounds sont plus courts que dans les débats politiques. Bien que la preuve reste importante, le format encourage des discussions philosophiques plus profondes.
Débat Public
Conçu pour être plus accessible, ce format implique deux équipes débattant d'un sujet mensuel. Les rounds sont plus courts et nécessitent généralement moins de preuves que les deux autres formats. Cependant, cela consiste toujours en une argumentation structurée.
Chacun de ces formats est représenté dans OpenDebateEvidence, permettant une analyse complète.
Caractéristiques de l'ensemble de données
OpenDebateEvidence possède plusieurs caractéristiques qui en font une ressource précieuse pour les chercheurs et les praticiens.
Métadonnées riches
Chaque document de l'ensemble de données est accompagné de métadonnées détaillées. Cela inclut des informations sur l'auteur, le round de débat et le type d'argument avancé. Les métadonnées aident à comprendre non seulement le contenu, mais aussi le contexte dans lequel il a été utilisé.
Structure d'argument
Les documents dans l'ensemble de données sont organisés pour refléter leur rôle dans la structure argumentative globale. Par exemple, chaque pièce de preuve est catégorisée par sa pertinence par rapport à des arguments spécifiques. Cette approche structurée permet aux chercheurs d'analyser comment les arguments sont formés.
Évaluation de la performance du modèle
Pour comprendre à quel point les modèles formés sur OpenDebateEvidence fonctionnent bien, diverses expériences ont été menées. Ces expériences ont testé à quel point les modèles pouvaient résumer efficacement des arguments provenant de l'ensemble de données ainsi que d'ensembles de données connexes.
Techniques de fine-tuning
Le fine-tuning est le processus d'ajustement d'un modèle existant pour améliorer sa performance sur un ensemble de données spécifique. Pour OpenDebateEvidence, plusieurs techniques ont été utilisées pour adapter les modèles de langage efficacement. Ces techniques ont été choisies pour leur capacité à améliorer la performance du modèle tout en étant efficaces en termes de ressources.
Résultats des expérimentations
Lorsque les chercheurs ont testé les modèles, ils ont constaté que ceux formés sur OpenDebateEvidence fonctionnaient beaucoup mieux que ceux formés sur des ensembles de données précédents. Cela a montré que la nature complète de l'ensemble de données conduisait à une meilleure compréhension et génération d'arguments.
Directions futures
OpenDebateEvidence n'est pas seulement une ressource mais une base pour de futures recherches et applications.
Explorer de nouvelles techniques
Les chercheurs prévoient d'explorer des méthodes supplémentaires pour former des modèles, cherchant à améliorer encore leurs capacités en matière d'extraction d'arguments et de résumés.
Intégration de plusieurs types de données
Il y a aussi des projets d'explorer l'intégration de données provenant d'autres sources, comme des matériaux visuels ou audio, pour créer une compréhension plus riche des arguments au-delà du texte seul.
Expansion de l'ensemble de données
Mettre continuellement à jour OpenDebateEvidence avec de nouvelles preuves de débat assurera sa pertinence et son utilité au fil du temps.
Conclusion
OpenDebateEvidence sert de ressource cruciale pour quiconque s'intéresse aux nuances de l'argumentation. Avec sa vaste collection de documents et ses riches métadonnées, elle a le potentiel d'avancer significativement l'étude des modèles de langage, de l'extraction d'arguments et des techniques de résumé.
En fournissant un ensemble de données complet qui reflète des débats du monde réel, OpenDebateEvidence aide chercheurs, éducateurs et débatteurs à affiner leurs compétences et à approfondir leur compréhension de la communication efficace. Ses mises à jour continues et son expansion promettent de la garder à l'avant-garde de l'analyse des arguments pour les années à venir.
Titre: OpenDebateEvidence: A Massive-Scale Argument Mining and Summarization Dataset
Résumé: We introduce OpenDebateEvidence, a comprehensive dataset for argument mining and summarization sourced from the American Competitive Debate community. This dataset includes over 3.5 million documents with rich metadata, making it one of the most extensive collections of debate evidence. OpenDebateEvidence captures the complexity of arguments in high school and college debates, providing valuable resources for training and evaluation. Our extensive experiments demonstrate the efficacy of fine-tuning state-of-the-art large language models for argumentative abstractive summarization across various methods, models, and datasets. By providing this comprehensive resource, we aim to advance computational argumentation and support practical applications for debaters, educators, and researchers. OpenDebateEvidence is publicly available to support further research and innovation in computational argumentation. Access it here: https://huggingface.co/datasets/Yusuf5/OpenCaselist
Auteurs: Allen Roush, Yusuf Shabazz, Arvind Balaji, Peter Zhang, Stefano Mezza, Markus Zhang, Sanjay Basu, Sriram Vishwanath, Mehdi Fatemi, Ravid Shwartz-Ziv
Dernière mise à jour: 2024-10-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2406.14657
Source PDF: https://arxiv.org/pdf/2406.14657
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://huggingface.co/datasets/Yusuf5/OpenCaselist
- https://huggingface.co/meta-llama/Meta-Llama-3-8B
- https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2
- https://en.wikipedia.org/wiki/Spreading_
- https://www.speechanddebate.org/topics/
- https://opencaselist.com/ndtceda23/downloads
- https://github.com/stanfordnlp/pyreft
- https://huggingface.co/failspy/llama-3-70B-Instruct-abliterated/blob/main/ortho_cookbook.ipynb
- https://opencaselist.com/
- https://huggingface.co/api/datasets/Yusuf5/OpenCaselist/croissant
- https://huggingface.co/datasets/Hellisotherpeople/DebateSum
- https://opencaselist.com/history
- https://en.wikipedia.org/wiki/Carl_Schmitt