Présentation de BeanCounter : un jeu de données commerciales
Un nouveau jeu de données pour améliorer les modèles de langage axés sur le texte lié aux affaires.
― 7 min lire
Table des matières
- Qu'est-ce que BeanCounter ?
- Qualité et actualité du contenu
- Analyse de la toxicité et représentation démographique
- Évaluation des modèles utilisant BeanCounter
- L'importance des ensembles de données à grande échelle
- Construction de BeanCounter
- Représentation de l'industrie dans BeanCounter
- Biais de genre et démographique
- Le rôle du temps dans les données
- Résultats sur la toxicité et les démographies
- Applications futures de BeanCounter
- Limitations de BeanCounter
- Conclusion
- Source originale
- Liens de référence
Ces dernières années, les avancées dans les modèles de langage proviennent surtout de l'utilisation de plus grands ensembles de données pour former ces modèles. Il y a un besoin croissant de Jeux de données de haute qualité et à grande échelle, surtout dans des domaines spécifiques comme le business. Cet article présente BeanCounter, un jeu de données public composé de textes liés au business obtenus à partir de divers documents de divulgation des entreprises. Il contient plus de 100 milliards de tokens, représentant une nouvelle source d'information qui n'est pas largement disponible dans les ensembles de données existants. On explore l'unicité de ce jeu de données, sa qualité, et comment il se compare à d'autres ensembles de données couramment utilisés en termes de factualité et de toxicité.
Qu'est-ce que BeanCounter ?
BeanCounter est un grand ensemble de données qui inclut des textes extraits de divulgations publiques des entreprises. Ces divulgations sont des documents officiels déposés par les entreprises pour informer divers acteurs, y compris les investisseurs et les régulateurs. L'ensemble contient plus de 100 milliards de tokens de texte nettoyé et dédupliqué. Un aspect notable de BeanCounter est qu'il est largement unique ; moins de 0,1 % de son contenu chevauche d'autres ensembles de données issus du web.
Qualité et actualité du contenu
Le contenu de BeanCounter n'est pas seulement volumineux mais aussi à jour et factuel. Chaque texte du jeu de données a un horodatage, indiquant quand l'information a été rendue publique. C'est important parce que ça permet d'évaluer des faits sensibles au temps. La qualité des données est aussi significative. Les dirigeants des entreprises, comme le PDG et le DAF, doivent certifier ces divulgations, ce qui encourage l'exactitude et réduit la probabilité d'inclure des Informations fausses ou trompeuses.
Analyse de la toxicité et représentation démographique
Avec l'essor des modèles de langage, il y a une préoccupation croissante concernant le potentiel de ces modèles à générer du contenu Toxique ou nuisible. On examine comment BeanCounter se compare à d'autres ensembles de données à cet égard. À travers notre analyse, on constate que, bien que de nombreux termes Démographiques soient présents dans BeanCounter, le contexte entourant ces termes est beaucoup moins toxique que dans d'autres ensembles de données. Par exemple, le terme "Asiatique" apparaît plus souvent dans BeanCounter, mais le langage utilisé autour est significativement moins nocif.
Évaluation des modèles utilisant BeanCounter
Pour montrer l'utilité de BeanCounter, on a testé deux modèles de langage qui ont été formés en plus avec ce jeu de données. Les modèles ont montré une réduction de la génération de contenu toxique de 18 à 33 % et ont mieux performé dans des tâches liées à la finance par rapport à leurs versions originales. Cela met en avant le potentiel de BeanCounter à produire de meilleurs modèles de langage orientés business.
L'importance des ensembles de données à grande échelle
L'expansion des modèles de langage a clairement montré qu'il y a un besoin parallèle pour des ensembles de données plus grands. À mesure que les modèles deviennent plus complexes et nécessitent plus de données, il est essentiel de trouver de nouvelles données d'entraînement de haute qualité. BeanCounter comble cette lacune, servant à la fois de source riche de textes liés au business et comme moyen d'améliorer la performance globale des modèles de langage dans des domaines spécifiques.
Construction de BeanCounter
L'ensemble de données est construit à partir de tous les dépôts publics soumis à la SEC via leur système EDGAR. Ces dépôts incluent différents types de documents, comme des rapports annuels et des états financiers trimestriels. Le processus implique plusieurs étapes : collecte des dépôts, extraction de texte, nettoyage de ce texte, et déduction pour assurer la qualité. Les méthodes de collecte et de traitement rigoureuses aident à maintenir des normes élevées pour l'ensemble de données.
Représentation de l'industrie dans BeanCounter
BeanCounter couvre un large éventail d'industries, avec des contributions significatives du secteur des services financiers. Cette diversité de contenu permet une compréhension plus complète du paysage commercial et aide à former des modèles qui peuvent mieux comprendre le jargon et les préoccupations spécifiques de l'industrie.
Biais de genre et démographique
Un examen des pronoms de genre et d'autres identifiants démographiques révèle des schémas de biais qui sont cohérents avec des résultats précédents dans d'autres ensembles de données. Cependant, BeanCounter montre aussi la possibilité de moins de biais dans le langage entourant ces identités, suggérant que le jeu de données pourrait offrir une perspective plus équilibrée.
Le rôle du temps dans les données
Le temps peut jouer un rôle significatif dans la pertinence et l'exactitude des informations. Comme tout le contenu de BeanCounter est horodaté, les chercheurs peuvent explorer l'évolution des pratiques commerciales et des rapports financiers au fil du temps, ce qui n'est pas facilement disponible dans d'autres ensembles de données.
Résultats sur la toxicité et les démographies
L'analyse de la toxicité entourant les termes démographiques dans BeanCounter montre des résultats prometteurs. Pour presque tous les identifiants démographiques examinés, le texte environnant est significativement moins toxique que dans d'autres ensembles de données. Cela positionne BeanCounter comme une ressource précieuse pour former des modèles de langage moins susceptibles de produire du contenu nuisible.
Applications futures de BeanCounter
Étant donné la haute qualité et la pertinence des données dans BeanCounter, il y a de nombreuses applications dans le domaine du traitement du langage naturel (NLP) et de l'apprentissage automatique. Cet ensemble de données peut être utilisé pour affiner les modèles pour de meilleures performances dans des tâches liées à la finance, améliorer l'exactitude des systèmes de récupération d'information, et même aider à générer des récits plus acceptables pour l'analyse commerciale.
Limitations de BeanCounter
Bien que BeanCounter montre un potentiel substantiel, il y a encore des limitations. Les données trouvées dans BeanCounter proviennent principalement de documents déposés publiquement, ce qui peut ne pas capturer toute l'étendue du discours commercial présent dans d'autres contextes moins formels. De plus, le jeu de données peut aussi refléter des biais inhérents aux pratiques de reporting des entreprises.
Conclusion
En résumé, BeanCounter offre une contribution significative au domaine du modélisation de langage, surtout dans les applications liées au business. Il se distingue comme un ensemble de données à grande échelle et de haute qualité qui est moins toxique que beaucoup d'autres ensembles de données existants. Open-sourcer BeanCounter permet aux chercheurs et aux développeurs de créer de meilleurs modèles plus précis qui peuvent répondre aux besoins des tâches commerciales sans générer de contenu nuisible. Cet ensemble de données ouvre une nouvelle frontière dans le développement de modèles de langage adaptés au secteur des affaires.
Titre: BeanCounter: A low-toxicity, large-scale, and open dataset of business-oriented text
Résumé: Many of the recent breakthroughs in language modeling have resulted from scaling effectively the same model architecture to larger datasets. In this vein, recent work has highlighted performance gains from increasing training dataset size and quality, suggesting a need for novel sources of large-scale datasets. In this work, we introduce BeanCounter, a public dataset consisting of more than 159B tokens extracted from businesses' disclosures. We show that this data is indeed novel: less than 0.1% of BeanCounter appears in Common Crawl-based datasets and it is an order of magnitude larger than datasets relying on similar sources. Given the data's provenance, we hypothesize that BeanCounter is comparatively more factual and less toxic than web-based datasets. Exploring this hypothesis, we find that many demographic identities occur with similar prevalence in BeanCounter but with significantly less toxic context relative to other datasets. To demonstrate the utility of BeanCounter, we evaluate and compare two LLMs continually pre-trained on BeanCounter with their base models. We find an 18-33% reduction in toxic generation and improved performance within the finance domain for the continually pretrained models. Collectively, our work suggests that BeanCounter is a novel source of low-toxicity and high-quality domain-specific data with sufficient scale to train multi-billion parameter LLMs.
Auteurs: Siyan Wang, Bradford Levy
Dernière mise à jour: 2024-09-27 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.17827
Source PDF: https://arxiv.org/pdf/2409.17827
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.