Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Presentiamo BeanCounter: un dataset per le aziende

Un nuovo dataset per migliorare i modelli linguistici focalizzati su testi legati al business.

― 5 leggere min


BeanCounter: Il DatasetBeanCounter: Il DatasetAziendalelinguistici aziendali.Un dataset per migliorare i modelli
Indice

Negli ultimi anni, i progressi nei modelli linguistici sono derivati principalmente dall'uso di dataset più grandi per allenare questi modelli. C'è una crescente necessità di dataset di alta qualità e su larga scala, soprattutto quelli focalizzati su domini specifici come il business. Questo documento introduce BeanCounter, un dataset pubblico composto da testi legati al business ottenuti da vari documenti di divulgazione delle aziende. Contiene oltre 100 miliardi di token, offrendo una fonte di Informazioni fresche che non è ampiamente disponibile nei dataset esistenti. Esploriamo l'unicità di questo dataset, la sua qualità e come si confronta con altri dataset comunemente usati in termini di veridicità e tossicità.

Cos'è BeanCounter?

BeanCounter è un grande dataset che include testi estratti da divulgazioni aziendali pubbliche. Queste divulgazioni sono documenti ufficiali presentati dalle aziende per informare vari stakeholder, inclusi investitori e regolatori. Il dataset comprende più di 100 miliardi di token di testo pulito e deduplicato. Un aspetto notevole di BeanCounter è che è per lo più unico; meno dello 0,1% del suo contenuto si sovrappone ad altri dataset provenienti da dati web.

Qualità e Tempestività dei Contenuti

I contenuti in BeanCounter non sono solo voluminosi ma anche tempestivi e fattuali. Ogni pezzo di testo nel dataset arriva con un timestamp che indica quando l'informazione è stata resa pubblica. Questo è importante perché consente di valutare i fatti sensibili al tempo. Anche la qualità dei dati è significativa. I dirigenti delle aziende, come il CEO e il CFO, devono certificare queste divulgazioni, il che incoraggia l'accuratezza e riduce la probabilità che vengano incluse informazioni false o fuorvianti.

Analisi della Tossicità e della Rappresentanza Demografica

Con l'aumento dei modelli linguistici, ci sono crescenti preoccupazioni riguardo al potenziale di questi modelli di generare contenuti tossici o nocivi. Esaminiamo come BeanCounter si confronta con altri dataset in questo senso. Dalla nostra analisi, troviamo che mentre molti termini demografici sono rappresentati in BeanCounter, il contesto che circonda questi termini è molto meno Tossico rispetto ad altri dataset. Ad esempio, il termine "Asiatico" appare più frequentemente in BeanCounter, ma il linguaggio usato attorno a esso è significativamente meno dannoso.

Valutazione del Modello Usando BeanCounter

Per mostrare l'utilità di BeanCounter, abbiamo testato due modelli linguistici che sono stati ulteriormente addestrati usando questo dataset. I modelli hanno mostrato una diminuzione nella generazione di contenuti tossici dal 18 al 33% e hanno performato meglio in compiti legati alla finanza rispetto alle loro versioni originali. Questo evidenzia il potenziale di BeanCounter di produrre modelli linguistici più orientati al business.

L'importanza dei Dataset su Larga Scala

L'espansione dei modelli linguistici ha reso chiaro che c'è una necessità parallela di dataset più grandi. Man mano che i modelli diventano più complessi e richiedono più dati, è essenziale reperire nuovi dati di alta qualità per l'addestramento. BeanCounter colma questa lacuna, fungendo sia da ricca fonte di testi legati al business sia come mezzo per migliorare le performance complessive dei modelli linguistici in domini specifici.

Costruzione di BeanCounter

Il dataset è costruito da tutte le dichiarazioni pubbliche presentate alla SEC tramite il loro sistema EDGAR. Queste dichiarazioni includono vari tipi di documenti, come relazioni annuali e dichiarazioni trimestrali. Il processo comporta diversi passaggi: raccogliere le dichiarazioni, estrarre il testo, pulire questo testo e deduplicarlo per garantire la qualità. I metodi di raccolta e lavorazione rigorosi aiutano a mantenere alti standard per il dataset.

Rappresentanza Industriale in BeanCounter

BeanCounter copre una vasta gamma di settori, con contributi significativi dal settore dei servizi finanziari. Questa diversità di contenuti consente una comprensione più completa del panorama aziendale e aiuta nell'addestrare modelli che possono comprendere meglio il gergo e le preoccupazioni specifiche del settore.

Pregiudizi di Genere e Demografici

Un esame dei pronomi di genere e di altri identificatori demografici rivela modelli di pregiudizio che sono coerenti con scoperte precedenti in altri dataset. Tuttavia, BeanCounter mostra anche la possibilità di meno pregiudizio nel linguaggio circostante a queste identità, suggerendo che il dataset potrebbe offrire una prospettiva più bilanciata.

Il Ruolo del Tempo nei Dati

Il tempo può avere un ruolo significativo nella rilevanza e nell'accuratezza delle informazioni. Poiché tutto il contenuto di BeanCounter è timbrato, i ricercatori possono esplorare l'evoluzione delle pratiche aziendali e della rendicontazione finanziaria nel tempo, cosa non facilmente disponibile in altri dataset.

Risultati sulla Tossicità e le Demografie

L'analisi della tossicità attorno ai termini demografici in BeanCounter mostra risultati promettenti. Per quasi tutti gli identificatori demografici esaminati, il testo circostante è significativamente meno tossico rispetto ad altri dataset. Questo colloca BeanCounter come una risorsa preziosa per allenare modelli linguistici che abbiano meno probabilità di generare contenuti nocivi.

Applicazioni Future di BeanCounter

Data l'alta qualità e rilevanza dei dati in BeanCounter, ci sono numerose applicazioni nel campo dell'elaborazione del linguaggio naturale (NLP) e dell'apprendimento automatico. Questo dataset può essere utilizzato per affinare modelli per una migliore performance in compiti legati alla finanza, migliorare l'accuratezza dei sistemi di recupero delle informazioni e persino aiutare a generare narrazioni più accettabili per l'analisi aziendale.

Limitazioni di BeanCounter

Anche se BeanCounter mostra notevoli promesse, ci sono ancora limitazioni. I dati presenti in BeanCounter provengono principalmente da documenti pubblicamente depositati, che potrebbero non catturare l'intera ampiezza del discorso aziendale presente in altri contesti meno formali. Inoltre, il dataset potrebbe riflettere anche pregiudizi insiti nelle pratiche di reporting delle aziende.

Conclusione

In sintesi, BeanCounter offre un contributo significativo nel campo della modellazione linguistica, specialmente nelle applicazioni legate al business. Si distingue come un dataset su larga scala e di alta qualità che è meno tossico rispetto a molti dataset esistenti. Rendere BeanCounter open-source permette a ricercatori e sviluppatori di creare modelli migliori e più accurati che possono soddisfare le esigenze delle attività aziendali senza generare contenuti nocivi. Questo dataset apre un nuovo orizzonte nello sviluppo di modelli linguistici su misura per il settore business.

Fonte originale

Titolo: BeanCounter: A low-toxicity, large-scale, and open dataset of business-oriented text

Estratto: Many of the recent breakthroughs in language modeling have resulted from scaling effectively the same model architecture to larger datasets. In this vein, recent work has highlighted performance gains from increasing training dataset size and quality, suggesting a need for novel sources of large-scale datasets. In this work, we introduce BeanCounter, a public dataset consisting of more than 159B tokens extracted from businesses' disclosures. We show that this data is indeed novel: less than 0.1% of BeanCounter appears in Common Crawl-based datasets and it is an order of magnitude larger than datasets relying on similar sources. Given the data's provenance, we hypothesize that BeanCounter is comparatively more factual and less toxic than web-based datasets. Exploring this hypothesis, we find that many demographic identities occur with similar prevalence in BeanCounter but with significantly less toxic context relative to other datasets. To demonstrate the utility of BeanCounter, we evaluate and compare two LLMs continually pre-trained on BeanCounter with their base models. We find an 18-33% reduction in toxic generation and improved performance within the finance domain for the continually pretrained models. Collectively, our work suggests that BeanCounter is a novel source of low-toxicity and high-quality domain-specific data with sufficient scale to train multi-billion parameter LLMs.

Autori: Siyan Wang, Bradford Levy

Ultimo aggiornamento: 2024-09-27 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2409.17827

Fonte PDF: https://arxiv.org/pdf/2409.17827

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili