Valutare i modelli di linguaggio per le evidenze delle ipotesi
Lo studio valuta la capacità dei modelli linguistici di trovare evidenze nei riassunti scientifici.
― 7 leggere min
Quando si fa ricerca, formare e testare le Ipotesi è super importante. Un'ipotesi è fondamentalmente un buon indovinello basato su ciò che è già noto e su quello che è stato studiato. Però, con il numero di articoli scientifici pubblicati ogni anno che cresce a dismisura, diventa difficile raccogliere e dare senso a tutte le evidenze legate a un'ipotesi specifica.
Questo lavoro si concentra su quanto bene i modelli di linguaggio grandi (LLM) attuali possono trovare evidenze a sostegno o contro specifiche ipotesi basate sugli Abstract degli articoli scientifici. Un abstract è un breve riassunto di un articolo di ricerca. Lo studio fornisce un nuovo dataset focalizzato sulle scienze sociali, che include informazioni da vari studi. L’obiettivo è confrontare quanto bene gli LLM riescono a cercare evidenze rispetto a determinati benchmark, cercando anche di evidenziare cosa potrebbe esplorare la ricerca futura.
Mentre i ricercatori cercano di trasformare i risultati in applicazioni pratiche, avere una buona comprensione di un fenomeno attraverso studi e contesti diversi è importante. Tradizionalmente, le ipotesi sono teorie o indovinelli educati che devono essere modellati dalla letteratura esistente. Sintezzare e comprendere la ricerca attuale è cruciale per pianificare studi in modo efficiente. Tuttavia, molte banche dati non organizzano o confrontano gli studi esistenti in un modo che permetta un accesso facile alla letteratura rilevante per una certa domanda di ricerca. L’aumento della ricerca pubblicata rende ancor più difficile trovare le informazioni specifiche necessarie.
L’elaborazione del linguaggio naturale (NLP) e la comprensione del linguaggio naturale (NLU) sono emerse come campi che aiutano con queste sfide. Un’area di focus è il fact-checking automatizzato, specialmente riguardo alla disinformazione. Questo processo valuta se un’affermazione fattuale è accurata basata sulla letteratura esistente.
Tuttavia, c’è ancora un gap nel capire se un articolo affronta una specifica domanda di ricerca nel suo abstract e, se sì, se la ricerca supporta o contraddice quell’ipotesi. Questo lavoro propone un compito chiamato evidenziazione delle ipotesi scientifiche (SHE) per affrontare questo problema.
Un esempio tipico dal dataset di addestramento include un abstract di un articolo, un’ipotesi di interesse e un’etichetta che mostra come l’ipotesi si relaziona a quell'abstract. Ci sono stati sforzi di base per compilare la letteratura in modi utili, spesso visti in documenti collaborativi dove gli autori riassumono studi esistenti che esplorano domande correlate.
Ad esempio, gli autori potrebbero raccogliere ricerche che esaminano se i social media influenzano la polarizzazione politica. Questi documenti possono aggiungere struttura categorizzando gli studi con risultati e impostazioni sperimentali simili.
Questo lavoro esamina quanto bene NLU avanzato e LLM possano sostituire le revisioni della letteratura guidate da esperti nel definire ipotesi e risultati primari dagli abstract scientifici, in particolare nelle scienze sociali dove esistono dataset annotati di alta qualità.
Le principali contribuzioni di questo studio includono:
- Proporre il compito SHE per identificare evidenze a sostegno o contro un’ipotesi da un abstract scientifico.
- Creare e condividere un dataset di benchmark per SHE con letteratura esaminata da esperti.
- Testare tre tipi di modelli per valutare quanto bene possono trovare evidenze di ipotesi scientifiche usando approcci diversi.
I risultati indicano che identificare evidenze è difficile per i sistemi attuali di comprensione del linguaggio naturale. Gli LLM non mostrano prestazioni migliori rispetto ai modelli tradizionali. Questo documento offre spunti e raccomandazioni per andare avanti.
Contesto e Lavori Correlati
Il compito di verificare le affermazioni scientifiche può essere sfidato in due modi. Un approccio utilizza reti di deep learning per l'inferenza del linguaggio naturale (NLI) adattando ampi dataset annotati da esseri umani. L'altro approccio considera la relazione tra affermazione e evidenza usando una rappresentazione congiunta.
Numerosi dataset di verifica sono stati prodotti per aiutare in quest'area, specialmente in temi di salute pubblica e ambientali. Questi dataset includono il Stanford Natural Language Inference (SNLI) e SciTail di Allen AI, entrambi contenenti coppie premessa-ipotesi derivate da vari contesti.
Gli LLM sono addestrati su vasti dataset che includono conoscenza generale e specifica. Hanno mostrato prestazioni impressionanti in vari compiti di NLU come comprensione di testi e risposta a domande. Il compito SHE offre ai ricercatori l'opportunità di valutare questi modelli all'interno dei domini scientifici.
Tuttavia, il compito SHE ha differenze notevoli rispetto alle sfide tradizionali di NLI perché i testi scientifici spesso usano linguaggio specializzato e presentano dati non tipicamente trovati nei normali dataset di NLP.
Definizione del Problema
L'evidenziazione delle ipotesi scientifiche (SHE) riguarda il collegare un'ipotesi specifica a un abstract pertinente. Questo collegamento può essere categorizzato in tre tipi: supporto, contraddizione o inconcludente. La sfida sta nel comprendere il contesto. Ad esempio, riconoscere che un termine in un abstract si riferisce a un concetto più generale richiede ragionamento.
Questo studio assume che ogni ipotesi nel dataset sia direttamente affrontata all'interno dell'articolo. Tuttavia, trovare evidenza per un'ipotesi attraverso un ampio corpo di letteratura aggiunge complessità e generalmente richiede più documenti etichettati come riferimenti.
Per affrontare questo, è stato creato un dataset Collaborativo Reviews (CoRe) utilizzando 12 recensioni di letteratura collaborative open-source mantenute da esperti in campi come scienze sociali e comportamentali. Molte di queste recensioni sono iniziate nel 2019 e sono create usando Google Docs. Si concentrano su studi importanti e permettono accesso pubblico affinché i ricercatori possano contribuire o suggerire modifiche.
Panoramica del Dataset
I dati grezzi per il dataset CoRe sono stati raccolti fino al 1° luglio 2023. Le domande di ricerca, le etichette sui risultati e i numeri DOI sono stati presi dalle recensioni. Gli articoli sono stati identificati e i loro abstract recuperati usando banche dati accademiche accettate. Il dataset contiene combinazioni (ipotesi, abstract, etichetta) in cui l'abstract fornisce evidenze richieste relative all'ipotesi.
Il dataset completo ha 69 ipotesi uniche insieme ai risultati di 602 articoli scientifici, totalizzando 638 combinazioni poiché alcuni articoli affrontano più ipotesi. Di queste combinazioni, circa il 61,6% contiene evidenze a sostegno dell'ipotesi, mentre il 25,7% è contro di essa, e circa il 12,7% è inconcludente.
Metodologia
Questo studio valuta tre strategie principali utilizzando il dataset CoRe: classificatori supervisionati basati su modelli pre-addestrati, modelli di trasferimento dell'apprendimento e modelli di linguaggio di grandi dimensioni.
Per la classificazione supervisionata, sono stati utilizzati due modelli pre-addestrati, longformer e text-embedding-ada-002. Questi modelli aiutano a elaborare testi lunghi e producono embedding di parole efficaci per l'analisi.
Nell'approccio di trasferimento dell'apprendimento, il compito è visto come un compito di inferenza del linguaggio naturale. Modelli come Enhanced Sequential Inference Model (ESIM) e Multi-Task Deep Neural Network (MT-DNN) sono stati valutati su quanto bene possono identificare la relazione tra ipotesi e abstract.
Sono stati testati anche due LLM, ChatGPT e PaLM 2, contro il dataset. Utilizzando la versione API di ChatGPT e il Modello generativo di PaLM 2, sono state esaminate diverse impostazioni, inclusi contesti zero-shot e few-shot.
Valutazione delle Prestazioni
Le prestazioni di tutti i modelli sono state misurate utilizzando metriche come il punteggio macro-F1 e l'accuratezza. Sono stati testati vari iperparametri e i risultati hanno confermato che identificare evidenze per le ipotesi è un compito difficile. La migliore prestazione è venuta dall'utilizzo del text-embedding-ada-002.
È interessante notare che, mentre gli LLM non sono stati addestrati specificamente con il dataset CoRe, sono comunque riusciti a elaborare efficacemente gli abstract scientifici e a collegarli alle ipotesi, probabilmente grazie al loro ampio addestramento su più compiti. In impostazioni zero-shot, gli LLM hanno offerto prestazioni paragonabili ai modelli addestrati esplicitamente sul dataset CoRe.
Conclusione e Direzioni Future
La ricerca ha delineato un nuovo compito chiamato Evidenziazione delle Ipotesi Scientifiche e ha creato un dataset per supportare questo compito. I risultati indicano che questo rimane un'area difficile per i modelli NLU attuali, anche per gli LLM avanzati. Notabilmente, i modelli basati su apprendimento supervisionato con embedding hanno mostrato risultati migliori rispetto agli LLM.
Guardando avanti, c'è un potenziale per migliorare gli LLM attraverso il fine-tuning su dataset specifici. Gli studi futuri dovrebbero considerare metodi di validazione più rigorosi e lavorare per bilanciare la distribuzione delle classi nei dataset.
Inoltre, migliorare i design dei prompt può anche portare a risultati migliori. In generale, questa ricerca mette in evidenza opportunità significative per ulteriori esplorazioni in quest'area.
Titolo: Can Large Language Models Discern Evidence for Scientific Hypotheses? Case Studies in the Social Sciences
Estratto: Hypothesis formulation and testing are central to empirical research. A strong hypothesis is a best guess based on existing evidence and informed by a comprehensive view of relevant literature. However, with exponential increase in the number of scientific articles published annually, manual aggregation and synthesis of evidence related to a given hypothesis is a challenge. Our work explores the ability of current large language models (LLMs) to discern evidence in support or refute of specific hypotheses based on the text of scientific abstracts. We share a novel dataset for the task of scientific hypothesis evidencing using community-driven annotations of studies in the social sciences. We compare the performance of LLMs to several state-of-the-art benchmarks and highlight opportunities for future research in this area. The dataset is available at https://github.com/Sai90000/ScientificHypothesisEvidencing.git
Autori: Sai Koneru, Jian Wu, Sarah Rajtmajer
Ultimo aggiornamento: 2024-03-25 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.06578
Fonte PDF: https://arxiv.org/pdf/2309.06578
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.acm.org/publications/taps/whitelist-of-latex-packages
- https://github.com/Sai90000/ScientificHypothesisEvidencing.git
- https://dl.acm.org/ccs.cfm
- https://aclanthology.org/2021.louhi-1.11/
- https://aclanthology.org/2022.acl-long.511/
- https://nlp.stanford.edu/projects/snli/
- https://jonathanhaidt.com/reviews/
- https://cloud.google.com/vertex-ai/docs/generative-ai/model-reference/text
- https://developers.generativeai.google/models/language
- https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them
- https://huggingface.co/sentence-transformers/multi-qa-mpnet-base-dot-v1