Arman Cohan

Questo studio valuta quando le espansioni migliorano o danneggiano le prestazioni del recupero delle informazioni.

2025-09-26T14:07:30+00:00 ― 4 leggere min

Questo studio analizza le capacità dei LLM nel produrre dati strutturati in modo preciso.

2025-09-26T00:57:30+00:00 ― 6 leggere min

Uno sguardo approfondito su come i LLM trasformano il linguaggio in codice in diversi compiti.

2025-09-20T06:58:18+00:00 ― 9 leggere min

Un nuovo modello linguistico aperto per la ricerca e l'innovazione nel processamento del linguaggio naturale.

2025-09-12T09:14:24+00:00 ― 6 leggere min

Esaminando le vulnerabilità e le strategie di sicurezza per gli agenti scientifici alimentati da LLM.

2025-09-10T13:23:42+00:00 ― 7 leggere min

Uno studio rivela un'importante sovrapposizione di dati che influisce sulle valutazioni dei modelli linguistici nella generazione di codice.

2025-09-01T02:16:12+00:00 ― 6 leggere min

Un nuovo dataset aiuta i modelli IR ad adattarsi a istruzioni complesse per migliori prestazioni.

2025-08-26T18:49:00+00:00 ― 3 leggere min

La contaminazione dei dati influisce parecchio sulla valutazione dei modelli di linguaggio grandi.

2025-07-26T10:12:36+00:00 ― 6 leggere min

Due metodi migliorano l'accuratezza delle valutazioni dei testi generati dall'IA.

2025-05-29T22:25:03+00:00 ― 7 leggere min

Un nuovo benchmark valuta i modelli per verificare le richieste finanziarie in documenti complessi.

2025-05-27T17:33:54+00:00 ― 7 leggere min

ChemSafetyBench testa i chatbot sulla sicurezza chimica e la conoscenza.

2025-05-06T00:39:52+00:00 ― 6 leggere min