Articoli più recenti per Valutazione

Calcolo e linguaggio Valutare il ragionamento nei modelli di linguaggio grandi

Un nuovo framework valuta come i LLM ragionano per rispondere a domande complesse.

2025-09-07T00:51:54+00:00 ― 5 leggere min

Calcolo e linguaggio Migliorare i modelli di linguaggio con catene di istruzioni

Questo articolo parla di un metodo per migliorare i modelli linguistici usando istruzioni strutturate.

2025-09-06T20:15:24+00:00 ― 5 leggere min

Fisica atmosferica e oceanica Affrontare la Turbolenza Ottica con otbench

Un nuovo strumento aiuta i ricercatori a modellare efficacemente la turbolenza ottica.

2025-09-06T15:31:24+00:00 ― 6 leggere min

Apprendimento automatico Comprendere l'Attribuzione dei Dati con DualView

Esplora come DualView migliora l'attribuzione dei dati nei modelli di machine learning.

2025-09-06T11:41:54+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Valutare l'Unlearning delle Macchine nei Modelli di Diffusione

Il nuovo dataset migliora i metodi di valutazione per il machine unlearning nella generazione di immagini.

2025-09-06T06:02:12+00:00 ― 6 leggere min

Calcolo e linguaggio L'importanza della semplificazione del testo per tutti i lettori

La semplificazione del testo aiuta a migliorare l'accesso alle informazioni per lettori diversi.

2025-09-06T01:02:00+00:00 ― 6 leggere min

Biblioteche digitali Il Ruolo delle Revisioni della Letteratura nella Ricerca PAMI

Esaminare l'importanza e le sfide delle revisioni della letteratura nell'Analisi dei Pattern e nell'Intelligenza Artificiale.

2025-09-05T22:55:36+00:00 ― 9 leggere min

Calcolo e linguaggio Espandere le tassonomie con i modelli linguistici grandi

Automatizzare l'espansione della tassonomia usando modelli di linguaggio avanzati per una migliore organizzazione della conoscenza.

2025-09-05T10:25:06+00:00 ― 6 leggere min

Calcolo e linguaggio Meta Probing Agents: Un Nuovo Modo per Valutare gli LLM

Introducing un nuovo modo per valutare i modelli di linguaggio grandi in modo efficace.

2025-09-05T09:14:00+00:00 ― 7 leggere min

Calcolo e linguaggio Estrazione delle Strutture del Documento Comune per una Maggiore Comprensione

Un nuovo metodo identifica i layout tipici dei documenti in vari settori e lingue.

2025-09-05T08:34:30+00:00 ― 9 leggere min

Comunicazione e formazione scientifica Migliorare la comunicazione scientifica al NIH

Un sondaggio svela informazioni sulle pratiche di comunicazione scientifica tra il personale NIH.

2025-09-05T01:49:56+00:00 ― 8 leggere min

Visione artificiale e riconoscimento di modelli Valutare i Modelli Visione-Linguaggio: Il Ruolo dell'Incertezza

Questo studio evidenzia l'importanza dell'incertezza nella valutazione dei modelli Vision-Language.

2025-09-05T01:43:42+00:00 ― 7 leggere min

Calcolo e linguaggio KIEval: Un Nuovo Modo di Valutare i Modelli Linguistici

KIEval offre valutazioni interattive per affrontare la contaminazione dei dati nei modelli di linguaggio.

2025-09-05T00:16:48+00:00 ― 7 leggere min

Intelligenza artificiale Valutare le allucinazioni nei grandi modelli visione-linguaggio

Questo articolo parla di un nuovo framework per valutare le allucinazioni nei LVLM.

2025-09-04T12:02:06+00:00 ― 7 leggere min

Calcolo e linguaggio Presentiamo SportQA: Un nuovo benchmark per la conoscenza sportiva nei modelli linguistici

SportQA valuta la comprensione dei modelli linguistici nello sport tramite oltre 70.000 domande.

2025-09-04T11:54:12+00:00 ― 8 leggere min

Calcolo e linguaggio Affrontare il bias di probabilità nei modelli linguistici

La ricerca mette in luce il bias nelle valutazioni dei modelli linguistici e propone metodi per migliorarli.

2025-09-04T11:38:24+00:00 ― 6 leggere min

Calcolo e linguaggio Rivalutare le valutazioni dei modelli linguistici

La ricerca sfida i metodi tradizionali per valutare i valori e le opinioni dei modelli di linguaggio.

2025-09-03T21:41:00+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli OpenMEDLab: Una Piattaforma per Risorse di AI Medica

OpenMEDLab migliora l'accesso agli strumenti e alle risorse di intelligenza artificiale medica per una salute migliore.

2025-09-03T20:06:12+00:00 ― 6 leggere min

Computer e società Introducendo SyllabusQA: Un Nuovo Dataset per la Logistica dei Corsi

SyllabusQA offre spunti per risposte automatiche alle domande nell'istruzione.

2025-09-02T06:34:42+00:00 ― 9 leggere min

Calcolo e linguaggio Migliorare la Valutazione della Correzione degli Errori Grammaticali

Un nuovo dataset migliora la valutazione dei sistemi di correzione degli errori grammaticali.

2025-09-01T04:22:36+00:00 ― 6 leggere min

Calcolo e linguaggio Valutazione delle abilità di semplificazione delle frasi di GPT-4

Uno studio sull'efficacia di GPT-4 nel semplificare le frasi.

2025-08-31T16:31:36+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare gli strumenti di elaborazione del linguaggio per migliori prestazioni

Un nuovo metodo per valutare gli strumenti di elaborazione del linguaggio sembra promettere miglioramenti.

2025-08-31T11:31:24+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare la generazione dei messaggi di commit con CommitBench

Un nuovo dataset mira a migliorare la qualità dei messaggi di commit automatici per gli sviluppatori.

2025-08-31T04:32:42+00:00 ― 10 leggere min

Calcolo e linguaggio Migliorare le abilità sociali negli agenti linguistici

Un nuovo metodo migliora le capacità comunicative degli agenti linguistici.

2025-08-29T19:45:36+00:00 ― 7 leggere min

Calcolo e linguaggio Valutare il Bias nei Modelli Linguistici: Un Nuovo Approccio

Valutare come i pregiudizi nei modelli di linguaggio influenzano le applicazioni nel mondo reale.

2025-08-29T12:22:36+00:00 ― 6 leggere min

Calcolo e linguaggio Avanzando i modelli multimodali con X-LLaVA

X-LLaVA migliora le capacità multilingue per rispondere a domande visive.

2025-08-28T16:46:06+00:00 ― 7 leggere min

Calcolo e linguaggio ChartThinker: Migliorare la Sintesi Automatica dei Grafici

Scopri come ChartThinker migliora i riassunti dei grafici per una comprensione migliore.

2025-08-28T14:16:00+00:00 ― 7 leggere min

Calcolo e linguaggio NovelQA: Un Nuovo Riferimento per la Comprensione dei Testi Lunghi

Valutare i LLM sulla loro capacità di gestire testi lunghi nella letteratura.

2025-08-28T03:12:24+00:00 ― 5 leggere min

Calcolo e linguaggio Valutare i Modelli Linguistici con TinyBenchmarks

Un nuovo metodo per valutare i modelli di linguaggio grandi usando meno esempi.

2025-08-28T01:19:48+00:00 ― 6 leggere min

Basi di dati Sviluppi nella Valutazione dei Programmi Datalog

Migliorare l'efficienza in Datalog tramite semantriche e tecniche di grounding.

2025-08-27T18:07:18+00:00 ― 5 leggere min

Recupero delle informazioni Migliorare il Recupero di Informazioni Seguendo le Istruzioni

Un nuovo dataset aiuta i modelli IR ad adattarsi a istruzioni complesse per migliori prestazioni.

2025-08-26T18:49:00+00:00 ― 3 leggere min

Calcolo e linguaggio Valutare la qualità degli argomenti con i modelli linguistici

Scopri come i modelli linguistici possono migliorare la nostra comprensione della qualità degli argomenti.

2025-08-26T06:02:42+00:00 ― 8 leggere min

Recupero delle informazioni Sfide nella valutazione dei sistemi di recupero di informazioni legali

Esplorare le complessità nella valutazione dei sistemi di recupero di informazioni legali e della loro efficacia.

2025-08-25T05:09:36+00:00 ― 7 leggere min

Calcolo e linguaggio Presentiamo TriviaHG: Un Nuovo Dataset per la Generazione di Indizi

TriviaHG offre suggerimenti per le domande, promuovendo un pensiero più profondo e l'apprendimento.

2025-08-24T23:14:06+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare i Modelli Linguistici nella Ricerca Molecolare

Un nuovo dataset migliora la valutazione della conoscenza molecolare nei modelli linguistici.

2025-08-24T19:45:30+00:00 ― 7 leggere min

Neuroscienze Capire i processi decisionali nel cervello

Questo studio esplora come i nostri cervelli valutano le scelte e prendono decisioni.

2025-08-23T09:22:44+00:00 ― 7 leggere min

Recupero delle informazioni Un Chiaro Quadro per Valutare i Sistemi di Raccomandazione

Questa guida aiuta a semplificare la valutazione dei sistemi di raccomandazione per un'esperienza utente migliore.

2025-08-23T02:20:12+00:00 ― 7 leggere min

Calcolo e linguaggio Migliorare il riassunto dei film con scene salienti

Questo lavoro si concentra sul trovare scene importanti per migliorare i riassunti delle sceneggiature dei film.

2025-08-22T12:54:24+00:00 ― 6 leggere min

Apprendimento automatico Il Metodo Cram: Un Nuovo Approccio all'Apprendimento dei Dati

Un metodo per apprendere ed evaluare le politiche contemporaneamente usando tutti i dati disponibili.

2025-08-22T09:18:56+00:00 ― 7 leggere min

Intelligenza artificiale Sfruttare i modelli linguistici per generare ipotesi scientifiche

Questo articolo esplora come i LLM generano e affinano ipotesi scientifiche a partire dai dati esistenti.

2025-08-22T06:43:06+00:00 ― 7 leggere min