Articoli più recenti per Valutazione dei Dati

Calcolo e linguaggio SIB-200: Un Passo Verso una Valutazione del Linguaggio Inclusiva

Nuovo dataset migliora la valutazione dei modelli multilingue in diverse lingue.

2025-09-26T23:44:12+00:00 ― 7 leggere min

Calcolo e linguaggio Un nuovo modo per valutare i sistemi di risposta alle domande

Il metric SQuArE migliora la valutazione dei sistemi QA attraverso riferimenti a più risposte.

2025-09-23T13:58:18+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Valutazione della segmentazione semantica debolmente supervisionata per piccoli oggetti

Nuovi metodi migliorano la valutazione delle prestazioni di piccoli oggetti in WSSS.

2025-09-22T00:11:00+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare i sistemi di generazione aumentata da recupero

Un nuovo framework per valutare i sistemi RAG senza riferimenti umani.

2025-09-21T17:51:48+00:00 ― 6 leggere min

Calcolo e linguaggio Nuovo metodo di valutazione per la qualità delle risposte

Introducendo un metodo che misura la qualità delle risposte a diversi livelli di dettaglio.

2025-09-18T05:04:12+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare i Metodi di Valutazione nei Sistemi di Domanda e Risposta

Questo studio propone nuovi metodi per valutare le risposte nel campo della domanda e risposta automatica.

2025-09-15T03:20:12+00:00 ― 8 leggere min

Intelligenza artificiale Migliorare i Metodi di Valutazione delle Spiegazioni dell'IA

Nuovi metodi migliorano la valutazione delle spiegazioni dei modelli di intelligenza artificiale.

2025-09-13T08:41:04+00:00 ― 7 leggere min

Calcolo e linguaggio Progressi nella Valutazione dei Modelli Linguistici con WSC+

Un nuovo dataset e un metodo migliorano la generazione di domande nei modelli linguistici.

2025-09-12T20:18:00+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare la Verifica del Ragionamento nei Modelli Linguistici

Nuovo dataset migliora la verifica dei passaggi di ragionamento nei modelli di IA.

2025-09-12T11:28:42+00:00 ― 7 leggere min

Calcolo e linguaggio Valutare i modelli di linguaggio con nuovi benchmark

Quest'articolo presenta un benchmark per valutare modelli di linguaggio grandi con compiti complessi.

2025-09-11T04:55:54+00:00 ― 7 leggere min

Calcolo e linguaggio Valutare la Ricchezza del Vocabolario in ChatGPT

Uno studio su come ChatGPT usa il linguaggio e le caratteristiche del vocabolario.

2025-09-09T07:46:12+00:00 ― 10 leggere min

Intelligenza artificiale Valutare i grandi modelli di linguaggio nella cybersecurity

Uno sguardo dettagliato alla valutazione di CyberMetric degli esperti di AI e umani nella cybersecurity.

2025-09-08T19:39:24+00:00 ― 9 leggere min

Calcolo e linguaggio Valutare la modifica dei modelli nei testi lunghi

Un nuovo metodo valuta l'efficacia della modifica dei modelli nel generare testi più lunghi.

2025-09-08T06:21:30+00:00 ― 9 leggere min

Calcolo e linguaggio Migliorare i Metodi di Valutazione per il Question Answering

Un nuovo sistema per valutare la correttezza delle risposte dell'IA con un giudizio simile a quello umano.

2025-09-07T13:06:36+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Valutare l'Unlearning delle Macchine nei Modelli di Diffusione

Il nuovo dataset migliora i metodi di valutazione per il machine unlearning nella generazione di immagini.

2025-09-06T06:02:12+00:00 ― 6 leggere min

Calcolo e linguaggio Introducing FanOutQA: Un Nuovo Dataset per Rispondere a Domande Complesse

FanOutQA aiuta a valutare i modelli linguistici su domande difficili a più passaggi usando dati strutturati.

2025-09-05T08:58:12+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Affrontare le allucinazioni visive nei modelli di IA

Un nuovo strumento genera diverse istanze di allucinazioni visive per migliorare l'accuratezza dell'IA.

2025-09-04T23:45:12+00:00 ― 6 leggere min

Intelligenza artificiale Valutare le allucinazioni nei grandi modelli visione-linguaggio

Questo articolo parla di un nuovo framework per valutare le allucinazioni nei LVLM.

2025-09-04T12:02:06+00:00 ― 7 leggere min

Apprendimento automatico Benchmark a vita: Un nuovo approccio alla valutazione dei modelli

Un metodo per la valutazione continua dei modelli nel machine learning per prevenire l'overfitting.

2025-09-02T23:49:36+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare la verifica dei fatti nei sistemi RAG

Un nuovo metodo migliora il fact checking nei sistemi di generazione aumentata da recupero.

2025-08-31T22:19:12+00:00 ― 8 leggere min

Calcolo e linguaggio Migliorare il riconoscimento delle intenzioni nei sistemi conversazionali

Migliorare la comprensione delle intenzioni degli utenti attraverso la negazione e l'implicatura.

2025-08-31T10:04:30+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare i modelli di linguaggio sul riconoscimento delle entità discorsive

Un'analisi sulla comprensione delle regole di riconoscimento delle entità da parte dei modelli linguistici.

2025-08-30T21:34:00+00:00 ― 7 leggere min

Ingegneria del software Valutare il realismo negli scenari di test per auto a guida autonoma usando LLM

Questa ricerca valuta l'uso degli LLM per scenari realistici di auto a guida autonoma.

2025-08-29T14:13:48+00:00 ― 8 leggere min

Calcolo e linguaggio Migliorare l'NLP per dialetti diversi

Un framework per migliorare le performance del NLP attraverso vari dialetti linguistici.

2025-08-28T20:51:00+00:00 ― 4 leggere min

Calcolo e linguaggio NovelQA: Un Nuovo Riferimento per la Comprensione dei Testi Lunghi

Valutare i LLM sulla loro capacità di gestire testi lunghi nella letteratura.

2025-08-28T03:12:24+00:00 ― 5 leggere min

Apprendimento automatico Valutare l'affidabilità dei LLM nei biomedi

Un nuovo framework valuta quanto siano affidabili gli LLM come assistenti biomedici.

2025-08-27T05:13:06+00:00 ― 5 leggere min

Ingegneria del software Valutare i modelli di linguaggio del codice: la sfida della contaminazione dei dati

Uno studio mette in evidenza l'impatto della contaminazione dei dati sulle valutazioni dei modelli di codice.

2025-08-25T23:27:42+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare i Modelli Linguistici nella Ricerca Molecolare

Un nuovo dataset migliora la valutazione della conoscenza molecolare nei modelli linguistici.

2025-08-24T19:45:30+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Trasformare la comprensione delle immagini con SPHINX-V

SPHINX-V migliora la capacità dell'IA di interpretare le immagini tramite l'interazione dell'utente.

2025-08-24T07:49:48+00:00 ― 6 leggere min

Calcolo e linguaggio BEAR: Un Nuovo Framework per Valutare i Modelli Linguistici

BEAR migliora la valutazione della conoscenza relazionale nei modelli di linguaggio.

2025-08-22T05:16:12+00:00 ― 9 leggere min

Calcolo e linguaggio Valutare la coerenza parafrastica nei modelli linguistici

Questo studio esamina come i modelli linguistici gestiscono diverse espressioni degli stessi problemi di ragionamento.

2025-08-18T21:28:48+00:00 ― 5 leggere min

Calcolo e linguaggio Valutare la Tossicità nei Modelli Linguistici Multilingue

Un nuovo set di dati valuta come i modelli linguistici gestiscono contenuti dannosi in diverse culture.

2025-08-17T13:52:48+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare l'accuratezza dei grandi modelli vision-linguaggio

Un nuovo benchmark migliora il modo in cui valutiamo gli LVLM e la loro precisione.

2025-08-17T06:46:12+00:00 ― 5 leggere min

Calcolo e linguaggio Valutare il Richiamo Fattuale nei Grandi Modelli di Linguaggio

Una valutazione di quanto bene i LLM ricordano le informazioni di fatto e i fattori coinvolti.

2025-08-16T20:45:48+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Valutare i modelli di testo in immagine: un nuovo approccio

Questo studio offre metodi migliori per valutare i modelli da testo a immagine.

2025-08-16T12:59:42+00:00 ― 7 leggere min

Calcolo e linguaggio Avanzare nel Few-Shot Learning per i compiti di lingua polacca

Uno studio che valuta i metodi di few-shot learning per la classificazione della lingua polacca.

2025-08-15T22:38:36+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Valutare l'estrazione delle informazioni nei testi scritti a mano

Nuove metriche migliorano la valutazione dei sistemi di estrazione delle informazioni nei documenti scritti a mano.

2025-08-15T11:58:42+00:00 ― 7 leggere min

Calcolo e linguaggio Presentiamo WorkBench: un nuovo dataset di compiti da ufficio

WorkBench testa la capacità degli agenti di svolgere compiti d'ufficio realistici con un metodo di valutazione unico.

2025-08-14T22:09:12+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare i grandi modelli di linguaggio in un mondo che cambia

Valutare come i LLM si adattano a nuove informazioni e pregiudizi.

2025-08-11T02:46:36+00:00 ― 7 leggere min

Intelligenza artificiale Valutare i modelli linguistici con il framework ALI-Agent

Un nuovo metodo per valutare quanto i modelli linguistici siano in linea con i valori umani.

2025-08-09T06:16:24+00:00 ― 7 leggere min