Articoli più recenti per Valutazione dei Dati

Visione artificiale e riconoscimento di modelli Sfidare i limiti dei modelli visione-lingua

Un nuovo benchmark testa il ragionamento composizionale nei modelli avanzati.

2025-07-29T19:42:42+00:00 ― 7 leggere min

Calcolo e linguaggio Valutare l'allucinazione nei grandi modelli linguistici

Nuovo dataset aiuta a valutare l'accuratezza e l'affidabilità dei testi generati dall'AI.

2025-07-29T07:12:12+00:00 ― 7 leggere min

Calcolo e linguaggio RUPBench: Valutare la Robustezza nei Modelli Linguistici

Un nuovo benchmark valuta come i modelli linguistici gestiscono le modifiche al testo.

2025-07-28T07:06:30+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare i Modelli di Linguaggio di Grandi Dimensioni con Recupero Aggiuntivo

Un toolkit per valutare le performance dei modelli potenziati dal recupero in specifici settori.

2025-07-27T18:28:06+00:00 ― 10 leggere min

Visione artificiale e riconoscimento di modelli Presentiamo VideoVista: un nuovo punto di riferimento per il QA video

VideoVista offre una valutazione completa per i modelli di domanda-risposta su video.

2025-07-27T13:35:48+00:00 ― 6 leggere min

Econometria Stimare gli effetti del trattamento in diverse progettazioni

Metodi per misurare gli effetti del trattamento tra gruppi diversi e nel tempo.

2025-07-24T23:14:12+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Un nuovo approccio per valutare i modelli di testo in immagine

Questo articolo presenta un nuovo metodo per valutare in modo efficace i modelli da testo a immagine.

2025-07-24T20:25:18+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Valutazione di Modelli Visione-Linguaggio di Grandi Dimensioni con Dysca

Dysca introduce un nuovo modo per valutare le prestazioni LVLM utilizzando dati sintetici.

2025-07-24T03:49:54+00:00 ― 7 leggere min

Calcolo e linguaggio Valutazione della Revisione delle Credenze nei Modelli Linguistici

Un nuovo metodo misura come i modelli linguistici adattano le loro credenze con nuove prove.

2025-07-22T18:07:30+00:00 ― 9 leggere min

Calcolo e linguaggio Valutare gli agenti AI nella ricerca biomedica

Un nuovo benchmark per valutare le performance degli agenti AI nella letteratura biomedica e nei grafi di conoscenza.

2025-07-22T12:04:06+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Affrontare l'equità nei modelli di imaging medico

Presentiamo FairMedFM per valutare l'equità dei modelli di fondazione nella sanità.

2025-07-21T07:45:36+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Valutare le allucinazioni nei modelli di linguaggio della visione medica

Questo studio valuta come i LVLM medici si comportano in mezzo alle allucinazioni utilizzando un nuovo dataset.

2025-07-21T04:12:18+00:00 ― 6 leggere min

Ingegneria del software Migliorare la rilevazione delle vulnerabilità nei sistemi software

Esplorando modelli di machine learning e nuovi dataset per una sicurezza migliore.

2025-07-20T06:36:42+00:00 ― 7 leggere min

Apprendimento automatico Nuovo metodo per valutare i modelli generativi

FKEA offre un modo nuovo per valutare i modelli generativi senza bisogno di dataset di riferimento.

2025-07-20T04:38:12+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare la Traduzione Automatica: Passare a una Valutazione a Livello di Segmento

Uno sguardo ai vantaggi dei metodi di valutazione a livello di segmento per la qualità della traduzione.

2025-07-19T23:14:18+00:00 ― 9 leggere min

Visione artificiale e riconoscimento di modelli Migliorare il rilevamento 3D degli oggetti per una guida autonoma più sicura

Nuove metriche e modulo EdgeHead migliorano il rilevamento 3D per veicoli autonomi.

2025-07-19T11:54:54+00:00 ― 7 leggere min

Apprendimento automatico Migliorare la valutazione dei modelli linguistici con metodi stratificati

Un nuovo approccio migliora l'accuratezza delle valutazioni dei modelli di linguaggio.

2025-07-18T10:41:56+00:00 ― 7 leggere min

Calcolo e linguaggio Valutare la fiducia nell'elaborazione di documenti lunghi

Migliorare come i modelli gestiscono le prove in documenti lunghi costruisce la fiducia degli utenti.

2025-07-15T22:35:42+00:00 ― 4 leggere min

Calcolo e linguaggio Affrontare il bias nei modelli di linguaggio con BiasAlert

BiasAlert migliora il rilevamento dei bias nei modelli linguistici per output AI più equi.

2025-07-13T20:41:36+00:00 ― 5 leggere min

Calcolo e linguaggio Valutare i modelli linguistici: L'approccio GraphEval

Un nuovo metodo per valutare l'accuratezza nei risultati dei modelli linguistici.

2025-07-13T06:36:18+00:00 ― 4 leggere min

Visione artificiale e riconoscimento di modelli Valutare le allucinazioni nei modelli di linguaggio visivo

Un nuovo benchmark fa luce sulle allucinazioni nei modelli di linguaggio visivi.

2025-07-10T21:59:18+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Il Ruolo della Granularità nel Recupero di Immagini e Testo

Questo studio mette in evidenza l'importanza della granularità dei dataset nel migliorare i sistemi di retrieval immagine-testo.

2025-07-09T13:35:54+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Un Nuovo Metodo per Valutare la Qualità dei Campioni Generati

Ecco un modo efficiente per valutare la qualità dei campioni generati usando i punteggi di densità latente.

2025-07-09T12:09:00+00:00 ― 9 leggere min

Visione artificiale e riconoscimento di modelli Nuovo benchmark migliora la comprensione video-linguistica

Un nuovo benchmark migliora la comprensione dei modelli riguardo ai video lunghi e al linguaggio.

2025-07-09T01:29:06+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli HaloQuest: Un Nuovo Approccio all'Allucinazione nei VLMs

HaloQuest affronta i problemi di allucinazione nei modelli vision-linguistici con un nuovo dataset.

2025-07-08T23:14:48+00:00 ― 10 leggere min

Calcolo e linguaggio Migliorare i Benchmark per l'Open Information Extraction

Un nuovo benchmark cerca di migliorare le valutazioni dei sistemi OIE per avere migliori intuizioni sulle performance.

2025-07-08T12:34:54+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Avanzando la valutazione dei modelli di linguaggio visivo con il benchmark VisMin

Un nuovo benchmark per testare i modelli visivi-linguistici su cambiamenti minimi in immagini e didascalie.

2025-07-08T11:08:00+00:00 ― 7 leggere min

Calcolo e linguaggio Migliorare la fiducia nei modelli linguistici attraverso l'astensione

Questo studio mette in evidenza la necessità che i LLM sappiano quando astenersi.

2025-07-08T00:36:00+00:00 ― 6 leggere min

Metodologia Valutare le Previsioni Probabilistiche: Un Nuovo Quadro

Le regole di punteggio corretto migliorano la valutazione delle previsioni probabilistiche in vari settori.

2025-07-07T20:11:36+00:00 ― 8 leggere min

Metodologia Analizzare gli effetti del trattamento nei trial a grappolo

Un approccio per stimare meglio gli effetti del trattamento in esperimenti randomizzati a cluster abbinati.

2025-07-07T12:41:00+00:00 ― 6 leggere min

Recupero delle informazioni Valutare i sistemi di recupero delle informazioni con annotazioni AI

Usare segni di rilevanza generati dall'AI per valutare meglio i sistemi di recupero delle informazioni.

2025-07-06T13:19:08+00:00 ― 8 leggere min

Calcolo e linguaggio Affrontare la fuga di argomenti nella verifica dell'autore

Un nuovo metodo migliora l'accuratezza della valutazione nella verifica dell'autore riducendo la fuoriuscita di argomenti.

2025-07-06T02:38:54+00:00 ― 8 leggere min

Calcolo e linguaggio Valutare i sistemi di generazione aumentata da recupero

Un nuovo framework migliora la valutazione dei sistemi RAG in settori specializzati.

2025-07-03T13:09:36+00:00 ― 9 leggere min

Calcolo e linguaggio Migliorare i metodi di valutazione per la comprensione della lettura automatica

Nuovi metodi offrono una valutazione migliore della comprensione del linguaggio nei modelli.

2025-06-29T22:47:12+00:00 ― 6 leggere min

Elaborazione di immagini e video Migliorare la Valutazione delle Immagini di Microscopia con MicroSSIM

MicroSSIM migliora la valutazione della qualità delle immagini nella microscopia per risultati scientifici migliori.

2025-06-29T12:21:40+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare i sistemi di generazione aumentata da recupero

Un nuovo framework per valutare le performance dei sistemi RAG.

2025-06-27T07:51:00+00:00 ― 7 leggere min

Calcolo e linguaggio Nuovo benchmark valuta la conoscenza legale nei modelli di lingua araba

ArabLegalEval valuta le performance dei LLM nella gestione delle informazioni legali arabe.

2025-06-27T05:52:30+00:00 ― 6 leggere min

Apprendimento automatico Affrontare le allucinazioni relazionali nell'AI multimodale

Nuovo benchmark affronta le allucinazioni relazionali nei modelli linguistici multimodali di grandi dimensioni.

2025-06-26T06:26:18+00:00 ― 6 leggere min

Recupero delle informazioni Nuovo metodo per valutare le risposte sulla salute dai modelli linguistici

Un nuovo modo per valutare le risposte sulla salute generate dai modelli di intelligenza artificiale.

2025-06-25T15:09:54+00:00 ― 7 leggere min

Calcolo e linguaggio Valutare i Chatbot: L'Ascesa di Soda-Eval

Soda-Eval stabilisce nuovi standard per i metodi di valutazione dei chatbot.

2025-06-25T03:58:24+00:00 ― 6 leggere min