Articoli più recenti per Metodi di valutazione

Fisica e società Un Approccio Giusto per Classificare le Scelte

Impara a classificare opinioni e scelte in modo equo usando principi statistici.

2025-08-13T13:14:24+00:00 ― 6 leggere min

Informatica sanitaria Valutare la generazione di linguaggio naturale in medicina

Uno studio sulla valutazione dei sistemi NLG per diagnosi mediche accurate.

2025-08-12T17:03:30+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare la comprensione del sapere del mondo da parte dell'IA

Uno sguardo a come i modelli di intelligenza artificiale afferrano le conoscenze essenziali del mondo.

2025-08-10T22:41:42+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare la NLG con il framework AdvEval

AdvEval mette in luce le debolezze nelle metriche di valutazione della Generazione del Linguaggio Naturale.

2025-08-08T07:29:42+00:00 ― 7 leggere min

Calcolo e linguaggio Migliorare la Valutazione Umana dei Modelli Linguistici

Un nuovo framework per valutare i modelli di linguaggio di grandi dimensioni con l'intuizione umana.

2025-08-06T00:03:48+00:00 ― 8 leggere min

Intelligenza artificiale Un nuovo approccio alla presa di decisioni con la logica a sette valori

Scopri come la logica a sette valori migliora il processo decisionale con più criteri.

2025-08-04T05:00:30+00:00 ― 6 leggere min

Intelligenza artificiale Valutare il favoritismo nei metriche dell'IA generativa

Un nuovo modo per valutare i pregiudizi nei metriche di valutazione automatica dell'AI.

2025-08-02T22:04:00+00:00 ― 7 leggere min

Calcolo e linguaggio Avanzamenti nella generazione di testo controllabile con LLMs

Valutare i metodi per un controllo preciso delle caratteristiche del testo nei risultati dei LLM.

2025-08-01T15:23:18+00:00 ― 14 leggere min

Calcolo e linguaggio Valutare i modelli di linguaggio attraverso la collaborazione

Un nuovo framework valuta i modelli linguistici sull'intelligenza emotiva e la creatività.

2025-07-30T00:50:48+00:00 ― 8 leggere min

Apprendimento automatico Valutare le Fonti di Etichettatura con i Valori WeShap

WeShap migliora la qualità delle etichette dei dati per i modelli di machine learning.

2025-07-28T06:50:42+00:00 ― 7 leggere min

Intelligenza artificiale Framework STAR: Potenziare il Red Teaming per la Sicurezza dell'AI

Un nuovo modo per migliorare le valutazioni di sicurezza dei sistemi di IA usando prospettive diverse.

2025-07-27T19:47:06+00:00 ― 5 leggere min

Calcolo e linguaggio Un Nuovo Modo per Valutare i Grandi Modelli Linguistici

La tassonomia di prompting gerarchico migliora i metodi di valutazione per i modelli di linguaggio.

2025-07-27T05:10:12+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare i modelli linguistici: Un nuovo approccio

Uno studio sull'uso dei LLM per giudicare altri LLM e le sue implicazioni.

2025-07-27T04:30:42+00:00 ― 7 leggere min

Calcolo e linguaggio Nuovo Benchmark per Valutare i LLM nella Proprietà Intellettuale

IPEval valuta la comprensione dei modelli linguistici sui concetti di proprietà intellettuale.

2025-07-27T01:29:00+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare modelli linguistici multilingue nelle lingue indiche

Uno studio completo sulle performance dei modelli linguistici in 10 lingue indiche.

2025-07-25T17:37:12+00:00 ― 8 leggere min

Visione artificiale e riconoscimento di modelli ChronoMagic-Bench: Avanzamento della Valutazione dei Video in Time-Lapse

Nuovi benchmark migliorano il modo in cui valutiamo i video time-lapse generati.

2025-07-24T00:40:18+00:00 ― 7 leggere min

Calcolo e linguaggio Valutare i metodi di riassunto dei testi con gli LLM

Questo articolo esamina i metodi per valutare i riassunti di testo usando grandi modelli linguistici.

2025-07-22T04:41:42+00:00 ― 8 leggere min

Visione artificiale e riconoscimento di modelli Valutare la Generazione di Video: Il Protocollo DEVIL

Un nuovo metodo per valutare i modelli da testo a video si concentra sulla dinamica.

2025-07-21T10:07:48+00:00 ― 7 leggere min

Calcolo e linguaggio M5 Benchmark: Valutare modelli multimodali attraverso le culture

Un nuovo benchmark affronta le prestazioni dei modelli linguistici in tutto il mondo.

2025-07-19T04:40:24+00:00 ― 7 leggere min

Calcolo e linguaggio Valutare le storie visive generate dalle macchine

Viene introdotto un nuovo metodo per valutare la qualità delle narrazioni nelle macchine.

2025-07-18T16:09:54+00:00 ― 7 leggere min

Intelligenza artificiale Avanzare gli agenti interattivi con il linguaggio ancorato

Uno studio su come migliorare la capacità dell'IA di seguire istruzioni in linguaggio naturale.

2025-07-15T11:00:30+00:00 ― 8 leggere min

Intelligenza artificiale Valutare le esperienze XAI con la scala XEQ

Una nuova scala aiuta a misurare le esperienze degli utenti nei sistemi di intelligenza artificiale spiegabili.

2025-07-13T03:50:24+00:00 ― 6 leggere min

Intelligenza artificiale Valutare i modelli linguistici nella programmazione scientifica

Un nuovo benchmark valuta i modelli di linguaggio su sfide di programmazione scientifica in vari campi.

2025-07-10T17:22:48+00:00 ― 6 leggere min

Apprendimento automatico Nuovo Framework per Valutare la Generalizzazione dei Modelli AI

Presentiamo un metodo per valutare i modelli di intelligenza artificiale su dati non visti in modo più efficace.

2025-07-09T06:05:36+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare i Modelli Linguistici: Un Nuovo Toolkit

Un kit di strumenti pensato per valutare meglio le interazioni tra umani e bot.

2025-07-06T18:11:06+00:00 ― 5 leggere min

Suono Valutare la comprensione musicale con il benchmark MuChoMusic

Un nuovo parametro per valutare i modelli che analizzano musica e linguaggio.

2025-07-06T05:29:45+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Valutare i modelli di immagini per la comprensione dei grafici

Un nuovo framework valuta come i modelli d'immagine interpretano le informazioni grafiche attraverso la precisione dei canali.

2025-07-04T23:23:36+00:00 ― 5 leggere min

Apprendimento automatico Valutare gli autoencoder sparsi con i giochi da tavolo

Un nuovo approccio per valutare gli autoencoder sparsi attraverso scacchi e Othello.

2025-07-04T12:43:42+00:00 ― 5 leggere min

Recupero delle informazioni Workshop sui Modelli Linguistici Grandi per il Recupero dell'Informazione

I ricercatori parlano dell'impatto dei LLM sui sistemi di valutazione del recupero delle informazioni.

2025-06-30T04:26:54+00:00 ― 6 leggere min

Apprendimento automatico Valutare i Grandi Modelli Linguistici per l'Uso Reale

Un nuovo approccio per valutare i LLM con set di valutazione diversi.

2025-06-26T22:53:48+00:00 ― 7 leggere min

Calcolo e linguaggio Valutare i Modelli di Linguaggio Grandi in Modo Equo

Un nuovo modo per valutare i modelli linguistici con istruzioni e compiti diversi.

2025-06-23T14:58:30+00:00 ― 7 leggere min

Computer e società Valutare l'IA affidabile: Metodi e sfide

Uno sguardo alla valutazione dei sistemi AI affidabili e ai metodi coinvolti.

2025-06-21T05:26:12+00:00 ― 6 leggere min

Ingegneria del software Valutare i riassunti dei report di bug con gli LLM

Questo studio esamina come i LLM valutano i riassunti dei report sui bug rispetto ai valutatori umani.

2025-06-18T20:41:18+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare la generazione di testi lunghi negli LLM

LongGenBench valuta i modelli di linguaggio grandi nella generazione di testi lunghi di alta qualità.

2025-06-17T21:54:36+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Valutare i modelli di visione artificiale con la teoria della risposta all'oggetto

Usare l'IRT per valutare meglio le performance dei modelli di visione artificiale.

2025-06-15T21:19:30+00:00 ― 5 leggere min

Intelligenza artificiale Nuovo Benchmark VisScience Valuta l'Apprendimento Multi-Modale

VisScience testa modelli grandi sul ragionamento scientifico usando testi e immagini.

2025-06-15T07:37:54+00:00 ― 5 leggere min

Calcolo e linguaggio Valutare il Grounded Question Answering con GroUSE

Questo articolo parla delle sfide e delle soluzioni nella valutazione dei modelli di risposta a domande basate su contesto.

2025-06-14T07:48:00+00:00 ― 10 leggere min

Calcolo e linguaggio Valutare i Sistemi di Generazione Aumentata da Recupero: Un Nuovo Dataset

Presentiamo un dataset per valutare le performance dei sistemi RAG in scenari reali.

2025-06-09T11:56:00+00:00 ― 6 leggere min

Calcolo e linguaggio Presentiamo Michelangelo: Una Nuova Valutazione per i Modelli Linguistici

Michelangelo valuta i modelli di linguaggio sulla loro capacità di ragionare attraverso contesti lunghi.

2025-06-09T07:51:06+00:00 ― 4 leggere min

Calcolo e linguaggio Kalahi: Valutare i modelli linguistici nella cultura filippina

Uno strumento per valutare la rilevanza e l'adeguatezza dei modelli linguistici nei contesti filippini.

2025-06-09T04:49:24+00:00 ― 5 leggere min