Articoli più recenti per Benchmark

Visione artificiale e riconoscimento di modelli Migliorare l'adattabilità di CLIP nella visione artificiale

Nuovi metodi migliorano le prestazioni di CLIP in diversi domini visivi.

2025-07-09T12:16:54+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Nuovo benchmark migliora la comprensione video-linguistica

Un nuovo benchmark migliora la comprensione dei modelli riguardo ai video lunghi e al linguaggio.

2025-07-09T01:29:06+00:00 ― 5 leggere min

Calcolo e linguaggio Valutare l'impatto degli agenti web sui compiti online

Questo articolo valuta l'efficacia degli agenti web nella gestione di compiti online complessi.

2025-07-09T00:10:06+00:00 ― 7 leggere min

Architettura hardware Migliorare la generazione di codice HDL con il prompting gerarchico

Un nuovo metodo migliora l'efficienza dei LLM nella creazione di design hardware complessi.

2025-07-08T15:05:00+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare i Benchmark per l'Open Information Extraction

Un nuovo benchmark cerca di migliorare le valutazioni dei sistemi OIE per avere migliori intuizioni sulle performance.

2025-07-08T12:34:54+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Avanzamenti nell'imaging iperspettrale con HyTAS

HyTAS semplifica la ricerca di modelli di trasformatori nell'imaging iperspettrale.

2025-07-08T02:26:36+00:00 ― 8 leggere min

Calcolo e linguaggio Affrontare le allucinazioni nei modelli di linguaggio

Un nuovo benchmark valuta i LLM per l'accuratezza fattuale.

2025-07-07T18:08:54+00:00 ― 6 leggere min

Calcolo e linguaggio La necessità di personalizzazione nei modelli di IA

Nuovi metodi per personalizzare i modelli linguistici AI sono essenziali per la diversità degli utenti.

2025-07-07T00:54:00+00:00 ― 6 leggere min

Genomica Integrazione di sequenze di DNA e descrizioni per migliorare la previsione della funzione genica

Un nuovo dataset combina sequenze di DNA e descrizioni delle funzioni degli enzimi per migliorare i modelli predittivi.

2025-07-06T21:54:09+00:00 ― 8 leggere min

Apprendimento automatico Nuovo metodo di riferimento per valutare gli algoritmi di apprendimento per rinforzo

Un nuovo approccio migliora i confronti tra algoritmi di apprendimento per rinforzo in ambienti diversi.

2025-07-06T13:03:00+00:00 ― 7 leggere min

Robotica Nuovo punto di riferimento per l'addestramento dei robot nelle case

Un nuovo benchmark punta a migliorare l'addestramento dei robot in ambienti casalinghi realistici.

2025-07-06T07:31:12+00:00 ― 7 leggere min

Calcolo e linguaggio Ottimizzare la valutazione dei modelli linguistici con Metabench

Un nuovo framework di benchmarking migliora l'efficienza nella valutazione dei modelli di linguaggio.

2025-07-05T16:27:28+00:00 ― 6 leggere min

Intelligenza artificiale Valutare i modelli di linguaggio con nuovi metodi di benchmarking

Un approccio nuovo per migliorare le valutazioni dei compiti di coding per i modelli di linguaggio.

2025-07-05T07:49:12+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare i benchmark per i sistemi di testo-a-visualizzazione

La ricerca analizza l'efficacia degli attuali benchmark nei compiti di visualizzazione.

2025-07-05T07:17:36+00:00 ― 5 leggere min

Ingegneria del software Valutare le sfide di coding per i modelli linguistici

Un nuovo framework valuta la difficoltà nei compiti di coding per i modelli di linguaggio di grandi dimensioni.

2025-07-05T04:39:36+00:00 ― 9 leggere min

Calcolo e linguaggio Valutare il ragionamento logico nei modelli di linguaggio grandi

Lo studio valuta le capacità di ragionamento dei modelli di linguaggio di grandi dimensioni con domande complesse.

2025-07-04T17:20:12+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Migliorare i modelli visione-linguaggio con UniBench

Un nuovo framework per valutare i modelli visione-lingua in modo efficace.

2025-06-30T16:33:42+00:00 ― 6 leggere min

Apprendimento automatico Nuovo benchmark per il rilevamento delle anomalie nell'apprendimento federato

Presentiamo uno strumento per valutare i metodi di rilevamento di anomalie non supervisionato nell'apprendimento federato.

2025-06-30T09:58:42+00:00 ― 7 leggere min

Bioinformatica Valutare le abilità dell'IA nei protocolli biologici

Valutare i modelli di AI per la loro capacità di seguire le procedure di laboratorio.

2025-06-28T19:07:49+00:00 ― 7 leggere min

Logica nell'informatica Sviluppi nelle Tecniche di Conteggio dei Modelli

Una rassegna dei recenti miglioramenti negli strumenti di conteggio dei modelli e delle loro applicazioni pratiche.

2025-06-28T16:14:24+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare i modelli di riconoscimento delle emozioni nel parlato con un nuovo benchmark

Un nuovo benchmark migliora la valutazione dei sistemi di riconoscimento delle emozioni nel parlato attraverso lingue ed emozioni.

2025-06-28T04:15:30+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Valutazione di modelli 3D per la stima della posa degli oggetti

Questo articolo esamina l'efficacia dei modelli 3D basati su immagini nella stima della posa.

2025-06-27T11:55:54+00:00 ― 8 leggere min

Visione artificiale e riconoscimento di modelli Valutare i Modelli di Linguaggio Visivo Attraverso MuCR

Nuovi benchmark testano il ragionamento causale dell'IA usando solo immagini.

2025-06-27T08:46:18+00:00 ― 8 leggere min

Apprendimento automatico Valutare i Grandi Modelli Linguistici per l'Uso Reale

Un nuovo approccio per valutare i LLM con set di valutazione diversi.

2025-06-26T22:53:48+00:00 ― 7 leggere min

Calcolo e linguaggio Valutare gli agenti di modelli linguistici nella ricerca scientifica

Un nuovo benchmark valuta gli agenti dei modelli linguistici per gestire l'analisi dei dati scientifici.

2025-06-26T10:47:00+00:00 ― 8 leggere min

Calcolo e linguaggio Ripensare l'apprendimento delle lingue: LLM vs. Persone

Un'analisi dei LLM e delle loro differenze rispetto all'acquisizione del linguaggio umano.

2025-06-26T08:48:30+00:00 ― 8 leggere min

Dinamica dei fluidi Indagare sulla generazione di suono da cilindri oscillanti nei fluidi

Studiare come i cilindri in movimento creano onde sonore nei fluidi per applicazioni pratiche.

2025-06-26T05:24:09+00:00 ― 5 leggere min

Intelligenza artificiale Valutare l'apprendimento delle regole nei modelli di linguaggio

Un nuovo benchmark valuta come i LLM imparano attraverso le interazioni.

2025-06-26T01:57:42+00:00 ― 5 leggere min

Calcolo e linguaggio O-HuBERT: Un Passo Avanti nel Riconoscimento Vocale

O-HuBERT migliora il riconoscimento vocale separando il contenuto dalle informazioni espressive.

2025-06-24T20:04:24+00:00 ― 6 leggere min

Calcolo e linguaggio Nuovo benchmark per la generazione di testi nell'energia eolica

Presentiamo PermitQA, un benchmark per valutare i sistemi RAG nell'energia eolica.

2025-06-24T13:37:18+00:00 ― 7 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale in hindi con pseudo-etichettatura

Un nuovo metodo migliora il riconoscimento vocale per l'hindi usando tecniche di pseudo-etichettatura.

2025-06-24T06:02:40+00:00 ― 5 leggere min

Intelligenza artificiale Nuovo benchmark per valutare la generazione di codice nei LLM

Un benchmark multidominio valuta le capacità di generazione di codice degli LLM in diversi ambiti.

2025-06-23T06:56:36+00:00 ― 7 leggere min

Intelligenza artificiale Valutare la capacità dell'AI di capire grafici fuorvianti

Un nuovo metodo testa come l'IA interpreta grafici fuorvianti.

2025-06-22T02:38:06+00:00 ― 6 leggere min

Ingegneria del software Valutare la Risoluzione dei Problemi in Java: Un Nuovo Benchmark

Un nuovo progetto di riferimento punta a valutare le capacità di risoluzione dei problemi di Java.

2025-06-22T01:27:00+00:00 ― 5 leggere min

Intelligenza artificiale Bilanciare Sicurezza e Utilità nei Modelli di Linguaggio

Un nuovo approccio semplifica la sicurezza e l'aiuto nella formazione dei modelli linguistici.

2025-06-21T13:59:42+00:00 ― 10 leggere min

Multimedia Sistemi di interazione multimodale all'avanzamento

Migliorare come le macchine assistono gli utenti tramite interazioni e risposte migliori.

2025-06-19T23:48:42+00:00 ― 5 leggere min

Suono Valutare Grandi Modelli Linguistici in Musicologia

Questo studio analizza l'efficacia dei LLM nella musicologia e la loro affidabilità.

2025-06-19T15:55:20+00:00 ― 6 leggere min

Informatica distribuita, parallela e in cluster Comprendere il JUPITER Benchmark Suite nell'HPC

Uno strumento completo per valutare i sistemi di calcolo ad alte prestazioni.

2025-06-19T14:12:00+00:00 ― 7 leggere min

Linguaggi di programmazione Wasm-R3: Benchmarking Efficiente per le Applicazioni WebAssembly

Un sistema per registrare e riprodurre azioni nelle app WebAssembly.

2025-06-18T22:08:12+00:00 ― 7 leggere min

Architettura hardware Avanzamenti nella partizione del design VLSI usando GNN

Esplorare tecniche di machine learning per un partizionamento efficiente nel design VLSI.

2025-06-18T13:50:30+00:00 ― 6 leggere min