Articoli più recenti per Benchmark

Apprendimento automatico Progresso nel Disimparare delle Macchine: Un Benchmark Unificato

Un nuovo benchmark per l'unlearning delle macchine migliora la valutazione e il confronto dei metodi.

2025-07-26T12:42:42+00:00 ― 8 leggere min

Ingegneria del software Progressi nella Generazione di Codice con Tecniche di Recupero Aumentato

Un nuovo metodo migliora l'accuratezza della generazione del codice usando documenti esterni.

2025-07-26T08:06:12+00:00 ― 7 leggere min

Prestazioni CEBench: Un Approccio Bilanciato per Valutare i LLM

CEBench aiuta le aziende e i ricercatori a valutare i LLM mentre gestiscono costi e prestazioni.

2025-07-26T00:43:48+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare l'apprendimento in contesto nei modelli linguistici

I risultati della ricerca mettono in evidenza le capacità di apprendimento in contesto nei modelli di linguaggio di grandi dimensioni.

2025-07-25T16:18:12+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Valutare i modelli SLAM in ambienti rumorosi

Un nuovo framework valuta le prestazioni del SLAM in condizioni difficili.

2025-07-25T00:06:30+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Valutare le allucinazioni nei modelli video-linguistici

Un nuovo benchmark valuta come i modelli video-linguistici gestiscono efficacemente le imprecisioni.

2025-07-24T17:47:18+00:00 ― 7 leggere min

Calcolo e linguaggio L'Influenza dei Modelli Linguistici sulla Persuasione

Valutare come i LLM creano testi persuasivi su vari argomenti.

2025-07-24T13:26:36+00:00 ― 6 leggere min

Calcolo e linguaggio Valutazione dei modelli di linguaggio italiani con i test INVALSI

Questo studio valuta le prestazioni dei modelli linguistici utilizzando i test INVALSI italiani.

2025-07-24T09:37:30+00:00 ― 8 leggere min

Apprendimento automatico Migliorare l'Apprendimento Attivo con un Nuovo Strumento di Benchmarking

Uno strumento di riferimento promuove strategie di apprendimento attivo nel machine learning.

2025-07-24T06:51:36+00:00 ― 7 leggere min

Ingegneria del software Valutazione degli LLM per la generazione di dichiarazioni nella progettazione hardware

Questo articolo valuta l'efficacia dei grandi modelli linguistici nella creazione di affermazioni hardware.

2025-07-24T01:27:42+00:00 ― 7 leggere min

Calcolo e linguaggio Migliorare la lettura dello schermo per le disabilità visive

Un nuovo sistema di intelligenza artificiale migliora l'accessibilità per gli utenti con disabilità visive attraverso una migliore lettura dello schermo.

2025-07-23T10:27:06+00:00 ― 5 leggere min

Calcolo e linguaggio Introduzione di un nuovo benchmark per i modelli di lingua russa

Un benchmark di coppie minime mira a migliorare la comprensione della grammatica russa da parte dei modelli linguistici.

2025-07-23T09:55:30+00:00 ― 7 leggere min

Apprendimento automatico Scoperta Efficiente dei Dati con Modelli Basati su Schizzi

Un nuovo modello semplifica l'analisi dei dati in enormi dataset usando schizzi.

2025-07-23T03:44:12+00:00 ― 7 leggere min

Apprendimento automatico Introducendo le Funzioni di Ehrlich per l'Ottimizzazione delle Sequenze

Un nuovo standard per migliorare i metodi di ottimizzazione delle sequenze biofisiche.

2025-07-23T01:53:36+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Un Approccio Innovativo alla Rilevazione delle Anomalie

Questo studio presenta un nuovo metodo per rilevare anomalie in vari contesti.

2025-07-22T23:47:12+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Ripensare i metodi di valutazione per i modelli multimodali

Nuovo benchmark migliora la valutazione dei modelli multimodali minimizzando i bias.

2025-07-22T12:12:00+00:00 ― 6 leggere min

Biomolecole Progressi nella Classificazione degli Enzimi con CARE Benchmark

Un nuovo benchmark aiuta a prevedere il comportamento degli enzimi usando il machine learning.

2025-07-22T04:11:30+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Modelli Avanzati per la Generazione di Descrizioni Video

I nuovi modelli producono descrizioni video di alta qualità in modo efficace.

2025-07-22T02:35:18+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Nuovo benchmark per i modelli visione-linguaggio in microscopia

Un benchmark completo migliora la valutazione dei modelli vision-language per l'analisi delle immagini biologiche.

2025-07-21T21:03:30+00:00 ― 8 leggere min

Calcolo e linguaggio Valutare i modelli linguistici per la ricerca scientifica

Un nuovo benchmark per valutare i modelli linguistici di grandi dimensioni nei test di ipotesi.

2025-07-21T19:52:24+00:00 ― 7 leggere min

Recupero delle informazioni Migliorare il recupero del codice con un nuovo benchmark

Un nuovo benchmark affronta le sfide nel recupero del codice per gli sviluppatori.

2025-07-20T02:47:36+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Valutare la robustezza visiva nei sistemi VQA

Questa ricerca esamina come i problemi visivi influenzano i modelli di Risposta a Domande Visive.

2025-07-19T18:22:00+00:00 ― 7 leggere min

Crittografia e sicurezza NFARD: Un Nuovo Approccio per la Rilevazione del Riutilizzo dei Modelli

NFARD offre metodi innovativi per proteggere i diritti d'autore dei modelli di deep learning.

2025-07-19T07:02:36+00:00 ― 7 leggere min

Intelligenza artificiale Modello di Parapetto Innovativo Migliora la Sicurezza per i Modelli Linguistici

Un nuovo modello migliora il monitoraggio della sicurezza per i grandi modelli di linguaggio contro contenuti nocivi.

2025-07-18T02:12:30+00:00 ― 7 leggere min

Apprendimento automatico Ottimizzazione Bayesiana Avanzata per Problemi Complessi

Uno sguardo a come l'ottimizzazione bayesiana affronta le sfide ad alta dimensione.

2025-07-17T19:40:44+00:00 ― 8 leggere min

Intelligenza artificiale Valutare gli agenti di analisi dei dati con un nuovo benchmark

Un nuovo metodo per valutare gli agenti di analisi dei dati per migliori intuizioni aziendali.

2025-07-17T16:35:48+00:00 ― 6 leggere min

Intelligenza artificiale Standardizzazione della valutazione degli algoritmi per i problemi di taglio massimo

Presentiamo MaxCut-Bench per una valutazione coerente degli algoritmi nelle sfide di ottimizzazione.

2025-07-17T09:34:08+00:00 ― 7 leggere min

Calcolo e linguaggio Valutare la fiducia nell'elaborazione di documenti lunghi

Migliorare come i modelli gestiscono le prove in documenti lunghi costruisce la fiducia degli utenti.

2025-07-15T22:35:42+00:00 ― 4 leggere min

Intelligenza artificiale Benchmarking dei modelli linguistici attraverso giochi classici

Valutare le capacità degli LLM usando giochi su griglia tipo Tris e Forza 4.

2025-07-15T22:27:48+00:00 ― 7 leggere min

Computer e società Garantire la Sicurezza dell'AI: Nuovo Benchmark Introdotto

Un nuovo benchmark mira a valutare in modo efficace i rischi legati alla sicurezza dell'IA.

2025-07-15T13:14:48+00:00 ― 8 leggere min

Architettura hardware Sviluppi nel design hardware multi-modale

Combinare immagini e linguaggio migliora l'accuratezza nella generazione di codice hardware.

2025-07-15T02:50:42+00:00 ― 6 leggere min

Apprendimento automatico Valutare i modelli di previsione spaziotemporale

Un nuovo benchmark risponde alla necessità di una valutazione standard nella previsione spaziotemporale.

2025-07-15T01:47:30+00:00 ― 7 leggere min

Calcolo e linguaggio Tecniche di valutazione dei modelli linguistici in evoluzione

Nuovi metodi migliorano i test per i modelli linguistici, concentrandosi su aree chiave di performance.

2025-07-15T00:20:36+00:00 ― 6 leggere min

Apprendimento automatico Affrontare le sfide nell'apprendimento dei grafi con un nuovo benchmark

Un nuovo benchmark per valutare i metodi di apprendimento sui grafi che affrontano l'eterofilia e l'eterogeneità.

2025-07-13T09:22:12+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare i LLM usando interpreti di codice per compiti di data science

Un framework per valutare le capacità dei LLM in compiti legati ai dati con interpreti di codice.

2025-07-13T01:20:18+00:00 ― 5 leggere min

Calcolo e linguaggio Analizzando la comprensione della negazione da parte di CLIP

Uno sguardo a come CLIP gestisce la negazione nel linguaggio.

2025-07-13T01:04:30+00:00 ― 6 leggere min

Apprendimento automatico Equità nell'Apprendimento dei Grafi: Un Nuovo Benchmark

Stabilire un benchmark per valutare l'equità nei metodi di apprendimento grafico.

2025-07-12T17:26:18+00:00 ― 8 leggere min

Intelligenza artificiale Sviluppi nel Ragionamento con Modelli Linguistici

Esplorare come i modelli linguistici affrontano i compiti di ragionamento in modo efficace.

2025-07-12T06:46:24+00:00 ― 5 leggere min

Intelligenza artificiale Valutare i modelli linguistici nella programmazione scientifica

Un nuovo benchmark valuta i modelli di linguaggio su sfide di programmazione scientifica in vari campi.

2025-07-10T17:22:48+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Progressi nell'interpretazione dei grafici delle macchine

Un nuovo modello migliora il modo in cui le macchine leggono i grafici, anche senza etichette.

2025-07-10T11:11:30+00:00 ― 5 leggere min