Articoli più recenti per Valutazione

Intelligenza artificiale Sfruttare i modelli linguistici per generare ipotesi scientifiche

Questo articolo esplora come i LLM generano e affinano ipotesi scientifiche a partire dai dati esistenti.

2025-08-22T06:43:06+00:00 ― 7 leggere min

Intelligenza artificiale Migliorare il completamento del Knowledge Graph con KGExplainer

KGExplainer migliora la trasparenza nel completamento dei grafi di conoscenza attraverso spiegazioni significative.

2025-08-22T01:42:54+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Nuovo metodo per creare immagini umane realistiche

Un nuovo approccio per generare immagini dettagliate di persone in scenari complessi.

2025-08-21T20:26:54+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare la Sicurezza dei Grandi Modelli Linguistici

Una rassegna dei dataset focalizzati sul miglioramento della sicurezza degli LLM.

2025-08-21T08:04:18+00:00 ― 7 leggere min

Intelligenza artificiale Un Nuovo Approccio all'Apprendimento Multi-Agente

Rivoluzionare le performance degli agenti attraverso valutazione e accumulo di esperienze.

2025-08-21T05:42:06+00:00 ― 7 leggere min

Intelligenza artificiale Valutare e Migliorare gli Agenti Digitali

Un focus sui metodi per valutare e migliorare le performance degli agenti digitali.

2025-08-21T02:24:36+00:00 ― 3 leggere min

Ingegneria del software Migliorare la Risoluzione dei Bug con i Grandi Modelli Linguistici

Un nuovo metodo usa LLM per migliorare l'efficienza nella riparazione dei programmi.

2025-08-20T06:55:24+00:00 ― 5 leggere min

Calcolo e linguaggio Valutare l'Auto-Riflessione nei Modelli Linguistici

La ricerca svela come l'auto-riflessione influisce sulle prestazioni dei modelli di linguaggio in base ai diversi tipi di domande.

2025-08-20T01:15:42+00:00 ― 6 leggere min

Logica Il Ruolo della Sostituzione Schematica e dell'Unificazione nella Logica

Esplorando concetti chiave nella logica e nella scienza dei computer per un ragionamento efficace.

2025-08-19T18:55:30+00:00 ― 7 leggere min

Ingegneria del software Valutare i requisiti del software con i modelli di linguaggio

Uno sguardo all'uso dei modelli linguistici per valutare la soddisfazione dei requisiti software.

2025-08-18T13:50:36+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Valutare la percezione visiva nei modelli di linguaggio

Un nuovo benchmark rivela lacune nella comprensione visiva dei modelli di linguaggio grandi.

2025-08-18T12:23:42+00:00 ― 7 leggere min

Economia teorica Mercati di Matching: L'Impatto del Rumore sulle Ammissioni Universitarie

Analizzando come il rumore influisce sul matchmaking tra studenti e università nei processi di ammissione.

2025-08-18T06:13:18+00:00 ― 7 leggere min

Calcolo e linguaggio Migliorare l'accuratezza nei riassunti scientifici con il feedback

Usare meccanismi di feedback per migliorare i riassunti scientifici generati dagli LLM.

2025-08-18T05:40:48+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Sviluppi nel Visual Question Answering incentrato sul testo

Il nuovo dataset Square-10M migliora notevolmente le capacità di risposta a domande visive open-source.

2025-08-18T02:31:12+00:00 ― 7 leggere min

Ingegneria del software Automatizzare la generazione di scenari di test nello sviluppo software

Quest'articolo presenta un metodo per generare scenari di test a partire da requisiti in linguaggio naturale.

2025-08-18T02:15:24+00:00 ― 8 leggere min

Calcolo e linguaggio Un nuovo metodo per l'automazione del web

Questo approccio migliora l'estrazione dei dati dalle pagine web usando regole strutturate.

2025-08-18T01:59:36+00:00 ― 5 leggere min

Calcolo e linguaggio Valutare l'accuratezza dei grandi modelli vision-linguaggio

Un nuovo benchmark migliora il modo in cui valutiamo gli LVLM e la loro precisione.

2025-08-17T06:46:12+00:00 ― 5 leggere min

Logica nell'informatica CHC-COMP 2023: Valutazione dei risolutori di Clausi Horn con vincoli

La competizione CHC ha messo in mostra i progressi nei solver e le loro applicazioni nella verifica dei programmi.

2025-08-17T00:50:42+00:00 ― 6 leggere min

Calcolo e linguaggio Feedback automatizzato: un nuovo modo di scrivere saggi

Questo studio esplora sistemi automatizzati per fornire feedback sugli saggi usando modelli linguistici.

2025-08-16T18:31:30+00:00 ― 6 leggere min

Apprendimento automatico Il Ruolo Crescente dei Dati Sintetici nella Ricerca

I dati sintetici offrono soluzioni economiche garantendo privacy e riducendo il bias.

2025-08-16T18:07:48+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare i modelli di linguaggio con il benchmark VISLA

Un nuovo benchmark valuta la comprensione dei modelli linguistici riguardo ai significati delle parole e alle loro relazioni.

2025-08-16T08:07:24+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Valutare l'estrazione delle informazioni nei testi scritti a mano

Nuove metriche migliorano la valutazione dei sistemi di estrazione delle informazioni nei documenti scritti a mano.

2025-08-15T11:58:42+00:00 ― 7 leggere min

Sistemi multiagente Valutare le prestazioni dell'IA nei sistemi multiagente

Un framework per valutare le strategie di IA in ambienti competitivi e cooperativi.

2025-08-15T07:22:12+00:00 ― 7 leggere min

Ingegneria del software Misurare la fiducia nei riassunti di codice generati dall'IA

Valutare l'affidabilità dei riassunti prodotti dall'IA per migliorare la manutenzione del software.

2025-08-15T02:53:36+00:00 ― 7 leggere min

Informatica sanitaria Il Ruolo di ChatGPT nella Sanità

Esaminando come ChatGPT influisce sulla salute e i suoi potenziali utilizzi.

2025-08-14T23:39:30+00:00 ― 5 leggere min

Calcolo e linguaggio DynaMo: Avanzamento dei modelli linguistici con previsione multi-token

I modelli DynaMo generano testo più velocemente e con qualità migliore usando la previsione multi-token.

2025-08-14T23:04:30+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare le sezioni di Lavori Correlati nei Documenti di Ricerca

Un nuovo dataset migliora la generazione delle sezioni di lavoro correlato nei documenti scientifici.

2025-08-14T00:33:36+00:00 ― 8 leggere min

Recupero delle informazioni Avanzando la Ricerca Conversazionale con TREC iKAT

TREC iKAT punta a migliorare le interazioni con gli agenti conversazionali attraverso dialoghi personalizzati.

2025-08-13T20:28:42+00:00 ― 7 leggere min

Calcolo e linguaggio Automatizzare le Risposte alle Recensioni dei Clienti

SCRABLE offre soluzioni automatiche per una gestione efficace delle recensioni delle app.

2025-08-13T13:53:42+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Valutando il Futuro dei Modelli Multi-modali Video-Grandi

Valutare le capacità e le sfide dei modelli avanzati di comprensione video.

2025-08-13T12:42:36+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare le spiegazioni dell'IA: un nuovo approccio

Questo studio analizza l'efficacia dei LLM nel valutare le spiegazioni generate dall'IA.

2025-08-12T12:36:54+00:00 ― 8 leggere min

Calcolo e linguaggio Valutare i modelli linguistici: il benchmark DoLoMiTes

Un nuovo framework valuta quanto bene i modelli di linguaggio aiutano gli esperti con i compiti di scrittura.

2025-08-12T08:39:54+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Ehi, ti presento PEAVS: un modo nuovo per misurare la sincronizzazione audio-visiva!

PEAVS analizza quanto bene audio e video funzionano insieme per migliorare l'esperienza degli spettatori.

2025-08-12T03:19:55+00:00 ― 7 leggere min

Intelligenza artificiale Valutare l'impatto dell'addestramento DNN: Un nuovo metodo

Un modo veloce per valutare le prestazioni di un DNN dopo un nuovo addestramento.

2025-08-12T00:22:12+00:00 ― 6 leggere min

Apprendimento automatico Migliorare la trasparenza dei modelli AI con autoencoder sparsi

I codificatori sparsi migliorano l'interpretabilità dei sistemi di intelligenza artificiale e dei loro processi decisionali.

2025-08-11T02:07:06+00:00 ― 4 leggere min

Calcolo e linguaggio Valutare la comprensione del sapere del mondo da parte dell'IA

Uno sguardo a come i modelli di intelligenza artificiale afferrano le conoscenze essenziali del mondo.

2025-08-10T22:41:42+00:00 ― 6 leggere min

Calcolo e linguaggio Valutare la Tossicità nei Modelli Linguistici Multilingue

Nuovo benchmark valuta la tossicità nei modelli di linguaggio grandi in diverse lingue.

2025-08-10T21:30:36+00:00 ― 8 leggere min

Ingegneria del software Migliorare le valutazioni di fuzzing per una qualità del software migliore

Questo articolo parla della necessità di avere pratiche di valutazione migliori nella ricerca sul fuzzing.

2025-08-10T15:11:24+00:00 ― 6 leggere min

Interazione uomo-macchina Valutazione dei Metodi di Salienza in NLP: Una Prospettiva Umana

Questo studio valuta i metodi di salienza nel NLP attraverso la valutazione umana.

2025-08-10T07:56:54+00:00 ― 9 leggere min

Apprendimento automatico Migliorare l'analisi delle heatmap per le decisioni AI

Presentiamo PQAH per capire meglio le heatmap dell'AI e la loro valutazione.

2025-08-09T15:29:24+00:00 ― 8 leggere min