Un nuovo benchmark valuta quanto bene i modelli di IA mimano il linguaggio umano.
Xufeng Duan, Bei Xiao, Xuemei Tang
― 5 leggere min
Scienza all'avanguardia spiegata semplicemente
Un nuovo benchmark valuta quanto bene i modelli di IA mimano il linguaggio umano.
Xufeng Duan, Bei Xiao, Xuemei Tang
― 5 leggere min
Un nuovo metodo migliora l'accuratezza nelle risposte alle domande sulle tabelle unendo due sistemi.
Siyue Zhang, Anh Tuan Luu, Chen Zhao
― 8 leggere min
Un nuovo metodo per generare distrattori coinvolgenti nelle valutazioni educative.
Devrim Cavusoglu, Secil Sen, Ulas Sert
― 5 leggere min
Un nuovo metodo punta a migliorare il testo alternativo per le icone delle app mobili per aiutare gli utenti non vedenti.
Sabrina Haque, Christoph Csallner
― 5 leggere min
DREAMS semplifica l'apprendimento profondo per i dati EEG, promuovendo la trasparenza e pratiche etiche.
Rabindra Khadka, Pedro G Lind, Anis Yazidi
― 7 leggere min
Uno sguardo su come valutare l'affidabilità delle spiegazioni dell'IA attraverso la sensibilità agli attacchi.
Supriya Manna, Niladri Sett
― 7 leggere min
I modelli recenti migliorano la capacità dell'AI di generare e comprendere diversi media.
Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo
― 5 leggere min
ARLBench semplifica la regolazione degli iperparametri per l'apprendimento per rinforzo con strumenti di benchmarking efficienti.
Jannis Becktepe, Julian Dierkes, Carolin Benjamins
― 8 leggere min
Un modello per valutare la qualità della segmentazione senza riferimenti di verità di terreno.
Ahjol Senbi, Tianyu Huang, Fei Lyu
― 8 leggere min
Un metodo per gestire i dati dei sensori in conflitto nei veicoli autonomi per migliorare la sicurezza.
Oliver Schumann, Thomas Wodtko, Michael Buchholz
― 5 leggere min
ESPnet-Codec migliora l'addestramento e la valutazione dei codec neurali per audio e parlato.
Jiatong Shi, Jinchuan Tian, Yihan Wu
― 7 leggere min
Un metodo in tre passaggi per condividere dati in modo sicuro proteggendo la privacy.
Tung Sum Thomas Kwok, Chi-hua Wang, Guang Cheng
― 6 leggere min
Nuovo benchmark affronta le lacune nella valutazione degli LLM per la decisione clinica.
Fenglin Liu, Z. Li, H. Zhou
― 7 leggere min
Visualizzare i programmi funzionali può semplificare il processo di debug per i programmatori.
John Whitington, Tom Ridge
― 7 leggere min
Esplorare come l'AI generativa stia influenzando i processi di design delle interazioni.
Marie Muehlhaus, Jürgen Steimle
― 5 leggere min
Questo studio analizza i valori nei testi umani e quelli generati dall'IA per una comprensione migliore.
Scott E. Friedman, Noam Benkler, Drisana Mosaphir
― 3 leggere min
NetworkCommons è un nuovo strumento per studiare le interazioni molecolari.
Victor Paton, Denes Türei, Olga Ivanova
― 7 leggere min
Un nuovo framework migliora il ragionamento nei modelli linguistici con razionali di qualità.
Jaehyeok Lee, Keisuke Sakaguchi, JinYeong Bak
― 7 leggere min
Uno studio confronta modelli di IA nella comprensione delle relazioni spaziali.
Shang Hong Sim, Clarence Lee, Alvin Tan
― 7 leggere min
Esaminare le vulnerabilità e le difese dei nuovi modelli di intelligenza artificiale.
Yangyang Guo, Fangkai Jiao, Liqiang Nie
― 7 leggere min
Esaminando quanto bene i modelli rilevano commenti tossici in vari dialetti linguistici.
Fahim Faisal, Md Mushfiqur Rahman, Antonios Anastasopoulos
― 7 leggere min
MTFusion combina immagini e testo per la creazione avanzata di modelli 3D.
Yu Liu, Ruowei Wang, Jiaqi Li
― 6 leggere min
Uno sguardo alle ammissioni olistiche e il loro impatto sui futuri medici.
Andrew D. Bergemann, Stephen R. Smith, Joel A. Daboub
― 7 leggere min
Un nuovo metodo per creare materiali realistici aumenta la flessibilità per artisti e designer.
Chenliang Zhou, Zheyuan Hu, Alejandro Sztrajman
― 6 leggere min
Un nuovo approccio affronta efficacemente i bias nei modelli immagine-testo.
Haoyu Zhang, Yangyang Guo, Mohan Kankanhalli
― 7 leggere min
Valutare l'efficacia dei modelli linguistici nei compiti di coding con nuovi benchmark.
Nidhish Shah, Zulkuf Genc, Dogu Araci
― 5 leggere min
Capire come i grafi della conoscenza possono ridurre le informazioni false nelle risposte dell'IA.
Ernests Lavrinovics, Russa Biswas, Johannes Bjerva
― 6 leggere min
Un approccio nuovo per valutare i modelli di decisione dell'IA usando le mappe di attribuzione.
Lars Nieradzik, Henrike Stephani, Janis Keuper
― 7 leggere min
Esplorando come gli esseri umani e l'IA possano collaborare in modo efficace.
Filip Ilievski, Barbara Hammer, Frank van Harmelen
― 10 leggere min
Una panoramica di come i LLM migliorano i processi di valutazione affrontando le principali sfide.
Jiawei Gu, Xuhui Jiang, Zhichao Shi
― 7 leggere min
Questo studio esamina quanto bene gli LLM valutano la creatività nel Test delle Usi Alternativi.
Abdullah Al Rabeyah, Fabrício Góes, Marco Volpe
― 5 leggere min
STAR automatizza la creazione di modelli AI per risultati più intelligenti e veloci.
Armin W. Thomas, Rom Parnichkun, Alexander Amini
― 7 leggere min
ER 2Score migliora la valutazione della qualità dei referti radiologici automatizzati.
Yunyi Liu, Yingshu Li, Zhanyu Wang
― 5 leggere min
Trasformare i prompt testuali in video realistici integrando le leggi fisiche.
Qiyao Xue, Xiangyu Yin, Boyuan Yang
― 6 leggere min
I modelli di linguaggio grandi sono valutatori affidabili? Esplorando la coerenza nelle loro valutazioni.
Noah Lee, Jiwoo Hong, James Thorne
― 7 leggere min
ChemTEB aiuta a migliorare l'elaborazione dei testi chimici valutando modelli specializzati.
Ali Shiraee Kasmaee, Mohammad Khodadad, Mohammad Arshi Saloot
― 8 leggere min
AgriBench valuta strumenti di intelligenza artificiale per supportare decisioni agricole più intelligenti.
Yutong Zhou, Masahiro Ryo
― 7 leggere min
Scopri come SelfPrompt aiuta a valutare l'efficacia dei modelli linguistici in modo efficace.
Aihua Pei, Zehua Yang, Shunan Zhu
― 4 leggere min
Scopri come il sandbagging influisce sulle valutazioni dell'IA e i modi per rilevarlo.
Cameron Tice, Philipp Alexander Kreer, Nathan Helm-Burger
― 6 leggere min
Scopri come i ricercatori semplificano i testi in Sinhala per una comprensione migliore.
Surangika Ranathunga, Rumesh Sirithunga, Himashi Rathnayake
― 7 leggere min