Analisando como os modelos conseguem detectar comentários tóxicos em diferentes dialetos de idiomas.
Fahim Faisal, Md Mushfiqur Rahman, Antonios Anastasopoulos
― 7 min ler
Ciência de ponta explicada de forma simples
Analisando como os modelos conseguem detectar comentários tóxicos em diferentes dialetos de idiomas.
Fahim Faisal, Md Mushfiqur Rahman, Antonios Anastasopoulos
― 7 min ler
MTFusion combina imagens e texto pra criar modelos 3D avançados.
Yu Liu, Ruowei Wang, Jiaqi Li
― 6 min ler
Uma olhada nas admissões holísticas e seu impacto nos futuros médicos.
Andrew D. Bergemann, Stephen R. Smith, Joel A. Daboub
― 7 min ler
Um novo método para criar materiais realistas aumenta a flexibilidade para artistas e designers.
Chenliang Zhou, Zheyuan Hu, Alejandro Sztrajman
― 6 min ler
Uma nova abordagem lida com os preconceitos em modelos de imagem-texto de forma eficaz.
Haoyu Zhang, Yangyang Guo, Mohan Kankanhalli
― 7 min ler
Avaliando a eficácia dos modelos de linguagem em tarefas de programação com novos benchmarks.
Nidhish Shah, Zulkuf Genc, Dogu Araci
― 6 min ler
Entendendo como Grafos de Conhecimento podem reduzir informações falsas nas respostas da IA.
Ernests Lavrinovics, Russa Biswas, Johannes Bjerva
― 7 min ler
Uma nova maneiras de avaliar modelos de tomada de decisão de IA usando mapas de atribuição.
Lars Nieradzik, Henrike Stephani, Janis Keuper
― 8 min ler
Analisando como humanos e IA podem trabalhar juntos de forma eficaz.
Filip Ilievski, Barbara Hammer, Frank van Harmelen
― 11 min ler
Uma visão geral de como os LLMs melhoram os processos de avaliação enquanto enfrentam desafios importantes.
Jiawei Gu, Xuhui Jiang, Zhichao Shi
― 8 min ler
Este estudo analisa como os LLMs avaliam a criatividade no Teste de Usos Alternativos.
Abdullah Al Rabeyah, Fabrício Góes, Marco Volpe
― 5 min ler
O STAR automatiza a construção de modelos de IA para resultados mais inteligentes e rápidos.
Armin W. Thomas, Rom Parnichkun, Alexander Amini
― 8 min ler
O ER 2Score melhora a avaliação de qualidade dos relatórios de radiologia automatizados.
Yunyi Liu, Yingshu Li, Zhanyu Wang
― 6 min ler
Transformando textos em vídeos realistas, usando as leis da física.
Qiyao Xue, Xiangyu Yin, Boyuan Yang
― 7 min ler
Modelos de linguagem grandes são avaliadores confiáveis? Explorando a consistência nas suas avaliações.
Noah Lee, Jiwoo Hong, James Thorne
― 8 min ler
ChemTEB ajuda a melhorar o processamento de textos químicos avaliando modelos especializados.
Ali Shiraee Kasmaee, Mohammad Khodadad, Mohammad Arshi Saloot
― 9 min ler
AgriBench avalia ferramentas de IA pra ajudar a tomar decisões mais inteligentes na agricultura.
Yutong Zhou, Masahiro Ryo
― 8 min ler
Aprenda como o SelfPrompt ajuda a avaliar a força dos modelos de linguagem de forma eficaz.
Aihua Pei, Zehua Yang, Shunan Zhu
― 4 min ler
Aprenda como o sandbagging afeta as avaliações de IA e maneiras de detectá-lo.
Cameron Tice, Philipp Alexander Kreer, Nathan Helm-Burger
― 7 min ler
Saiba como os pesquisadores simplificam textos em cingalês pra facilitar a compreensão.
Surangika Ranathunga, Rumesh Sirithunga, Himashi Rathnayake
― 7 min ler
O TDD-Bench melhora a geração automática de testes pra desenvolvedores que usam métodos TDD.
Toufique Ahmed, Martin Hirzel, Rangeet Pan
― 8 min ler
Pesquisadores melhoram o reconhecimento de fala automático usando supervisão de paráfrase pra entender melhor.
Amruta Parulekar, Abhishek Gupta, Sameep Chattopadhyay
― 6 min ler
Um novo método melhora a precisão nos relatórios automáticos de raio-X do peito.
R. Mahmood, K. C. L. Wong, D. M. Reyes
― 6 min ler
Descubra o mundo emocionante da IA em jogos competitivos.
Chengwei Hu, Jianhui Zheng, Yancheng He
― 8 min ler
Uma olhada em como as métricas de tradução automática podem ser justas e consistentes.
Pius von Däniken, Jan Deriu, Mark Cieliebak
― 9 min ler
Os benchmarks de IA mostram o desempenho, mas geralmente não entendem o uso no mundo real.
Amelia Hardy, Anka Reuel, Kiana Jafari Meimandi
― 9 min ler
Uma competição pra melhorar como as máquinas aprendem línguas, tipo como as crianças fazem.
Michael Y. Hu, Aaron Mueller, Candace Ross
― 9 min ler
Pesquisadores desenvolvem um novo método pra melhorar a precisão da IA de texto pra imagem.
Ziyuan Qin, Dongjie Cheng, Haoyu Wang
― 10 min ler
Um novo método permite que os neurônios funcionem de forma independente, melhorando o treinamento de redes neurais.
Deepak Kumar
― 8 min ler
Explorando questões de avaliação em Inteligência Artificial Explicável e a busca por confiança.
Kristoffer Wickstrøm, Marina Marie-Claire Höhne, Anna Hedström
― 7 min ler
Descubra o papel da DECO em facilitar e tornar as tarefas de engenharia mais eficientes.
Yiwen Zhu, Mathieu Demarne, Kai Deng
― 10 min ler
Os avanços em processamento de imagem estão mudando a forma como os computadores entendem conteúdo visual.
XuDong Wang, Xingyi Zhou, Alireza Fathi
― 7 min ler
Um novo método melhora o desempenho de LLM em avaliações personalizadas com dados limitados.
Javad Seraj, Mohammad Mahdi Mohajeri, Mohammad Javad Dousti
― 7 min ler
Explorando como os alunos gerenciam seus próprios processos de aprendizado do ensino médio pra faculdade.
Yixin Cheng, Rui Guan, Tongguang Li
― 8 min ler
Descubra como o Controle Preditivo por Modelo melhora a habilidade de tomada de decisão das máquinas.
Kehan Wen, Yutong Hu, Yao Mu
― 6 min ler
Novo benchmark melhora dados em holandês para modelos de recuperação de informação.
Nikolay Banar, Ehsan Lotfi, Walter Daelemans
― 7 min ler
Descubra como os objetos clássicos se conectam ao comportamento estranho das partículas quânticas.
Giuseppe Nisticò
― 8 min ler
O dataset MALAMUTE testa modelos de linguagem sobre temas educacionais pra uma melhor compreensão.
Sagi Shaier, George Arthur Baker, Chiranthan Sridhar
― 9 min ler
CG-Bench ajuda máquinas a analisar vídeos longos melhor com perguntas baseadas em dicas.
Guo Chen, Yicheng Liu, Yifei Huang
― 7 min ler
Um novo parâmetro pra testar o raciocínio de LLMs em diferentes culturas.
Mohammad Aflah Khan, Neemesh Yadav, Sarah Masud
― 8 min ler