Um projeto focado em melhorar a geração de histórias em árabe usando modelos avançados.
― 8 min ler
Ciência de ponta explicada de forma simples
Um projeto focado em melhorar a geração de histórias em árabe usando modelos avançados.
― 8 min ler
Uma nova abordagem para avaliar grandes modelos de linguagem para obter insights de desempenho melhores.
― 6 min ler
A pesquisa apresenta novos métodos para avaliar sistemas de reconhecimento de fala em polonês.
― 7 min ler
Descubra como dados sintéticos ajudam os varejistas a proteger a privacidade dos clientes enquanto ganham insights.
― 8 min ler
O DocBench faz testes em sistemas baseados em LLM para ler e responder a vários formatos de documentos.
― 5 min ler
Uma estrutura pra avaliar as habilidades dos LLMs em tarefas relacionadas a dados com interpretadores de código.
― 6 min ler
Analisando o impacto dos LLMs nos estereótipos sociais e formas de melhorar os resultados.
― 6 min ler
Esse estudo propõe um método novo de avaliação pra entender vídeo e texto.
― 7 min ler
Analisando a importância e as dificuldades de avaliar modelos de IA multimodal.
― 7 min ler
Um novo conjunto de dados pra melhorar o desempenho em perguntas e respostas usando respostas longas, feitas por humanos.
― 7 min ler
Os modelos Phi-3 se concentram na segurança e em alinhar com os valores humanos.
― 7 min ler
Analisando problemas com modelos de linguagem grandes em prever itens faltando na lista.
― 7 min ler
Um estudo comparando modelos de IA e avaliações humanas de resumos científicos.
― 6 min ler
Um novo benchmark avalia modelos de linguagem em desafios de codificação científica em várias áreas.
― 7 min ler
Check-Eval usa listas de verificação pra melhorar a avaliação da qualidade do texto.
― 8 min ler
A ProtoDep oferece insights claros pra detectar depressão analisando redes sociais.
― 9 min ler
Esse estudo analisa o desempenho de circuitos de redes neurais e a confiabilidade deles.
― 4 min ler
Um novo framework pra criar imagens de alta qualidade com base em layouts específicos.
― 6 min ler
O HaloQuest resolve problemas de alucinação em modelos de visão-linguagem com um novo conjunto de dados.
― 12 min ler
Um novo método melhora a precisão e a eficiência do rastreamento de pontos na processaçao de vídeo.
― 6 min ler
Uma ferramenta melhora a categorização de ações, ajudando os desenvolvedores a serem mais eficientes nos fluxos de trabalho.
― 5 min ler
Um novo método melhora o design estrutural minimizando o estresse de forma eficaz.
― 6 min ler
Um novo parâmetro avalia LLMs para precisão factual.
― 7 min ler
Uma nova abordagem para avaliar conjuntos de títulos mais rápido sem referências humanas.
― 8 min ler
Uma nova forma de avaliar agentes pessoais usando modelos de linguagem.
― 7 min ler
Avaliar modelos de machine learning pra garantir justiça entre diferentes populações.
― 7 min ler
Dallah dá um suporte pra dialetos árabes, melhorando a comunicação em texto e imagens.
― 7 min ler
Um kit de ferramentas feito pra avaliar melhor as interações entre humanos e bots.
― 6 min ler
Usando marcas de relevância geradas por IA pra avaliar de forma eficiente sistemas de recuperação de informações.
― 9 min ler
Uma nova abordagem melhora as comparações de algoritmos de aprendizado por reforço em diferentes ambientes.
― 8 min ler
Um novo parâmetro pra avaliar modelos que analisam música e linguagem.
― 7 min ler
Explore diferentes frameworks e métodos para avaliar modelos de linguagem grandes de forma eficaz.
― 7 min ler
Uma nova abordagem pra avaliar a confiabilidade dos métodos que explicam a tomada de decisão da IA.
― 9 min ler
AxiomVision traz uma nova forma de analisar vídeos, melhorando o desempenho em condições que mudam.
― 7 min ler
Uma nova ferramenta pra avaliar métodos de explicabilidade em sistemas de IA.
― 10 min ler
BackdoorBench oferece uma abordagem unificada para avaliar métodos de aprendizado backdoor em redes neurais profundas.
― 9 min ler
Uma avaliação do desempenho zero-shot de LLMs multimodais em várias tarefas.
― 6 min ler
Uma nova ferramenta melhora o processo de tradução de questionários entre idiomas.
― 4 min ler
Estudo avalia as habilidades de raciocínio de modelos de linguagem grandes com perguntas complexas.
― 6 min ler
Um desafio de prever mortes em conflitos armados com foco na incerteza.
― 8 min ler