SEACrowd busca mejorar la representación de IA para los idiomas y culturas del sudeste asiático.
― 8 minilectura
Ciencia de vanguardia explicada de forma sencilla
SEACrowd busca mejorar la representación de IA para los idiomas y culturas del sudeste asiático.
― 8 minilectura
Un estudio evalúa modelos de lenguaje en cómo manejan múltiples tareas al mismo tiempo.
― 9 minilectura
Una nueva evaluación pone a prueba las habilidades de los LLMs con formatos de datos estructurados.
― 7 minilectura
VCEval ofrece una forma automatizada de evaluar la efectividad de los cursos en línea.
― 6 minilectura
Un nuevo estándar busca la composicionalidad en la comprensión de video y los modelos de lenguaje.
― 7 minilectura
Un nuevo método mejora las pruebas para modelos de lenguaje usando datos reales de usuarios.
― 6 minilectura
La familia Nemotron-4 340B ofrece modelos potentes para diversas aplicaciones y generación de datos sintéticos.
― 8 minilectura
Evaluando cómo los modelos de lenguaje manejan las señales culturales en tareas reales.
― 9 minilectura
VideoVista ofrece una evaluación completa para modelos de preguntas y respuestas de video.
― 7 minilectura
Este artículo explora métodos para mejorar la fiabilidad de los artefactos de investigación en informática.
― 9 minilectura
Los modelos GLM-4 muestran capacidades mejoradas en comprensión y generación de lenguaje.
― 10 minilectura
Un estudio sobre el uso de LLMs para juzgar otros LLMs y sus implicaciones.
― 8 minilectura
Un estudio sobre cómo los modelos de lenguaje generan razones persuasivas para la evaluación de argumentos.
― 7 minilectura
Dos nuevos modelos buscan mejorar el acceso a la tecnología para los hablantes de gallego.
― 6 minilectura
Examinando las dificultades de traducir lenguaje metafórico en la traducción automática.
― 7 minilectura
DF40 ofrece un enfoque integral para mejorar los métodos de detección de deepfakes.
― 7 minilectura
Este estudio evalúa la honestidad de los LLM en tres áreas clave.
― 6 minilectura
Descubre cómo las empresas mejoran sus sistemas de preguntas y respuestas para dar un mejor soporte a los usuarios.
― 5 minilectura
Un estudio sobre cómo la IA comprende los algoritmos y sus implicaciones.
― 8 minilectura
Una nueva métrica mejora la evaluación de modelos de clasificación de texto en diferentes dominios.
― 8 minilectura
La contaminación de datos afecta mucho la evaluación de los modelos de lenguaje grandes.
― 6 minilectura
Un nuevo método para evaluar LLMs se alinea con los valores humanos.
― 8 minilectura
Una nueva herramienta para evaluar sesgos en grandes modelos de visión-lenguaje.
― 7 minilectura
Un estudio evalúa cómo las máquinas crean poesía variada y creativa en comparación con los humanos.
― 7 minilectura
Un nuevo método mejora cómo evaluamos las contranarrativas al discurso de odio.
― 7 minilectura
InternLM-Law mejora las respuestas a diversas preguntas legales chinas con un entrenamiento avanzado.
― 8 minilectura
Explorando cómo los perfiles de usuario mejoran la personalización en los modelos de lenguaje.
― 7 minilectura
La investigación muestra que los modelos tienen problemas con las dependencias de pasos en las recetas de cocina.
― 6 minilectura
Este documento presenta un método para evaluar modelos de lenguaje en diferentes indicaciones.
― 8 minilectura
Nuevo método aborda las diferencias regionales en la evaluación del sesgo de género.
― 7 minilectura
El conjunto de datos M2Lingual mejora las capacidades de seguir instrucciones en varios idiomas.
― 7 minilectura
Este artículo presenta un nuevo método para evaluar modelos de texto a imagen de manera efectiva.
― 8 minilectura
Este estudio evalúa el rendimiento de los Modelos de Lenguaje utilizando las pruebas INVALSI italianas.
― 9 minilectura
RAGBench presenta un conjunto de datos completo para evaluar sistemas de Generación Aumentada de Recuperación.
― 8 minilectura
Dysca presenta una nueva forma de evaluar el rendimiento de LVLM utilizando datos sintéticos.
― 8 minilectura
Una mirada a los métodos modernos en el diseño de ingeniería para la eficiencia y el rendimiento.
― 9 minilectura
Un nuevo enfoque mejora la extracción de eventos causales utilizando evaluación centrada en el ser humano.
― 6 minilectura
Evaluando cómo el deferir a expertos humanos afecta la precisión de las predicciones en modelos de ML.
― 10 minilectura
Presentando un nuevo método para mejores soluciones en tareas complejas de ingeniería y robótica.
― 7 minilectura
Un estudio que evalúa la calidad de los conjuntos de datos para identificar el discurso de odio en línea.
― 10 minilectura