VideoVista ofrece una evaluación completa para modelos de preguntas y respuestas de video.
― 7 minilectura
Ciencia de vanguardia explicada de forma sencilla
VideoVista ofrece una evaluación completa para modelos de preguntas y respuestas de video.
― 7 minilectura
Este artículo explora métodos para mejorar la fiabilidad de los artefactos de investigación en informática.
― 9 minilectura
Los modelos GLM-4 muestran capacidades mejoradas en comprensión y generación de lenguaje.
― 10 minilectura
Un estudio sobre el uso de LLMs para juzgar otros LLMs y sus implicaciones.
― 8 minilectura
Un estudio sobre cómo los modelos de lenguaje generan razones persuasivas para la evaluación de argumentos.
― 7 minilectura
Dos nuevos modelos buscan mejorar el acceso a la tecnología para los hablantes de gallego.
― 6 minilectura
Examinando las dificultades de traducir lenguaje metafórico en la traducción automática.
― 7 minilectura
DF40 ofrece un enfoque integral para mejorar los métodos de detección de deepfakes.
― 7 minilectura
Este estudio evalúa la honestidad de los LLM en tres áreas clave.
― 6 minilectura
Descubre cómo las empresas mejoran sus sistemas de preguntas y respuestas para dar un mejor soporte a los usuarios.
― 5 minilectura
Un estudio sobre cómo la IA comprende los algoritmos y sus implicaciones.
― 8 minilectura
Una nueva métrica mejora la evaluación de modelos de clasificación de texto en diferentes dominios.
― 8 minilectura
La contaminación de datos afecta mucho la evaluación de los modelos de lenguaje grandes.
― 6 minilectura
Un nuevo método para evaluar LLMs se alinea con los valores humanos.
― 8 minilectura
Una nueva herramienta para evaluar sesgos en grandes modelos de visión-lenguaje.
― 7 minilectura
Un estudio evalúa cómo las máquinas crean poesía variada y creativa en comparación con los humanos.
― 7 minilectura
Un nuevo método mejora cómo evaluamos las contranarrativas al discurso de odio.
― 7 minilectura
InternLM-Law mejora las respuestas a diversas preguntas legales chinas con un entrenamiento avanzado.
― 8 minilectura
Explorando cómo los perfiles de usuario mejoran la personalización en los modelos de lenguaje.
― 7 minilectura
La investigación muestra que los modelos tienen problemas con las dependencias de pasos en las recetas de cocina.
― 6 minilectura
Este documento presenta un método para evaluar modelos de lenguaje en diferentes indicaciones.
― 8 minilectura
Nuevo método aborda las diferencias regionales en la evaluación del sesgo de género.
― 7 minilectura
El conjunto de datos M2Lingual mejora las capacidades de seguir instrucciones en varios idiomas.
― 7 minilectura
Este artículo presenta un nuevo método para evaluar modelos de texto a imagen de manera efectiva.
― 8 minilectura
Este estudio evalúa el rendimiento de los Modelos de Lenguaje utilizando las pruebas INVALSI italianas.
― 9 minilectura
RAGBench presenta un conjunto de datos completo para evaluar sistemas de Generación Aumentada de Recuperación.
― 8 minilectura
Dysca presenta una nueva forma de evaluar el rendimiento de LVLM utilizando datos sintéticos.
― 8 minilectura
Una mirada a los métodos modernos en el diseño de ingeniería para la eficiencia y el rendimiento.
― 9 minilectura
Un nuevo enfoque mejora la extracción de eventos causales utilizando evaluación centrada en el ser humano.
― 6 minilectura
Evaluando cómo el deferir a expertos humanos afecta la precisión de las predicciones en modelos de ML.
― 10 minilectura
Presentando un nuevo método para mejores soluciones en tareas complejas de ingeniería y robótica.
― 7 minilectura
Un estudio que evalúa la calidad de los conjuntos de datos para identificar el discurso de odio en línea.
― 10 minilectura
Un nuevo método mide cómo los modelos de lenguaje adaptan sus creencias con nueva evidencia.
― 11 minilectura
Nuevo estándar mejora la evaluación de modelos multimodales al minimizar sesgos.
― 7 minilectura
GraphArena evalúa el rendimiento de LLM en problemas de grafos usando datos del mundo real.
― 7 minilectura
Explora un método justo para compartir el crédito en proyectos en grupo.
― 7 minilectura
Un nuevo estándar para evaluar modelos de lenguaje grandes en pruebas de hipótesis.
― 8 minilectura
CRAB mejora las pruebas para modelos de lenguaje en entornos del mundo real.
― 8 minilectura
Este artículo examina el impacto de los cambios temporales en las evaluaciones de sistemas de recuperación de información.
― 6 minilectura
Presentamos FairMedFM para evaluar la equidad de los modelos de base en el sector salud.
― 7 minilectura