Nuevo estándar mejora la evaluación de modelos multimodales al minimizar sesgos.
― 7 minilectura
Ciencia de vanguardia explicada de forma sencilla
Nuevo estándar mejora la evaluación de modelos multimodales al minimizar sesgos.
― 7 minilectura
GraphArena evalúa el rendimiento de LLM en problemas de grafos usando datos del mundo real.
― 7 minilectura
Explora un método justo para compartir el crédito en proyectos en grupo.
― 7 minilectura
Un nuevo estándar para evaluar modelos de lenguaje grandes en pruebas de hipótesis.
― 8 minilectura
CRAB mejora las pruebas para modelos de lenguaje en entornos del mundo real.
― 8 minilectura
Este artículo examina el impacto de los cambios temporales en las evaluaciones de sistemas de recuperación de información.
― 6 minilectura
Presentamos FairMedFM para evaluar la equidad de los modelos de base en el sector salud.
― 7 minilectura
Nuevo conjunto de datos mejora el rendimiento del modelo de lenguaje árabe y fomenta la comunicación efectiva.
― 7 minilectura
Estudiando cómo la cuantización afecta el rendimiento en diferentes idiomas.
― 7 minilectura
Explorando modelos de aprendizaje automático y nuevos conjuntos de datos para mejorar la seguridad.
― 9 minilectura
Un nuevo estándar aborda los desafíos en la recuperación de código para los desarrolladores.
― 9 minilectura
Nuevos métodos mejoran la confiabilidad del texto generado por modelos de lenguaje.
― 5 minilectura
Una herramienta para identificar respuestas engañosas de modelos de lenguaje grandes.
― 7 minilectura
Descubre la importancia y los retos de evaluar el rendimiento de los LLM de manera efectiva.
― 6 minilectura
Una mirada a las tablas de clasificación de modelos de fundación y sus problemas de evaluación.
― 9 minilectura
El estudio revela el sesgo en las herramientas de evaluación de IA que favorecen respuestas más largas.
― 6 minilectura
Un nuevo enfoque mejora la precisión de las evaluaciones de modelos de lenguaje.
― 9 minilectura
Un nuevo método para seleccionar lenguajes diversos en la investigación de procesamiento del lenguaje natural.
― 8 minilectura
Un nuevo estándar evalúa las habilidades de razonamiento temporal de los modelos de lenguaje grandes.
― 6 minilectura
Enfoque innovador para crear funciones de adquisición efectivas para la optimización bayesiana.
― 7 minilectura
Un nuevo conjunto de datos mejora la precisión en la evaluación de resúmenes de historias generados por modelos de lenguaje.
― 6 minilectura
Un nuevo método para evaluar agentes de análisis de datos para mejores percepciones comerciales.
― 7 minilectura
Un desafío para mejorar la comprensión de los robots sobre las interacciones humanas.
― 8 minilectura
Un nuevo marco busca automatizar las revisiones de documentos para obtener mejores comentarios de calidad.
― 9 minilectura
Presentamos DictaLM 2.0 y DictaLM 2.0-Instruct para mejorar el procesamiento del idioma hebreo.
― 7 minilectura
Este estudio analiza qué tan bien los modelos representan diversas culturas.
― 9 minilectura
Un proyecto centrado en mejorar la generación de historias en árabe usando modelos avanzados.
― 7 minilectura
Una nueva forma de evaluar modelos de lenguaje grandes para obtener mejores ideas sobre su rendimiento.
― 6 minilectura
La investigación presenta nuevos métodos para evaluar sistemas de reconocimiento de voz en polaco.
― 7 minilectura
Descubre cómo los datos sintéticos ayudan a los minoristas a proteger la privacidad de los clientes mientras obtienen información valiosa.
― 8 minilectura
DocBench evalúa sistemas basados en LLM para leer y responder a diferentes formatos de documentos.
― 5 minilectura
Un marco para evaluar las habilidades de los LLM en tareas relacionadas con datos usando intérpretes de código.
― 6 minilectura
Examinando el impacto de los LLM en los estereotipos sociales y formas de mejorar los resultados.
― 6 minilectura
Este estudio propone un nuevo método de evaluación para la comprensión de video-texto.
― 7 minilectura
Analizando la importancia y las dificultades de evaluar modelos de IA multimodal.
― 7 minilectura
Un nuevo conjunto de datos para mejorar el rendimiento en preguntas y respuestas usando respuestas largas, hechas por humanos.
― 7 minilectura
Los modelos Phi-3 se centran en la seguridad y en alinearse con los valores humanos.
― 7 minilectura
Examinando problemas con modelos de lenguaje grandes para predecir elementos faltantes en listas.
― 8 minilectura
Un estudio que compara modelos de IA y evaluaciones humanas de resúmenes científicos.
― 6 minilectura
Un nuevo estándar evalúa modelos de lenguaje en desafíos de codificación científica en varios campos.
― 7 minilectura