Nuevo conjunto de datos mejora la evaluación de modelos multilingües en diferentes idiomas.
― 8 minilectura
Ciencia de vanguardia explicada de forma sencilla
Nuevo conjunto de datos mejora la evaluación de modelos multilingües en diferentes idiomas.
― 8 minilectura
SQuArE métrico mejora la evaluación de sistemas de QA a través de múltiples referencias de respuestas.
― 6 minilectura
Nuevos métodos mejoran la evaluación del rendimiento de objetos pequeños en WSSS.
― 8 minilectura
Un nuevo marco para evaluar sistemas RAG sin referencias humanas.
― 6 minilectura
Presentando un método que mide la calidad de las respuestas a diferentes niveles de detalle.
― 7 minilectura
Este estudio propone nuevos métodos para evaluar respuestas en la respuesta a preguntas en máquinas.
― 9 minilectura
Nuevos métodos mejoran la evaluación de las explicaciones de los modelos de IA.
― 8 minilectura
Un nuevo conjunto de datos y método mejoran la generación de preguntas en modelos de lenguaje.
― 7 minilectura
Nuevo conjunto de datos mejora la verificación de los pasos de razonamiento en modelos de IA.
― 8 minilectura
Este artículo presenta un estándar para evaluar modelos de lenguaje grandes con tareas complejas.
― 8 minilectura
Un estudio sobre cómo ChatGPT usa el lenguaje y las características del vocabulario.
― 12 minilectura
Una mirada detallada a la evaluación de expertos en inteligencia artificial y humanos en ciberseguridad por parte de CyberMetric.
― 10 minilectura
Un nuevo método evalúa la efectividad de la edición de modelos para generar textos más largos.
― 10 minilectura
Un nuevo marco para evaluar la corrección de las respuestas de IA con un juicio parecido al humano.
― 8 minilectura
Nuevo conjunto de datos mejora los métodos de evaluación para el desaprendizaje de máquinas en la generación de imágenes.
― 7 minilectura
FanOutQA ayuda a evaluar modelos de lenguaje en preguntas complicadas de múltiples pasos usando datos estructurados.
― 7 minilectura
Una nueva herramienta genera diversas instancias de alucinaciones visuales para mejorar la precisión de la IA.
― 6 minilectura
Este artículo habla sobre un nuevo marco para evaluar las alucinaciones en los LVLMs.
― 8 minilectura
Un método para la evaluación continua de modelos en aprendizaje automático para prevenir el sobreajuste.
― 7 minilectura
Un nuevo método mejora la verificación de hechos en sistemas de generación aumentada por recuperación.
― 9 minilectura
Mejorando la comprensión de las intenciones del usuario a través de la negación y la implicatura.
― 6 minilectura
Un análisis de cómo los modelos de lenguaje entienden las reglas de reconocimiento de entidades.
― 8 minilectura
Esta investigación evalúa el uso de LLMs para escenarios realistas de autos autónomos.
― 10 minilectura
Un marco para mejorar el rendimiento de NLP en varios dialectos de idiomas.
― 5 minilectura
Evaluando LLMs en su capacidad para procesar textos largos en literatura.
― 6 minilectura
Un nuevo marco evalúa qué tan confiables son los LLMs como asistentes biomédicos.
― 5 minilectura
Un estudio destaca el impacto de la contaminación de datos en las evaluaciones de modelos de código.
― 7 minilectura
Un nuevo conjunto de datos mejora la evaluación del conocimiento molecular en los modelos de lenguaje.
― 8 minilectura
SPHINX-V mejora la capacidad de la IA para interpretar imágenes a través de la interacción del usuario.
― 7 minilectura
BEAR mejora la evaluación del conocimiento relacional en los modelos de lenguaje.
― 10 minilectura
Este estudio examina cómo los modelos de lenguaje manejan diferentes expresiones de los mismos problemas de razonamiento.
― 5 minilectura
Un nuevo conjunto de datos evalúa cómo los modelos de lenguaje manejan contenido dañino en diferentes culturas.
― 6 minilectura
Un nuevo estándar mejora cómo evaluamos los LVLMs y su precisión.
― 6 minilectura
Una evaluación de qué tan bien los LLMs recuerdan información factual y los factores involucrados.
― 7 minilectura
Este estudio ofrece métodos mejorados para evaluar modelos de texto a imagen.
― 8 minilectura
Un estudio que evalúa métodos de aprendizaje de pocos disparos para la clasificación del idioma polaco.
― 5 minilectura
N nuevas métricas mejoran la evaluación de sistemas de extracción de información en documentos manuscritos.
― 8 minilectura
WorkBench prueba la habilidad de los agentes para realizar tareas de oficina realistas con un método de evaluación único.
― 7 minilectura
Evaluando cómo los LLMs se adaptan a nueva información y sesgos.
― 9 minilectura
Un nuevo método para evaluar la alineación de los modelos de lenguaje con los valores humanos.
― 8 minilectura