Este benchmark evalúa el rendimiento de los modelos de lenguaje médico en el cuidado de la salud.
― 10 minilectura
Ciencia de vanguardia explicada de forma sencilla
Este benchmark evalúa el rendimiento de los modelos de lenguaje médico en el cuidado de la salud.
― 10 minilectura
Un nuevo marco evalúa cómo los LLM razonan para responder preguntas complejas.
― 5 minilectura
Este artículo habla sobre un método para mejorar los modelos de lenguaje usando instrucciones estructuradas.
― 6 minilectura
Una nueva herramienta ayuda a los investigadores a modelar la turbulencia óptica de manera efectiva.
― 7 minilectura
Explora cómo DualView mejora la atribución de datos en modelos de aprendizaje automático.
― 8 minilectura
Nuevo conjunto de datos mejora los métodos de evaluación para el desaprendizaje de máquinas en la generación de imágenes.
― 7 minilectura
La simplificación de textos ayuda a que más gente pueda acceder a la información.
― 7 minilectura
Examinando la importancia y los desafíos de las revisiones de literatura en Análisis de Patrones e Inteligencia Artificial.
― 11 minilectura
Automatizando la expansión de taxonomías con modelos de lenguaje avanzados para una mejor organización del conocimiento.
― 7 minilectura
Presentando un enfoque nuevo para evaluar modelos de lenguaje grande de manera efectiva.
― 7 minilectura
Un nuevo método identifica los diseños de documentos típicos en varios campos y lenguajes.
― 10 minilectura
Una encuesta revela información sobre las prácticas de comunicación científica entre el personal del NIH.
― 9 minilectura
Este estudio destaca la importancia de la incertidumbre al evaluar los Modelos de Visión-Lenguaje.
― 9 minilectura
KIEval ofrece evaluaciones interactivas para abordar la contaminación de datos en los modelos de lenguaje.
― 8 minilectura
Este artículo habla sobre un nuevo marco para evaluar las alucinaciones en los LVLMs.
― 8 minilectura
SportQA evalúa la comprensión de los modelos de lenguaje sobre deportes a través de más de 70,000 preguntas.
― 9 minilectura
La investigación destaca el sesgo en las evaluaciones de modelos de lenguaje y propone métodos para mejorar.
― 7 minilectura
La investigación desafía los métodos tradicionales de evaluar los valores y opiniones de los modelos de lenguaje.
― 7 minilectura
OpenMEDLab mejora el acceso a herramientas y recursos de IA médica para una mejor atención sanitaria.
― 7 minilectura
SyllabusQA ofrece información para la respuesta automática de preguntas en educación.
― 10 minilectura
Nuevo conjunto de datos mejora la evaluación de sistemas de corrección de errores gramaticales.
― 7 minilectura
Un estudio sobre la efectividad de GPT-4 en simplificar oraciones.
― 7 minilectura
Un nuevo método para evaluar herramientas de procesamiento de lenguaje muestra promesas de mejora.
― 6 minilectura
Un nuevo conjunto de datos busca mejorar la calidad de los mensajes de commit automáticos para los desarrolladores.
― 11 minilectura
Un nuevo método mejora las habilidades de comunicación de los agentes de lengua.
― 7 minilectura
Evaluando cómo los sesgos en los modelos de lenguaje afectan las aplicaciones del mundo real.
― 7 minilectura
X-LLaVA mejora las capacidades multilingües para responder preguntas visuales.
― 8 minilectura
Descubre cómo ChartThinker mejora los resúmenes de gráficos para una mejor comprensión.
― 8 minilectura
Evaluando LLMs en su capacidad para procesar textos largos en literatura.
― 6 minilectura
Un nuevo método para evaluar modelos de lenguaje grandes usando menos ejemplos.
― 7 minilectura
Mejorando la eficiencia en Datalog a través de semiring y técnicas de anclaje.
― 6 minilectura
Un nuevo conjunto de datos ayuda a los modelos de IR a adaptarse a instrucciones complejas para mejorar su rendimiento.
― 3 minilectura
Descubre cómo los modelos de lenguaje pueden mejorar nuestra comprensión de la calidad de los argumentos.
― 10 minilectura
Explorando las complejidades de evaluar los sistemas de recuperación de información legal y su efectividad.
― 9 minilectura
TriviaHG ofrece pistas para preguntas, fomentando un pensamiento más profundo y aprendizaje.
― 7 minilectura
Un nuevo conjunto de datos mejora la evaluación del conocimiento molecular en los modelos de lenguaje.
― 8 minilectura
Este estudio explora cómo nuestros cerebros evalúan opciones y toman decisiones.
― 7 minilectura
Esta guía ayuda a simplificar la evaluación de sistemas de recomendación para mejorar la experiencia del usuario.
― 8 minilectura
Este trabajo se centra en identificar escenas importantes para mejorar los resúmenes de guiones de películas.
― 7 minilectura
Un método para aprender y evaluar políticas al mismo tiempo usando todos los datos disponibles.
― 8 minilectura