Los investigadores analizan la capacidad de predecir el rendimiento de los modelos de lenguaje a medida que aumenta la potencia de entrenamiento.
― 7 minilectura
Ciencia de vanguardia explicada de forma sencilla
Los investigadores analizan la capacidad de predecir el rendimiento de los modelos de lenguaje a medida que aumenta la potencia de entrenamiento.
― 7 minilectura
Una mirada a los ataques y defensas de puerta trasera en modelos de aprendizaje profundo.
― 8 minilectura
Este documento evalúa la eficiencia del código generado por varios modelos.
― 8 minilectura
Este artículo presenta un estándar para evaluar modelos de lenguaje grandes con tareas complejas.
― 8 minilectura
Este estudio evalúa las capacidades de los modelos de lenguaje grande en escenarios de planificación compleja.
― 8 minilectura
La investigación examina el uso de VLMs para evaluar las acciones de los robots.
― 8 minilectura
Explorando el papel de los modelos de lenguaje grandes en la ciencia molecular.
― 9 minilectura
Explorando métodos para mejorar el rendimiento de los robots en entornos impredecibles.
― 5 minilectura
AV-SUPERB evalúa modelos de audio y visuales en diferentes tareas para mejorar el rendimiento.
― 6 minilectura
Nuevas herramientas mejoran la forma en que los sistemas recuperan información de documentos largos.
― 5 minilectura
Este benchmark evalúa el rendimiento de los modelos de lenguaje médico en el cuidado de la salud.
― 10 minilectura
Un método para mantener actualizados los modelos de IA basados en eventos del mundo real.
― 7 minilectura
Nuevas pruebas de referencia MLLMs en tareas de redes sociales como desinformación y discurso de odio.
― 12 minilectura
RobotScript mejora la forma en que los robots llevan a cabo tareas a partir del lenguaje natural.
― 8 minilectura
Una nueva perspectiva para encontrar amenazas ocultas en el diseño de hardware.
― 6 minilectura
Nuevos métodos tienen como objetivo evaluar mejor las habilidades de razonamiento en modelos de lenguaje de IA.
― 8 minilectura
DyPyBench ofrece un conjunto diverso de proyectos para análisis dinámico en Python.
― 8 minilectura
La capacidad de la IA para convertir diseños en código está cambiando el desarrollo web.
― 10 minilectura
Un estudio revela que hay una superposición de datos significativa que afecta las evaluaciones de modelos de lenguaje en la generación de código.
― 7 minilectura
Evaluando el rendimiento de los LLM a través de un benchmark dedicado para el análisis de bio-imágenes.
― 7 minilectura
Un nuevo método para evaluar herramientas de procesamiento de lenguaje muestra promesas de mejora.
― 6 minilectura
Un método para evaluar la transferibilidad de modelos preentrenados para la detección de objetos.
― 5 minilectura
Un recurso diseñado para ayudar a los robots a aprender tareas cotidianas de manera efectiva.
― 8 minilectura
Una mirada a cómo evaluar las capacidades de toma de decisiones de los modelos de lenguaje grandes.
― 8 minilectura
Un marco para mejorar el rendimiento de NLP en varios dialectos de idiomas.
― 5 minilectura
Un nuevo benchmark revela las fortalezas y debilidades de los VLLMs en tareas multimodales.
― 7 minilectura
Los expertos se reúnen para charlar sobre simulaciones de Monte Carlo y mejoras en GPU.
― 8 minilectura
Nuevos estándares revelan las fortalezas y debilidades de los modelos de lenguaje de codificación.
― 4 minilectura
Meerkat-7B establece un nuevo estándar para los modelos de lenguaje médico de código abierto.
― 8 minilectura
Nuevos métodos mejoran la resumencia de videos usando grandes conjuntos de datos y modelos avanzados.
― 8 minilectura
La investigación revela los desafíos que enfrentan los LLMs para entender textos largos y propone nuevos estándares.
― 7 minilectura
Explorando el diseño y los beneficios de un PMU para procesadores RISC-V usados en el espacio.
― 6 minilectura
Este estudio examina los problemas de calidad en los prompts para modelos de generación de código.
― 5 minilectura
Un nuevo estándar revela brechas en la comprensión visual de los modelos de lenguaje grandes.
― 8 minilectura
Un nuevo estándar mejora cómo evaluamos los LVLMs y su precisión.
― 6 minilectura
La competencia CHC mostró avances en los solucionadores y sus aplicaciones en la verificación de programas.
― 7 minilectura
Este artículo explora cómo mejorar la comprensión de las respuestas indirectas.
― 6 minilectura
Un estudio que evalúa métodos de aprendizaje de pocos disparos para la clasificación del idioma polaco.
― 5 minilectura
Los modelos de PatentGPT están diseñados para enfrentar desafíos únicos en Propiedad Intelectual.
― 5 minilectura
Un estudio sobre la efectividad de las herramientas SAST para contratos inteligentes.
― 9 minilectura