Un nuevo benchmark evalúa métodos para medir la similitud representacional en aprendizaje automático.
― 7 minilectura
Ciencia de vanguardia explicada de forma sencilla
Un nuevo benchmark evalúa métodos para medir la similitud representacional en aprendizaje automático.
― 7 minilectura
Un nuevo enfoque para detectar fallos en modelos de clasificación de imágenes.
― 6 minilectura
Evaluando qué tan bien los LLMs generan salidas en JSON a través de pruebas de StructuredRAG.
― 6 minilectura
Un estudio sobre cómo mejorar los métodos de UDA a través de la evaluación y comprensión de los cambios en los datos.
― 8 minilectura
Un nuevo método para combinar modelos de lenguaje de manera más efectiva.
― 7 minilectura
Un nuevo enfoque mejora la comprensión de las predicciones del modelo a través de la atribución de características.
― 6 minilectura
Un nuevo método revela cómo los modelos de visión organizan y entienden las imágenes.
― 7 minilectura
Nueva técnica para entender mejor las predicciones del modelo usando ejemplos contrafactuales.
― 6 minilectura
Un método que combina VMD y modelos lineales aumenta la precisión de las predicciones.
― 6 minilectura
El marco PoEM evalúa modelos de lenguaje sin necesidad de etiquetas precisas.
― 6 minilectura
Este estudio evalúa cómo pequeños cambios afectan las respuestas de los modelos de lenguaje.
― 4 minilectura
Un nuevo método ayuda a identificar la contaminación de datos de prueba en LLMs usando probabilidades de tokens.
― 10 minilectura
FSDEM ofrece un enfoque nuevo para evaluar las técnicas de selección de características para el análisis de datos.
― 7 minilectura
El conjunto de datos MAPWise desafía a los modelos con preguntas basadas en mapas y evalúa sus habilidades de razonamiento.
― 8 minilectura
Este artículo habla sobre un nuevo sistema de calificación para evaluar modelos de lenguaje de manera más justa.
― 6 minilectura
La escalación logit mejora la detección de datos fuera de la distribución sin necesidad de datos de entrenamiento.
― 7 minilectura
Este estudio evalúa modelos de aprendizaje automático para detectar basura en los ríos.
― 6 minilectura
Un nuevo método para evaluar la robustez en clasificadores de ML usando distancia adversarial.
― 7 minilectura
Una mirada más cercana a qué tan bien los modelos de lenguaje grandes realizan tareas básicas.
― 8 minilectura
Un nuevo método mejora las explicaciones de IA gracias a la colaboración entre dos modelos de lenguaje.
― 6 minilectura
Esta investigación explora cómo el grado topológico evalúa la efectividad de los VAE para captar la estructura de los datos.
― 6 minilectura
Un estudio revela cómo los modelos de lenguaje utilizan el contexto para dar respuestas precisas.
― 8 minilectura
Nuevos métodos ayudan a entender cómo los modelos reaccionan a los cambios en los datos.
― 8 minilectura
Este artículo examina métodos para detectar la contaminación de datos en modelos de lenguaje grandes.
― 7 minilectura
Este documento explora cómo los métodos bootstrap mejoran la estabilidad y la robustez en modelos de SGD.
― 6 minilectura
Un nuevo estándar busca mejorar la evaluación de incertidumbre en los modelos de lenguaje.
― 6 minilectura
Un nuevo método mejora el razonamiento del modelo a través de trazas de programación estructurada.
― 9 minilectura
Examinando cómo el ajuste fino afecta la seguridad en los modelos de lenguaje en varias tareas.
― 7 minilectura
Un enfoque nuevo para evaluar modelos de ML usando la Teoría de Respuesta al Ítem para obtener mejores insights.
― 6 minilectura
Modelos base fuertes mejoran la evaluación de sistemas de ML en el cuidado de la salud.
― 7 minilectura
Una mirada a los intervalos de confianza en el aprendizaje de pocos disparos y su impacto en la evaluación del modelo.
― 7 minilectura
Examinando la comprensión y precisión de salida de los modelos de lenguaje.
― 6 minilectura
Destacan investigaciones que utilizan funciones de influencia para mejorar el rendimiento de PINN en problemas físicos.
― 7 minilectura
Una mirada a la dimensión efectiva y su impacto en el entrenamiento de modelos.
― 7 minilectura
Este documento evalúa qué tan bien los modelos de lenguaje explican conceptos científicos.
― 5 minilectura
Este artículo examina los GAMs como una solución para el rendimiento predictivo y la interpretabilidad.
― 8 minilectura
Examinando cómo las muestras difíciles afectan el rendimiento del modelo y la fiabilidad de la precisión de las pruebas.
― 11 minilectura
Este artículo examina cómo diferentes capas afectan el rendimiento de los LLM.
― 6 minilectura
Las etiquetas suaves pueden mejorar el rendimiento de los modelos de aprendizaje automático en situaciones de datos inciertos.
― 7 minilectura
RepairBench establece puntos de referencia para comparar modelos de IA en la reparación de errores de software.
― 6 minilectura