Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Aprendizaje automático# Inteligencia artificial

Avances en herramientas de razonamiento de aprendizaje automático

Nueva fuente de datos mejora los modelos de aprendizaje automático en tareas de razonamiento.

― 8 minilectura


Avance en el razonamientoAvance en el razonamientode Aprendizaje Automáticodecisiones para agentes digitales.Nuevas herramientas mejoran la toma de
Tabla de contenidos

Los desarrollos recientes en aprendizaje automático se han centrado en mejorar la capacidad de los modelos para razonar y tomar decisiones. Estos avances vienen de nuevos diseños de modelos, entrenamiento extenso con grandes cantidades de Datos y conjuntos de datos especiales orientados a tareas de Razonamiento. Este artículo presenta una herramienta única diseñada para crear datos que ayudan a entrenar máquinas a pensar en situaciones del mundo real. Los datos creados consisten en preguntas y respuestas relacionadas con entornos donde existe un agente digital. Este agente interactúa con el mundo y puede hacer cambios en él.

Los datos generados incluyen Consultas de texto formateadas en plantillas junto con respuestas, y están conectados al estado actual del mundo guardado en una base de datos. El estado representa tanto los cambios en el entorno como las acciones realizadas por el agente. Los resultados de varios modelos de aprendizaje automático muestran que, aunque algunas preguntas se pueden responder correctamente, hay otras que son más desafiantes.

Aprendizaje Automático y Razonamiento

Los modelos de aprendizaje automático (ML) han mejorado recientemente en su capacidad para razonar sobre situaciones. Esta mejora está relacionada con mejores estructuras de modelos, conjuntos de datos más grandes y tareas específicas de razonamiento diseñadas para ayudar a las máquinas a aprender. El enfoque ha estado principalmente en el razonamiento basado en texto, pero estas técnicas también se aplican a áreas como la visión por computadora.

En los últimos diez años, ha habido un progreso significativo en la creación de Agentes digitales que pueden llevar a cabo tareas e influir en su entorno. Muchos de estos avances son impulsados por la disponibilidad de conjuntos de datos, que han ayudado con la prueba de modelos y la evaluación de su rendimiento. Por ejemplo, investigaciones han mostrado que agregar ciertas reglas y directrices puede mejorar cómo los agentes razonan durante el entrenamiento. Otros estudios han demostrado cómo los modelos pueden ser apoyados con supervisión adicional para mejorar su rendimiento.

Recientemente, ha habido intentos exitosos de usar modelos de lenguaje grandes como planificadores para estos agentes. Representaciones simbólicas, que son estructuras que definen conexiones entre diferentes piezas de información, pueden servir como una forma de integrar percepción, memoria y razonamiento para estos agentes.

La Necesidad de Datos Fundados

A pesar del crecimiento en la investigación sobre razonamiento en procesamiento de lenguaje natural (NLP), todavía hay una falta de conjuntos de datos basados en un mundo dinámico y cambiante. Muchos modelos entrenados en conjuntos de datos de texto tradicionales tienen dificultad con preguntas que requieren entender el espacio físico y las relaciones, como "¿quién está al lado mío?"

Esto puede obstaculizar el rendimiento de los modelos cuando se enfrentan a preguntas simples y espaciales en contextos del mundo real. Al fundamentar estos modelos de lenguaje grandes en entornos físicos, podríamos mejorar sus habilidades de razonamiento y ver cómo pueden controlar el comportamiento del agente de manera más efectiva.

Fuente de Datos para Entrenar Agentes

Esta investigación presenta una nueva fuente de datos creada para entrenar modelos de aprendizaje automático que operan en entornos físicos. El enfoque está en hacer conexiones entre percepción, memoria y razonamiento. La fuente de datos produce triples, que incluyen un contexto, una pregunta y una respuesta. El contexto refleja el estado dinámico de un mundo de cuadrícula tridimensional que cambia según las acciones del agente y el estado del entorno.

El entorno permite representar varias situaciones como una secuencia de imágenes y busca responder a la pregunta de cómo crear sistemas de memoria efectivos para los agentes. Se utiliza un formato de base de datos para representar el contexto, lo que facilita el procesamiento sin necesidad de componentes perceptuales complejos. También se comparte código para convertir esta base de datos en un formato legible para un uso más amplio.

La esperanza es que esta nueva fuente de datos ayude a construir capacidades de razonamiento en agentes incorporados, utilizando conocimientos de los avances en el razonamiento de modelos de lenguaje como apoyo.

Configuración Experimental

En los estudios realizados, se crearon varios modelos de referencia para procesar la base de datos y manejar preguntas. Estos incluyen modelos de lenguaje afinados que trabajan en la versión de texto de la base de datos y modelos estructurados en gráficos que usan un gráfico de conocimiento para procesar. Mientras que algunas preguntas se respondieron fácilmente, otras, especialmente aquellas que requerían entender relaciones espaciales, resultaron ser más difíciles.

Estructura del Entorno

El trabajo gira en torno a un mundo de cuadrícula tridimensional finito lleno de varios objetos, agentes y acciones. Hay un agente principal, junto con otros jugadores y NPCs (personajes no jugadores). Objetos como esferas y cubos se generan y posicionan aleatoriamente dentro del entorno. El agente puede ejecutar comandos como construir, mover o interactuar con NPCs, con el mundo progresando a través de múltiples pasos.

En esta representación, cada objeto tiene un identificador único y está vinculado con propiedades que lo describen, como ubicación o movimiento. El contexto está estructurado como una tienda de clave-valor centrada en objetos, donde cada ítem tiene varios atributos almacenados de manera organizada.

Tipos de Consultas

El agente se enfrenta a numerosas preguntas diseñadas en tres categorías principales: consultas de propiedades, consultas temporales y consultas geométricas. Las consultas de propiedades involucran los detalles de los objetos en el estado actual. Las consultas temporales analizan cambios a lo largo del tiempo, mientras que las consultas geométricas se ocupan de la disposición y la distancia entre elementos.

Cada pregunta se puede enmarcar en diferentes tipos de cláusulas, permitiendo combinar y explorar relaciones complejas dentro del entorno. El objetivo es presentar al agente con consultas que se puedan responder todas en función de la información dentro del contexto.

Generación de Datos

La nueva fuente de datos puede producir una gran cantidad de datos simulados. Cada muestra incluye un contexto, una pregunta y una respuesta. La complejidad de las preguntas se puede ajustar cambiando parámetros como el tamaño de la cuadrícula, propiedades de los objetos y el número de instantáneas, lo que puede afectar cuán difícil es responder una pregunta.

La naturaleza controlada de los conjuntos de datos sintéticos permite a los investigadores identificar dónde los modelos existentes tienen dificultades, proporcionando una comprensión más clara de sus limitaciones.

Conjuntos de Datos Relacionados

Se han utilizado muchos conjuntos de datos QA existentes para evaluar el rendimiento de modelos de aprendizaje automático, incluidos tests de comprensión lectora y razonamiento de múltiples saltos. Mientras que los conjuntos de datos del mundo real ofrecen puntos de referencia confiables, los conjuntos de datos sintéticos pueden aislar mejor limitaciones específicas de los modelos.

Otros ejemplos notables incluyen bAbI, que prueba habilidades de razonamiento sobre historias de texto cortas. De manera similar, CLEVR se centra en el razonamiento visual con consultas de texto. Nuestro trabajo se basa en estas ideas mientras se centra en los aspectos únicos de los agentes interactuando con sus entornos.

Rendimiento de Consultas

En experimentos para evaluar modelos de referencia, se utilizó una mezcla de configuraciones de conjuntos de datos para mostrar cómo varios modelos respondieron preguntas. Los resultados indicaron que, mientras algunos modelos tuvieron un buen rendimiento en tipos específicos de consultas, otros consistentemente mostraron un rendimiento más bajo en general.

La introducción de diferentes representaciones, como texto y contextos estructurados, permite una exploración más amplia de cómo los agentes entienden y reaccionan a su entorno. A través de esta investigación, esperamos fomentar un estudio adicional sobre cuál debería ser la representación ideal para el entrenamiento de agentes.

Conclusión

Este trabajo proporciona un marco para generar datos que combinan agentes con sus entornos circundantes, facilitando una exploración más profunda del razonamiento dentro de agentes incorporados. Los hallazgos muestran el potencial de varias representaciones de modelos, revelando diversas fortalezas y debilidades en abordar tipos específicos de consultas.

En última instancia, el objetivo es ofrecer un recurso adaptable para investigadores y profesionales en el campo. A medida que seguimos refinando este generador de datos, esperamos impulsar más investigaciones en razonamiento, representación y las capacidades de los modelos de aprendizaje automático en entornos dinámicos.

Este avance permite una mejor comprensión de cómo se pueden entrenar los modelos para manejar tareas complejas y ofrece la oportunidad de experimentar con diferentes configuraciones, entornos y desafíos que enfrentan los investigadores modernos.

Fuente original

Título: A Data Source for Reasoning Embodied Agents

Resumen: Recent progress in using machine learning models for reasoning tasks has been driven by novel model architectures, large-scale pre-training protocols, and dedicated reasoning datasets for fine-tuning. In this work, to further pursue these advances, we introduce a new data generator for machine reasoning that integrates with an embodied agent. The generated data consists of templated text queries and answers, matched with world-states encoded into a database. The world-states are a result of both world dynamics and the actions of the agent. We show the results of several baseline models on instantiations of train sets. These include pre-trained language models fine-tuned on a text-formatted representation of the database, and graph-structured Transformers operating on a knowledge-graph representation of the database. We find that these models can answer some questions about the world-state, but struggle with others. These results hint at new research directions in designing neural reasoning models and database representations. Code to generate the data will be released at github.com/facebookresearch/neuralmemory

Autores: Jack Lanchantin, Sainbayar Sukhbaatar, Gabriel Synnaeve, Yuxuan Sun, Kavya Srinet, Arthur Szlam

Última actualización: 2023-09-14 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2309.07974

Fuente PDF: https://arxiv.org/pdf/2309.07974

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares