Combinando Modelos de Lenguaje y Sistemas Cognitivos para Tareas de Cocina
Un nuevo enfoque combina LLMs y sistemas cognitivos para mejorar las tareas robóticas en la cocina.
― 8 minilectura
Tabla de contenidos
Los Modelos de Lenguaje Grandes (LLMs) han llamado la atención por su capacidad para entender y generar texto similar al humano. Tienen un montón de información sobre el mundo, pero también pueden cometer errores y no siempre son fáciles de entrenar. Por otro lado, los sistemas cognitivos están diseñados para imitar el pensamiento humano, pero pueden requerir mucho esfuerzo para configurarlos. En este trabajo, combinamos las fortalezas de ambos. Usamos el conocimiento en LLMs para ayudar a construir un agente cognitivo que pueda realizar tareas en un entorno de cocina.
Nuestra investigación se centra en cómo un robot puede aprender a completar tareas en la cocina de manera más eficiente usando LLMs para conocimiento de fondo. Al hacerlo, mostramos que este enfoque puede llevar a un agente más capaz en comparación con uno que depende únicamente de LLMs. También investigamos cómo el sistema cognitivo puede ayudar a verificar y mejorar la información de los LLMs, adaptándola a tareas específicas.
Antecedentes
Modelos de lenguaje grandes como GPT-4 han mostrado habilidades sorprendentes después de ser entrenados en enormes cantidades de datos textuales, incluyendo entradas de humanos. Han sido usados para varias aplicaciones, incluyendo planificación para robots y análisis de comportamiento animal. Sin embargo, tienen desventajas: pueden ser vulnerables a entradas incorrectas, producir información falsa y su rendimiento puede estancarse a medida que escalan.
Las Arquitecturas Cognitivas representan otro enfoque para lograr una forma más general de inteligencia artificial. Estos sistemas buscan replicar todos los aspectos del pensamiento y aprendizaje humano. La mayoría de los sistemas cognitivos generalmente comparten componentes clave, incluyendo:
- Memoria declarativa: Esto retiene conocimiento general del mundo.
- Memoria Procedimental: Esta parte decide cómo debe actuar el agente basado en diferentes situaciones.
- Memoria de trabajo: Esto ayuda en el razonamiento y planificación a corto plazo.
Las reglas de producción impulsan la memoria procedimental. Cada una de estas reglas tiene una condición y un resultado. El agente utiliza un ciclo de percibir su entorno, planear acciones basado en su conocimiento y luego actuar. Cuando no hay una regla específica a seguir para una situación particular, el agente puede buscar orientación de los LLMs.
A pesar de los esfuerzos previos para crear modelos cognitivos utilizando datos, la mayoría de las reglas fueron creadas manualmente. Esto limita la complejidad de las tareas que estos sistemas pueden manejar. Al fusionar los dos enfoques-usando LLMs para generar conocimiento y sistemas cognitivos para aplicar ese conocimiento-podemos hacer un agente más flexible que aprenda de manera eficiente.
El Marco
Nuestro marco permite que el modelo cognitivo use el conocimiento general encontrado en LLMs mientras también es interactivo y adaptable. La configuración separa cómo se genera el conocimiento de cómo se utiliza. El LLM genera conocimiento amplio, mientras que el modelo cognitivo contextualiza este conocimiento para tareas específicas.
Por ejemplo, el LLM puede sugerir que si la tarea es encontrar un objeto, el agente debería revisar los lugares donde normalmente se guarda ese objeto. Este consejo puede aplicarse a muchos objetos y escenarios, permitiendo que el sistema cognitivo lo adapte a diferentes entornos sin necesidad de pedir ayuda al LLM cada vez.
Los componentes principales de nuestro agente incluyen:
Base de Conocimiento del Mundo: Esto almacena hechos generales, como dónde se suelen guardar los objetos comunes.
Conocimiento del Entorno: Esto incluye el conocimiento del agente sobre su entorno inmediato, como si está sosteniendo un objeto o qué hay en una mesa.
Memoria Procedimental: Esto contiene las reglas de producción que gobiernan cómo se comporta el agente.
Gestión de Tareas: El agente lleva un registro de las tareas que necesita completar.
En cada paso, el agente busca reglas aplicables según la situación actual. Si no hay una regla que coincida, consulta al LLM para obtener un consejo, generando una regla de producción específica a partir de esta orientación.
Aprendizaje de Tareas
El proceso de aprendizaje comienza con un currículo que establece grupos de tareas en lugar de instancias específicas. Este currículo guía al agente para dominar diferentes habilidades con una mínima intervención humana. Por ejemplo, si la tarea es localizar un objeto, el agente realizará los siguientes pasos:
- Elegir aleatoriamente un objeto de su entorno para encontrar.
- Intentar realizar la tarea con las reglas de producción existentes.
- Si se queda atascado, preguntar al LLM por una acción sugerida.
- Crear una nueva regla de producción basada en la acción sugerida por el LLM.
- Repetir esto hasta que el robot pueda completar la tarea de manera confiable.
Este proceso permite al agente aprender tareas de manera progresiva, habilitándolo para usar lo que aprende más adelante en tareas similares.
Selección de Acción
Cuando el agente tiene que decidir qué hacer a continuación, sigue un enfoque estructurado. El agente le da al LLM un resumen de la situación actual y lista las posibles acciones que puede realizar. El agente puede realizar acciones en el mundo real o atender subtareas.
Este proceso de selección anima al LLM a pensar en estrategias comunes para abordar la tarea y elegir una acción cuidadosamente. El agente también aprende por qué elige acciones específicas, lo que lo ayuda a generar reglas de producción más adelante.
Generación de Producción
Las reglas que guían la toma de decisiones del agente no son simplemente planes para una sola tarea; son principios que pueden aplicarse a varias situaciones. Por ejemplo, en lugar de decir, "revisa cada gabinete en busca de un objeto específico," el agente podría aprender, "cuando busques un objeto, revisa primero los lugares donde generalmente se encuentra."
El proceso de generación de producción puede descomponerse en pasos claros. Primero, el agente resume su proceso de toma de decisiones, creando una descripción de la regla de producción en inglés. Luego, esta descripción se traduce a código que el agente puede ejecutar.
Mejora de Producción
Para asegurarnos de que las reglas de producción del agente sigan siendo útiles y relevantes, necesitamos un sistema para monitorearlas y mejorarlas. El agente utiliza retroalimentación de experiencias pasadas para refinar sus reglas. Este proceso implica:
- Verificar que las nuevas reglas coincidan con la base de conocimiento.
- Evitar restricciones innecesarias en las reglas que podrían limitar la capacidad del agente para actuar.
- Permitir cambios en las reglas existentes basados en nueva información.
Al actualizar continuamente sus reglas, el agente se vuelve más inteligente y mejor en completar tareas. Si el agente detecta un ciclo en sus acciones, también consultará al LLM para obtener sugerencias alternativas.
Configuración del Experimento
Realizamos nuestros experimentos en entornos de cocina usando un simulador que mimetiza configuraciones del mundo real. El agente tiene acceso a información importante sobre objetos al alcance. Para nuestras evaluaciones, usamos tres tareas principales:
- Encontrar un objeto.
- Cortar un objeto.
- Limpiar las encimeras guardando los objetos.
Estas tareas fueron seleccionadas para mostrar la capacidad del agente para aprender habilidades básicas y manejar acciones más complejas que requieren varios pasos.
El éxito del agente se midió por cuántos objetos pudo localizar o mover. También observamos cuántas consultas necesitó hacer al LLM para completar cada tarea de manera efectiva.
Resultados
Los resultados muestran que los agentes que usaron nuestro enfoque de inicio pudieron completar la mayoría de las tareas con éxito. Su capacidad para aprender y adaptarse fue evidente, especialmente al manejar tareas que requerían ajustes continuos. El agente pudo aplicar el conocimiento que adquirió en un entorno a nuevas situaciones sin necesidad de empezar desde cero.
La tasa de éxito fue alta, y el número de consultas realizadas al LLM fue significativamente menor en comparación con un agente que dependía únicamente de LLMs para la selección de acciones.
Discusión
Los hallazgos indican que combinar LLMs con arquitecturas cognitivas puede llevar a un agente más adaptable y capaz. Al usar conocimiento general de LLMs y aplicarlo a través de sistemas cognitivos, el agente no solo aprende tareas de manera efectiva, sino que también mantiene flexibilidad para futuras tareas.
Además, el diseño modular del marco permite un rendimiento mejorado, facilitando la adaptación a nuevos entornos y tareas. Este enfoque tiene potencial para mejorar sistemas de IA que trabajen en diversas situaciones del mundo real.
Conclusión
En resumen, nuestro trabajo demuestra cómo los LLMs pueden apoyar el desarrollo de agentes cognitivos capaces de completar efectivamente tareas de cocina con mínima intervención humana. Al integrar las fortalezas de ambos enfoques, podemos crear sistemas que aprendan de manera eficiente y apliquen su conocimiento de forma flexible en diferentes contextos.
Esta investigación abre caminos para una mayor exploración en arquitecturas cognitivas. Trabajos futuros podrían explorar enfoques más personalizados para diferentes usuarios, mejorando la capacidad del agente para trabajar junto a humanos en sus tareas diarias. El objetivo es crear agentes inteligentes que mejoren nuestras vidas diarias de maneras prácticas y significativas.
Título: Bootstrapping Cognitive Agents with a Large Language Model
Resumen: Large language models contain noisy general knowledge of the world, yet are hard to train or fine-tune. On the other hand cognitive architectures have excellent interpretability and are flexible to update but require a lot of manual work to instantiate. In this work, we combine the best of both worlds: bootstrapping a cognitive-based model with the noisy knowledge encoded in large language models. Through an embodied agent doing kitchen tasks, we show that our proposed framework yields better efficiency compared to an agent based entirely on large language models. Our experiments indicate that large language models are a good source of information for cognitive architectures, and the cognitive architecture in turn can verify and update the knowledge of large language models to a specific domain.
Autores: Feiyu Zhu, Reid Simmons
Última actualización: 2024-02-24 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2403.00810
Fuente PDF: https://arxiv.org/pdf/2403.00810
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.