Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

Avanzando en la planificación con estrategias abiertas y fundamentadas

Presentando la planificación abierta y fundamentada para mejorar la ejecución de tareas en el mundo real.

― 11 minilectura


Planificación Basada enPlanificación Basada enTerreno Reveladaplanes generados por IA.Nuevo marco aborda los desafíos en los
Tabla de contenidos

Los modelos de lenguaje grandes (LLMs) han ganado popularidad por su capacidad para realizar tareas que parecen planificación humana. Estos modelos pueden generar planes de varias maneras. Algunos métodos utilizan LLMs para crear planes libres, mientras que otros se basan en el aprendizaje por refuerzo para tomar decisiones en entornos controlados. Sin embargo, ambos métodos tienen dificultades cuando se trata de planificar en situaciones del mundo real, donde los requisitos pueden ser más complejos y abiertos.

En este contexto, presentamos una nueva tarea de planificación conocida como planificación abierta fundamentada. El objetivo de esta tarea es hacer que el modelo produzca un plan que se pueda ejecutar en función de un conjunto flexible de acciones. Esto asegura que el plan generado no solo sea relevante, sino también práctico para tareas del mundo real. Para respaldar esto, hemos creado un punto de referencia para la planificación abierta fundamentada en una variedad de dominios. Nuestra investigación prueba los mejores LLMs y otras técnicas de planificación, revelando que los modelos existentes aún enfrentan desafíos significativos al abordar tareas de planificación abiertas.

Antecedentes

La vida cotidiana implica una variedad de tareas que varían en complejidad. Desde cosas simples como hacer café hasta tareas más intrincadas como aprender nuevas habilidades, dependemos de nuestro conocimiento del mundo para crear planes. Aunque podemos usar numerosas estrategias para alcanzar nuestras metas, la inteligencia artificial (IA) enfrenta un desafío más complicado. La IA tiene dificultades para fundamentar planes en una amplia gama de acciones cuando se trata de tareas en dominios abiertos.

Investigaciones anteriores indican que los LLMs pueden llevar a cabo planificación hasta cierto punto. Pueden utilizar su conocimiento interno y sentido común para generar planes. Sin embargo, los planes producidos a menudo carecen de la estructura necesaria para su ejecución. Tienden a ser flexibles y coherentes en lenguaje natural, pero no cumplen con proporcionar instrucciones accionables para los agentes de IA. Ha habido investigaciones sobre planificación fundamentada, especialmente en campos como la robótica y el uso de herramientas. La mayoría de estos enfoques aplican ajuste fino para mejorar el rendimiento en situaciones específicas y limitadas, lo que limita su efectividad cuando se enfrentan a tareas más amplias.

La capacidad de operar en una amplia gama de acciones y desarrollar planes viables al elegir acciones adecuadas de un amplio conjunto es un objetivo importante para los LLMs. Por lo tanto, introducimos la idea de planificación abierta fundamentada para avanzar en la investigación en esta área. Este concepto tiene dos componentes:

  1. Planificación Fundamentada: El modelo debe crear planes utilizando solo las acciones que se encuentran en los Conjuntos de acciones disponibles.

  2. Planificación Abierta: Se espera que el modelo planifique dentro de un conjunto amplio de acciones que puedan cubrir múltiples áreas de tarea.

Nuestros Conjuntos de datos cubren campos diversos como actividades diarias, uso de herramientas y escenarios con robots. Cada conjunto de datos ha sido estandarizado para incluir objetivos de tarea, condiciones, pasos clave y conjuntos de acciones. Esta base nos permite construir un punto de referencia para evaluar diferentes modelos y métodos en la tarea de planificación abierta fundamentada.

Para superar los desafíos de la planificación abierta fundamentada, hemos propuesto un marco llamado "Recuperar y Reescribir". Este método implica hacer que el LLM genere un plan inicial, que luego se refina a través de una serie de iteraciones y recuperación de acciones basadas en el contexto de planificación actual.

Diseño del Experimento

Realizamos pruebas exhaustivas utilizando varios métodos y modelos de planificación líderes, incluidos GPT-3.5, Vicuna-7B y LLaMA-2-7B, todos ajustados fino con algún conocimiento específico de dominio. Nuestros experimentos evalúan el rendimiento de varios modelos en tareas de planificación abierta fundamentada.

Tipos de Tareas de Planificación

Categorizar las tareas de planificación en tres tipos:

  1. Planificación de Tareas Heurísticas: Esto implica planificación libre y flexible.

  2. Planificación Fundamentada Restringida: Esto se centra en la planificación específica del dominio con un conjunto limitado de acciones.

  3. Planificación Abierta Fundamentada: Esto requiere planificar con extensos conjuntos de acciones en varios dominios.

Capacidades y Desafíos de Planificación

La capacidad de los LLMs para planificar ha sido examinada extensamente. Pueden generar planes utilizando razonamiento de sentido común; sin embargo, estos planes a menudo carecen de estructura para su ejecución. En la planificación fundamentada, las investigaciones han mostrado enfoques que pueden funcionar en ciertas situaciones, pero estos suelen estar limitados a entornos controlados.

La complejidad aumenta significativamente en dominios abiertos, donde el número de tareas y acciones es mucho mayor. Esto crea una brecha entre los planes generados por los LLMs y la ejecución práctica de tareas del mundo real. Nuestro enfoque en la planificación abierta fundamentada aborda este problema y busca crear conjuntos de datos que cubran una amplia gama de tareas cotidianas y conjuntos de acciones.

Construcción del Conjunto de Datos

Identificamos tres áreas de aplicación principales para la planificación de LLM:

  1. Vida Diaria: Tareas de fuentes como wikiHow que brindan una variedad de guías y tutoriales para diversas habilidades en la vida.

  2. Uso de Herramientas: Datos de herramientas que demuestran cómo los LLMs pueden utilizar herramientas para realizar tareas. Estos datos incluyen diferentes tipos de herramientas y cómo se pueden invocar.

  3. Escenarios de Robots: Investigaciones sobre robótica que proporcionan una base para entender cómo se puede llevar a cabo la planificación en un contexto robótico.

Recopilamos conjuntos de datos en estas áreas para crear un conjunto de evaluación equilibrado, con un enfoque en mantener un máximo de 500 tareas por categoría. Esto nos permite evaluar eficazmente las capacidades en dominio de los LLMs.

El conjunto de datos de la vida diaria, wikiHow, se utilizó para evaluar la planificación fundamentada debido a su amplia gama y complejidad de conjuntos de acciones. Mientras tanto, los conjuntos de datos de herramientas y robótica se utilizan para medir qué tan bien los modelos pueden generalizar a tareas de planificación fuera del dominio.

Conjunto de Datos de Vida Diaria

El conjunto de datos de wikiHow comprende una rica colección de guías que cubren diversas tareas en un formato estructurado. Para cada tarea, conservamos solo las partes esenciales para mantener el enfoque en los pasos prácticos. Esto nos permitió crear un recurso completo con más de 76,000 tareas clasificadas en 19 categorías.

Conjuntos de Datos Fuera del Dominio

También recopilamos datos relacionados con el uso de herramientas, lo cual es crucial para entender cómo los LLMs pueden emplear herramientas de manera efectiva en la planificación. Esta parte del conjunto de datos se construye a partir de contribuciones de fuentes como ToolAlpaca y GPT4Tools, que proporcionan una colección de operaciones estándar de herramientas para diferentes tareas.

En el ámbito de la robótica, integramos varios conjuntos de datos que muestran la planificación robótica. Esto nos permite crear un conjunto diverso de tareas que los robots podrían llevar a cabo, facilitando un análisis más amplio de las capacidades de planificación de los LLM.

Evaluación de la Calidad del Plan

Para todos los conjuntos de datos recopilados, cada tarea se empareja con un plan estándar de oro correspondiente, que proporciona una forma posible de completar la tarea. Dada la variedad de soluciones potenciales, es esencial evaluar los planes generados desde múltiples ángulos en lugar de juzgarlos únicamente por si coinciden con el estándar de oro.

Los criterios de evaluación que adoptamos incluyen:

  1. Integralidad: ¿Es el plan completo y lógico sin lagunas o condiciones innecesarias?

  2. Viabilidad: ¿Puede ejecutarse realísticamente cada paso del plan? ¿Se alinea con el sentido común y los estándares éticos?

  3. Relevancia para la Tarea: ¿Aborda eficazmente el plan la tarea dada y utiliza las condiciones especificadas?

Para evaluar estos criterios, empleamos ChatGPT como revisor, comparando los planes generados por los modelos con el estándar de oro. Introdujimos diversas metodologías para minimizar posibles sesgos en estas evaluaciones, lo que permite un análisis más preciso de la calidad del plan.

Resultados

Los resultados de nuestros experimentos revelan las fortalezas y debilidades de diferentes LLMs y métodos de planificación. Nos centramos principalmente en el rendimiento tanto en conjuntos de datos dentro del dominio como fuera del dominio para evaluar la efectividad de cada enfoque.

Resultados Dentro del Dominio

Al evaluar el conjunto de datos de wikiHow, descubrimos que el modelo Llama-2-7B ajustado fino tuvo un rendimiento notablemente bueno. Superó consistentemente tanto a Vicuna como a GPT-3.5 en todos los métodos de planificación. El modelo demostró un alto nivel de ejecutabilidad mientras mantenía una sólida calidad de planes.

Diferentes métodos mostraron diversas fortalezas. Aunque el método Plan-Retrieve enfrentó desafíos relacionados con la generación inicial de planes, generalmente produjo mejores planes finales en comparación con el método Task-Retrieve. El enfoque Step-wise Select luchó con un espacio de búsqueda limitado, mientras que el método DFS tendía a ofrecer mejor ejecutabilidad a expensas de la calidad.

Resultados Fuera del Dominio

En el análisis de conjuntos de datos fuera del dominio, LLaMA-2-SFT a menudo superó a GPT-3.5 en la mayoría de los métodos. Esto resalta las ventajas del ajuste fino para modelos más allá de sus datos de entrenamiento originales. En el conjunto de datos de herramientas, la tendencia de GPT-3.5 a generar pasos completos en lugar de utilizar los nombres de API proporcionados resultó en un rendimiento inferior.

Al usar el método DFS, observamos que la longitud promedio de los planes generados era menor en comparación con otros, lo que llevaba a una fuerte dependencia de la retrocedida. Esto indicaba la vacilación del modelo para seleccionar acciones de las listas recuperadas al trabajar con datos fuera del dominio.

Análisis de Errores

Realizamos un análisis de errores centrándonos en la ejecutabilidad y calidad de la salida de GPT-3.5 en relación con el conjunto de datos de wikiHow. Notamos que una parte significativa de los planes no ejecutables provenía de alucinaciones: instancias en las que el modelo generaba contenido fuera del conjunto de acciones proporcionado.

Los planes producidos a través del método Plan-Retrieve a veces incluían pasos irrelevantes porque las acciones recuperadas no eran completamente aplicables a la tarea. En casos donde el método DFS generaba pasos duplicados, indicaba la incapacidad del modelo para gestionar eficazmente el proceso de planificación iterativa.

Conclusión y Futuro

En este estudio, presentamos el concepto de planificación abierta fundamentada y desarrollamos un punto de referencia de conjuntos de datos en diversos dominios con extensos conjuntos de acciones. Nuestros experimentos exhaustivos mostraron limitaciones significativas en los modelos actuales cuando se trata de generar planes accionables para estos conjuntos.

El marco "Recuperar y Reescribir" que propusimos ofrece una solución parcial a los desafíos de la planificación abierta fundamentada. Demuestra la necesidad de mejorar las capacidades de los modelos y métodos para funcionar eficazmente en diversos escenarios de planificación. La investigación futura podría centrarse en refinar los métodos de recuperación y expandir el conjunto de datos para incluir parámetros de acción más complejos.

Además, aunque utilizamos ChatGPT para la evaluación de planes, reconocemos los sesgos y limitaciones inherentes a este enfoque. Los esfuerzos futuros pueden beneficiarse de métricas de evaluación más objetivas para reducir el impacto de estos sesgos.

En general, nuestro trabajo sienta las bases para una exploración adicional en el rico campo de la planificación basada en LLM y ofrece ideas para mejorar la ejecutabilidad y la calidad general de los planes generados.

Fuente original

Título: Open Grounded Planning: Challenges and Benchmark Construction

Resumen: The emergence of large language models (LLMs) has increasingly drawn attention to the use of LLMs for human-like planning. Existing work on LLM-based planning either focuses on leveraging the inherent language generation capabilities of LLMs to produce free-style plans, or employs reinforcement learning approaches to learn decision-making for a limited set of actions within restricted environments. However, both approaches exhibit significant discrepancies from the open and executable requirements in real-world planning. In this paper, we propose a new planning task--open grounded planning. The primary objective of open grounded planning is to ask the model to generate an executable plan based on a variable action set, thereby ensuring the executability of the produced plan. To this end, we establishes a benchmark for open grounded planning spanning a wide range of domains. Then we test current state-of-the-art LLMs along with five planning approaches, revealing that existing LLMs and methods still struggle to address the challenges posed by grounded planning in open domains. The outcomes of this paper define and establish a foundational dataset for open grounded planning, and shed light on the potential challenges and future directions of LLM-based planning.

Autores: Shiguang Guo, Ziliang Deng, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun

Última actualización: 2024-06-04 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2406.02903

Fuente PDF: https://arxiv.org/pdf/2406.02903

Licencia: https://creativecommons.org/licenses/by-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares