Un Nuevo Enfoque para el Razonamiento en Modelos de Lenguaje
Presentamos un marco para mejorar la eficiencia y precisión en el razonamiento de modelos de lenguaje.
― 5 minilectura
Tabla de contenidos
Los modelos de lenguaje grandes (LLMs) son herramientas avanzadas que pueden hacer varias cosas, como escribir, responder preguntas y resolver problemas. Han demostrado habilidades impresionantes en muchas áreas, pero todavía tienen problemas con tareas de razonamiento complejo. Los enfoques anteriores que intentaron mejorar su precisión a menudo ignoraron los crecientes costos de usar estos modelos, especialmente en situaciones del mundo real que requieren soluciones abiertas.
Para abordar este problema, proponemos un nuevo enfoque llamado el marco de Intervencionista por Defecto (DefInt). Este marco combina dos formas de pensar que usamos los humanos: respuestas rápidas e intuitivas y razonamientos más lentos y cuidadosos. El objetivo es usar modelos de lenguaje más pequeños para respuestas rápidas mientras llamamos a modelos más grandes y poderosos cuando se necesita un pensamiento más profundo.
La Teoría del Proceso Dual
El pensamiento humano se puede dividir en dos sistemas. El primer sistema (Sistema 1) opera rápido e intuitivamente. Es bueno para hacer juicios instantáneos basados en experiencias pasadas. Aunque este sistema es a menudo preciso, puede llevar a errores sin una reflexión cuidadosa. El segundo sistema (Sistema 2) es más lento y deliberado. Proporciona procesos de pensamiento profundos y puede corregir errores cometidos por el primer sistema.
DefInt busca unir estos dos sistemas para crear un proceso de razonamiento más eficiente para los LLMs. Al usar modelos más pequeños para respuestas rápidas y modelos más grandes para el pensamiento reflexivo, podemos mejorar tanto la precisión como la eficiencia del razonamiento.
El Marco de Intervencionista por Defecto
DefInt funciona primero usando modelos de lenguaje más pequeños para generar respuestas rápidas y de bajo costo. Si estas respuestas parecen inciertas, el marco recurre a modelos más grandes para intervenciones más reflexivas. Este proceso ayuda a mantener un razonamiento de alta calidad mientras se reduce el costo de usar modelos poderosos.
Cómo Funciona
Respuestas por Defecto: El sistema comienza con modelos más pequeños para producir respuestas rápidas. Estos modelos más pequeños son más económicos de usar y pueden generar pensamientos diversos basados en su entrenamiento.
Chequeo de Confianza: Un evaluador independiente verifica el nivel de confianza de las respuestas rápidas. Si la confianza es baja, el sistema cambiará a un modelo más grande para un examen más minucioso.
Intervención: El modelo más grande reflexiona sobre los pensamientos iniciales y puede reemplazarlos si es necesario. Esto asegura que el razonamiento se mantenga preciso y de alta calidad.
Monitoreo Regular: El marco activa regularmente el modelo más grande para asegurarse de que el razonamiento se mantenga en el camino correcto. Esto adapta el proceso para mantener la calidad.
Beneficios de DefInt
Eficiencia de Costos: Al usar modelos más pequeños para la mayor parte del razonamiento, DefInt reduce significativamente los costos asociados con el uso de modelos más grandes.
Diversidad de Soluciones: El marco utiliza múltiples modelos más pequeños, mejorando la variedad de respuestas generadas. Esto es especialmente útil para tareas abiertas que requieren soluciones creativas.
Rendimiento Competitivo: Aunque inicialmente se basa en respuestas rápidas, el marco permite intervenciones oportunas que pueden corregir errores y mejorar la calidad general del razonamiento.
Resultados Experimentales
Probamos DefInt en varias tareas de razonamiento para medir su efectividad. Estas incluyen tanto tareas cerradas, que tienen respuestas específicas, como tareas abiertas, que invitan a soluciones creativas. Los resultados muestran que DefInt consistentemente tuvo un mejor desempeño que los métodos tradicionales en términos de precisión y costo.
Tareas Cerradas: En tareas donde se conocen las respuestas, DefInt produjo los resultados más precisos mientras usaba menos recursos en comparación con otros métodos.
Tareas Abiertas: Para tareas que fomentan la creatividad, DefInt no solo mantuvo la precisión sino que también ofreció un rango más amplio de soluciones, beneficiándose de los pensamientos iniciales diversos generados por modelos más pequeños.
Comparación con Métodos Tradicionales
Otros métodos comunes para el razonamiento de LLMs se han centrado principalmente en mejorar la precisión, a menudo a expensas de la eficiencia. Técnicas como Cadena de Pensamiento (CoT) guían a los LLMs a pensar paso a paso, pero pueden ser intensivas en recursos. Árbol de Pensamientos (ToT) permite explorar múltiples caminos de razonamiento, pero también requiere recursos significativos.
En contraste, DefInt encuentra un equilibrio entre rendimiento y uso de recursos. Al combinar de manera eficiente respuestas rápidas e intuitivas con reflexiones cuidadosas cuando es necesario, el marco permite procesos de razonamiento más fluidos y económicos.
Perspectivas y Trabajo Futuro
Los resultados de usar DefInt sugieren que combinar eficientemente diferentes procesos de razonamiento puede llevar a mejoras significativas en el rendimiento. Entender cómo y cuándo intervenir con modelos más grandes puede aumentar la efectividad general de los LLMs.
El trabajo futuro se centrará en refinar este enfoque y probarlo en problemas más complejos. La integración de la retroalimentación de los usuarios y aplicaciones del mundo real puede mejorar aún más las capacidades del marco.
Conclusión
DefInt representa un paso prometedor para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes. Al utilizar tanto respuestas rápidas e intuitivas como un pensamiento deliberado y reflexivo, este marco no solo mejora la precisión de las tareas de razonamiento, sino que también reduce costos. Abre la puerta a aplicaciones más amplias de los LLMs en varios campos, desde la educación hasta los negocios, y proporciona un método para abordar desafíos de razonamiento complejo de manera efectiva y asequible.
Título: Synergy-of-Thoughts: Eliciting Efficient Reasoning in Hybrid Language Models
Resumen: Large language models (LLMs) have shown impressive emergent abilities in a wide range of tasks, but the associated expensive API cost greatly limits the real application. Previous works like chain-of-thought (CoT) and tree-of-thoughts (ToT) have predominately focused on enhancing accuracy, but overlook the rapidly increasing API cost, which could be particularly problematic for open-ended real-world tasks with huge solution spaces. Motivated by the dual process theory of human cognition, we propose "Synergy of Thoughts"(SoT) to unleash the synergistic potential of hybrid LLMs with different scales for efficient reasoning. By default, SoT uses smaller-scale language models to generate multiple low-cost intuitive thoughts, which resembles the parallel intuitions produced by System 1. We then design a confidence evaluator where the intuitive thoughts are cross-evaluated and introduce a controllable threshold mechanism to decide their mutual conflict. If these intuitive thoughts exhibit conflicts, SoT will invoke the reflective reasoning of scaled-up language models to emulate the intervention of System 2, which will override the intuitive thoughts and rectify the reasoning results. This framework is model-agnostic and training-free, which can be flexibly implemented with various off-the-shelf LLMs. Experiments on six representative reasoning tasks show that SoT substantially reduces the API cost by 38.3%-75.1%, and simultaneously achieves state-of-the-art reasoning accuracy and solution diversity. Notably, the average token cost reduction on open-ended tasks reaches up to 69.1%.
Autores: Yu Shang, Yu Li, Fengli Xu, Yong Li
Última actualización: 2024-08-24 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2402.02563
Fuente PDF: https://arxiv.org/pdf/2402.02563
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.