Golden-Retriever: Una Nueva Forma de Acceder al Conocimiento de la Empresa
Un sistema que mejora la búsqueda de información aclarando las preguntas de los usuarios.
― 6 minilectura
Tabla de contenidos
- Por Qué Luchan los Métodos Tradicionales
- ¿Qué es la Generación Aumentada por Recuperación (RAG)?
- Los Retos con la Jerga
- Presentando Golden-Retriever
- Cómo Funciona Golden-Retriever
- Pasos Involucrados en el Manejo de Preguntas
- Identificación de Jerga
- Determinación del Contexto
- Consultando el Diccionario de Jerga
- Aumentando la Pregunta
- Mecanismo de Respaldo
- Probando Golden-Retriever
- Experimento de Preguntas y Respuestas
- Experimento de Identificación de Abreviaciones
- Conclusión
- Fuente original
- Enlaces de referencia
Golden-Retriever es un sistema que ayuda a las empresas a acceder y usar grandes colecciones de documentos. Estos documentos a menudo contienen términos y frases específicas que pueden ser confusas para los usuarios, especialmente para los que son nuevos en un campo técnico. Al mejorar cómo se formulan las preguntas antes de buscar en estos documentos, Golden-Retriever facilita encontrar la información correcta.
Por Qué Luchan los Métodos Tradicionales
Muchas empresas tienen un montón de documentos creados a lo largo de los años, como materiales de entrenamiento o documentos de diseño. Los nuevos empleados a menudo tienen dificultades para entender rápidamente o encontrar lo que necesitan en esos documentos. Esto se debe a que muchos documentos usan términos especiales conocidos como jerga. Los métodos normales para responder preguntas suelen fallar cuando se involucran estas jergas.
Los Modelos de Lenguaje Grande (LLMs) son sistemas avanzados diseñados para responder preguntas. Aunque son buenos respondiendo preguntas generales, pueden tener problemas con conocimientos específicos de la empresa a menos que estén entrenados especialmente en esos documentos. Sin embargo, entrenar estos modelos es caro, puede llevar a errores con información nueva y puede sobrescribir conocimientos útiles más antiguos.
RAG)?
¿Qué es la Generación Aumentada por Recuperación (RAG es un enfoque diferente para usar LLMs. En lugar de reentrenar todo el modelo con documentos de la empresa, recupera piezas relevantes de documentos basadas en las preguntas del usuario. RAG integra el modelo dentro de un sistema que permite al LLM obtener información de una base de datos de documentos. Esto hace posible actualizar la base de conocimiento fácilmente con nuevos documentos sin tener que reentrenar el modelo cada vez.
Sin embargo, RAG tiene sus propios problemas, especialmente al interpretar jergas específicas de la empresa. Si el sistema no entiende correctamente estos términos, puede llevar a resultados inexactos. Otros métodos tratan de corregir esto después de recuperar los documentos, pero si la recuperación inicial está mal, las correcciones a menudo no ayudan mucho.
Los Retos con la Jerga
Cuando los usuarios hacen preguntas, la presencia de jerga puede llevar a confusiones. Por ejemplo, el mismo término puede significar cosas diferentes en distintos contextos. Esto puede llevar a malentendidos donde el modelo interpreta el significado incorrectamente. Además, los usuarios a menudo no incluyen suficiente contexto en sus preguntas, lo que hace aún más complicado encontrar la respuesta correcta.
Algunos enfoques intentan categorizar las preguntas de los usuarios en contextos específicos usando modelos adicionales. Sin embargo, esto requiere mucho esfuerzo y tiempo para reunir los datos necesarios para entrenar estos modelos, lo que a menudo no es práctico.
Presentando Golden-Retriever
Golden-Retriever busca enfrentar estos desafíos al mejorar el método tradicional de RAG. Lo hace al centrarse en formular mejor las preguntas antes de buscar en los documentos. El sistema identifica la jerga en las preguntas del usuario y aclara sus significados basándose en el contexto. Al hacer esto, reduce los errores y aumenta las posibilidades de encontrar los documentos correctos.
Cómo Funciona Golden-Retriever
Golden-Retriever se compone de dos partes principales: procesos offline y online.
Proceso Offline
La parte offline prepara la base de datos de documentos antes de que los usuarios empiecen a hacer preguntas. Usa Reconocimiento Óptico de Caracteres (OCR) para leer texto de varios formatos de documentos. El texto se acorta y se aclara mediante el uso de LLMs. Así, cuando los usuarios hagan preguntas más tarde, es más probable que el sistema encuentre documentos relevantes.
Proceso Online
La parte online ocurre de manera interactiva cuando los usuarios hacen preguntas. Primero, el sistema identifica la jerga y el contexto dentro de la pregunta usando LLMs. Luego, obtiene definiciones de un diccionario de jerga para asegurarse de que la pregunta esté clara y bien formulada. Esta pregunta aumentada se introduce en el marco de RAG, lo que permite al sistema recuperar los documentos más relevantes de manera efectiva.
Pasos Involucrados en el Manejo de Preguntas
Identificación de Jerga
En el primer paso, Golden-Retriever verifica la pregunta del usuario en busca de jerga o abreviaciones. Esto es vital, ya que muchas preguntas incluyen términos especializados que podrían malinterpretarse. El LLM ayuda extrayendo y listando estos términos con un enfoque en la claridad.
Determinación del Contexto
A continuación, el sistema identifica el contexto de la pregunta. El mismo término puede significar diferentes cosas según la situación. El sistema utiliza ejemplos establecidos para ayudar a que LLM entienda cómo clasificar correctamente la pregunta, asegurando que su significado esté claro.
Consultando el Diccionario de Jerga
Una vez que se identifican las jergas y el contexto, el siguiente paso es buscarlas en un diccionario de jerga. Este paso es esencial para proporcionar al modelo definiciones precisas, asegurando que la pregunta sea clara y comprensible.
Aumentando la Pregunta
Con definiciones y contexto en mano, la pregunta original del usuario se modifica para incluir esta nueva información. Esto permite que el sistema encuentre los documentos más precisos al aclarar cualquier confusión en la pregunta misma.
Mecanismo de Respaldo
Si el sistema no encuentra información relevante, tiene un plan de respaldo. En tales casos, informará al usuario que no se puede responder la pregunta debido a información faltante y sugerirá revisar la ortografía o contactar a alguien para aclaraciones.
Probando Golden-Retriever
Golden-Retriever fue probado a través de dos experimentos principales: uno para ver qué tan bien podía responder preguntas basadas en documentos y el otro para evaluar su éxito en la identificación de abreviaciones.
Experimento de Preguntas y Respuestas
En el primer experimento, se recopilaron preguntas de opción múltiple de varios documentos de capacitación para nuevos empleados. El objetivo era evaluar qué tan bien respondía Golden-Retriever a estas preguntas en comparación con enfoques estándar.
Los resultados fueron impresionantes. Golden-Retriever superó a los métodos regulares por un amplio margen, mostrando un aumento significativo en precisión.
Experimento de Identificación de Abreviaciones
En el segundo experimento, el foco estaba en la capacidad del sistema para identificar correctamente abreviaciones desconocidas. Se mezclaron abreviaciones aleatorias en preguntas para ver qué tan bien podía el sistema reconocerlas y responder. Los modelos de última generación mostraron alta precisión al detectar estas abreviaciones, aunque aún quedaron algunos desafíos.
Conclusión
Golden-Retriever es una solución prometedora para las empresas que buscan mejorar su acceso a bases de conocimiento complejas. Al centrarse en aclarar las preguntas de los usuarios antes de buscar, mejora la capacidad de recuperar documentos relevantes, llevando a mejores respuestas y una experiencia más fluida para los usuarios. Con esfuerzos continuos para refinar y desarrollar este sistema aún más, tiene el potencial de ser una herramienta valiosa en cualquier entorno técnico.
Título: Golden-Retriever: High-Fidelity Agentic Retrieval Augmented Generation for Industrial Knowledge Base
Resumen: This paper introduces Golden-Retriever, designed to efficiently navigate vast industrial knowledge bases, overcoming challenges in traditional LLM fine-tuning and RAG frameworks with domain-specific jargon and context interpretation. Golden-Retriever incorporates a reflection-based question augmentation step before document retrieval, which involves identifying jargon, clarifying its meaning based on context, and augmenting the question accordingly. Specifically, our method extracts and lists all jargon and abbreviations in the input question, determines the context against a pre-defined list, and queries a jargon dictionary for extended definitions and descriptions. This comprehensive augmentation ensures the RAG framework retrieves the most relevant documents by providing clear context and resolving ambiguities, significantly improving retrieval accuracy. Evaluations using three open-source LLMs on a domain-specific question-answer dataset demonstrate Golden-Retriever's superior performance, providing a robust solution for efficiently integrating and querying industrial knowledge bases.
Autores: Zhiyu An, Xianzhong Ding, Yen-Chun Fu, Cheng-Chung Chu, Yan Li, Wan Du
Última actualización: 2024-07-20 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2408.00798
Fuente PDF: https://arxiv.org/pdf/2408.00798
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.