Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje# Inteligencia artificial

Simplificando la clasificación industrial con aprendizaje automático

Descubre cómo el aprendizaje automático simplifica la clasificación de industrias para las firmas de inversión.

― 9 minilectura


Técnicas eficientes deTécnicas eficientes declasificación industrialde aprendizaje automático.de inversión usando métodos avanzadosMaximiza la precisión en las decisiones
Tabla de contenidos

En el mundo de las inversiones, muchas empresas se enfocan en temas o tendencias, como la "agricultura vertical". Para encontrar buenas oportunidades de inversión en estos temas, los profesionales analizan mucha información sobre las empresas. Esto incluye entender qué hace la empresa, sus productos y su industria. Sin embargo, con empresas que pertenecen a múltiples industrias, determinar las clasificaciones correctas puede ser complicado y llevar tiempo. Aquí es donde entra el aprendizaje automático para ayudar a simplificar el proceso.

El Papel del Aprendizaje Automático

El aprendizaje automático puede tomar las descripciones de las empresas y categorizarlas en una o más industrias. Esta tarea se conoce como clasificación de texto multietiqueta. En palabras más simples, significa tomar la información de una empresa y averiguar en qué industrias encaja.

Por ejemplo, si una empresa que se especializa en herramientas tecnológicas también opera en el mercado de la salud, puede pertenecer tanto a la industria tecnológica como a la de salud. Esto ayuda a las firmas de inversión a tomar mejores decisiones sobre dónde poner su dinero.

Desafíos en la Clasificación de Empresas

Si bien el aprendizaje automático ofrece una manera de gestionar esta clasificación, hay desafíos:

  1. Datos Limitados: Las empresas a menudo tienen sus propias categorías industriales únicas. Así que solo pueden etiquetar una pequeña parte de sus datos. Esto hace que sea difícil entrenar modelos de manera efectiva.

  2. Datos Desequilibrados: Algunas industrias pueden tener muchos ejemplos etiquetados, mientras que otras pueden tener muy pocos. Esto puede llevar a que los modelos estén sesgados hacia las industrias más comunes.

  3. Información Cambiante: Los datos de la empresa pueden cambiar con frecuencia. Nuevas empresas surgen, y las empresas existentes pueden cambiar su enfoque. Por lo tanto, los modelos necesitan actualizaciones constantes para mantenerse relevantes.

  4. Tarea Compleja: Los modelos de aprendizaje automático suelen requerir muchos ejemplos etiquetados para funcionar bien. Sin embargo, la tarea específica de clasificación industrial presenta desafíos únicos que complican los enfoques convencionales.

¿Qué son los Modelos de lenguaje preentrenados?

Los modelos de lenguaje preentrenados (PLMs) se han vuelto populares en el campo del procesamiento de lenguaje natural. Estos modelos se entrenan con grandes cantidades de datos de texto no etiquetados para aprender patrones del lenguaje. Una vez entrenados, se pueden ajustar con conjuntos de datos etiquetados más pequeños para tareas específicas, como clasificar empresas en industrias. El ajuste fino se refiere a ajustar ligeramente el modelo para adaptarlo mejor a la tarea específica.

Sin embargo, este enfoque puede llevar a algunos problemas. Un gran problema es que el ajuste fino a veces puede hacer que el modelo olvide lo que aprendió durante su entrenamiento inicial. Además, ejecutar estos modelos puede ser costoso en términos de recursos computacionales.

Ajuste Fino Eficiente en Parámetros

Para abordar los problemas de altos costos y la potencial pérdida de conocimiento, ha surgido un método llamado Ajuste Fino Eficiente en Parámetros (PEFT). Este método permite ajustar modelos sin modificar todos sus parámetros. Un enfoque específico dentro de PEFT es el "Ajuste de Prompts".

¿Qué es el Ajuste de Prompts?

El Ajuste de Prompts funciona agregando un pequeño conjunto de parámetros, llamados "soft prompts", a los datos de entrada. En lugar de cambiar todo el modelo, este método solo modifica los soft prompts. Esto no solo reduce costos, sino que también mantiene intacto el conocimiento original del modelo. Así, puede seguir entendiendo nuevos datos de manera efectiva.

Evaluación del Ajuste de Prompts

Este artículo investiga qué tan bien funciona el Ajuste de Prompts para la tarea de clasificar empresas en industrias. Compara este método con técnicas tradicionales como cabeceras de clasificación y búsqueda de similitud de embeddings. Estas comparaciones ayudan a determinar qué método es más efectivo y eficiente para esta tarea.

La Necesidad de Soluciones Específicas

A pesar de las ventajas de los PLMs, hay una clara necesidad de adaptar estos métodos para satisfacer tareas especializadas como la clasificación por industria. Las soluciones existentes a menudo no abordan adecuadamente los desafíos presentados por estas necesidades específicas del dominio.

El Estado del Arte en Aprendizaje Automático para Clasificación de Texto

Existen diferentes enfoques para clasificar texto, incluyendo el uso de algoritmos de compresión y aprendizaje en contexto. Cada uno de estos métodos tiene sus ventajas y limitaciones.

Algoritmos de Compresión

Algunos métodos utilizan algoritmos de compresión para categorizar texto. Al comprimir textos similares juntos, estos métodos pueden determinar qué etiquetas son más relevantes para una entrada particular. Si bien esto puede ser eficiente, a menudo carece de precisión.

Aprendizaje en Contexto

Otro enfoque es el aprendizaje en contexto. Esto implica incluir ejemplos en el prompt de entrada para ayudar al modelo a aprender clasificaciones sin necesidad de un ajuste fino específico. Sin embargo, este método tiene limitaciones, especialmente en tareas que requieren nuevo conocimiento.

Métodos de Embedding

También hay métodos que utilizan embeddings de modelos de lenguaje. Estos embeddings representan texto en forma numérica, lo que permite utilizar técnicas de clasificación de aprendizaje automático tradicionales. Pero, aunque estos métodos pueden ser eficientes, no siempre ofrecen el mejor rendimiento.

Mejorando la Clasificación Multietiqueta

Dadas las limitaciones de los métodos anteriores, los investigadores han buscado formas de mejorar la clasificación multietiqueta con PLMs. Una de estas mejoras implica modificar cómo se generan las etiquetas durante el proceso de clasificación.

Método de Búsqueda Trie

Un método innovador llamado Búsqueda Trie puede ayudar a generar etiquetas válidas mientras evita repeticiones. Este método organiza etiquetas en un formato estructurado, facilitando la generación de salidas apropiadas. Al permitir únicamente la generación de etiquetas que son parte de una estructura predefinida, este método mejora la precisión de las predicciones.

Clasificación de Embeddings Ajustada por Prompts (PTEC)

Otra innovación importante discutida es la Clasificación de Embeddings Ajustada por Prompts (PTEC). Este método combina el Ajuste de Prompts con la clasificación de embeddings, lo que permite predicciones más precisas. PTEC evita las complicaciones de la generación de texto multietiqueta al clasificar directamente los embeddings producidos por el modelo. Esto significa que puede proporcionar predicciones de etiquetas válidas sin depender de un orden arbitrario o generar cada etiqueta secuencialmente.

Metodología de Evaluación

Para comparar los diferentes métodos, se realizan varios experimentos utilizando un conjunto de datos propietario. El conjunto de datos consiste en nombres de empresas, descripciones y sus respectivas etiquetas industriales. Cada empresa puede pertenecer a múltiples industrias, lo que hace esencial que el modelo sea capaz de clasificación multietiqueta.

Pruebas de los Modelos

Los modelos se evalúan según su capacidad para clasificar industrias basándose en descripciones de empresas, palabras clave y sus nombres. El objetivo es encontrar qué modelo minimiza la función de pérdida basada en los resultados de clasificación. El principal indicador de rendimiento es la puntuación F1 macro-promediada, que evalúa la precisión de un modelo en todas las clases.

Resultados y Hallazgos

La evaluación revela varios hallazgos importantes sobre el rendimiento del modelo y la eficiencia computacional. PTEC, utilizando tanto el Ajuste de Prompts como la clasificación de embeddings, produce los mejores resultados en términos de precisión mientras que también es eficiente en el uso de recursos. Otros métodos, aunque efectivos, pueden no ofrecer el mismo nivel de ahorro computacional.

La Importancia de las Puntuaciones de Confianza

Una ventaja notable de PTEC es su capacidad para proporcionar puntuaciones de confianza con sus predicciones. Esto permite a los usuarios determinar cuán seguros están los modelos sobre sus clasificaciones. Poder ajustar la sensibilidad de las predicciones según estas puntuaciones añade un valor significativo, particularmente en contextos de inversión.

Discutiendo la Variabilidad

Otro hallazgo importante es la variabilidad observada en el rendimiento de los modelos. Diferentes modelos pueden tener un rendimiento inconsistente, lo que puede afectar la confianza en sus predicciones. Es crucial que las firmas de inversión cuenten con modelos confiables, ya que las imprecisiones podrían llevar a malas decisiones de inversión.

Subjetividad en la Clasificación

Las tareas de clasificación pueden ser subjetivas. Diferentes personas pueden etiquetar la misma empresa de manera diferente según sus percepciones de sus actividades principales. Esto añade una capa adicional de complejidad para asegurar que los modelos de aprendizaje automático estén efectivamente entrenados y validados.

Direcciones Futuras

Para mejorar la robustez de estos modelos y métodos, se pueden explorar varias áreas más a fondo. La investigación futura puede centrarse en experimentar con métodos PEFT más avanzados o técnicas de clasificación jerárquica. Además, hay oportunidades para integrar aprendizaje auto-supervisado en datos específicos del dominio para mejorar el rendimiento.

Conclusión

Este artículo enfatiza la necesidad de adaptar los modernos métodos de aprendizaje automático para resolver problemas específicos como la clasificación industrial. Las técnicas discutidas, particularmente el Ajuste de Prompts y PTEC, muestran promesa para manejar tareas multietiqueta de manera eficiente mientras maximizan la precisión. A medida que el panorama de las inversiones sigue evolucionando, es esencial que las firmas aprovechen soluciones efectivas de aprendizaje automático que puedan adaptarse a datos cambiantes y necesidades industriales. Al hacerlo, pueden tomar decisiones más informadas basadas en conocimientos confiables sobre varias empresas y sus respectivas industrias.

Fuente original

Título: Prompt Tuned Embedding Classification for Multi-Label Industry Sector Allocation

Resumen: Prompt Tuning is emerging as a scalable and cost-effective method to fine-tune Pretrained Language Models (PLMs), which are often referred to as Large Language Models (LLMs). This study benchmarks the performance and computational efficiency of Prompt Tuning and baselines for multi-label text classification. This is applied to the challenging task of classifying companies into an investment firm's proprietary industry taxonomy, supporting their thematic investment strategy. Text-to-text classification is frequently reported to outperform task-specific classification heads, but has several limitations when applied to a multi-label classification problem where each label consists of multiple tokens: (a) Generated labels may not match any label in the label taxonomy; (b) The fine-tuning process lacks permutation invariance and is sensitive to the order of the provided labels; (c) The model provides binary decisions rather than appropriate confidence scores. Limitation (a) is addressed by applying constrained decoding using Trie Search, which slightly improves classification performance. All limitations (a), (b), and (c) are addressed by replacing the PLM's language head with a classification head, which is referred to as Prompt Tuned Embedding Classification (PTEC). This improves performance significantly, while also reducing computational costs during inference. In our industrial application, the training data is skewed towards well-known companies. We confirm that the model's performance is consistent across both well-known and less-known companies. Our overall results indicate the continuing need to adapt state-of-the-art methods to domain-specific tasks, even in the era of PLMs with strong generalization abilities. We release our codebase and a benchmarking dataset at https://github.com/EQTPartners/PTEC.

Autores: Valentin Leonhard Buchner, Lele Cao, Jan-Christoph Kalo, Vilhelm von Ehrenheim

Última actualización: 2024-04-12 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2309.12075

Fuente PDF: https://arxiv.org/pdf/2309.12075

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares