Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje# Inteligencia artificial# Aprendizaje automático

Mejorando la clasificación de textos con aprendizaje activo y LLMs

Un nuevo método combina humanos y IA para clasificar textos de manera eficiente.

― 18 minilectura


Clasificación de TextoClasificación de TextoRedefinidaresultados.Combinando IA y humanos para mejores
Tabla de contenidos

La clasificación de texto es un proceso que se utiliza en muchas áreas, incluyendo finanzas, atención médica y redes sociales. Implica enseñar a programas de computadora a entender y categorizar contenido escrito. Un gran desafío en esta tarea es el costo de preparar los datos, especialmente la necesidad de anotaciones manuales, que requieren que los humanos etiqueten muchos datos. Esto puede ser un proceso que consume tiempo y es caro.

El Aprendizaje Activo es un enfoque inteligente que ayuda a reducir estos costos. Funciona permitiendo que el programa elija qué puntos de datos etiquetar a continuación, enfocándose en aquellos que son más útiles para aprender. De esta manera, la computadora puede aprender de manera más eficiente, necesitando menos ejemplos etiquetados por humanos.

Los Modelos de Lenguaje Grande (LLMs), como GPT-3.5, también pueden ayudar a acelerar el proceso de anotación. Pueden etiquetar automáticamente los datos, pero hay preocupaciones sobre cuán confiables son estos modelos. Este artículo presenta un nuevo método que combina las fortalezas de los anotadores humanos y los LLMs dentro de un marco de aprendizaje activo. Probamos este enfoque usando tres conjuntos de datos públicos: el conjunto de datos de IMDB para el análisis de sentimientos, un conjunto de datos de noticias falsas para identificar artículos verídicos, y un conjunto de datos de géneros de películas para clasificación multietiqueta.

Cómo Funciona el Nuevo Método

El método que se presenta aquí combina la aportación humana con las predicciones hechas por LLMs basándose en sus niveles de confianza. Al hacer esto, podemos encontrar un buen equilibrio entre ahorrar dinero y obtener resultados precisos. Nuestras pruebas mostraron que este enfoque reduce significativamente los costos de Anotación de datos mientras mantiene o mejora la precisión del modelo.

El aprendizaje activo permite a los modelos de aprendizaje automático elegir de manera selectiva qué ejemplos aprender. Este aprendizaje selectivo ayuda a hacer el proceso más eficiente, llevando a menudo a un mejor rendimiento usando menos ejemplos etiquetados.

El aprendizaje activo ha sido un tema popular de investigación durante mucho tiempo, con un enfoque renovado en el Procesamiento del Lenguaje Natural (NLP) alrededor de 2009 y 2010 a medida que las redes neuronales se volvían más comunes. Las tendencias recientes indican que combinar técnicas de aprendizaje activo con métodos de aprendizaje profundo puede llevar a mejores resultados.

Una técnica común en el aprendizaje activo se llama Muestreo de Incertidumbre. Este método encuentra los ejemplos donde el modelo tiene menos confianza en sus predicciones. Por ejemplo, en una tarea de clasificación binaria donde hay dos categorías, el modelo elegirá ejemplos que tienen una probabilidad de estar en la categoría positiva cerca del 50%. En este enfoque, expertos humanos revisan y etiquetan estos ejemplos seleccionados, y el modelo los utiliza para mejorar su aprendizaje de manera iterativa.

Si bien el aprendizaje activo es una técnica útil, no es el único método para reducir los costos de anotación humana. Los LLMs se han aplicado en varias tareas de etiquetado de texto, como categorizar mensajes en Twitter e identificar discursos de odio. Estudios recientes también han explorado el uso de métodos de aprendizaje activo con LLMs a través de una técnica llamada muestreo de incertidumbre basado en indicaciones.

Nuestro estudio propone un nuevo proceso para la clasificación de texto que utiliza tres conjuntos de datos diferentes: IMDB para análisis de sentimientos, un conjunto de datos para identificar noticias falsas, y uno para clasificar géneros de películas. El marco que introducimos combina el aprendizaje activo basado en el muestreo de incertidumbre con anotaciones humanas y LLM. Este enfoque decide de manera adaptativa si utilizar etiquetado humano o de máquina basándose en la incertidumbre de las predicciones de LLM.

Creemos que este es el primer estudio que evalúa a fondo la efectividad de combinar anotadores humanos, aprendizaje activo y GPT-3.5 para la clasificación de texto. Nuestro enfoque actualiza los métodos tradicionales de aprendizaje activo añadiendo medidas de incertidumbre de LLMs como GPT-3.5 a nuestro proceso de selección.

Compromisos entre Costo y Precisión

Al evaluar nuestro enfoque, miramos de cerca el compromiso entre costo y precisión utilizando modelos de precios del mundo real para anotaciones humanas y de máquina. El objetivo es crear un método de clasificación de texto eficiente y escalable que aproveche tanto la experiencia humana como técnicas avanzadas de aprendizaje automático.

Las secciones siguientes describirán un método que reúne el conocimiento humano y LLMs en un marco de aprendizaje activo. Proporcionaremos detalles sobre el setup experimental y los métodos utilizados, incluyendo muestreo basado en incertidumbre y LLMs para la anotación de datos. Luego, analizaremos los resultados en términos de precisión y eficiencia, discutiendo las implicaciones más amplias y el potencial futuro de este enfoque en la clasificación de texto.

Estudios Relacionados

La clasificación de texto juega un papel crucial en el procesamiento del lenguaje natural (NLP) al utilizar varios métodos, desde técnicas tradicionales hasta redes neuronales más avanzadas como Memoria a Largo y Corto Plazo (LSTM) y Redes Neuronales Convolucionales (CNN). Mientras que estos métodos a menudo se enfocan en maximizar la precisión del modelo, nuestro estudio destaca la importancia de reducir datos etiquetados a través de anotaciones selectivas, lo que puede mejorar el rendimiento del modelo.

En el ámbito del aprendizaje activo, Anderson y otros han examinado métodos basados en incertidumbre a través de varios modelos como máquinas de soporte vectorial y árboles de decisión. Propusieron un método para identificar las predicciones más inciertas para etiquetado manual, sugiriendo efectivamente un porcentaje predeterminado que podría servir como un punto de parada.

El aprendizaje activo también se ha aplicado a tareas de análisis de texto. Algunos autores han introducido mecanismos de umbral para seleccionar instancias con bajas probabilidades para anotación, mientras que otros han examinado métodos de aprendizaje activo más avanzados, como el procesamiento de perplexidad y entropía.

Investigaciones recientes también han explorado integrar LLMs en marcos de aprendizaje activo. Por ejemplo, un método llamado PATRON incorpora estrategias basadas en indicaciones para seleccionar puntos de datos en el aprendizaje activo, enfocándose en equilibrar la informatividad y la diversidad en la selección de muestras.

Si bien estos estudios han hecho contribuciones significativas al campo, todavía existe una brecha en la utilización efectiva de LLMs tanto para anotación como para estimación de incertidumbre dentro de un enfoque integrado de aprendizaje activo. Nuestro trabajo busca llenar esta brecha combinando anotadores humanos y GPT-3.5 en un marco de aprendizaje activo, evaluado a través de múltiples conjuntos de datos públicos.

Progresión de la Puntuación F1 y Análisis de Costos

Para ilustrar la efectividad de nuestro método, presentamos las siguientes figuras que muestran la progresión de las puntuaciones F1 desde el 2% hasta el 52% de porciones de datos de entrenamiento en el conjunto de datos de noticias falsas. Esto proporciona una representación visual de cómo evoluciona la puntuación F1 con diferentes métodos de anotación: solo GPT, modelos híbridos, solo humanos, aprendizaje de pocos ejemplos y una línea base de muestreo aleatorio. Cada paso incrementado representa un crecimiento en el tamaño del conjunto de datos de entrenamiento, demostrando cambios en el rendimiento a través de los experimentos.

La siguiente figura muestra un análisis de costos asociado con diferentes puntuaciones F1 durante los incrementos iterativos de datos de entrenamiento en el conjunto de datos de noticias falsas. La comparación ilustra la rentabilidad de las estrategias de anotación a medida que la porción de entrenamiento crece del 2% al 52%. Las ideas sobre las implicaciones financieras de varios enfoques de anotación ayudan a aclarar la viabilidad económica de cada método.

Nuestra Metodología

La metodología que desarrollamos se centra en aprovechar el aprendizaje activo con muestreo de incertidumbre. Nuestro enfoque de aprendizaje activo gira en torno a seleccionar los puntos de datos más inciertos de un grupo no etiquetado para cada iteración. Usando las probabilidades predichas de un modelo de regresión logística, creamos un ranking de puntos de datos según su incertidumbre. Este ranking ayuda a identificar muestras que el clasificador encuentra más desafiantes, permitiendo que el modelo aprenda de ellas y refine su rendimiento de clasificación de manera efectiva.

Selección de Datos

En cada iteración de aprendizaje activo, seleccionamos las muestras de datos con los puntajes de incertidumbre más altos del grupo no etiquetado. Estas muestras se añaden al conjunto de entrenamiento para la siguiente iteración. Al concentrarnos en puntos de datos de alta ganancia informativa, el modelo aprende de errores anteriores y mejora gradualmente su rendimiento en cada ronda. Este proceso de aprendizaje activo optimiza la eficiencia del aprendizaje mientras requiere muchas menos instancias etiquetadas en comparación con los métodos de aprendizaje supervisado tradicionales.

Inicio del Pool

El proceso de aprendizaje activo comienza con un pequeño conjunto de datos inicial, que representa una fracción del total de datos disponibles para la tarea de clasificación. Este conjunto inicial se utiliza para iniciar el proceso de aprendizaje, permitiendo que el modelo haga las primeras predicciones. Los datos restantes fuera de este conjunto inicial se convierten en el "pool no etiquetado", proporcionando continuamente muestras inciertas para selección y etiquetado durante cada iteración del proceso de aprendizaje activo.

Conjunto de Validación Proxy

Una de las contribuciones significativas de nuestro estudio es la creación de un conjunto de “validación proxy”. Este es un subconjunto de los datos totales que estima el rendimiento del modelo durante cada iteración de aprendizaje activo. Proporciona una muestra etiquetada que imita la distribución estadística del pool no etiquetado principal, actualizándose junto con cada iteración.

Durante cada ronda de aprendizaje activo, evaluamos la precisión del modelo usando el conjunto de validación proxy. Para mantener la consistencia, aplicamos el mismo porcentaje de confianza para eliminar datos de baja confianza tanto del conjunto de validación proxy como del pool no etiquetado principal. Los resultados del conjunto de validación proxy nos dan una medida de la precisión del pool principal, lo cual es valioso cuando las etiquetas reales no están disponibles.

Anotación de Datos Basada en LLM

Aprovechamos la API de GPT-3.5 para anotar nuestro conjunto de datos, aumentando la eficiencia del proceso de aprendizaje activo. Diseñamos un conjunto de indicaciones para que GPT-3.5 analizara las reseñas de películas y reportara el nivel de confianza de estas predicciones. Usar LLMs para la anotación nos permitió obtener etiquetas de sentimiento junto con sus puntajes de confianza correspondientes, facilitando varias condiciones experimentales.

Adaptando el Aprendizaje Activo a la Ingeniería de Indicaciones

En nuestro enfoque, tomamos los elementos fundamentales del aprendizaje activo y los aplicamos en un contexto basado en LLMs como GPT-3.5. A diferencia del aprendizaje activo tradicional que a menudo requiere volver a entrenar modelos con datos cuidadosamente etiquetados, nuestro método se centra en mejorar las indicaciones entregadas a GPT-3.5. Esto nos permite aprovechar el conocimiento existente del modelo sin necesidad de volver a entrenarlo.

Inicialmente, comenzamos usando aprendizaje sin ejemplos, donde presentamos tareas a GPT-3.5 sin proporcionar ejemplos específicos. Las respuestas del modelo y sus puntajes de confianza nos dan una comprensión inicial de sus capacidades para la tarea. Estos puntajes de confianza son similares a las medidas de incertidumbre en el aprendizaje activo tradicional, ayudando a guiar los pasos siguientes.

Cuando GPT-3.5 muestra menos confianza (por debajo del 70% para el conjunto de datos de IMDB y por debajo del 80% para los otros dos conjuntos de datos), cambiamos a un enfoque de aprendizaje de pocos ejemplos. Esta transición implica suministrar tareas de baja confianza con algunos ejemplos. Elegimos estos umbrales basándonos en un análisis de nuestros conjuntos de datos para asegurarnos de que apuntáramos a un porcentaje manejable de los datos para re-anotación sin solapamientos excesivos.

Setup Experimental

En nuestros experimentos, observamos el impacto de usar GPT-3.5 para la anotación de datos bajo diferentes escenarios, incluyendo varios umbrales de confianza y combinaciones de anotaciones humanas y LLM. Los experimentos se llevaron a cabo en tres conjuntos de datos: IMDB, géneros de películas y noticias falsas.

Solo Etiquetas de GPT-3.5

El primer experimento verifica qué tan bien un LLM puede anotar datos utilizando solo las etiquetas proporcionadas por GPT-3.5.

Solo Etiquetas Humanas

Como comparación, también intentamos anotar usando exclusivamente la entrada humana. Esto sirve como control contra el cual podemos medir la efectividad de las anotaciones del LLM.

Etiquetas Híbridas: Experimentos de Umbral de Confianza

En estos experimentos, exploramos la eficiencia de combinar las predicciones de GPT-3.5 con las etiquetas humanas a varios niveles de confianza fijados por GPT-3.5.

  • Umbral de Confianza 90: Aquí, usamos etiquetas de LLM para puntos de datos con un puntaje de confianza superior al 90%. Si el puntaje es más bajo, confiamos en las anotaciones humanas.

  • Umbral de Confianza 80: En esta configuración, adoptamos etiquetas de LLM para puntos por encima del 80% de confianza, complementando con anotaciones humanas para el resto.

  • Umbral de Confianza 70: Esto implica usar etiquetas de LLM para puntos de datos valorados en más de 70% de confianza, con ayuda humana para los puntos de menor confianza.

GPT-3.5 con Aprendizaje de Pocos Ejemplos para Aprendizaje Activo

Este experimento examina cuán bien puede GPT-3.5 anotar datos usando aprendizaje de pocos ejemplos, enfocándose en puntos con diferentes niveles de confianza.

  • Aprendizaje de Un Solo Ejemplo para Puntos de Alta Confianza: Para puntos de datos con alta confianza, proporcionamos un ejemplo relevante para ayudar a GPT-3.5 a refinar su comprensión y mejorar sus etiquetas.

  • Aprendizaje de Pocos Ejemplos para Puntos de Baja Confianza: Para puntos de datos de baja confianza, proporcionamos tres ejemplos para ayudar a mejorar las anotaciones.

Estimación de Costos

Para entender completamente la practicidad de cada método de anotación, evaluamos los costos asociados a todos los experimentos. Calculamos estos costos basándonos en estructuras de precios de fuentes confiables para anotaciones humanas y de LLM.

Para los costos de anotación humana, utilizamos un modelo que mide la cantidad total de palabras etiquetadas. Para el LLM, basamos nuestros cálculos en los costos de procesamiento de tokens.

Al utilizar tanto los datos de puntuación F1 como de costo para comparaciones, descubrimos ideas sobre el compromiso entre costo y precisión, destacando los enfoques más viables económicamente que aún mantienen un rendimiento efectivo.

Analizando los Resultados

La metodología mostró una notable adaptabilidad a través de tres conjuntos de datos diferentes, cada uno con sus propios desafíos de clasificación:

  1. Reseñas de IMDB: Este conjunto de datos involucró un análisis binario, determinando si las reseñas de películas expresaban sentimientos positivos o negativos.

  2. Noticias Falsas: Otra tarea de clasificación binaria que incluyó longitudes de texto variadas, añadiendo complejidad al proceso.

  3. Géneros de Películas: Este conjunto de datos presentaba clasificación multiclase basada en las tramas de las películas, presentando un desafío más intrincado.

La aplicación consistente de la metodología a través de estos conjuntos de datos enfatiza su adaptabilidad. A través de nuestro análisis, examinamos las puntuaciones F1 y los costos asociados con cada configuración experimental.

En el conjunto de datos de IMDB, por ejemplo, las anotaciones solo de GPT mostraron un aumento en las puntuaciones F1 de 0.8201 al 10% de datos a 0.9629 al 50%, con costos aumentando de $0.46 a $2.30. En contraste, el enfoque solo humano obtuvo puntuaciones F1 de 0.8597 a 0.9796, pero a un costo mucho más alto.

En general, los hallazgos indican que todos los métodos de anotación superaron sustancialmente el muestreo aleatorio. Esto es especialmente cierto a medida que los datos de entrenamiento se expandieron incrementalmente del 2% al 52%. Estos resultados confirman la efectividad de las estrategias de anotación sistemáticas sobre los métodos aleatorios para mejorar la precisión de la clasificación de texto.

Los umbrales de confianza fueron cruciales para equilibrar las anotaciones automáticas y manuales. Para el conjunto de datos de IMDB, se aplicó un umbral del 70%, mientras que se utilizaron umbrales del 80% para los otros conjuntos de datos. Estos umbrales apuntaron a una porción manejable de datos de baja confianza para esfuerzos de anotación de seguimiento.

Conclusión

Combinar modelos de lenguaje grande como GPT-3.5 con anotadores humanos en un marco de aprendizaje activo mejora la eficiencia y efectividad de las tareas de clasificación de texto. Este enfoque híbrido permite un uso selectivo de las anotaciones de GPT-3.5 o entradas humanas según los niveles de confianza, logrando un sólido equilibrio entre gastos y precisión.

Nuestra investigación también destaca la idea de validación proxy, que proporciona una manera efectiva de estimar la calidad de todo el conjunto de datos no etiquetados, mejorando el proceso de anotación. En general, el estudio demuestra las ventajas significativas de integrar modelos de IA con supervisión humana para crear soluciones de clasificación de texto eficientes y precisas.

Apéndice

En esta sección, figuras adicionales y explicaciones detalladas complementan los hallazgos y metodologías presentados anteriormente. Estos materiales suplementarios ayudan a obtener una comprensión más profunda del rendimiento y la eficiencia de nuestro marco de aprendizaje activo y la efectividad del método de validación proxy.

Figuras Adicionales de Rendimiento y Costos del Aprendizaje Activo

Esta parte presenta comparaciones visuales del rendimiento de nuestro modelo a través de los distintos conjuntos de datos. Estas figuras juegan un papel crucial en demostrar la efectividad de nuestro marco de aprendizaje activo frente a varios desafíos de clasificación de texto.

Rendimiento del Conjunto de Datos de IMDB

Una representación visual muestra el rendimiento de nuestro modelo en el conjunto de datos de IMDB. Esta comparación incluye nuestra estrategia de aprendizaje activo propuesta junto con una línea base de adición aleatoria de datos, ilustrando las mejoras en las puntuaciones F1 para cada método.

Rendimiento del Conjunto de Datos de Géneros de Películas

Al igual que en el conjunto de datos de IMDB, proporcionamos un análisis comparativo para el conjunto de datos de géneros de películas, nuevamente yuxtaponiendo el enfoque de aprendizaje activo contra la línea base de adición aleatoria, subrayando la capacidad de nuestro modelo para abordar eficazmente los desafíos de clasificación.

Ejemplos de Correlación de Validación Proxy

Esta sección ilustra cómo usar una pequeña porción de datos como herramienta de validación proxy puede indicar la calidad general del pool. Las figuras resaltan la correlación entre las puntuaciones F1 derivadas de las anotaciones de GPT-3.5 y el conjunto de validación proxy.

Diseño de Indicaciones

Para aclarar cómo se estructuraron las indicaciones para la anotación de GPT-3.5, proporcionamos ejemplos adaptados para diferentes conjuntos de datos, demostrando la claridad y enfoque de las indicaciones para lograr clasificaciones precisas de sentimientos y géneros.

Detalles del Conjunto de Datos y Aprendizaje Activo

Los tamaños de los conjuntos de datos utilizados en nuestra investigación fueron cuidadosamente seleccionados para un análisis en profundidad. El conjunto de datos de IMDB contenía 10,000 entradas para análisis de sentimientos, el conjunto de datos de noticias falsas incluía 5,000 entradas para detección de autenticidad, y el conjunto de datos de Géneros de Películas tenía 4,000 entradas para clasificación de géneros. Cada conjunto de datos fue equilibrado para evitar sesgos y asegurar resultados justos en nuestras evaluaciones.

La fase de aprendizaje activo comenzó con un conjunto de datos inicial que comprendía el 2% de los datos totales para cada tarea. Esta selección sirvió como línea base para nuestro modelo, que se comprometió en un proceso de aprendizaje sistemático, añadiendo el 0.002% de datos durante 250 iteraciones, alcanzando en última instancia un total del 52% de datos disponibles. Este enfoque gradual fue vital para optimizar la curva de aprendizaje del modelo, mejorando progresivamente su precisión de clasificación con la exposición incrementada a muestras.

Fuente original

Título: Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation

Resumen: In the context of text classification, the financial burden of annotation exercises for creating training data is a critical issue. Active learning techniques, particularly those rooted in uncertainty sampling, offer a cost-effective solution by pinpointing the most instructive samples for manual annotation. Similarly, Large Language Models (LLMs) such as GPT-3.5 provide an alternative for automated annotation but come with concerns regarding their reliability. This study introduces a novel methodology that integrates human annotators and LLMs within an Active Learning framework. We conducted evaluations on three public datasets. IMDB for sentiment analysis, a Fake News dataset for authenticity discernment, and a Movie Genres dataset for multi-label classification.The proposed framework integrates human annotation with the output of LLMs, depending on the model uncertainty levels. This strategy achieves an optimal balance between cost efficiency and classification performance. The empirical results show a substantial decrease in the costs associated with data annotation while either maintaining or improving model accuracy.

Autores: Hamidreza Rouzegar, Masoud Makrehchi

Última actualización: 2024-06-17 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2406.12114

Fuente PDF: https://arxiv.org/pdf/2406.12114

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares