Avaliando Modelos de Linguagem Grande em Tarefas de Anotação Humana
Analisando a eficácia dos modelos de linguagem para classificar dados de linguagem humana.
― 6 min ler
Índice
Grandes Modelos de Linguagem (LLMs) são programas de computador que conseguem entender e gerar linguagem humana. Eles mostraram habilidades impressionantes, especialmente em tarefas como classificar textos. Dois métodos importantes para essas tarefas são aprendizagem zero-shot (ZSL) e aprendizagem few-shot (FSL). ZSL significa fazer previsões sem treinamento específico para aquela tarefa, enquanto FSL envolve usar alguns exemplos para guiar o modelo. Porém, nem todos os LLMs são treinados com os mesmos dados, então o desempenho deles pode variar bastante. Pesquisas recentes destacam o papel da variação humana na rotulação de dados-algumas pessoas dão rótulos diferentes para a mesma informação. Este estudo analisa se essa variação humana pode ajudar os LLMs e se combinar rótulos de diferentes modelos é melhor do que se basear em apenas um.
Metodologia
Testamos quatro LLMs modernos como se fossem anotadores humanos em cinco tarefas subjetivas em quatro idiomas: inglês, francês, alemão e espanhol. As tarefas incluíam classificar sentimentos, identificar idade e gênero, detectar tópicos e reconhecer discurso de ódio. Usamos métodos ZSL e FSL, junto com dados agregados de anotações humanas.
Descobrimos que combinar rótulos de diferentes modelos muitas vezes trouxe resultados melhores do que usar cada modelo sozinho. No entanto, FSL nem sempre performou melhor que ZSL, pois dependia muito da qualidade dos exemplos escolhidos para a tarefa. Alguns modelos se saíram melhor em certas tarefas ou idiomas, mostrando uma especialização parecida com a que vemos entre os anotadores humanos.
As Tarefas
As tarefas que analisamos incluem:
- Análise de Sentimentos: Classificar avaliações como positivas, negativas ou neutras com base no conteúdo.
- Classificação de Idade: Determinar se o autor de um texto tem menos de 35 ou mais de 45 anos.
- Classificação de Gênero: Identificar se o autor é homem ou mulher.
- Detecção de Tópicos: Atribuir um tópico específico a uma avaliação, que varia conforme o idioma.
- Detecção de Discurso de Ódio: Verificar se um tweet expressa discurso de ódio ou não.
Usamos dois conjuntos de dados para nossa análise-Trustpilot, que contém avaliações de usuários, e HatEval, que consiste em tweets sobre imigrantes e mulheres.
Análise dos Modelos
Os quatro LLMs que avaliamos incluem Flan-T5, Flan-UL2, T0 e Tk-Instruct. Esses modelos foram escolhidos porque representam uma ampla gama de instruções e são open source, o que significa que podemos checar facilmente seus dados de treinamento.
Cada modelo foi desafiado com tarefas como pedir para classificar uma frase, e coletamos suas respostas. Para combinar as respostas, usamos duas técnicas: votação da maioria e um modelo bayesiano. A votação da maioria escolhe o rótulo mais comum entre os modelos, enquanto o modelo bayesiano considera quão confiável cada modelo é com base no seu desempenho anterior.
Resultados
Os resultados mostraram que diferentes modelos se especializaram em diferentes tarefas. Por exemplo, alguns modelos foram melhores em certos rótulos em tarefas específicas, parecido com como diferentes anotadores humanos se destacam em várias áreas.
Ao agregar os rótulos, nossas descobertas indicaram que os rótulos combinados de diferentes modelos geralmente tiveram desempenho melhor do que qualquer modelo individual. Em média, os rótulos agregados melhoraram em mais de 4 pontos F1 em comparação com as saídas de modelos individuais. Mesmo assim, até os melhores resultados de modelos combinados não chegaram a igualar a performance de modelos supervisionados simples treinados com os mesmos dados.
Força da Agregação
Usar rótulos agregados provou ser consistentemente melhor do que depender de um único modelo. No entanto, ao usar FSL, não vimos um aumento claro de desempenho em relação ao ZSL. Exploramos dois métodos para selecionar exemplos iniciais para FSL-seleção aleatória e seleção baseada em desagrado entre modelos-mas nenhum mostrou vantagens significativas.
Comparação com Aprendizagem Supervisionada
Para entender a eficácia dos LLMs, comparamos seus resultados com modelos supervisionados tradicionais, que são treinados usando dados rotulados. Na maioria das vezes, até modelos supervisionados básicos superaram os melhores resultados alcançados por meio dos LLMs. Isso sugere que, enquanto os LLMs podem acelerar o processo de previsão, eles ainda não são tão confiáveis quanto os métodos supervisionados.
Discussão sobre Anotação Humana
O projeto indica que, embora os LLMs ofereçam uma forma rápida de gerar rótulos, a anotação humana continua sendo essencial, principalmente para tarefas que exigem nuances ou sensibilidade. Mesmo com a capacidade dos LLMs de fornecer previsões rápidas, eles ainda ficam aquém do desempenho humano. Anotadores humanos podem dar insights ou expressar opiniões que um modelo pode não captar totalmente.
Considerações Éticas
Usar LLMs como anotadores levanta questões éticas. Por exemplo, se os modelos são treinados com dados tendenciosos, eles podem produzir resultados tendenciosos. Além disso, enquanto os anotadores humanos podem representar opiniões diversas, os LLMs podem não refletir a mesma gama. Há o risco de que depender apenas dos LLMs possa ignorar questões sociais importantes.
Conclusão
Este estudo enfatiza o potencial dos LLMs como anotadores, enquanto também destaca as limitações e preocupações éticas que vêm com seu uso. Embora os LLMs possam aumentar a eficiência em tarefas de classificação de texto, eles não conseguem substituir o julgamento nuançado dos anotadores humanos, especialmente em áreas sensíveis. A melhora consistente de desempenho vista através da agregação de rótulos mostra promessa para praticantes que buscam melhorar seus fluxos de trabalho.
No geral, a anotação humana continua sendo um componente crucial nos esforços para alcançar rotulação de dados de alta qualidade, enquanto os LLMs podem complementar esse processo oferecendo métodos rápidos e econômicos para tarefas de dados em larga escala.
Título: Wisdom of Instruction-Tuned Language Model Crowds. Exploring Model Label Variation
Resumo: Large Language Models (LLMs) exhibit remarkable text classification capabilities, excelling in zero- and few-shot learning (ZSL and FSL) scenarios. However, since they are trained on different datasets, performance varies widely across tasks between those models. Recent studies emphasize the importance of considering human label variation in data annotation. However, how this human label variation also applies to LLMs remains unexplored. Given this likely model specialization, we ask: Do aggregate LLM labels improve over individual models (as for human annotators)? We evaluate four recent instruction-tuned LLMs as annotators on five subjective tasks across four languages. We use ZSL and FSL setups and label aggregation from human annotation. Aggregations are indeed substantially better than any individual model, benefiting from specialization in diverse tasks or languages. Surprisingly, FSL does not surpass ZSL, as it depends on the quality of the selected examples. However, there seems to be no good information-theoretical strategy to select those. We find that no LLM method rivals even simple supervised models. We also discuss the tradeoffs in accuracy, cost, and moral/ethical considerations between LLM and human annotation.
Autores: Flor Miriam Plaza-del-Arco, Debora Nozza, Dirk Hovy
Última atualização: 2024-04-15 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2307.12973
Fonte PDF: https://arxiv.org/pdf/2307.12973
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://huggingface.co/google/flan-t5-xxl
- https://huggingface.co/google/flan-ul2
- https://huggingface.co/bigscience/T0
- https://huggingface.co/bigscience/mt0-xxl
- https://huggingface.co/datasets/bigscience/xP3
- https://huggingface.co/allenai/tk-instruct-3b-def
- https://github.com/fornaciari/boostsa
- https://github.com/dirkhovy/MACE