Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial

Avaliando Riscos em Modelos de Linguagem

Um novo modelo pra entender os riscos em modelos de linguagem.

― 9 min ler


Avaliação de Risco emAvaliação de Risco emModelos de IAmodelos de linguagem.Novos métodos pra analisar riscos em
Índice

Grandes modelos de linguagem, como o ChatGPT, são ferramentas incríveis usadas para várias tarefas linguísticas. Mas também podem apresentar alguns riscos. Um grande problema é que esses modelos podem estar muito certos ou não certos o suficiente sobre suas respostas. Embora já tenha rolado muita pesquisa sobre estar muito certo, não houve tanto foco no outro lado. Essa lacuna dificulta ver o quadro completo de quão arriscados esses modelos podem ser.

Neste artigo, falamos sobre dois tipos de riscos-risco de decisão e risco composto. Também apresentamos uma estrutura para testar esses riscos em ambos os tipos de modelos de linguagem: aqueles que escolhem a melhor resposta (discriminativos) e aqueles que geram respostas (generativos). Nossa estrutura envolve duas etapas: primeiro, decidir se o modelo deve fornecer uma resposta; segundo, se ele responder, tenta dar a melhor. Apresentamos resultados mostrando como nossa estrutura é eficaz em quatro conjuntos de dados que testam o senso comum na linguagem.

Contexto sobre Modelos de Linguagem

Modelos de linguagem grandes, como a série GPT da OpenAI, são poderosos, mas também levantam preocupações sobre sua confiabilidade. Essas preocupações incluem quão bem eles generalizam, problemas com informações falsas (alucinação), viés e seu nível de confiança nas respostas. Por causa dessas incertezas, tem havido muito foco em melhorar como esses modelos funcionam, especialmente quando lidam com perguntas complicadas.

A pesquisa tem trabalhado em melhorar como os modelos de linguagem respondem a situações incertas. Mas os riscos em tarefas que precisam de alta precisão, como na saúde, ainda não são totalmente compreendidos. Normalmente, o risco ligado à resposta de um modelo está relacionado à sua Pontuação de Confiança. Se um modelo está inseguro, acredita-se que ele está mais em risco de dar uma resposta errada. Mas, esse método, embora simples, nem sempre capta a realidade.

Para verificar como os modelos de linguagem respondem com confiança, são usadas diferentes estratégias. Para modelos que geram respostas (generativos), diversos prompts levam a diferentes níveis de confiança nas respostas. Modelos que selecionam respostas (discriminativos) geralmente dão uma pontuação com base no que acham que é a resposta certa. Infelizmente, muitas vezes essas pontuações de confiança não refletem com precisão quão correta é a resposta. Embora tenha havido trabalho para melhorar essas pontuações, ainda falta uma avaliação rigorosa de quão bem essas pontuações mostram os riscos quando o modelo faz inferências.

A Necessidade de uma Nova Abordagem

Neste estudo, argumentamos que confiar apenas em supera confiança para medir risco não é suficiente. Sugerimos uma abordagem mais detalhada que observa tanto o risco de decisão quanto o risco composto. Isso vai ajudar a avaliar quão bem os modelos se saem quando enfrentam incertezas.

Apresentamos uma nova estrutura que define claramente esses dois riscos e apresenta uma maneira de medi-los. Aqui estão os principais pontos da nossa abordagem:

  1. Criamos uma estrutura que foca em entender riscos quando modelos de linguagem tomam decisões.
  2. Desmembramos como esses modelos decidem e selecionam respostas, mostrando como erros podem levar a ambos os tipos de risco.
  3. Apresentamos um novo método de treinamento chamado "Decidindo quando Decidir" (DwD) para ajudar modelos a tomarem melhores decisões, independentemente do tipo de modelo de linguagem.
  4. Compartilhamos resultados mostrando quão eficaz nossa estrutura é, demonstrando que ajuda os modelos a lidarem melhor com os riscos.

Entendendo Risco de Decisão e Risco Composto

Risco de Decisão

Para simplificar, vamos considerar uma situação onde um modelo tem que escolher a resposta certa entre várias opções. O risco de decisão ocorre quando o modelo:

  1. Acha erroneamente que há uma resposta definitiva quando não há, ou
  2. Tem uma resposta correta disponível, mas decide não fornecê-la por causa da incerteza.

Por exemplo, se um modelo enfrenta uma pergunta sem resposta correta entre as opções, ele não deve tentar responder. Se o fizer, isso aumenta o risco de decisão. Da mesma forma, se ele tem uma resposta correta mas evita responder, isso também é um risco.

Risco Composto

O risco composto entra em cena quando os modelos podem estar confiantes, mas ainda assim cometem erros. Mesmo quando todas as situações parecem simples, algumas podem ser mais arriscadas para o modelo do que outras. Isso significa que o risco composto pode estar ligado tanto à supera confiança (quando um modelo está muito certo) quanto à subconfiança (quando não está certo o suficiente).

Para uma informação, se um modelo faz a previsão certa, não há risco. Mas se ele prevê algo errado, ou se não responde quando deveria, isso indica risco composto.

Nossa Abordagem

O Método de Calibração DwD

Modelos existentes geralmente são construídos para responder a cada pergunta, mas isso pode não ser ideal para situações de alto risco. Nós propomos um novo método chamado "Decidindo quando Decidir." Este é um método de tomada de decisão que não depende muito do modelo em si, permitindo que seja usado de forma eficaz com diferentes tipos de modelos de linguagem.

Nossa abordagem envolve duas tarefas principais:

  1. Injeção de Risco: Criamos instâncias de treinamento que incluem riscos para ajudar os modelos a aprenderem a evitar essas situações no futuro.
  2. Aperfeiçoamento de Recursos: Incluímos vários detalhes, como o comprimento das perguntas e os níveis de confiança, para aprimorar o processo de tomada de decisão.

Ao combinar a injeção de risco e o aperfeiçoamento eficaz de recursos, nosso método DwD melhora como os modelos avaliam sua confiança e tomam decisões.

Métricas de Avaliação

Para que o risco de decisão seja avaliado com precisão, precisamos garantir que o modelo possa lidar com situações ambíguas onde não há resposta correta. Testamos isso criando uma mistura de instâncias originais e injetadas com risco, o que nos permite avaliar quão bem os modelos gerenciam o risco de decisão.

O risco composto requer uma análise mais profunda, que envolve duas métricas específicas:

  1. Especificidade do Risco: Mede com que frequência o modelo prevê incorretamente quando não deveria.
  2. Sensibilidade ao Risco: Avalia quão bem o modelo pode identificar respostas corretas.

Ambas as métricas nos ajudam a ver as trocas entre fazer mais previsões e reduzir os riscos gerais.

Estudo Experimental

Nesta seção, aplicamos nosso modelo a quatro benchmarks de linguagem estabelecidos para verificar como ele funciona em cenários da vida real. Usamos dois tipos de modelos de linguagem: RoBERTa-large Ensemble e o GPT-3.5-Turbo da OpenAI.

Análise da Regra de Decisão

Em nossos experimentos, descobrimos que a regra de decisão interna do modelo GPT-3.5-Turbo levou a muitas decisões sendo tomadas, mas nem sempre de forma precisa. Esse arranjo tornou crucial ter uma regra de decisão externa para nossa análise. Também testamos diferentes métodos de tomada de decisão para ver qual funcionava melhor.

  1. Base Aleatória: Este método era totalmente aleatório na escolha de quando responder ou não.
  2. Base ConfStd: Este olhava como as pontuações de confiança variavam para determinar o risco.
  3. Base Calibradora: Este usava um modelo separado para refinar decisões com base nas pontuações de confiança.

Quando comparamos a eficácia do nosso método DwD com essas bases, ele consistentemente teve um desempenho melhor.

Avaliação do Risco Composto

Em seguida, medimos os riscos compostos usando os mesmos quatro benchmarks. Os resultados mostraram que o método DwD levou a muito menos erros na identificação de respostas corretas. O ChatGPT e o RoBERTa mostraram grande sensibilidade às escolhas corretas quando o método DwD foi aplicado. Isso sugere que nosso método não só reduz o risco de decisão, mas fortalece a capacidade de avaliar escolhas de forma geral.

Descobertas

Troca entre Cobertura e Risco

Investigamos quão bem o modelo RoBERTa se saiu ao tomar decisões sob risco. Nossas descobertas indicam que modelos usando o método DwD reduziram significativamente o número de erros que cometeram. Essa troca mostra que, embora a precisão do modelo tenha diminuído em alguns casos, sua gestão geral de riscos melhorou.

Estudo de Caso: Sobrecarga de Escolha

O cenário de sobrecarga de escolha avalia como os modelos lidam com ter muitas opções. Criamos casos de teste onde os modelos tinham que selecionar respostas de um número aumentado de escolhas.

Usando métodos de amostragem aleatória e contextual, observamos como os modelos se saíram sob diferentes condições. Curiosamente, tanto o RoBERTa quanto o GPT-3.5-Turbo mostraram melhor desempenho na identificação de respostas corretas quando o número de escolhas aumentou, até certo ponto.

Conclusão

Este artigo apresentou uma nova maneira de avaliar modelos de linguagem definindo riscos de decisão e riscos compostos. Mostramos através de vários experimentos que nossa abordagem pode ajudar modelos de linguagem a minimizar riscos enquanto ainda mantém um bom desempenho. A estrutura centrada em riscos é útil para entender como esses modelos lidam com incertezas e tomam melhores decisões, especialmente em situações desafiadoras.

No geral, nossas descobertas destacam a importância de refinar como os modelos de linguagem aprendem com seus ambientes e reconhecem riscos. Trabalhos futuros vão focar em desenvolver regras de decisão ainda mais precisas para melhorar as habilidades de Gestão de Riscos desses modelos.

Fonte original

Título: Defining and Evaluating Decision and Composite Risk in Language Models Applied to Natural Language Inference

Resumo: Despite their impressive performance, large language models (LLMs) such as ChatGPT are known to pose important risks. One such set of risks arises from misplaced confidence, whether over-confidence or under-confidence, that the models have in their inference. While the former is well studied, the latter is not, leading to an asymmetry in understanding the comprehensive risk of the model based on misplaced confidence. In this paper, we address this asymmetry by defining two types of risk (decision and composite risk), and proposing an experimental framework consisting of a two-level inference architecture and appropriate metrics for measuring such risks in both discriminative and generative LLMs. The first level relies on a decision rule that determines whether the underlying language model should abstain from inference. The second level (which applies if the model does not abstain) is the model's inference. Detailed experiments on four natural language commonsense reasoning datasets using both an open-source ensemble-based RoBERTa model and ChatGPT, demonstrate the practical utility of the evaluation framework. For example, our results show that our framework can get an LLM to confidently respond to an extra 20.1% of low-risk inference tasks that other methods might misclassify as high-risk, and skip 19.8% of high-risk tasks, which would have been answered incorrectly.

Autores: Ke Shen, Mayank Kejriwal

Última atualização: 2024-08-04 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2408.01935

Fonte PDF: https://arxiv.org/pdf/2408.01935

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes