Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Avaliando a Segurança em Grandes Modelos de Linguagem

Um novo conjunto de dados ajuda a avaliar a segurança dos modelos de linguagem.

― 7 min ler


Verificações de SegurançaVerificações de Segurançapara Modelos de Linguagemresponsável.Avaliando riscos na IA para um uso
Índice

Com o crescimento rápido dos grandes modelos de linguagem (LLMs), novas habilidades prejudiciais estão surgindo que podem ser difíceis de prever. Isso é importante porque os desenvolvedores precisam encontrar esses Riscos para usar LLMs de forma segura. Este trabalho reúne o primeiro conjunto de dados de código aberto para checar medidas de Segurança em LLMs, que visa ajudar a usar modelos mais seguros sem altos custos.

O conjunto de dados inclui apenas instruções que modelos responsáveis não deveriam seguir. Ele foi limpo e organizado para garantir a qualidade. Nós verificamos como seis LLMs conhecidos responderam a essas instruções. A partir dessas avaliações, treinamos diferentes classificadores que mostraram resultados promissores na avaliação de segurança.

A Necessidade de Segurança em IA

O aumento dos LLMs trouxe muitas habilidades úteis, mas também traz riscos. Esses modelos podem causar danos, como espalhar desinformação ou auxiliar em atividades ilegais. Por isso, é crucial que os desenvolvedores identifiquem e limitem essas capacidades perigosas. Algumas empresas já criaram Conjuntos de dados de solicitações prejudiciais para ajudar nessa tarefa. Elas também tentaram criar sistemas que impeçam os modelos de produzir Respostas inseguras usando métodos de treinamento e filtragem.

No entanto, LLMs de código aberto geralmente não têm sistemas de segurança fortes. Para resolver isso, criamos um recurso para ajudar pesquisadores a avaliar a segurança de seus modelos de linguagem. Este conjunto de dados, chamado "Do-Not-Answer," inclui solicitações que modelos responsáveis devem evitar responder.

Criação do Conjunto de Dados

Para criar esse conjunto de dados, o organizamos em três níveis de risco. O primeiro nível contém categorias amplas de risco, enquanto os segundo e terceiro níveis detalham os riscos em tipos mais específicos. No total, coletamos 939 solicitações que representam situações em que um modelo não deve fornecer uma resposta.

Nós também verificamos manualmente as respostas de LLMs comerciais e de código aberto. Essa revisão mostrou pontos fortes e fracos entre os modelos. Por exemplo, um modelo foi melhor em não dar respostas prejudiciais em comparação com outros. Assim, analisar essas respostas pode ajudar a entender os riscos específicos que cada modelo enfrenta.

Coletando Perguntas Perigosas

Coletamos perguntas arriscadas gerando solicitações com base em nossas categorias de risco. Isso foi feito criando modelos que podiam ser preenchidos. O objetivo era reunir uma ampla gama de cenários perigosos com os quais os modelos não deveriam interagir. Embora a maioria dos modelos não forneça respostas prejudiciais, alguns ainda podem fazê-lo sob certas solicitações.

No total, reunimos mais de 900 perguntas arriscadas usando estratégias para estimular exemplos diversos. Isso envolveu incentivar modelos a gerar consultas prejudiciais, enquanto cuidadosamente elaborávamos as nossas próprias.

Avaliando Respostas

Examinamos as respostas de seis LLMs diferentes, três comerciais e três de código aberto. Essa análise revelou padrões em como diferentes modelos lidam com solicitações arriscadas. As respostas foram categorizadas com base em serem seguras ou prejudiciais. Uma resposta segura poderia ser uma recusa, uma objeção forte à pergunta ou uma declaração geral de aconselhamento.

Por exemplo, se uma solicitação pedisse informações perigosas, uma boa resposta seria afirmar claramente que o modelo não pode ajudar com isso. Por outro lado, se um modelo fornecer uma resposta prejudicial, isso poderia levar a sérios problemas.

Avaliação de Segurança e Desempenho do Modelo

Ao avaliar a segurança dos modelos, descobrimos que alguns eram mais responsáveis que outros. O modelo mais seguro em nosso estudo apenas forneceu algumas respostas prejudiciais, enquanto outros tiveram significativamente mais. Ao categorizar respostas com base em sua natureza, conseguimos entender melhor o risco que cada modelo representa.

Os resultados indicaram que modelos comerciais geralmente rejeitaram pedidos arriscados de forma categórica, enquanto alguns modelos de código aberto adotaram uma abordagem mais sutil. Essa diferença nos estilos de resposta destaca a necessidade de uma avaliação cuidadosa ao usar LLMs na prática.

Avaliação de Segurança Automatizada

Para tornar o processo de avaliação mais fácil, também exploramos avaliações de segurança automáticas. Esses métodos visam avaliar rapidamente as respostas dos modelos sem depender inteiramente de anotadores humanos. Ao treinar classificadores com as respostas, pudemos prever se uma determinada resposta era segura ou prejudicial.

Nossos experimentos mostraram que modelos menores ainda podem avaliar a segurança de forma eficaz, produzindo resultados comparáveis a modelos maiores. Isso sugere que avaliações de segurança podem ser feitas de maneira eficiente, mesmo quando os recursos são limitados.

Descobertas e Padrões

O estudo revelou que existem padrões claros em como os modelos respondem a diferentes tipos de consultas prejudiciais. Por exemplo, perguntas sobre atividades ilegais geralmente resultaram em recusas diretas. Ao mesmo tempo, modelos lidaram com perguntas sobre discriminação de forma mais sutil, muitas vezes se recusando a se envolver ou redirecionando a conversa.

Entender esses padrões ajuda a identificar os pontos fortes e fracos de diferentes modelos. Modelos comerciais se destacam em recusas diretas, enquanto modelos de código aberto podem fornecer respostas mais variadas.

Limitações e Trabalhos Futuros

O estudo tem suas limitações. Um problema significativo é que todas as instruções do conjunto de dados são arriscadas, o que pode levar a uma superestimação de quão sensível um modelo é. Trabalhos futuros devem incluir instruções não arriscadas para ver como os modelos se comportam em condições mais típicas.

Além disso, embora nosso conjunto de dados seja abrangente, ele poderia ser expandido ainda mais para incluir mais exemplos. O sistema de categorização também poderia se beneficiar de uma abordagem de múltiplos rótulos, permitindo mais flexibilidade em como as respostas são avaliadas.

Conclusão

À medida que os LLMs continuam a crescer em capacidade, garantir seu uso seguro é fundamental. Este trabalho contribui com um conjunto de dados valioso e um framework de avaliação que pode ajudar a guiar desenvolvedores na criação de modelos de linguagem mais seguros. Identificando riscos e melhorando mecanismos de segurança, podemos promover o desenvolvimento responsável de IA para o futuro.

Entendendo as Áreas de Risco

Nós categorizamos os riscos em cinco áreas principais.

  1. Perigos de Informação: Riscos que surgem quando um modelo prevê informações sensíveis. Modelos devem evitar responder perguntas que busquem segredos pessoais ou relacionados a organizações.

  2. Usos Maliciosos: Esses riscos envolvem usuários tentando usar modelos para atividades prejudiciais. Modelos nunca devem ajudar em ações ilegais ou atender a solicitações antiéticas.

  3. Discriminação, Exclusão e Toxicidade: Esses riscos vêm de modelos imitando padrões de discurso prejudiciais presentes em seus dados de treinamento. Modelos devem evitar se envolver em qualquer linguagem prejudicial ou discriminatória.

  4. Danos de Desinformação: Isso inclui a propagação de informações falsas ou enganosas. Modelos precisam ter cuidado com perguntas sobre tópicos sensíveis.

  5. Danos na Interação Humano-Computador: Riscos que ocorrem durante conversas com usuários, especialmente ao lidar com questões de saúde mental ou criando dependência emocional na IA.

O Caminho a Seguir

Através de uma avaliação diligente e entendimento dos riscos dos LLMs, os desenvolvedores podem construir melhores salvaguardas em sistemas de IA. Iniciativas futuras devem se concentrar em ampliar o conjunto de dados, melhorar técnicas de avaliação e garantir testes diversificados para promover o uso responsável de IA.

Ao combinar avaliação humana com avaliações automatizadas, preparamos o terreno para checagens de segurança consistentes e eficazes, garantindo, em última análise, que a IA sirva a humanidade de forma segura e ética.

Mais de autores

Artigos semelhantes