O que significa "Desculpe, mas não posso ajudar com isso"?
Índice
Backtranslation é um método usado pra melhorar a segurança e a precisão dos modelos de linguagem. Ele envolve pegar uma resposta gerada por um modelo de linguagem e trabalhar de trás pra frente pra adivinhar qual foi o prompt original que levou a essa resposta.
Como Funciona
- Um modelo de linguagem dá uma resposta baseada em uma pergunta ou prompt específico.
- A backtranslation pega essa resposta e tenta descobrir qual poderia ser a pergunta original.
- Essa pergunta adivinhada é chamada de prompt backtranslated. Ajuda a esclarecer a intenção por trás do prompt original, mostrando o que o usuário realmente pode querer.
Propósito
O principal objetivo da backtranslation é proteger os modelos de linguagem de pedidos prejudiciais que as pessoas podem tentar esconder mudando a redação. Usando a backtranslation, o modelo consegue reconhecer se um prompt tá tentando perguntar algo perigoso e se recusa a responder.
Benefícios
- Melhor Proteção: Ajuda os modelos de linguagem a evitar pedidos prejudiciais melhor do que outros métodos.
- Qualidade: O método não afeta a qualidade das respostas seguras, garantindo que o modelo ainda funcione bem pra perguntas normais.