Granite Guardian: A Solução de Segurança de IA
O Granite Guardian protege conversas de IA de conteúdo prejudicial de forma eficaz.
Inkit Padhi, Manish Nagireddy, Giandomenico Cornacchia, Subhajit Chaudhury, Tejaswini Pedapati, Pierre Dognin, Keerthiram Murugesan, Erik Miehling, Martín Santillán Cooper, Kieran Fraser, Giulio Zizzo, Muhammad Zaid Hameed, Mark Purcell, Michael Desmond, Qian Pan, Zahra Ashktorab, Inge Vejsbjerg, Elizabeth M. Daly, Michael Hind, Werner Geyer, Ambrish Rawat, Kush R. Varshney, Prasanna Sattigeri
― 6 min ler
Índice
- O Que É o Granite Guardian?
- Por Que Precisamos do Granite Guardian
- Como Funciona o Granite Guardian?
- Sendo Open Source
- Resultados Que Falam Por Si
- Lidando com Riscos de Alucinação em RAG
- Aplicações Práticas
- Desafios pela Frente
- Treinamento Com Melhores Práticas
- Um Futuro Com o Granite Guardian
- Conclusão
- Fonte original
- Ligações de referência
Num mundo onde a inteligência artificial tá cada vez mais presente, garantir que esses sistemas se comportem de maneira segura e responsável é fundamental. É aí que entra o Granite Guardian. É um conjunto de modelos criados pra detectar riscos nas prompts (o que os usuários dizem) e nas respostas (o que a IA diz) feitas por grandes modelos de linguagem (LLMs). O objetivo é manter as conversas seguras de conteúdos prejudiciais como preconceitos sociais, Palavrões, violência e por aí vai.
O Que É o Granite Guardian?
Granite Guardian é como um escudo protetor pros modelos de linguagem da IA. Pense nele como uma rede de segurança feita pra pegar conteúdos prejudiciais ou inadequados antes de chegarem até os usuários. Essa suíte de modelos oferece uma abordagem avançada pra identificar riscos e comportamentos inseguros, garantindo que a IA não diga coisas que não devia.
Por Que Precisamos do Granite Guardian
Conforme a IA vai se integrando mais na vida cotidiana, o potencial pro uso indevido aumenta. As pessoas podem pedir pra IA fazer todo tipo de coisa, algumas delas podem ser prejudiciais ou antiéticas. Por exemplo, imagine alguém perguntando pra uma IA como cometer um crime. Sem salvaguardas adequadas, a IA pode acabar fornecendo informações perigosas sem querer. É aí que modelos como o Granite Guardian entram em cena — pra pegar esses pedidos e respostas prejudiciais.
Como Funciona o Granite Guardian?
Granite Guardian usa várias técnicas pra detectar riscos. Ele foi treinado em um conjunto de dados especial que inclui exemplos de conteúdos prejudiciais e como identificá-los. Esse conjunto combina feedback humano real e exemplos sintéticos pra garantir que cobre uma gama ampla de situações. Ele procura diferentes tipos de riscos, como:
-
Preconceito Social: Isso acontece quando a linguagem reflete preconceito contra grupos específicos. Por exemplo, se alguém pede opiniões sobre um grupo de forma negativa, o modelo sinaliza isso.
-
Palavrões: Se alguém usa linguagem ofensiva, o Granite Guardian consegue detectar e marcar como inseguro.
-
Violência: Qualquer pedido ou resposta que promova dano é sinalizada. Pense nisso como a versão da IA de dizer: "Calma aí!"
-
Conteúdo Sexual: O modelo consegue identificar materiais sexuais inadequados e impedir que sejam compartilhados.
-
Jailbreaking: Isso se refere a tentativas de enganar a IA pra fornecer informações prejudiciais ou contornar suas salvaguardas.
-
Riscos de Alucinação: Esses riscos ocorrem quando a IA fornece respostas que não estão baseadas no contexto fornecido. Por exemplo, se a resposta da IA não combina com as informações que foi dada, isso pode indicar um problema.
Sendo Open Source
Uma das coisas legais do Granite Guardian é que ele é open source. Isso significa que qualquer um pode olhar o código, usar e até melhorar. A esperança é que, ao compartilhar essa tecnologia, mais pessoas consigam construir sistemas de IA responsáveis e garantir que todo mundo brinque direitinho no parquinho.
Resultados Que Falam Por Si
O Granite Guardian foi testado em comparação com outros modelos pra ver como ele se sai. Até agora, os resultados são impressionantes. Ele teve uma pontuação alta em detectar prompts e respostas prejudiciais em vários benchmarks. Isso significa que, quando colocado à prova, o Granite Guardian identifica consistentemente conteúdos inseguros melhor do que muitas alternativas. Em algumas áreas, ele atingiu uma AUC de 0.871 — uma conquista e tanto no mundo da IA.
Lidando com Riscos de Alucinação em RAG
Outra área onde o Granite Guardian brilha é na geração aumentada por recuperação (RAG). Essa técnica ajuda a IA a fornecer informações mais precisas puxando documentos relevantes. Porém, às vezes, isso pode levar ao que chamamos de "alucinações", onde a IA pode inventar informações. O Granite Guardian ajuda a manter essas alucinações sob controle, garantindo que o contexto fornecido e as respostas geradas estejam alinhados.
Aplicações Práticas
O que tudo isso significa na vida real? O Granite Guardian pode ser integrado em várias aplicações, incluindo chatbots, ferramentas de atendimento ao cliente, e até plataformas educacionais. Sua versatilidade significa que ele pode se adaptar a diferentes necessidades enquanto mantém os usuários seguros de conteúdos prejudiciais.
Desafios pela Frente
Apesar de todos os benefícios, o Granite Guardian não está sem desafios. O mundo da IA é complexo, e determinar o que é "prejudicial" pode depender do contexto. Por exemplo, algo considerado prejudicial em um cenário pode não ser em outro. Essa ambiguidade torna necessário abordar a segurança da IA com cuidado e nuance.
Treinamento Com Melhores Práticas
O Granite Guardian emprega as melhores práticas ao treinar seus modelos. Isso inclui reunir um conjunto diversificado de anotações humanas pra garantir que ele consiga reconhecer uma ampla gama de conteúdos prejudiciais. O processo de treinamento é rigoroso, focando em quão bem o modelo pode identificar prompts e respostas inseguras com precisão.
Um Futuro Com o Granite Guardian
O Granite Guardian é apenas um passo rumo a um futuro de IA mais seguro. Ele simboliza a crescente conscientização sobre a necessidade de usar IA de maneira responsável. Conforme a sociedade continua a abraçar a tecnologia de IA, modelos como o Granite Guardian serão essenciais pra mitigar riscos e assegurar que as interações com a IA sejam positivas e produtivas.
Conclusão
Pra concluir, o Granite Guardian representa um avanço significativo na segurança da IA. Com sua capacidade de detectar uma variedade de riscos, ele fornece uma rede de segurança tanto pra usuários quanto pra desenvolvedores. Sendo open source e em constante evolução, o Granite Guardian estabelece um padrão alto pro desenvolvimento responsável de IA. É um modelo que busca manter nossas conversas digitais seguras e amigáveis, provando que, embora o mundo da IA possa ser complexo, proteger os usuários não precisa ser.
Fonte original
Título: Granite Guardian
Resumo: We introduce the Granite Guardian models, a suite of safeguards designed to provide risk detection for prompts and responses, enabling safe and responsible use in combination with any large language model (LLM). These models offer comprehensive coverage across multiple risk dimensions, including social bias, profanity, violence, sexual content, unethical behavior, jailbreaking, and hallucination-related risks such as context relevance, groundedness, and answer relevance for retrieval-augmented generation (RAG). Trained on a unique dataset combining human annotations from diverse sources and synthetic data, Granite Guardian models address risks typically overlooked by traditional risk detection models, such as jailbreaks and RAG-specific issues. With AUC scores of 0.871 and 0.854 on harmful content and RAG-hallucination-related benchmarks respectively, Granite Guardian is the most generalizable and competitive model available in the space. Released as open-source, Granite Guardian aims to promote responsible AI development across the community. https://github.com/ibm-granite/granite-guardian
Autores: Inkit Padhi, Manish Nagireddy, Giandomenico Cornacchia, Subhajit Chaudhury, Tejaswini Pedapati, Pierre Dognin, Keerthiram Murugesan, Erik Miehling, Martín Santillán Cooper, Kieran Fraser, Giulio Zizzo, Muhammad Zaid Hameed, Mark Purcell, Michael Desmond, Qian Pan, Zahra Ashktorab, Inge Vejsbjerg, Elizabeth M. Daly, Michael Hind, Werner Geyer, Ambrish Rawat, Kush R. Varshney, Prasanna Sattigeri
Última atualização: 2024-12-16 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2412.07724
Fonte PDF: https://arxiv.org/pdf/2412.07724
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://huggingface.co/ibm-granite/granite-guardian-hap-38m
- https://github.com/ibm-granite/granite-guardian
- https://www.ibm.com/docs/en/watsonx/saas?topic=ai-risk-atlas
- https://www.ibm.com/granite/docs/resources/responsible-use-guide.pdf
- https://ibm.biz/genaiwhitepaper
- https://github.com/ibm-granite/granite-guardian/tree/main/cookbooks