Avaliando as Respostas do ChatGPT sobre Tópicos Controversos
Pesquisas analisam como o ChatGPT lida com preconceitos em discussões polêmicas.
― 9 min ler
Índice
Com o aumento do ChatGPT e outros chatbots, a IA tá se tornando uma parte comum das nossas vidas. Muita gente tá usando essas ferramentas pra várias coisas, tipo conseguir Respostas pra perguntas, automatizar tarefas e até lidar com debates online. À medida que os chatbots ficam mais populares, os pesquisadores tão tentando entender como eles se saem em várias tarefas.
Sistemas de IA às vezes podem mostrar Preconceitos, e isso é uma preocupação. Tem receios sobre como esses preconceitos podem afetar diferentes grupos de pessoas, especialmente as minorias. Alguns usuários até alegaram que chatbots como o ChatGPT promovem certas agendas. Por exemplo, dizem que o ChatGPT trata piadas sobre homens de um jeito diferente das piadas sobre mulheres. Apesar desses problemas, a maioria dos estudos sobre IA foca em tipos específicos de preconceito, deixando uma lacuna na compreensão de comportamentos mais gerais.
Pra preencher essa lacuna, os pesquisadores tão desenvolvendo um jeito flexível de ver como modelos de IA como o ChatGPT respondem a temas polêmicos. Eles tão usando uma mistura de diferentes fontes de dados e métodos pra coletar conteúdo gerado por IA sobre esses tópicos e comparar com as respostas de humanos.
Uma fonte-chave pra essa pesquisa é um site chamado Kialo. Kialo é uma plataforma pra debate público onde os usuários discutem e compartilham suas opiniões sobre vários assuntos. As discussões no Kialo são criadas pelos usuários e capturam uma gama de opiniões sobre o que as pessoas acham importante. Testando o ChatGPT com temas polêmicos vindos do Kialo, os pesquisadores planejam ver se a IA reconhece esses tópicos como Controversos e como suas respostas se comparam às dos usuários humanos.
Perguntas Chave
Os pesquisadores querem responder duas perguntas principais:
- O ChatGPT modera suas respostas ao discutir tópicos polêmicos, ou ele mostra preconceitos que refletem opiniões sociopolíticas ou econômicas?
- Como as respostas dele se comparam às dadas por humanos?
Pra abordar essas perguntas, os pesquisadores criaram um novo método pra avaliar preconceitos de aprendizado e as políticas aplicadas quando a IA responde a tópicos sensíveis. O trabalho deles fornece uma visão geral de como a IA pode se desviar da opinião pública ao discutir esses assuntos.
Descobertas
Na análise deles, os pesquisadores descobriram que o ChatGPT geralmente modera mais suas respostas ao discutir tópicos econômicos do que sociais ou políticos. Quando comparam as respostas geradas pela IA com as respostas humanas, sugerem que o ChatGPT lida bem com tópicos complexos, exceto na área de "Filosofia", onde seu vocabulário é menos diverso.
Pesquisas Anteriores
Alguns estudos anteriores indicam que preconceitos na IA podem impactar negativamente certos grupos demográficos. Por exemplo, alguns modelos de IA mostraram preconceito contra grupos religiosos, ligando o termo "muçulmano" a "terrorista" em vários casos. Também há situações em que chatbots produzem respostas tendenciosas ou prejudiciais, mesmo pra perguntas que eram inicialmente neutras.
Uma revisão abrangente sobre preconceitos em processamento de linguagem natural alerta que esses preconceitos podem levar a resultados injustos pra diferentes grupos sociais. Outros estudos avaliaram como os chatbots respondem a perguntas específicas, comparando suas respostas com as de humanos em tópicos limitados.
Embora esses estudos anteriores tenham fornecido informações úteis sobre como a IA se sai em certas áreas, eles costumam focar em tipos específicos de perguntas, em vez de analisar tópicos maiores e mais gerais. Até onde se sabe, houve pouco trabalho analisando respostas a perguntas controversas amplas fora de contextos específicos como medicina.
Pra avançar nessa linha de pesquisa, o estudo atual usa uma variedade de discussões online sobre questões polêmicas pra considerar como o ChatGPT se sai em condições do mundo real.
Coleta de Dados
Os pesquisadores usaram três fontes principais:
- Dados gerados por humanos do Kialo, uma plataforma de debates.
- Dados gerados pela IA de perguntas feitas a vários modelos de linguagem.
- Anotações de fontes externas sobre as inclinações das informações.
Discussões do Kialo
O Kialo é conhecido por hospedar debates reflexivos e permite aos usuários explorar diferentes perspectivas sobre vários tópicos. Pra esse estudo, os pesquisadores analisaram 2.900 discussões populares do Kialo, coletando dados sobre os argumentos de cada conversa e os pontos de vista expressos. Eles se certificarão de que as discussões estavam equilibradas, ou seja, incluíram tanto argumentos a favor quanto contra os principais pontos discutidos.
Conjunto de Perguntas
Os pesquisadores criaram perguntas pra vários modelos de linguagem, focando em tópicos polêmicos extraídos do Kialo que atraíram interesse público. Usaram modelos da OpenAI e incluíram o Bing AI pra ver como as respostas diferiam. Analisando como esses modelos de IA responderam a declarações controversas, os pesquisadores avaliaram se houve uma mudança nas respostas ao longo do tempo.
Fontes e Métodos
Pra coletar dados, os pesquisadores buscaram informações de sites respeitáveis que avaliam preconceitos na mídia. Usaram essas informações pra rotular as inclinações das fontes online e ajudar a determinar como esses preconceitos apareciam nas respostas geradas pela IA.
Considerações Éticas
Os pesquisadores garantiram que usaram apenas informações acessíveis ao público e seguiram diretrizes éticas pra coleta de dados. O trabalho deles recebeu aprovação de um comitê ético, enfatizando a importância de uma pesquisa responsável.
Testando Preconceitos
Em vez de usar testes diretos com perguntas específicas que poderiam revelar preconceitos, os pesquisadores optaram por uma abordagem sistemática pra examinar como os modelos de IA respondem a tópicos polêmicos. Eles propuseram um jeito de medir preconceitos e respostas moderadas na IA.
Respostas Diretas
A forma mais simples de identificar preconceito em chatbots é quando eles dão respostas diretas de sim ou não a declarações controversas. Em casos onde os modelos dão uma opinião sobre esses assuntos, isso indica um potencial preconceito que precisa de moderação.
Preconceitos nas Fontes
Os pesquisadores destacaram a importância das fontes citadas pra determinar preconceito. Eles compararam as fontes referenciadas pelo modelo de IA com aquelas usadas por usuários humanos nas discussões. Ao examinar essas fontes, avaliaram se a IA parecia favorecer certas afiliações políticas em detrimento de outras.
Análise de Argumentos
Um dos aspectos mais complexos de medir preconceito envolve analisar os argumentos gerados pela IA quando ela se comporta de maneira neutra e oferece tanto prós quanto contras. Os pesquisadores buscaram desequilíbrios em como a IA representava diferentes perspectivas dentro de sua argumentação.
Pra quantificar essa tendência, eles extraíram argumentos feitos pelo ChatGPT e os categorizaram de acordo com suas inclinações políticas. Essa análise demonstrou se a IA parecia favorecer um lado em detrimento do outro em suas respostas.
Mitigação de Preconceitos
Os pesquisadores também avaliaram como a linguagem usada nas respostas da IA refletia seu nível de preconceito. Eles criaram prompts que direcionavam especificamente o ChatGPT a listar prós e contras pra cada tese. A escolha de palavras do modelo de linguagem poderia indicar se ele estava adotando uma postura mais moderada ou tendenciosa sobre o assunto.
Complexidade das Respostas da IA vs. Humanas
Os pesquisadores compararam os argumentos fornecidos pela IA com aqueles gerados por humanos pra avaliar a complexidade e a riqueza das respostas. Fizeram isso usando três métodos diferentes pra medir a sofisticação da linguagem usada:
- Variação de Embedding: Isso mede a diversidade de tópicos e estilos nos argumentos apresentados.
- Índice Gunning Fog: Isso avalia a legibilidade e complexidade do texto.
- Vocabulário Específico de Domínio: Isso observa quão bem a IA consegue utilizar termos especializados relevantes a vários tópicos.
Variação de Embedding
Agrupando os argumentos com base em tags de tópicos, os pesquisadores calcularam a variação dos embeddings, que ofereceu insights sobre a gama e a sofisticação das respostas.
Índice Gunning Fog
O Índice Gunning Fog ajudou a determinar quão difícil era ler o texto. Um escore mais alto indicou que as respostas do ChatGPT eram mais complexas em comparação com as feitas por humanos.
Vocabulário Específico de Domínio
Os pesquisadores também avaliaram quão bem o ChatGPT usou vocabulário especializado em certos tópicos. Criaram critérios pra que uma palavra fosse classificada como específica de domínio, procurando termos que fossem não apenas complexos, mas também relevantes pra áreas específicas do conhecimento.
Conclusões
A pesquisa mostrou que o ChatGPT tá se saindo bem em termos de moderação. No entanto, tem áreas onde ele poderia melhorar:
- A IA tende a tomar menos posições diretas sobre assuntos polêmicos conforme os modelos avançam, indicando maior moderação.
- Há uma diferença notável nos tipos de fontes citadas pela IA e humanos, com a IA favorecendo uma perspectiva mais centrista.
- Discussões sobre tópicos econômicos mostram um equilíbrio entre argumentos a favor e contra, sugerindo uma moderação eficaz.
- Em contraste, tópicos sociopolíticos revelam uma tendência a argumentos libertários em vez de autoritários, indicando a necessidade de mais equilíbrio.
- A análise do vocabulário mostrou que o ChatGPT se saiu bem na maioria das áreas, mas ficou atrás na área de "Filosofia".
Conclusão
No geral, a pesquisa visou medir as inclinações políticas e econômicas do ChatGPT dentro do contexto de tópicos polêmicos. Comparam as respostas da IA com as de humanos, destacando os pontos fortes e fracos do modelo de IA. Enquanto o ChatGPT mostrou um desempenho promissor em moderação, certas áreas precisam de atenção, especialmente em relação a debates sociopolíticos e uso de vocabulário em domínios complexos. Essa pesquisa estabelece as bases pra estudos futuros sobre preconceito e padrões de resposta da IA, incentivando uma análise contínua dessas questões importantes à medida que a tecnologia de IA continua a se desenvolver.
Título: AI in the Gray: Exploring Moderation Policies in Dialogic Large Language Models vs. Human Answers in Controversial Topics
Resumo: The introduction of ChatGPT and the subsequent improvement of Large Language Models (LLMs) have prompted more and more individuals to turn to the use of ChatBots, both for information and assistance with decision-making. However, the information the user is after is often not formulated by these ChatBots objectively enough to be provided with a definite, globally accepted answer. Controversial topics, such as "religion", "gender identity", "freedom of speech", and "equality", among others, can be a source of conflict as partisan or biased answers can reinforce preconceived notions or promote disinformation. By exposing ChatGPT to such debatable questions, we aim to understand its level of awareness and if existing models are subject to socio-political and/or economic biases. We also aim to explore how AI-generated answers compare to human ones. For exploring this, we use a dataset of a social media platform created for the purpose of debating human-generated claims on polemic subjects among users, dubbed Kialo. Our results show that while previous versions of ChatGPT have had important issues with controversial topics, more recent versions of ChatGPT (gpt-3.5-turbo) are no longer manifesting significant explicit biases in several knowledge areas. In particular, it is well-moderated regarding economic aspects. However, it still maintains degrees of implicit libertarian leaning toward right-winged ideals which suggest the need for increased moderation from the socio-political point of view. In terms of domain knowledge on controversial topics, with the exception of the "Philosophical" category, ChatGPT is performing well in keeping up with the collective human level of knowledge. Finally, we see that sources of Bing AI have slightly more tendency to the center when compared to human answers. All the analyses we make are generalizable to other types of biases and domains.
Autores: Vahid Ghafouri, Vibhor Agarwal, Yong Zhang, Nishanth Sastry, Jose Such, Guillermo Suarez-Tangil
Última atualização: 2023-08-28 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.14608
Fonte PDF: https://arxiv.org/pdf/2308.14608
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.kialo.com/
- https://www.kialo.com/explore/popular
- https://blogs.bing.com/search/march_2023/Confirmed-the-new-Bing-runs-on-OpenAI
- https://github.com/openai/openai-python
- https://mediabiasfactcheck.com/
- https://www.allsides.com/media-bias
- https://github.com/vahidthegreat/AI-in-the-Gray
- https://doi.org/10.1145/3583780.3614777