Analisando a Justiça em Modelos de Aprendizado de Máquina
A pesquisa mostra como é importante a justiça nas representações de linguagem em machine learning.
― 7 min ler
Nos últimos anos, muitos modelos de aprendizado de máquina foram desenvolvidos e usados em várias aplicações. À medida que esses modelos se tornam mais comuns, é importante focar não só em quão precisos eles são, mas também em quão justos. A justiça em aprendizado de máquina se refere a garantir que os modelos não favoreçam ou prejudiquem certos grupos de pessoas com base em características como raça, gênero ou idade. Este trabalho analisa como Representações de linguagem em documentos e frases podem mostrar Viés, o que pode afetar a justiça das tarefas que os utilizam.
A gente estuda as representações de linguagem de documentos e frases pra verificar se tem algum viés embutido neles. Esse viés pode ser contra ou a favor de certos grupos. Avaliamos esse viés examinando as diferenças nos erros dos modelos ao tentar reproduzir informações entre diferentes grupos. O objetivo é encontrar métodos que ajudem a reduzir esse viés nas representações, enquanto ainda mantemos os modelos precisos ao classificar dados.
À medida que os modelos de aprendizado de máquina são usados em diferentes áreas, como análise de crédito, saúde e redes sociais, é crucial que eles funcionem de forma justa para todo mundo. Por exemplo, um sistema de reconhecimento facial deve identificar com Precisão todas as pessoas, independentemente de sua etnia ou gênero. Da mesma forma, um modelo de pontuação de crédito não deve tomar decisões com base em dados históricos tendenciosos. Portanto, estudar a justiça nesses contextos é essencial.
Na nossa pesquisa, olhamos especificamente para tarefas de Classificação binária, que envolvem decidir entre dois resultados possíveis. Nesse contexto, coletamos dados de treinamento que consistiam em recursos de entrada, rótulos binários (os resultados) e um atributo protegido binário que a gente não quer que o modelo tenha viés. Mesmo que esse atributo protegido não esteja diretamente visível nos dados, ele ainda pode influenciar as previsões feitas pelo modelo.
A relevância desse atributo pode variar dependendo da tarefa. Em alguns casos, é vital excluir o atributo (por exemplo, na detecção de discurso de ódio), enquanto em outros, é ilegal considerá-lo (como quando se prevê a elegibilidade para fiança). Entender como garantir que as previsões permaneçam sem viés é um aspecto chave da justiça em aprendizado de máquina.
Pesquisas mostraram que métodos que visam melhorar a justiça muitas vezes acabam afetando negativamente o desempenho do modelo. Portanto, nosso objetivo é transformar os dados de uma maneira que mitigue viéses relacionados a Atributos Protegidos, ao mesmo tempo em que mantemos a precisão geral na classificação.
Focamos em tarefas de classificação no campo do Processamento de Linguagem Natural (PLN). Os dados de treinamento que usamos incluíam dois conjuntos de dados do mundo real: um contendo documentos jurídicos em hindi focados em prever decisões de fiança com base em arquivos de casos, e outro consistindo de postagens no Twitter em inglês para identificar discurso de ódio. Em ambos os casos, analisamos o impacto de viéses nas representações usadas pelos modelos.
Para o conjunto de dados jurídicos em hindi, processamos documentos de casos que incluíam opiniões e conclusões de juízes. Prestamos atenção especial a registros onde o atributo protegido era a religião. Para o conjunto de dados do Twitter, analisamos tweets que foram rotulados como discurso de ódio ou não, ao mesmo tempo que acompanhávamos o gênero e a raça dos usuários envolvidos.
Pra criar modelos de aprendizado de máquina, tivemos que pré-processar os dados. Isso envolveu limpar o texto e garantir que atributos sensíveis (como nomes e locais) fossem anonimizados para evitar viés na nossa análise. Também equilibramos os conjuntos de dados para garantir uma representação igual para diferentes grupos, que é crítico para uma análise justa.
Em seguida, combinamos embeddings de palavras de palavras individuais pra criar representações para frases ou documentos inteiros. Usamos duas estratégias pra isso: média de vetor e extrema de vetor. A média de vetor envolve pegar a média de todos os embeddings de palavras em uma frase, enquanto a extrema de vetor captura os valores mais extremos entre os embeddings de palavras.
Assim que tivemos nossas representações de frases, usamos modelos de Máquina de Vetores de Suporte (SVM) pra classificar os dados. Dividimos nossos conjuntos de dados em segmentos de treinamento e teste, ajustando nossos modelos pra encontrar o melhor desempenho.
Primeiro, avaliamos quão bem nossos modelos de classificação se saíram usando as duas estratégias de agregação. Surpreendentemente, a técnica de média de vetor mostrou melhor desempenho em ambos os conjuntos de dados em comparação com o método de extrema de vetor.
No entanto, também queríamos checar a justiça deles. Pra isso, analisamos quão bem as representações funcionaram para diferentes grupos. Usamos uma técnica chamada Análise de Componentes Principais (PCA) pra avaliar as diferenças nos erros de reconstrução para os vários grupos com base em como os dados foram representados.
Nossos achados indicaram que a abordagem de média de vetor exibiu algum nível de viés em relação a grupos específicos. Enquanto isso, o método de extrema de vetor mostrou mais justiça, pois manteve erros de reconstrução semelhantes entre os grupos, mas sacrificou um pouco da precisão.
Pra encontrar um equilíbrio entre precisão e justiça, propusemos um método que combina as duas abordagens. Ajustando a proporção dos dois métodos, buscamos minimizar viés enquanto ainda alcançamos uma precisão aceitável. Testamos diferentes combinações pra encontrar a mistura ideal.
No final, identificamos combinações ideais que reduziram erros entre os grupos enquanto mantivemos a precisão dentro de limites aceitáveis. Esse método de combinação mostra potencial pra alcançar mais justiça em modelos de aprendizado de máquina sem perdas significativas de desempenho.
Em conclusão, ao analisar o viés em nível de representação e empregar uma combinação de duas estratégias de codificação diferentes, conseguimos abordar algumas das questões de justiça presentes em tarefas de processamento de linguagem. A abordagem pode ajudar a garantir que os modelos de aprendizado de máquina não sejam só precisos, mas também justos no tratamento de vários grupos.
Daqui pra frente, há oportunidades de refinar nossos métodos. Nosso objetivo é reduzir a dependência de abordagens de tentativa e erro pra encontrar combinações ideais e buscar métodos de treinamento diretos que possam gerar representações justas. Entender como a justiça em nível de representação impacta os resultados dos modelos também será uma área chave para futuras pesquisas, potencialmente se estendendo além das tarefas de classificação para outras aplicações também.
A busca por justiça em aprendizado de máquina é crucial à medida que os sistemas se tornam mais integrados ao dia a dia, e será importante continuar examinando e melhorando esses sistemas pra evitar perpetuar viéses sociais de forma injusta.
Título: Closing the Gap in the Trade-off between Fair Representations and Accuracy
Resumo: The rapid developments of various machine learning models and their deployments in several applications has led to discussions around the importance of looking beyond the accuracies of these models. Fairness of such models is one such aspect that is deservedly gaining more attention. In this work, we analyse the natural language representations of documents and sentences (i.e., encodings) for any embedding-level bias that could potentially also affect the fairness of the downstream tasks that rely on them. We identify bias in these encodings either towards or against different sub-groups based on the difference in their reconstruction errors along various subsets of principal components. We explore and recommend ways to mitigate such bias in the encodings while also maintaining a decent accuracy in classification models that use them.
Autores: Biswajit Rout, Ananya B. Sai, Arun Rajkumar
Última atualização: 2024-04-15 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2404.09664
Fonte PDF: https://arxiv.org/pdf/2404.09664
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.