Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas# Inteligência Artificial# Computadores e sociedade

Melhorando a Justiça na IA Através de Conjuntos de Dados Melhores

Novas ferramentas visam melhorar a equidade na IA ao fornecer acesso a conjuntos de dados diversos.

― 7 min ler


Aumentando a Justiça daAumentando a Justiça daIA com Ferramentas deDadosdados focados em equidade.Novas funções dão acesso a conjuntos de
Índice

Muita gente quer deixar a inteligência artificial (IA) mais justa pra quem é afetado por ela. A preocupação é como os sistemas de IA tratam diferentes grupos, o que muitas vezes resulta em resultados injustos. Pesquisadores e desenvolvedores de IA precisam examinar essas questões de Justiça de perto, principalmente ao criar algoritmos que tomam decisões com base em dados.

O Problema com Avaliações de Justiça

Ao longo dos anos, muitos estudos discutiram maneiras de melhorar a justiça nos classificadores de IA, especialmente para dados tabulares. Infelizmente, a maioria desses estudos usa apenas um número pequeno de Conjuntos de dados para testar suas ideias. Essa abordagem limitada dificulta saber se as descobertas são verdadeiras em diferentes situações.

Pra resolver isso, a gente introduz uma série de ferramentas criadas pra facilitar a busca e fornecer informações sobre 20 conjuntos de dados focados em justiça. Esse conjunto de ferramentas visa ajudar pesquisadores a realizar experimentos melhores em aprendizado de máquina consciente da justiça, levando, no fim das contas, a práticas de IA melhoradas.

O Que os Conjuntos de Dados Oferecem

Nossa coleção de conjuntos de dados vem com informações estáticas. Especificamente, cada conjunto de dados tem detalhes como:

  • Origem: De onde os dados foram obtidos.
  • Linhas e Colunas: A estrutura dos dados.
  • Dados Categóricos: Informações sobre se o conjunto de dados tem colunas categóricas.
  • Valores Ausentes: Se há ou não valores faltando nos dados.
  • Rótulos Únicos: O número de rótulos únicos na variável alvo.
  • Nome do Alvo: O nome da variável alvo.
  • Rótulos Favoráveis e Atributos Protegidos: Esses são cruciais pra avaliar a justiça.

Por exemplo, um conjunto de dados pode vir de uma plataforma de código aberto, enquanto outro pode ser coletado por uma organização diferente. Todos ajudam pesquisadores a entender como grupos diferentes podem ser tratados por sistemas de IA.

A Necessidade de Experimentação Rigorosa

Tem uma discussão rolando sobre quais métodos de justiça funcionam melhor. Pra guiar esse debate, é essencial fazer experimentos detalhados com múltiplos conjuntos de dados. Bons experimentos podem ajudar os tomadores de decisão a escolher os métodos de justiça certos e ainda incentivar pesquisadores a desenvolver novas abordagens.

Infelizmente, a maioria dos estudos sobre justiça só testa suas ideias em alguns conjuntos de dados. Isso acontece porque acessar conjuntos de dados relevantes tem sido desafiador, além de conseguir as informações necessárias relacionadas à justiça.

Trabalhos Relacionados em Pesquisa de Justiça

Várias fontes oferecem conjuntos de dados adequados pra estudos de justiça. O OpenML, por exemplo, disponibiliza milhares de conjuntos de dados pra aprendizado de máquina, mas não especifica quais estão relacionados à justiça ou fornece os metadados necessários.

Outra fonte, a AIF360, oferece acesso a um número limitado de conjuntos de dados de justiça, mas requer um manejo especial no código, tornando menos amigável ao usuário. Outros estudos discutiram conjuntos de dados de justiça, mas não forneceram acesso fácil ou os metadados úteis necessários pra análise detalhada.

Em resposta a esses desafios, criamos um conjunto de 20 funções que permitem aos pesquisadores buscar esses conjuntos de dados junto com os metadados de justiça. Nosso foco é em dados tabulares com alvos de Classificação, já que essa é a área que os pesquisadores mais exploraram.

Como Nossas Funções Funcionam

As funções que desenvolvemos são bem simples de usar. Elas retornam os dados em um formato familiar (pandas) e fornecem os metadados de justiça em um formato JSON simples. Isso significa que os pesquisadores podem facilmente integrar os dados em seus fluxos de trabalho existentes.

Passos pra Usar as Funções

  1. Instalação: Primeiro, os usuários precisam instalar a biblioteca necessária.
  2. Buscar Dados: Os usuários podem chamar as funções pra obter as características e os rótulos-alvo junto com as informações de justiça.

Por exemplo, pra buscar dados de um conjunto de dados de crédito, os usuários só precisam escrever algumas linhas de código. Depois de rodar o código, eles vão ter acesso tanto aos dados quanto aos metadados de justiça.

Processamento Mínimo de Dados

Nossas funções foram feitas pra realizar um pré-processamento limitado. Essa decisão é importante porque qualquer mudança feita nos dados pode afetar a análise de justiça.

Algum pré-processamento já ocorreu antes, como a categorização do alvo de previsão. No entanto, onde o alvo não é categórico, nossas funções vão converter pra um formato adequado. Se certas características não agregam valor, elas são removidas. Além disso, se colunas não têm nomes significativos, elas são renomeadas pra serem mais descritivas.

Metadados de Justiça

Cada conjunto de dados buscado inclui metadados de justiça, que consistem em informações cruciais como rótulos favoráveis e atributos protegidos.

  • Rótulos Favoráveis: Esses rótulos indicam resultados bem-sucedidos na variável alvo.

  • Atributos Protegidos: Esses atributos se referem a grupos específicos dentro dos dados que precisam de atenção especial em relação à justiça.

Esses metadados ajudam os pesquisadores a entender quais grupos podem estar privilegiados ou em desvantagem em vários contextos.

Caracterizando os Conjuntos de Dados

Uma vez que os conjuntos de dados são reunidos usando nossas funções, eles podem ser analisados em detalhes. A configuração de cada conjunto de dados determina como ele pode ser usado em experimentos. Fatores como se inclui dados categóricos, valores ausentes ou um grande número de características vão influenciar o pipeline de análise.

Exemplo de Desbalanceamento de Classes

Na IA, desbalanceamento de classes significa que alguns resultados são mais comuns que outros. Por exemplo, se um conjunto de dados tem muito mais instâncias de uma classe em comparação com outra, isso pode levar a viés nas previsões feitas por um modelo de IA.

Usando nossas ferramentas, os pesquisadores podem visualizar o desbalanceamento de classes e avaliar como bem seus algoritmos estão funcionando em termos de justiça.

Comparando Resultados de Grupos

Pesquisadores muitas vezes medem como os diferentes grupos se saem nos resultados previstos pelos seus sistemas de IA. O objetivo é ver se há uma diferença significativa nas taxas de resultados favoráveis entre grupos privilegiados e não privilegiados.

Ao usar nossas ferramentas, métricas específicas podem ser extraídas. Essas métricas informam os pesquisadores sobre possíveis viéses presentes nos dados e oferecem uma forma de corrigir esses viéses em modelos futuros.

Conclusão

A gente espera que as funções criadas pra buscar conjuntos de dados de justiça sejam úteis pra pesquisadores e profissionais que trabalham com IA. O objetivo é incentivar o uso de pelo menos 20 conjuntos de dados em avaliações de justiça, ampliando a compreensão de como diferentes métodos funcionam em vários cenários.

Conforme a discussão sobre justiça continua a crescer, é crucial que todos os envolvidos, incluindo pesquisadores, desenvolvedores e partes interessadas, tenham acesso às ferramentas e conjuntos de dados certos. Fazendo isso, podemos trabalhar juntos pra criar sistemas de IA que sejam mais justos e equitativos pra todo mundo.

Mais de autores

Artigos semelhantes