Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas# Inteligência Artificial# Computação e linguagem

Raciocínio Causal da IA: Treinando para Entender o Mundo Real

Pesquisas mostram como a IA pode aprender raciocínio causal a partir de exemplos.

― 7 min ler


IA Aprende RaciocínioIA Aprende RaciocínioCausalcausa e efeito.Transformers mandam bem em entender
Índice

A razão causal é importante pra sistemas de IA que interagem com o mundo real. Isso ajuda eles a entenderem as relações onde uma coisa causa a outra. Como coletar os dados pra treinar a IA pode ser caro, os pesquisadores estão vendo se a IA consegue aprender essa habilidade a partir dos dados disponíveis que não envolvem intervenção direta, também chamados de dados passivos.

O que é Razão Causal?

Razão causal é descobrir se um evento leva a outro. Em termos mais simples, é sobre entender conexões tipo "Se chover, o chão fica molhado." Isso nem sempre é fácil, já que muitas vezes precisa de um entendimento profundo de várias regras ou princípios que definem como diferentes fatores estão relacionados.

Por exemplo, tem regras na área de estatística conhecidas como Axiomas causais, que ajudam a determinar se uma variável afeta a outra. As abordagens tradicionais pra usar essas regras na IA envolvem treinar máquinas com dados que já seguiram esses princípios causais. Mas os pesquisadores queriam seguir um caminho diferente. Em vez de usar apenas dados resultantes de regras causais estabelecidas, eles tentaram ensinar a IA mostrando essas regras diretamente por meio de demonstrações.

Aprendendo Regras Causais com Exemplos

A ideia é treinar a IA fornecendo muitos exemplos de princípios causais, conhecidos como axiomas. Por exemplo, um axioma comum é a propriedade transitiva, que diz que se A causa B, e B causa C, então A também causa C.

Os pesquisadores treinaram um tipo de IA chamado Modelo Transformer. Eles usaram um método de treinamento específico onde o modelo aprendeu com exemplos claros de relações causais. O treinamento envolveu dar ao modelo vários pares de premissas (as informações iniciais) e hipóteses (as afirmações causais) junto com se a hipótese é verdadeira ou falsa. Por exemplo, eles podiam apresentar "A causa B" como a premissa e perguntar se "A causa C" é verdadeira.

O modelo então aprende as relações causais nos dados e pode aplicar esse conhecimento em novas situações. Isso é chamado de Generalização e é crucial porque permite que a IA use o que aprendeu no treinamento em novos exemplos que ela não viu antes.

Treinando o Modelo de IA

Pra começar o treinamento, os pesquisadores geraram um grande número de exemplos baseados em um axioma causal. Eles criaram instâncias de treinamento onde cada exemplo era estruturado pra representar uma declaração em linguagem natural descrevendo um vínculo causal. Depois de reunir um conjunto de dados significativo, eles usaram isso pra ensinar o modelo transformer.

Durante o treinamento, eles acompanharam o quão bem o modelo aprendeu a aplicar o axioma causal corretamente. Isso envolveu verificar se ele conseguia estender seus aprendizados pra cadeias maiores do que tinha treinado, lidar com variáveis com nomes diferentes, e reconhecer casos onde a ordem dos eventos estava invertida.

Desafios na Generalização

Enquanto o modelo teve um desempenho razoavelmente bom em tarefas simples, o verdadeiro teste veio quando enfrentou cenários mais complexos. Os pesquisadores queriam especificamente ver quão bem o modelo poderia aplicar os axiomas aprendidos a casos que ele nunca tinha visto antes. Por exemplo, eles avaliaram a habilidade do modelo de lidar com cadeias causais mais longas, situações onde a ordem das causas estava invertida, e casos envolvendo múltiplas causas ou cenários ramificados.

Em um teste, o modelo teve que descobrir se ainda conseguia reconhecer uma relação causal quando a sequência de causas estava invertida (ou seja, se C causa B, A ainda causa C?). Embora tenha se saído bem em muitos desses testes, teve dificuldades com certas complexidades, como descobrir quando uma mudança na ordem dos eventos impactava as relações.

Importância da Variabilidade nos Dados de Treinamento

Uma das conclusões dessa pesquisa foi que adicionar variabilidade aos dados de treinamento ajudou a melhorar a generalização do modelo. Ao introduzir diferentes tipos de estruturas de grafo causal, incluindo arranjos lineares simples e estruturas ramificadas mais complexas, os pesquisadores ajudaram o modelo a entender uma gama mais ampla de relações causais.

A variabilidade incluía mudar os nomes das variáveis, alterar o número de conexões entre elas, e inverter as direções de certas conexões. Essa complexidade adicional tornou a IA mais robusta, preparando-a pra aplicações no mundo real onde as situações raramente são simples ou previsíveis.

Comparação com Outros Modelos de IA

Pra medir a eficácia da abordagem deles, os pesquisadores compararam o desempenho do modelo transformer com outros modelos de linguagem maiores. Muitos desses modelos são conhecidos por suas capacidades avançadas de raciocínio, mas não foram especificamente treinados pra Raciocínio causal. Os resultados foram promissores: o modelo transformer muitas vezes se saiu melhor que esses modelos maiores, mesmo em tarefas pra as quais não tinham sido explicitamente treinados.

Pra cadeias mais longas e conexões mais complexas, o transformer mostrou fortes capacidades, sugerindo que ele poderia generalizar seu entendimento de causa e efeito em cenários muito além dos dados específicos de treinamento.

Expandindo a Pesquisa

Os pesquisadores viram uma oportunidade de construir sobre suas descobertas em estudos futuros. Eles poderiam aplicar a mesma abordagem de treinamento a outros tipos de axiomas causais, potencialmente ampliando o alcance do raciocínio causal na IA. Outra área interessante pra explorar poderia ser adaptar o processo de treinamento pra diferentes tipos de modelos causais, incluindo aqueles que envolvem probabilidade e incerteza.

Além disso, a abordagem usada pra ensinar a razão causal poderia ser útil pra treinar modelos de IA em outros sistemas lógicos. Isso poderia incluir ensinar modelos a realizar tarefas de raciocínio lógico, como raciocínio dedutivo, aprimorando suas habilidades de resolução de problemas.

Implicações pra Modelos de Linguagem

O trabalho destacou como entender relações causais poderia melhorar as capacidades de raciocínio de modelos de linguagem como o GPT-4. Embora o GPT-4 não tenha sido especificamente treinado para tarefas de raciocínio causal, os pesquisadores teorizavam que ele poderia ter absorvido alguns desses princípios durante seu extenso treinamento em diversos dados de texto disponíveis na internet.

Dado o desempenho mostrado pelo modelo transformer, os pesquisadores concluíram que demonstrações claras de axiomas causais poderiam ser introduzidas no treinamento de modelos de linguagem maiores. Isso poderia tornar até modelos menores muito mais capazes, permitindo que eles se desempenhassem de forma comparável aos modelos maiores em tarefas de raciocínio causal.

Resumo

Resumindo, a pesquisa mostrou que transformers poderiam ser efetivamente treinados pra entender a razão causal por meio de uma abordagem axiomática. Aprendendo a partir de exemplos claros, esses modelos podem generalizar seu entendimento pra novas situações, potencialmente superando modelos maiores no processo.

Esse trabalho abre portas pra mais exploração no campo da IA, especialmente no que diz respeito a como o conhecimento sobre causalidade pode aprimorar as capacidades dos modelos de linguagem e suas aplicações em várias tarefas. À medida que a compreensão da razão causal na IA cresce, é provável que isso leve a sistemas mais confiáveis e inteligentes capazes de navegar em cenários complexos do mundo real.

Fonte original

Título: Teaching Transformers Causal Reasoning through Axiomatic Training

Resumo: For text-based AI systems to interact in the real world, causal reasoning is an essential skill. Since interventional data is costly to generate, we study to what extent an agent can learn causal reasoning from passive data. Specifically, we consider an axiomatic training setup where an agent learns from multiple demonstrations of a causal axiom (or rule), rather than incorporating the axiom as an inductive bias or inferring it from data values. A key question is whether the agent would learn to generalize from the axiom demonstrations to new scenarios. For example, if a transformer model is trained on demonstrations of the causal transitivity axiom over small graphs, would it generalize to applying the transitivity axiom over large graphs? Our results, based on a novel axiomatic training scheme, indicate that such generalization is possible. We consider the task of inferring whether a variable causes another variable, given a causal graph structure. We find that a 67 million parameter transformer model, when trained on linear causal chains (along with some noisy variations) can generalize well to new kinds of graphs, including longer causal chains, causal chains with reversed order, and graphs with branching; even when it is not explicitly trained for such settings. Our model performs at par (or even better) than many larger language models such as GPT-4, Gemini Pro, and Phi-3. Overall, our axiomatic training framework provides a new paradigm of learning causal reasoning from passive data that can be used to learn arbitrary axioms, as long as sufficient demonstrations can be generated.

Autores: Aniket Vashishtha, Abhinav Kumar, Abbavaram Gowtham Reddy, Vineeth N Balasubramanian, Amit Sharma

Última atualização: 2024-07-10 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.07612

Fonte PDF: https://arxiv.org/pdf/2407.07612

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes