Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas# Inteligência Artificial# Computadores e sociedade

Estrutura para Entender Modelos Fundamentais na Sociedade

Uma estrutura pra documentar e analisar o impacto dos modelos de fundação.

― 8 min ler


Documentando ModelosDocumentando ModelosFundamentaissocial dos modelos de fundação.Framework para analisar o impacto
Índice

Modelos de fundação, como ChatGPT e Stable Diffusion, estão se tornando uma parte grande da nossa vida diária. Eles influenciam como nos comunicamos, criamos e até interagimos com a tecnologia. Com o uso desses modelos crescendo, é importante olhar para o todo. Precisamos pensar em como esses modelos se encaixam no mundo e como afetam a sociedade.

Para isso, desenvolvemos uma estrutura para documentar tudo relacionado a esses modelos. Essa estrutura ajuda a coletar e organizar informações sobre os recursos envolvidos, as relações entre eles e as diferentes maneiras como são usados. Ao reunir esses dados, conseguimos entender melhor o impacto dos modelos de fundação em nossas vidas.

A Necessidade de uma Estrutura de Documentação

Com a popularização dos modelos de fundação, notamos uma lacuna na compreensão dos seus efeitos. Enquanto os modelos em si recebem bastante atenção, muitas vezes esquecemos do contexto mais amplo em que operam. Esse contexto mais amplo inclui conjuntos de dados, outros modelos, aplicações construídas sobre esses modelos e as empresas ou organizações que os criam e utilizam.

Nossa proposta de estrutura visa preencher essa lacuna, criando uma maneira centralizada de coletar e compartilhar informações sobre esses modelos e seu ecossistema. Isso ajudará todo mundo - de pesquisadores a formuladores de políticas - a entender melhor os efeitos sociais dos modelos de fundação.

Construindo a Estrutura

A estrutura que introduzimos consiste em três partes principais:

  1. Ativos: Inclui conjuntos de dados, modelos e aplicações.
  2. Dependências: Relações entre diferentes ativos, que podem ser técnicas (como um modelo foi treinado) ou sociais (como uma empresa depende de outra).
  3. Metadados: Informações detalhadas sobre cada ativo, relacionadas a licenças, emissões ou outros fatores importantes.

Essa abordagem estruturada nos permite fazer conexões entre diferentes partes do ecossistema dos modelos de fundação.

Coletando Dados sobre o Ecossistema

Até agora, coletamos uma quantidade significativa de informações sobre vários ativos nesse ecossistema. Analisamos mais de cem conjuntos de dados, diversos modelos e uma ampla gama de aplicações de diferentes organizações. Esse banco de dados nos ajuda a mostrar como esses ativos estão interconectados e esclarecer sua importância individual.

Por exemplo, vamos considerar alguns ativos notáveis:

  • The Pile: Um conjunto de dados usado por muitas organizações para treinar seus modelos.
  • P3: Este conjunto de dados está se tornando cada vez mais importante para treinar modelos baseados em instruções.
  • PaLM: Um modelo do Google que desempenha um papel significativo em diferentes projetos.
  • ChatGPT API: Uma ferramenta usada por muitas empresas para integrar capacidades de linguagem em seus produtos.

Cada um desses ativos é um hub em nosso ecossistema, mostrando quantos outros ativos dependem deles. Ao mapear essas relações, conseguimos ver o impacto mais amplo dos modelos de fundação.

Avaliando o Impacto Social

As maiores questões que enfrentamos são sobre o impacto social dos modelos de fundação. Quem se beneficia dessas tecnologias? Quem pode ser prejudicado? Como podemos caracterizar essas mudanças?

Atualmente, muitas pessoas usam modelos de fundação em suas vidas diárias, muitas vezes sem entender as implicações. Há uma confusão significativa sobre o que esses modelos fazem e como afetam diferentes grupos na sociedade. Essa incerteza pode levar a abusos e mal-entendidos.

Ao documentar o ecossistema, buscamos esclarecer esses problemas. Compreender as relações entre os diferentes ativos pode nos ajudar a identificar onde existem riscos e onde os benefícios podem estar concentrados.

A Importância da Transparência

Um dos principais objetivos da nossa estrutura é melhorar a transparência no ecossistema dos modelos de fundação. Isso envolve não apenas compartilhar informações sobre como os modelos são construídos e usados, mas também garantir que os usuários entendam as implicações dessas tecnologias.

À medida que os modelos de fundação são utilizados em inúmeras aplicações, torna-se essencial acompanhar suas dependências. Por exemplo, se um modelo popular tem um conjunto de dados subjacente que é problemático, isso pode causar problemas a longo prazo. A transparência nos permite identificar essas conexões e abordar possíveis danos.

O Papel da Documentação

Uma documentação adequada é um aspecto crucial da nossa estrutura. Cada ativo é acompanhado por um “cartão do ecossistema” que fornece informações essenciais. Esses cartões incluem detalhes sobre como o ativo foi desenvolvido, quem o criou, os recursos usados e quaisquer acordos de licenciamento relevantes.

Ao documentar ativos dessa maneira, oferecemos um guia para os usuários entenderem as tecnologias subjacentes com as quais interagem. Essa compreensão é vital tanto para consumidores quanto para desenvolvedores, pois pode impactar suas escolhas e usos desses modelos.

Desafios Contínuos

Mesmo com essa estrutura, há desafios em manter a documentação precisa e atualizada. O cenário dos modelos de fundação está em constante evolução, com novos modelos e aplicações sendo desenvolvidos em um ritmo acelerado. Manter nossa documentação atual requer um esforço contínuo.

Além disso, muitos ativos não divulgam todas as informações relevantes, levando ao que chamamos de “matéria escura” - essencialmente, ativos que existem, mas não são conhecidos publicamente. Essa lacuna de informação dificulta mapear totalmente o ecossistema e pode levar a omissões significativas.

Engajamento da Comunidade

Para enfrentar esses desafios, incentivamos ativamente a participação da comunidade. Pesquisadores, desenvolvedores e usuários são todos convidados a contribuir para a nossa estrutura. Ao envolver um público mais amplo, conseguimos coletar mais insights e garantir que a documentação permaneça completa e relevante.

Imaginamos um recurso mantido pela comunidade que beneficie todos os envolvidos - desde pesquisadores que buscam entender a tecnologia até organizações que precisam cumprir regulamentações.

Casos de Uso para a Estrutura

A estrutura serve a múltiplos propósitos e atende às necessidades de várias partes interessadas:

Para Desenvolvedores de Modelos de Fundação

Os desenvolvedores precisam estar cientes dos ativos disponíveis para eles. Essa estrutura permite que vejam quais conjuntos de dados estão por aí e que outros modelos foram construídos. Eles podem avaliar como suas ofertas se comparam com a concorrência, levando a melhores práticas de desenvolvimento.

Para Desenvolvedores de Aplicações

Os desenvolvedores de aplicações podem usar a estrutura para escolher os melhores modelos de fundação para seus projetos. Comparando as opções disponíveis, eles podem tomar decisões informadas sobre quais modelos usar ou até mesmo sobre quais construir. Isso promove uma melhor integração da tecnologia em diferentes setores.

Para Usuários Finais

Os consumidores que usam aplicações alimentadas por modelos de fundação merecem entender como essas tecnologias funcionam. A estrutura fornece uma maneira para eles rastrearem dependências e entenderem os modelos que influenciam as ferramentas que utilizam.

Para Investidores

Os investidores podem utilizar a estrutura para identificar oportunidades emergentes. Ao acompanhar tendências no desenvolvimento e uso de modelos, eles podem tomar decisões informadas sobre onde investir seus recursos.

Para Pesquisadores em IA

Os pesquisadores se beneficiam ao entender como os modelos de fundação estão sendo aplicados na prática. Esse entendimento pode orientar esforços de pesquisa futuros e informar o desenvolvimento de novas tecnologias que atendam melhor à sociedade.

Implicações Políticas

À medida que o ecossistema dos modelos de fundação continua a crescer, há uma necessidade de políticas eficazes. A transparência nesse espaço é vital para garantir responsabilidade e proteger os usuários de possíveis danos. Os formuladores de políticas podem usar os insights obtidos a partir da nossa estrutura para criar diretrizes e regulamentações que apoiem o uso ético dos modelos de fundação.

Conclusão

À medida que os modelos de fundação permeiam a sociedade, entender seu impacto se torna cada vez mais importante. Nossa estrutura de documentação fornece uma visão abrangente do ecossistema que cerca essas tecnologias. Ao mapear ativos, dependências e suas implicações sociais, buscamos aumentar a transparência e promover uma melhor tomada de decisões.

Essa estrutura é apenas o começo. Estamos ansiosos para o desenvolvimento contínuo do ecossistema dos modelos de fundação, à medida que mais partes interessadas se envolvem com esse recurso. Juntos, podemos garantir que, à medida que esses modelos moldam nosso mundo, abordemos a tecnologia de maneira ponderada e responsável.

Fonte original

Título: Ecosystem Graphs: The Social Footprint of Foundation Models

Resumo: Foundation models (e.g. ChatGPT, StableDiffusion) pervasively influence society, warranting immediate social attention. While the models themselves garner much attention, to accurately characterize their impact, we must consider the broader sociotechnical ecosystem. We propose Ecosystem Graphs as a documentation framework to transparently centralize knowledge of this ecosystem. Ecosystem Graphs is composed of assets (datasets, models, applications) linked together by dependencies that indicate technical (e.g. how Bing relies on GPT-4) and social (e.g. how Microsoft relies on OpenAI) relationships. To supplement the graph structure, each asset is further enriched with fine-grained metadata (e.g. the license or training emissions). We document the ecosystem extensively at https://crfm.stanford.edu/ecosystem-graphs/. As of March 16, 2023, we annotate 262 assets (64 datasets, 128 models, 70 applications) from 63 organizations linked by 356 dependencies. We show Ecosystem Graphs functions as a powerful abstraction and interface for achieving the minimum transparency required to address myriad use cases. Therefore, we envision Ecosystem Graphs will be a community-maintained resource that provides value to stakeholders spanning AI researchers, industry professionals, social scientists, auditors and policymakers.

Autores: Rishi Bommasani, Dilara Soylu, Thomas I. Liao, Kathleen A. Creel, Percy Liang

Última atualização: 2023-03-28 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2303.15772

Fonte PDF: https://arxiv.org/pdf/2303.15772

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes