Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas# Inteligência Artificial# Computadores e sociedade# Interação Homem-Computador

Modelos Pequenos e Abertos da AI vs. Modelos Grandes e Fechados

Analisando a eficácia e o custo de modelos de IA menores em comparação com os maiores.

― 6 min ler


Comparando Modelos de IA:Comparando Modelos de IA:Aberto vs. Fechadopequenos modelos de IA.Avaliando o desempenho e o custo de
Índice

A ascensão da IA generativa gerou uma discussão sobre a eficácia de modelos menores e abertos em comparação com modelos maiores e fechados. Isso é especialmente importante em áreas como governo, saúde e pesquisa, onde transparência e adaptabilidade são essenciais. O debate gira em torno de como esses modelos menores podem se sair contra os maiores, como o ChatGPT, especialmente em ambientes com recursos limitados.

Perguntas Chave

  1. Comparação de Desempenho: Modelos menores e abertos conseguem performar tão bem quanto modelos maiores e fechados em tarefas específicas?
  2. Custo-benefício: Como os custos de uso desses modelos se comparam?
  3. Resposta de Ajustes Finais: Esses modelos menores se adaptam bem a novos dados específicos das suas tarefas?
  4. Capacidade de Uso Geral: Esses modelos ainda conseguem realizar outras tarefas de forma eficaz após serem treinados para uma específica?
  5. Uso Responsável: Esses modelos conseguem ser usados de forma ética, especialmente em áreas sensíveis?

Comparação de Desempenho

A gente analisou o desempenho de três modelos pequenos abertos contra dois modelos fechados conhecidos, o GPT-3.5-Turbo e o GPT-4-Turbo, em tarefas específicas. As tarefas que focamos foram:

  • Resolução de Entidades: Determinar se dois registros se referem à mesma pessoa.
  • Verificação de Fatos: Avaliar a precisão de declarações sobre questões climáticas.
  • Resumo de Diálogo Clínico: Resumir conversas entre médicos e pacientes.

Os resultados mostraram que, enquanto o GPT-4-Turbo frequentemente superava os outros modelos em situações de resposta rápida, modelos abertos ajustados se aproximaram ou até ultrapassaram seu desempenho depois de serem treinados em conjuntos de dados específicos.

Por exemplo, um modelo aberto alcançou uma taxa de precisão de 75% em uma tarefa de verificação de fatos, que foi melhor do que os 72% do GPT-4-Turbo em um cenário similar.

Custo-Benefício

Quando se trata de despesas, as descobertas foram significativas. Executar o modelo fechado maior GPT-4-Turbo custava cerca de dez vezes mais do que usar modelos abertos ajustados para tarefas similares. Isso mostra que modelos menores poderiam oferecer resultados semelhantes ou melhores por custos muito mais baixos, tornando-os opções atraentes para organizações com orçamentos apertados.

O custo de ajustar um modelo aberto para tarefas específicas era mais baixo do que o gasto com uma única consulta usando o GPT-4-Turbo. Para tarefas que exigem uso frequente de IA, essa eficiência de custo se torna particularmente importante.

Resposta de Ajustes Finais

Ajustes finos são o processo de ajustar um modelo com base em novos dados para melhorar sua precisão em tarefas específicas. Na nossa pesquisa, analisamos como os modelos abertos se adaptaram após serem ajustados com diferentes quantidades de dados.

Os resultados mostraram que até uma pequena quantidade de dados de treinamento poderia levar a melhorias significativas no desempenho. Por exemplo, um modelo aberto alcançou uma precisão quase ideal após usar apenas 20% dos dados de treinamento disponíveis. Isso sugere que esses modelos podem ser modificados de forma eficiente para atender a várias necessidades sem precisar de grandes volumes de informação.

Capacidade de Uso Geral

Uma preocupação com ajustes finos é que isso pode reduzir a habilidade de um modelo de realizar outras tarefas. No entanto, nossa avaliação dos modelos abertos ajustados revelou que a maioria manteve, ou até melhorou, seu desempenho em tarefas para as quais não foram especificamente treinados.

Por exemplo, um modelo aberto ajustado para resumo de diálogos clínicos se saiu bem em tarefas não relacionadas, como resolução de entidades. Isso indica que ajustes finos não prejudicam significativamente a utilidade geral do modelo, que é uma característica crucial para uso generalizado.

Uso Responsável

O uso responsável de modelos de IA envolve garantir que eles funcionem de maneira ética e segura, especialmente em áreas sensíveis como saúde e informações públicas. Nós exploramos isso avaliando como os modelos abertos e fechados lidaram com três áreas:

  1. Privacidade: Como os modelos protegem informações sensíveis?
  2. Viés: Eles são justos em suas respostas em diferentes demografias?
  3. Abstenção: Como os modelos lidam com perguntas quando não têm informações suficientes para fornecer uma resposta confiável?

Em termos de privacidade, os modelos que foram ajustados privadamente mostraram níveis de desempenho próximos aos de configurações não privadas, indicando um avanço na proteção das informações do usuário.

No entanto, quando se tratou de viés, enquanto algumas melhorias foram notadas nos modelos abertos após ajustes finos, eles, em geral, não alcançaram o mesmo nível de justiça que seus concorrentes fechados. Isso destaca uma área em que os modelos abertos ainda precisam de atenção.

A abstenção, ou a capacidade de se abster de responder quando não tem certeza, viu alguns modelos se saindo bem em suas configurações originais, mas enfrentando dificuldades após ajustes finos. Isso sugere a necessidade de um equilíbrio cuidadoso entre melhorar o desempenho em tarefas específicas e manter a capacidade do modelo de se abster de fornecer informações falsas.

Limitações

Apesar dos resultados promissores, existem limitações ao usar modelos pequenos e abertos. Um desafio é a necessidade de um pré-treinamento significativo, que requer recursos que podem não estar facilmente disponíveis para todos. Embora existam técnicas para tornar esse processo mais eficiente, isso não elimina a necessidade de um treinamento fundamental em grandes conjuntos de dados.

Além disso, problemas podem surgir do acesso a recursos em nuvem, já que a disponibilidade de GPUs de baixo custo pode não ser consistente. Isso pode afetar a confiabilidade e a velocidade dos experimentos realizados com modelos abertos.

Direções Futuras

Olhando para o futuro, pesquisas contínuas podem explorar maneiras inovadoras de melhorar o treinamento e o desempenho desses modelos menores. É essencial encontrar métodos que aprimorem sua capacidade de gerenciar informações sensíveis de forma responsável enquanto superam os viéses existentes.

Investigações futuras também podem se concentrar em como criar modelos eficazes sem depender excessivamente de grandes conjuntos de dados. Isso poderia abrir portas para um uso mais amplo das tecnologias de IA, especialmente entre pesquisadores e praticantes que atualmente podem se sentir marginalizados pela dominância de modelos corporativos maiores.

Conclusão

Em resumo, modelos de IA menores e abertos mostram muito potencial para fornecer alternativas acessíveis, adaptáveis e responsáveis aos modelos maiores e fechados. Eles têm o potencial de manter um bom desempenho em várias tarefas enquanto são mais acessíveis a usuários com recursos limitados. À medida que o campo avança, é crucial continuar abordando os desafios relacionados ao viés, privacidade e uso ético para garantir que esses modelos sejam adequados para uso geral e possam contribuir positivamente em várias áreas. Pesquisadores e praticantes podem se beneficiar desses avanços, abrindo caminho para um cenário de IA mais transparente e inclusivo.

Fonte original

Título: Laboratory-Scale AI: Open-Weight Models are Competitive with ChatGPT Even in Low-Resource Settings

Resumo: The rapid proliferation of generative AI has raised questions about the competitiveness of lower-parameter, locally tunable, open-weight models relative to high-parameter, API-guarded, closed-weight models in terms of performance, domain adaptation, cost, and generalization. Centering under-resourced yet risk-intolerant settings in government, research, and healthcare, we see for-profit closed-weight models as incompatible with requirements for transparency, privacy, adaptability, and standards of evidence. Yet the performance penalty in using open-weight models, especially in low-data and low-resource settings, is unclear. We assess the feasibility of using smaller, open-weight models to replace GPT-4-Turbo in zero-shot, few-shot, and fine-tuned regimes, assuming access to only a single, low-cost GPU. We assess value-sensitive issues around bias, privacy, and abstention on three additional tasks relevant to those topics. We find that with relatively low effort, very low absolute monetary cost, and relatively little data for fine-tuning, small open-weight models can achieve competitive performance in domain-adapted tasks without sacrificing generality. We then run experiments considering practical issues in bias, privacy, and hallucination risk, finding that open models offer several benefits over closed models. We intend this work as a case study in understanding the opportunity cost of reproducibility and transparency over for-profit state-of-the-art zero shot performance, finding this cost to be marginal under realistic settings.

Autores: Robert Wolfe, Isaac Slaughter, Bin Han, Bingbing Wen, Yiwei Yang, Lucas Rosenblatt, Bernease Herman, Eva Brown, Zening Qu, Nic Weber, Bill Howe

Última atualização: 2024-05-27 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.16820

Fonte PDF: https://arxiv.org/pdf/2405.16820

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes