Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Abordando os principais desafios na pesquisa em PLN

Uma pesquisa revela preocupações importantes na pesquisa em PNL sobre sustentabilidade e acesso a recursos.

― 6 min ler


Pesquisa em PNL:Pesquisa em PNL:Principais Desafios pelaFrenteacesso a recursos.sustentabilidade da pesquisa em PNL ePesquisa revela problemas urgentes na
Índice

Avanços recentes em processamento de linguagem natural (NLP) vieram em grande parte do uso de modelos de linguagem grandes com milhões ou bilhões de parâmetros. Embora esses avanços sejam impressionantes, eles vêm com altos custos computacionais que levantam questões importantes sobre sustentabilidade, reprodutibilidade e justiça na pesquisa.

Essa pesquisa teve como objetivo entender essas preocupações mais profundamente, coletando respostas de membros da comunidade de NLP. Focamos em três áreas principais: o Impacto Ambiental da pesquisa em NLP, a equidade no acesso a recursos computacionais e como esses fatores afetam o processo de revisão por pares.

Visão Geral da Pesquisa

A pesquisa aconteceu ao longo de 17 dias e coletou respostas de 312 participantes de várias funções no campo de NLP, incluindo estudantes, pesquisadores e profissionais da indústria. O principal objetivo foi coletar pontos de vista e experiências, permitindo quantificar as preocupações e diferenças comuns entre os diversos grupos de pesquisadores.

Principais Descobertas

  1. Impacto Ambiental: Um número significativo de participantes expressou preocupação sobre a pegada ambiental da pesquisa em NLP. Mais da metade dos entrevistados estava moderadamente ou muito preocupada com as emissões de gases de efeito estufa ligadas ao seu trabalho, especialmente em relação ao treinamento e seleção de modelos.

  2. Acesso a Recursos: Muitos entrevistados relataram acesso limitado a recursos computacionais. Uma parte considerável dos participantes tinha acesso a menos de dez GPUs, com 62% tendo acesso a menos de oito. Essa limitação muitas vezes os impede de conduzir experimentos necessários e reproduzir resultados.

  3. Questões de Revisão por Pares: Os participantes também comentaram sobre como a necessidade de recursos computacionais consideráveis impacta o processo de revisão por pares. Alguns relataram ter sido solicitados pelos revisores a conduzir experimentos que eram muito caros para eles, gerando frustração e inequidade.

Preocupações Ambientais

Quando perguntamos sobre preocupações relacionadas ao impacto ambiental da NLP, ficou claro que muitos pesquisadores sentem uma urgência em abordar essa questão. O treinamento de grandes modelos geralmente requer uma quantidade substancial de energia, o que pode contribuir para emissões de gases de efeito estufa.

Os participantes identificaram dois fatores principais associados às preocupações ambientais:

  • Treinamento de Modelos: A fase de treinamento consome uma quantidade significativa de energia. Muitos modelos passam por ajustes e desenvolvimento extensivos de parâmetros, o que requer a execução de diversos experimentos ao longo de longos períodos.

  • Seleção de Modelos: O processo de escolher o modelo certo também pode ser intensivo em recursos. Pesquisadores costumam tentar várias abordagens diferentes antes de chegar à mais eficaz.

Curiosamente, alguns participantes acreditaram que o impacto ambiental da NLP é menor em comparação a outros fatores relacionados às mudanças climáticas, como viagens aéreas e operações de grandes empresas de tecnologia.

Equidade de Acesso

A equidade, ou justiça no acesso a recursos computacionais, é outra grande área de preocupação na comunidade de NLP. A pesquisa revelou que o acesso a hardware potente não é distribuído de maneira uniforme.

Distribuição de GPUs

Os resultados mostraram que um grande número de participantes (87,8%) tem acesso a menos de 10% do total de GPUs disponíveis no grupo da pesquisa. Essa disparidade levanta questões sobre quem pode pagar para trabalhar com tecnologias de ponta.

  • Estudantes: Muitos estudantes relataram desafios significativos em realizar experimentos devido a recursos limitados.
  • Pesquisadores da Indústria: Aqueles que trabalham em empresas menores também notaram dificuldades, embora empresas maiores geralmente tenham melhor acesso ao poder computacional.

Ao analisar as disparidades entre setores de trabalho, parecia que pesquisadores em grandes empresas industriais tinham mais acesso a GPUs em comparação com aqueles na academia ou em indústrias menores.

Consequências do Acesso Limitado

O acesso limitado a recursos pode dificultar o progresso da pesquisa. Muitos participantes relataram não conseguir executar experimentos importantes devido à insuficiência de poder computacional. Essa situação cria uma barreira para muitos pesquisadores, especialmente para estudantes e aqueles em empresas menores, tornando mais difícil alcançar resultados que atendam aos padrões da comunidade.

Impacto na Revisão por Pares

A pesquisa também abordou como essas questões afetam o processo de revisão por pares. Muitos entrevistados indicaram que foram solicitados por revisores a realizar experimentos que não eram viáveis para eles devido a restrições financeiras ou de recursos.

Expectativas dos Revisores

Cerca de 30% dos participantes relataram ter recebido pedidos para experimentos caros durante a revisão por pares. Para muitos, esses pedidos pareceram injustificados, contribuindo para uma sensação de inequidade no processo de revisão.

O feedback dos revisores às vezes pode ignorar o fato de que nem todos os pesquisadores têm o mesmo nível de acesso a recursos. Isso pode levar à rejeição de trabalhos valiosos simplesmente porque os autores não puderam atender às exigências da revisão.

Sugestões para Melhoria

Os participantes compartilharam várias recomendações para melhorar o processo de revisão por pares:

  • Pedidos de Justificação: Muitos sugeriram que os revisores deveriam ser obrigados a justificar seus pedidos por experimentos adicionais baseados nos recursos disponíveis relatados pelos autores. Isso promoveria justiça e compreensão.

  • Trilhas de Eficiência: Uma parte significativa dos entrevistados apoiou a ideia de trilhas dedicadas para métodos eficientes, incentivando submissões que focassem no uso mínimo de recursos enquanto entregam resultados de qualidade.

  • Versões Menores de Modelos: Houve um forte apelo pela liberação de modelos pré-treinados menores juntamente com versões maiores, facilitando para pesquisadores com recursos limitados produzirem trabalhos valiosos.

Conclusão

A pesquisa destacou preocupações críticas sobre o impacto ambiental, a equidade de acesso e a revisão por pares na pesquisa em NLP. Muitos participantes sentem que abordar essas questões é essencial para promover um ambiente de pesquisa justo e sustentável.

Recomendações

Para enfrentar os desafios delineados na pesquisa, propomos as seguintes recomendações:

  1. Incentivar a Transparência: Pesquisadores devem ser incentivados a relatar claramente seus recursos computacionais ao submeter trabalhos. Isso permitiria que os revisores entendessem melhor o contexto da pesquisa e sua reprodutibilidade.

  2. Promover o Compartilhamento de Recursos: A comunidade poderia se beneficiar de iniciativas que incentivem a colaboração e o compartilhamento de recursos computacionais, especialmente para estudantes e empresas menores.

  3. Apoio Institucional: Universidades e instituições de pesquisa deveriam considerar fornecer mais apoio e recursos para estudantes e pesquisadores iniciantes, nivelando o campo de jogo.

  4. Engajamento da Comunidade: A comunidade de NLP deve continuar a se envolver em discussões sobre impactos ambientais e trabalhar coletivamente para encontrar soluções.

Ao implementar essas recomendações, podemos avançar em direção a um futuro mais equitativo e sustentável na pesquisa em NLP, permitindo que todos contribuam de forma significativa para o campo.

Fonte original

Título: Surveying (Dis)Parities and Concerns of Compute Hungry NLP Research

Resumo: Many recent improvements in NLP stem from the development and use of large pre-trained language models (PLMs) with billions of parameters. Large model sizes makes computational cost one of the main limiting factors for training and evaluating such models; and has raised severe concerns about the sustainability, reproducibility, and inclusiveness for researching PLMs. These concerns are often based on personal experiences and observations. However, there had not been any large-scale surveys that investigate them. In this work, we provide a first attempt to quantify these concerns regarding three topics, namely, environmental impact, equity, and impact on peer reviewing. By conducting a survey with 312 participants from the NLP community, we capture existing (dis)parities between different and within groups with respect to seniority, academia, and industry; and their impact on the peer reviewing process. For each topic, we provide an analysis and devise recommendations to mitigate found disparities, some of which already successfully implemented. Finally, we discuss additional concerns raised by many participants in free-text responses.

Autores: Ji-Ung Lee, Haritz Puerto, Betty van Aken, Yuki Arase, Jessica Zosa Forde, Leon Derczynski, Andreas Rücklé, Iryna Gurevych, Roy Schwartz, Emma Strubell, Jesse Dodge

Última atualização: 2023-11-09 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.16900

Fonte PDF: https://arxiv.org/pdf/2306.16900

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes