Projeto Phoenix: Unindo Lacunas de Linguagem com IA
Uma iniciativa pra tornar modelos de linguagem de IA acessíveis em várias línguas.
― 9 min ler
Índice
- O Problema da Supremacia da IA
- Objetivos do Projeto Phoenix
- Metodologia
- Coletando Dados Multilíngues
- Nomeando o Modelo 'Phoenix'
- Avaliando o Modelo
- Desempenho do Phoenix
- Importância do Phoenix
- Tendências Existentes na Democratização do ChatGPT
- Modelos de Ajuste Baseados em Instrução e Conversação
- Desafios das Capacidades Multilíngues
- Construção e Diversidade do Conjunto de Dados
- Treinamento e Avaliação de Desempenho
- Considerações Finais
- Fonte original
- Ligações de referência
Esse texto fala sobre um projeto chamado Phoenix, que quer tornar um modelo de linguagem como o ChatGPT disponível para pessoas que falam diferentes línguas. O foco é dar suporte não só para línguas populares como inglês e chinês, mas também para aquelas que têm menos recursos. O objetivo é dar mais acesso a ferramentas de IA avançadas, especialmente em lugares onde o acesso é limitado por regras ou outras restrições.
O Problema da Supremacia da IA
Atualmente, grandes modelos de linguagem, incluindo o ChatGPT e sua versão avançada, o GPT-4, são desenvolvidos por uma única empresa. Isso leva a uma situação conhecida como "supremacia da IA", onde uma entidade tem um grande poder e influência sobre as tecnologias de IA. Essa é uma preocupação para muitos, pois pode resultar em uma única empresa controlando demais o futuro da IA e suas implicações para a sociedade.
A comunidade de IA sugere que essa situação deve mudar para garantir que os desenvolvimentos em inteligência artificial sejam mais abertos e compartilhados entre vários pesquisadores e desenvolvedores. Isso pode evitar que uma única organização domine o campo e minimizar os riscos potenciais associados ao controle centralizado dos sistemas de IA.
Objetivos do Projeto Phoenix
O principal objetivo do projeto Phoenix é reduzir as barreiras para treinar e acessar modelos de linguagem como o ChatGPT. Isso permitirá que mais pesquisadores e desenvolvedores participem da pesquisa em IA e contribuam com ideias e soluções diversas. O projeto foca em criar uma IA multilíngue que possa ser útil para pessoas de diferentes origens e culturas.
Os modelos atuais na comunidade de código aberto geralmente ignoram línguas que não usam escritas latinas ou cirílicas. Essa exclusão vai contra o espírito do código aberto, pois nega a algumas grupos o acesso à tecnologia. Portanto, o Phoenix pretende preencher essa lacuna e garantir que haja suporte para todas as línguas.
Metodologia
Para desenvolver o Phoenix, duas estratégias principais são empregadas:
Ajuste Baseado em Instruções: Esse método ensina o modelo a seguir instruções humanas. Isso pode envolver criar instruções iniciais por pessoas e depois usar o modelo do ChatGPT para gerar outras semelhantes.
Ajuste Baseado em Conversação: Essa abordagem utiliza conversas reais que aconteceram com o ChatGPT para ajudar a treinar o modelo. Diferente dos dados de instrução, que geralmente se concentram em perguntas únicas, os dados de conversa ajudam o modelo a aprender a interagir em um diálogo.
O Phoenix combina esses dois tipos de dados para o treinamento, acreditando que cada tipo melhora a capacidade do modelo de funcionar bem em várias línguas. O processo de treinamento começa com um modelo pré-treinado que já tem uma compreensão básica de várias línguas.
Coletando Dados Multilíngues
Um desafio significativo na criação de um modelo multilíngue é reunir dados suficientes em diferentes línguas. O projeto coleta dados de instruções e conversações e os traduz para várias línguas.
Os dados de instrução podem vir de várias fontes e ser traduzidos de acordo com os padrões de uso de cada língua. Isso inclui garantir que as respostas dadas pareçam naturais na língua alvo, levando em conta aspectos culturais.
Para os dados de conversa, as conversas compartilhadas pelos usuários são coletadas de várias plataformas online. Isso ajuda a treinar o modelo para responder de maneira conversacional. A importância de usar um conjunto diversificado de dados é enfatizada para garantir que o modelo possa atender diferentes línguas de forma eficaz.
Nomeando o Modelo 'Phoenix'
Escolher um nome para o modelo foi outro desafio, já que muitos nomes de animais associados a modelos de linguagem já estavam em uso. O nome Phoenix foi escolhido porque simboliza um pássaro poderoso e adaptável na cultura chinesa. A ideia é que o Phoenix representa a capacidade de entender e se comunicar em muitas línguas enquanto aceita diferenças culturais.
Para uma versão do Phoenix focada em línguas latinas, o nome Quimera foi selecionado. Quimera é uma criatura lendária da mitologia grega feita de várias partes animais. Isso simboliza a combinação de diferentes culturas em um único modelo de linguagem.
Avaliando o Modelo
Para avaliar quão bem o Phoenix se sai em comparação com modelos existentes, tanto métodos de avaliação automáticos quanto manuais são usados. Perguntas são criadas em várias categorias para testar as respostas geradas por cada modelo. Uma IA avançada é utilizada para classificar essas respostas com base em sua utilidade, precisão, relevância e nível de detalhe.
A avaliação humana também desempenha um papel em entender o desempenho do modelo. Voluntários são convidados a comparar as respostas do Phoenix com as de outros modelos para determinar qual se sai melhor com base em vários critérios.
Desempenho do Phoenix
Em chinês, o Phoenix mostrou um desempenho notável em comparação com outros modelos de linguagem de código aberto. Ele superou muitos modelos desenvolvidos para chinês, demonstrando que pode competir até mesmo com modelos proprietários.
Para línguas não-latinas como árabe, japonês e coreano, o Phoenix se saiu significativamente melhor do que os modelos de linguagem existentes. É importante notar que, enquanto um modelo multilíngue pode não sempre superar modelos projetados para uma língua específica, ele traz uma compreensão mais ampla e adaptabilidade entre diferentes línguas.
O Quimera, o modelo para línguas latinas, também mostrou resultados impressionantes, alcançando uma alta pontuação de qualidade. Isso indica que tanto o Phoenix quanto seu contraparte latino têm potencial para um desempenho robusto em múltiplos contextos.
Importância do Phoenix
Este projeto tem como objetivo democratizar o acesso a modelos de linguagem de IA tornando-os de código aberto e multilíngues. O Phoenix é um dos primeiros modelos a usar de forma abrangente dados multilíngues ricos em suas fases de treinamento, garantindo que possa atender efetivamente a diversas línguas.
A combinação de abordagens focadas em instruções e baseadas em conversação estabelece o Phoenix como um forte concorrente entre os modelos existentes. É visto como uma ferramenta avançada para usuários que podem ter acesso limitado à tecnologia devido a barreiras geográficas, econômicas ou políticas.
Tendências Existentes na Democratização do ChatGPT
Desde o lançamento do ChatGPT, vários modelos surgiram que visam fornecer capacidades semelhantes. Esses modelos geralmente se baseiam em modelos de linguagem estabelecidos, como LLaMA e BLOOM, focando em maneiras de torná-los mais acessíveis e baratos para os pesquisadores.
Muitos esforços recentes olham para métodos pós-treinamento, onde modelos pré-treinados são ajustados usando diferentes dados de treinamento. Isso torna o processo mais viável para equipes de pesquisa que podem não ter os recursos para um treinamento extenso desde o início.
Modelos de Ajuste Baseados em Instrução e Conversação
Vários modelos notáveis surgiram do ajuste baseado em instruções, como o Alpaca. Esse modelo utiliza instruções autogeradas para um treinamento eficaz. Da mesma forma, modelos baseados em conversação ganharam popularidade, aproveitando as interações dos usuários com o ChatGPT para melhorar o desempenho.
Esses modelos costumam se concentrar em uma única língua, principalmente o inglês, o que limita sua usabilidade em contextos multilíngues. Embora alguns tenham começado a incorporar línguas não-latinas em sua estrutura, o suporte abrangente entre diversas línguas continua sendo um desafio.
Desafios das Capacidades Multilíngues
A maioria dos modelos de linguagem é voltada para línguas que usam caracteres latinos, frequentemente ignorando línguas não-latinas. Isso cria barreiras de acesso para muitos usuários em todo o mundo. O problema vem da falta de dados de treinamento suficientes para essas línguas, levando a modelos que não conseguem funcionar efetivamente fora de seus domínios de língua projetados.
Algumas tentativas foram feitas para mitigar isso, acrescentando uma pequena quantidade de dados não-latinos durante o treinamento. No entanto, sem uma base sólida de dados multilíngues, esses modelos geralmente são ineficazes para falantes de línguas que carecem de recursos.
Construção e Diversidade do Conjunto de Dados
Para criar um conjunto de dados rico e diversificado, o Phoenix coletou dados de duas fontes principais: instruções e conversas de usuários. Isso garante que ambos os conjuntos de dados reflitam uma ampla gama de línguas e contextos culturais.
As instruções coletadas vêm de uma combinação de conjuntos de dados existentes e conteúdo gerado recentemente, que pode ser traduzido para outras línguas, aumentando o alcance do conjunto de dados. Enquanto isso, as conversas de usuários fornecem um recurso valioso para refinar as habilidades conversacionais do modelo.
Treinamento e Avaliação de Desempenho
O processo de treinamento do Phoenix envolve diretrizes e protocolos específicos para garantir que ele possa aprender efetivamente com os dados coletados. Os modelos são implementados usando ferramentas de programação amplamente disponíveis, e atenção cuidadosa é dada à forma como os dados de treinamento são estruturados.
A avaliação de desempenho envolve tanto avaliações automatizadas quanto revisões humanas para determinar quão bem o modelo pode responder a perguntas e interagir em conversas.
Considerações Finais
O projeto Phoenix representa um grande passo em direção a tornar ferramentas avançadas de IA disponíveis para um público mais amplo. Ao focar em capacidades multilíngues e desenvolvimento de código aberto, ele busca criar um ambiente mais inclusivo para a tecnologia da IA.
Tornar modelos de IA disponíveis para falantes de todas as línguas é crucial para garantir que todos tenham a oportunidade de se beneficiar dos avanços em inteligência artificial. O projeto convida pesquisadores e desenvolvedores de todo o mundo a contribuir, promovendo colaboração e inovação na área.
Título: Phoenix: Democratizing ChatGPT across Languages
Resumo: This paper presents our efforts to democratize ChatGPT across language. We release a large language model "Phoenix", achieving competitive performance among open-source English and Chinese models while excelling in languages with limited resources (covering both Latin and non-Latin languages). We believe this work will be beneficial to make ChatGPT more accessible, especially in countries where people cannot use ChatGPT due to restrictions from OpenAI or local goverments. Our data, code, and models are available at https://github.com/FreedomIntelligence/LLMZoo.
Autores: Zhihong Chen, Feng Jiang, Junying Chen, Tiannan Wang, Fei Yu, Guiming Chen, Hongbo Zhang, Juhao Liang, Chen Zhang, Zhiyi Zhang, Jianquan Li, Xiang Wan, Benyou Wang, Haizhou Li
Última atualização: 2023-04-20 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2304.10453
Fonte PDF: https://arxiv.org/pdf/2304.10453
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://futureoflife.org/open-letter/pause-giant-ai-experiments/
- https://yiyan.baidu.com/
- https://tongyi.aliyun.com/
- https://github.com/THUDM/ChatGLM-6B
- https://huggingface.co/databricks/dolly-v1-6b
- https://guanaco-model.github.io/
- https://bair.berkeley.edu/blog/2023/04/03/koala/
- https://github.com/FreedomIntelligence/LLMZoo
- https://en.wikipedia.org/wiki/List_of_languages_by_total_number_of_speakers
- https://sharegpt.com/
- https://huggingface.co/datasets/philschmid/sharegpt-raw
- https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes
- https://github.com/huggingface/transformers
- https://i.imgur.com/2fF3Xlh.png
- https://10.26.1.135:7860/