Maya: Ligando Linguagem e Imagens
Maya conecta visuais e textos em várias línguas pra facilitar a compreensão.
Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
― 5 min ler
Índice
- O Desafio das Barreiras Linguísticas
- O Que a Maya Faz
- Construindo um Melhor Conjunto de Dados
- Mantendo Tudo Seguro e Limpo
- Treinando a Maya
- Como a Maya Funciona
- Testando as Habilidades da Maya
- Um Modelo Multilíngue pra Várias Aplicações
- Olhando Desempenho da Maya
- O Que Faz a Maya Única
- Futuras Melhorias
- Conclusão
- Fonte original
- Ligações de referência
No nosso mundo, as máquinas estão ficando mais espertas a cada dia. Uma das áreas mais legais de desenvolvimento é ensinar as máquinas a entender tanto fotos quanto palavras. É aqui que a Maya entra, mostrando o que pode fazer com idiomas e visuais. Pense na Maya como um robô amigo que pode não só ler, mas também olhar para as fotos e entender tudo isso em diferentes Línguas.
O Desafio das Barreiras Linguísticas
A maioria dos modelos chiques que entende Imagens e palavras são feitos pra línguas mais faladas, como o inglês. Isso deixa um monte de gente de fora que fala línguas menos comuns. É como ter um café super legal, mas só algumas pessoas conseguem entrar porque não sabem a senha secreta. Isso é um problemão se a gente quer que todo mundo aproveite os benefícios da tecnologia avançada.
O Que a Maya Faz
A Maya quer acabar com essa barreira. Ela foi feita pra trabalhar com oito línguas, tornando tudo mais acessível pra mais pessoas. Isso significa que a Maya pode pegar uma foto, olhar pra ela, e também ler texto pra dar respostas inteligentes, tudo enquanto respeita a linguagem e a cultura. É como pedir ajuda a um amigo poliglota quando você tá em um país estrangeiro.
Construindo um Melhor Conjunto de Dados
Pra criar a Maya, os desenvolvedores montaram um conjunto de dados especial. Imagine uma biblioteca gigante cheia de livros, mas esses livros têm fotos e legendas em oito línguas diferentes. É uma mistura de visuais legais e palavras escritas pra treinar a Maya. A galera se certificou de que essa biblioteca não só era grande, mas também limpa. Eles tiraram qualquer conteúdo ruim porque ninguém quer um robô que aprendeu com exemplos péssimos.
Mantendo Tudo Seguro e Limpo
Os desenvolvedores tomaram cuidados extras pra garantir que o conjunto de dados não tivesse toxicidade. Eles usaram ferramentas especiais pra escanear as imagens e legendas em busca de qualquer coisa que pudesse ser considerada ofensiva ou prejudicial. Isso significou que eles puderam focar em aprender sem pegar vícios ruins. Assim como comer seus legumes te deixa forte, um conjunto de dados limpo faz a Maya ser esperta.
Treinando a Maya
A Maya foi treinada usando computadores poderosos, quase como ter um super cérebro pra aprender todas essas informações rápido. À medida que a Maya aprendia, ela praticava traduzir texto e entender imagens. O processo levou um tempão, mas no final, ela se tornou uma boa ouvinte, capaz de responder perguntas sobre o que vê.
Como a Maya Funciona
O cérebro da Maya é dividido em duas partes: uma parte de linguagem e uma parte de visão. A parte de linguagem ajuda a responder perguntas e entender textos, enquanto a parte de visão olha pra imagens e descobre o que elas mostram. Juntas, elas formam uma equipe perfeita, tipo pasta de amendoim e geleia.
Testando as Habilidades da Maya
Depois de treinada, a Maya foi testada. Fazendo perguntas pra Maya e mostrando várias imagens, os desenvolvedores puderam ver quão bem ela respondia. Era como um aluno fazendo a prova final depois de um longo ano escolar. Com os resultados, eles puderam ver onde ela se destacou e onde precisava de mais prática.
Multilíngue pra Várias Aplicações
Um ModeloA Maya não é só pra diversão; ela tem aplicações no mundo real. Imagine um turista em um país estrangeiro que se depara com uma placa escrita em uma língua que não entende. Com a Maya, ele poderia tirar uma foto da placa e receber uma tradução. Ou pense em estudantes aprendendo sobre diferentes culturas através de imagens, com a Maya fornecendo insights inteligentes sobre o que estão vendo.
Olhando Desempenho da Maya
Nos testes, a Maya se saiu muito bem. Embora tivesse alguns desafios, ela lidou com as perguntas e fotos direitinho, provando que era uma ferramenta confiável pra entender visuais e texto. Como um bom aluno, a Maya aprendeu com seus erros e melhorou com o tempo.
O Que Faz a Maya Única
A habilidade da Maya de trabalhar em múltiplas línguas, entender diferenças culturais e filtrar conteúdo prejudicial faz dela algo especial no mundo tech. Enquanto outros podem focar só no inglês e ignorar todo mundo, a Maya abre os braços pra incluir um público maior. Essa inclusão não é só um toque legal; é essencial pra tecnologia ser acessível a todos.
Futuras Melhorias
Por mais legal que a Maya seja agora, sempre dá pra melhorar. Os desenvolvedores estão buscando maneiras de torná-la ainda melhor. Eles querem expandir as línguas que ela pode entender e aprimorar sua habilidade de lidar com perguntas mais complexas. Com um pouco de amor e cuidado, a Maya pode se tornar ainda mais esperta e útil.
Conclusão
A Maya tá mudando o jogo ao combinar entendimento visual e textual em um modelo multilíngue. Com seu foco em segurança, sensibilidade cultural e acessibilidade, a Maya tá abrindo caminho pra um futuro tech que atende a todo mundo, não importa qual língua falem. É como ter um tradutor, um guia e um amigo, tudo junto, tornando o mundo um lugar mais conectado e amigável.
Fonte original
Título: Maya: An Instruction Finetuned Multilingual Multimodal Model
Resumo: The rapid development of large Vision-Language Models (VLMs) has led to impressive results on academic benchmarks, primarily in widely spoken languages. However, significant gaps remain in the ability of current VLMs to handle low-resource languages and varied cultural contexts, largely due to a lack of high-quality, diverse, and safety-vetted data. Consequently, these models often struggle to understand low-resource languages and cultural nuances in a manner free from toxicity. To address these limitations, we introduce Maya, an open-source Multimodal Multilingual model. Our contributions are threefold: 1) a multilingual image-text pretraining dataset in eight languages, based on the LLaVA pretraining dataset; 2) a thorough analysis of toxicity within the LLaVA dataset, followed by the creation of a novel toxicity-free version across eight languages; and 3) a multilingual image-text model supporting these languages, enhancing cultural and linguistic comprehension in vision-language tasks. Code available at https://github.com/nahidalam/maya.
Autores: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
Última atualização: 2024-12-09 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2412.07112
Fonte PDF: https://arxiv.org/pdf/2412.07112
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://docs.cohere.com/v2/docs/prompt-tuner
- https://www.computer.org/about/contact
- https://support.apple.com/en-ca/guide/preview/prvw11793/mac#:~:text=Delete%20a%20page%20from%20a,or%20choose%20Edit%20%3E%20Delete
- https://www.adobe.com/acrobat/how-to/delete-pages-from-pdf.html#:~:text=Choose%20%E2%80%9CTools%E2%80%9D%20%3E%20%E2%80%9COrganize,or%20pages%20from%20the%20file
- https://superuser.com/questions/517986/is-it-possible-to-delete-some-pages-of-a-pdf-document
- https://github.com/nahidalam/maya
- https://huggingface.co/google/siglip-base-patch16-256-multilingual
- https://github.com/cvpr-org/author-kit