Investigando Semelhanças e Mudanças na Língua
Este estudo examina semelhanças linguísticas através da colexificação e padrões sonoros.
― 7 min ler
Índice
- Propósito do Estudo
- Descobertas
- O que é Linguística Comparativa?
- Papel da Colexificação na Língua
- Limitações de Pesquisas Anteriores
- Hipóteses e Suas Visualizações
- Importância dos Gráficos de Língua
- Testando Hipóteses Estabelecidas
- Direções de Pesquisa e Sua Significância
- Exame do Contato Linguístico
- Fontes de Dados e Processamento
- Distâncias Semânticas e Fonológicas
- As Descobertas da Análise de Dados
- Persistência e Mudança
- Comparando Diferentes Tipos de Vocabulário
- A Importância da Concretude e Abstratividade
- O Papel das Emoções na Língua
- Considerações Finais e Futuras Pesquisas
- A Consideração Ética
- Fonte original
- Ligações de referência
Línguas ao redor do mundo podem ter semelhanças por várias razões. Isso inclui ancestralidade comum, relações geográficas, características universais ou apenas coincidência. Uma área interessante de estudo na linguística é a Colexificação, onde uma única palavra tem múltiplos significados em diferentes línguas. Essa área ainda não foi explorada profundamente até agora.
Propósito do Estudo
Neste estudo, investigamos como certas semelhanças na língua, particularmente em termos de colexificação e padrões sonoros, são mantidas ao longo do tempo ou mudam devido ao contato entre línguas. Focamos em "persistência," que significa por quanto tempo certas características linguísticas permanecem as mesmas, e "difusibilidade," que analisa como essas características se espalham entre as línguas.
Para fazer isso, criamos gráficos extensos que incluem informações sobre significados, árvores genealógicas, sons e locais para 1.966 línguas. Analisamos esses gráficos para testar ideias existentes da pesquisa linguística e sugerir novas.
Descobertas
Nossa pesquisa apoia fortemente algumas ideias anteriores na linguística enquanto contradiz outras. O banco de dados que criamos também abre várias avenidas para mais pesquisas em áreas como processamento de linguagem natural (PLN) multilíngue e linguística comparativa.
O que é Linguística Comparativa?
A linguística comparativa olha como as línguas estão estruturadas hoje e como evoluíram ao longo do tempo. Ao estudar padrões subjacentes, obtemos insights sobre as semelhanças e diferenças entre as línguas. Essas semelhanças têm aplicações práticas, especialmente em áreas como PLN multilíngue, onde pesquisadores trabalham para melhorar a tecnologia de linguagem que acomoda múltiplas línguas.
Papel da Colexificação na Língua
A colexificação se tornou um ponto focal em nosso estudo. Acredita-se comumente que padrões de colexificação compartilhados surgem mais do contato geográfico entre línguas do que de uma ancestralidade compartilhada. No entanto, evidências empíricas para essa suposição têm sido escassas.
Por exemplo, investigamos como padrões de colexificação e formas fonológicas de certas palavras são herdados através de uma árvore genealógica compartilhada ou adquiridos através do contato entre línguas na Europa.
Limitações de Pesquisas Anteriores
Pesquisas passadas costumavam ser limitadas em escala, focando em um pequeno número de línguas ou usando modelos binários para examinar padrões de colexificação. Muitas confiaram em bancos de dados externos sem considerar influências contextuais específicas. Nosso trabalho visa avançar significativamente essa área ao fornecer um recurso mais robusto para pesquisa empírica.
Hipóteses e Suas Visualizações
Propomos várias hipóteses, visualizadas em gráficos. Por exemplo, uma hipótese sugere que padrões de colexificação são menos estáveis, mas se espalham mais facilmente do que padrões Fonológicos. Também exploramos como diferentes tipos de vocabulário podem variar em sua persistência e difusão.
Importância dos Gráficos de Língua
Os gráficos de línguas que construímos contêm conjuntos de dados ricos que podem gerar uma ampla gama de perguntas na linguística. Por exemplo, eles podem ajudar a analisar as conexões entre línguas com base em seus significados e sons.
Testando Hipóteses Estabelecidas
Validamos hipóteses existentes da linguística usando nossos gráficos de línguas e propomos novas. Analisamos como as semelhanças nas colexificações refletem tanto relações genealógicas quanto contato entre línguas.
Direções de Pesquisa e Sua Significância
A área de semelhanças linguísticas foi explorada em vários domínios, incluindo emoções, onde diferentes línguas conectam conceitos emocionais de maneiras únicas. Ao aprofundar nesses padrões, esperamos obter insights sobre princípios cognitivos subjacentes e mudanças linguísticas.
Exame do Contato Linguístico
Na linguística, contato linguístico descreve como características de uma língua influenciam outra. Emprestar palavras uma da outra é um exemplo simples. Analisamos como características compartilhadas podem surgir devido à proximidade geográfica ao longo do tempo.
Fontes de Dados e Processamento
Nosso estudo utiliza dados de múltiplos bancos de dados linguísticos para construir um gráfico de língua abrangente. Utilizamos recursos existentes, incluindo dados genealógicos, geográficos e fonológicos para garantir uma compreensão ampla das semelhanças linguísticas.
Distâncias Semânticas e Fonológicas
Calculamos as distâncias semânticas e fonológicas entre línguas, examinando como essas distâncias são influenciadas por relações genealógicas e contato. Isso nos permite identificar os padrões subjacentes que mantêm ou interrompem as semelhanças linguísticas.
As Descobertas da Análise de Dados
Após analisar os dados, encontramos padrões significativos que sugerem como línguas intimamente relacionadas influenciam umas às outras. Por exemplo, quando línguas são vizinhas geográficas, tendem a ter sons e significados mais semelhantes.
Persistência e Mudança
Analisamos ainda como diferentes características linguísticas persistiram ou mudaram ao longo do tempo. Nossas descobertas indicam que padrões fonológicos tendem a permanecer os mesmos por mais tempo do que padrões de colexificação. Isso sugere que alguns aspectos da língua podem ser mais resistentes à mudança do que outros.
Comparando Diferentes Tipos de Vocabulário
Exploramos se tipos de vocabulário como conceitos centrais versus emoções mostram diferentes taxas de persistência e difusibilidade. Nossa investigação revela que conceitos centrais tendem a permanecer estáveis, enquanto conceitos emocionais podem mudar mais facilmente.
A Importância da Concretude e Abstratividade
Outro foco importante é como o vocabulário concreto versus abstrato se comporta em termos de persistência e difusão. Hipotetizamos que conceitos concretos podem ser mais fáceis de reter entre línguas em comparação com conceitos abstratos.
O Papel das Emoções na Língua
O vocabulário emocional oferece uma perspectiva única, já que diferentes culturas associam sentimentos variados com palavras distintas. Isso pode influenciar como as línguas expressam sentimentos e como essas expressões evoluem ao longo do tempo.
Considerações Finais e Futuras Pesquisas
Ao concluir este estudo, destacamos as potenciais aplicações dos gráficos de língua que criamos. Eles podem servir como um recurso valioso para futuras pesquisas interdisciplinares que conectam o estudo da língua com tecnologia e ciência cognitiva.
O campo da linguística continua a se beneficiar da exploração da complexidade das relações linguísticas. Ao analisar conjuntos de dados detalhados, conseguimos alcançar uma compreensão mais profunda de como as línguas interagem e evoluem ao longo do tempo.
Nossa pesquisa abriu portas para futuros estudos, particularmente em PLN multilíngue, onde esses insights podem ajudar a melhorar como as máquinas entendem e processam diferentes línguas.
A Consideração Ética
Por fim, tocamos brevemente nas preocupações éticas que vêm com a pesquisa em linguística. É crucial estar ciente dos preconceitos que podem surgir de contextos históricos em recursos linguísticos. No entanto, como nosso estudo desenvolve principalmente recursos linguísticos sem coletar novos dados humanos, as questões éticas são mínimas.
Em resumo, nosso trabalho oferece insights importantes sobre os padrões de semelhança e diferença entre as línguas do mundo, aprimorando nossa compreensão da evolução da linguagem e suas implicações para a comunicação em um mundo diversificado.
Título: Patterns of Persistence and Diffusibility across the World's Languages
Resumo: Language similarities can be caused by genetic relatedness, areal contact, universality, or chance. Colexification, i.e. a type of similarity where a single lexical form is used to convey multiple meanings, is underexplored. In our work, we shed light on the linguistic causes of cross-lingual similarity in colexification and phonology, by exploring genealogical stability (persistence) and contact-induced change (diffusibility). We construct large-scale graphs incorporating semantic, genealogical, phonological and geographical data for 1,966 languages. We then show the potential of this resource, by investigating several established hypotheses from previous work in linguistics, while proposing new ones. Our results strongly support a previously established hypothesis in the linguistic literature, while offering contradicting evidence to another. Our large scale resource opens for further research across disciplines, e.g.~in multilingual NLP and comparative linguistics.
Autores: Yiyi Chen, Johannes Bjerva
Última atualização: 2024-01-05 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2401.01698
Fonte PDF: https://arxiv.org/pdf/2401.01698
Licença: https://creativecommons.org/licenses/by-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://anonymous.4open.science/r/PersistenceAndDiffusibility-018F/
- https://osf.io/5sh62/?view_only=5d07119803c24743940a08777884cc33
- https://github.com/autotyp/autotyp-data
- https://github.com/yihongL1U/ColexificationNet/blob/main/processing_ngrams.py
- https://zenodo.org/record/7398962
- https://geopy.readthedocs.io/en/stable/index.html?highlight=geodesic
- https://anonymous.4open.science/r/PersistenceAndDiffusibility-018F/data/wordlists/
- https://anonymous.4open.science/r/PersistenceAndDiffusibility-018F/plots/colex_geocontact/