Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial

Mudança de Língua em Inglês e Alemão: Uma Análise de 160 Anos

Esse estudo analisa as mudanças sintáticas no inglês e no alemão ao longo de 160 anos.

― 9 min ler


Mudança Sintática emMudança Sintática emInglês e Alemãoestrutura da língua.Analisando 160 anos de mudanças na
Índice

Muitos estudos investigaram como as línguas humanas reduzem a complexidade e melhoram a comunicação. Um aspecto importante é a distância de dependência sintática, que mede quão distantes estão palavras relacionadas em uma frase. Uma distância menor geralmente é vista como mais clara e mais fácil de entender. Este artigo examina como o inglês e o alemão mudaram suas estruturas sintáticas nos últimos 160 anos ao analisar debates parlamentares.

Para isso, usamos cinco ferramentas diferentes chamadas de analisadores de dependência, incluindo uma popular conhecida como Stanford CoreNLP. Essas ferramentas ajudam a entender as relações entre as palavras em uma frase. Nossa análise não se concentra apenas na distância entre as palavras, mas também considera outros fatores relacionados à estrutura das frases, como a altura das árvores de frases e a diversidade de quantas conexões cada palavra tem.

Descobrimos que, embora muitos analisadores recentes não sejam fortemente influenciados por erros nos dados históricos, os resultados podem variar dependendo de qual analisador é usado. Isso significa que é arriscado confiar apenas em um analisador. Nossas descobertas sugerem que há semelhanças significativas nas mudanças sintáticas entre o inglês e o alemão, com apenas 4% dos casos mostrando tendências opostas. Também notamos que as mudanças na estrutura das frases eram mais comuns em frases muito curtas ou muito longas.

Entendendo Relações de Dependência

Para entender melhor a mudança na linguagem, analisamos como as frases são estruturadas. Cada frase pode ser vista como um par de palavras que se conectam, chamadas de relações de dependência. Por exemplo, na frase "Mas não há provas", podemos mapear como as palavras dependem umas das outras. Nossa análise mostra que as línguas humanas parecem preferir colocar palavras relacionadas mais próximas – uma regra conhecida como minimização da distância de dependência.

Vários estudos apoiam essa ideia, mostrando que frases reais muitas vezes têm distâncias de dependência mais curtas do que frases compostas por palavras dispostas aleatoriamente. Também há evidências que mostram como as distâncias de dependência nas frases diminuíram ao longo do tempo, o que significa que palavras relacionadas estão ficando mais próximas.

Estudos recentes examinaram as estruturas de dependência em vários textos históricos, visando observar como essas distâncias mudaram ao longo dos anos. Esses estudos são vantajosos porque não requerem anotações humanas caras e demoradas, permitindo que mais dados históricos sejam analisados. No entanto, muitos desses estudos dependem de um único analisador, geralmente o Stanford CoreNLP, o que levanta questões sobre a confiabilidade de suas descobertas.

No nosso trabalho, primeiro verificamos quão bem esses analisadores podiam lidar com nossos dados históricos, que frequentemente contêm erros de ortografia e erros de Reconhecimento Óptico de Caracteres (OCR). Também queríamos ver se diferentes analisadores produziam as mesmas tendências na mudança da linguagem.

Analisando Diferentes Métricas

Expandimos nossa análise para considerar mais métricas além da distância entre as palavras. Estudos anteriores geralmente se concentravam apenas nessa distância linear, mas investigamos várias propriedades da árvore gráfica, como a altura das árvores de frases e quão uniformemente as conexões entre as palavras eram distribuídas.

A maior parte das pesquisas se concentrou no inglês, e apenas alguns estudos consideraram tanto o inglês quanto o alemão. Este estudo foca especificamente em debates parlamentares em ambas as línguas, cobrindo um período mais longo e um gênero mais consistente em comparação com outros estudos.

Perguntas de Pesquisa

Nossos principais objetivos eram responder às seguintes perguntas:

  1. Os analisadores que foram treinados em textos modernos são confiáveis para analisar nossos dados históricos, particularmente em alemão?
  2. As tendências nas mudanças sintáticas podem ser previstas com precisão usando um único analisador?
  3. O inglês e o alemão mostram padrões semelhantes ou diferentes de mudança sintática?
  4. Como essas línguas mudam ao considerar métricas relacionadas às suas estruturas sintáticas além da distância de dependência?

Principais Descobertas e Contribuições

Por meio da nossa análise, visamos alcançar vários objetivos:

  1. Observar como 15 métricas, incluindo a média da distância de dependência, evoluíram ao longo do tempo em inglês e alemão, usando dados de debates políticos.
  2. Verificar se as tendências nessas métricas eram consistentes entre vários analisadores e em ambas as línguas.
  3. Analisar como diferentes tipos de ruído nos dados influenciaram o desempenho do analisador e as mudanças linguísticas detectadas.

Descobrimos que, ao contrário do inglês, o alemão mostrou uma tendência de alta na média da distância de dependência, que foi consistente entre diferentes analisadores. Em contraste, ambas as línguas exibiram tendências semelhantes em outras métricas sintáticas, como a diminuição no número de bordas cruzadas ao longo do tempo, especialmente em frases mais longas.

Curiosamente, enquanto o desempenho dos analisadores era geralmente bom, eles nem sempre concordavam entre si sobre as tendências, particularmente para métricas específicas. Além disso, o ruído dos dados devido a erros de ortografia e erros de OCR não prejudicou significativamente o desempenho do analisador, confirmando que os analisadores eram adequados para o nosso trabalho.

Comparando Mudanças Linguísticas

Um dos principais temas da nossa análise foi comparar como as estruturas sintáticas do inglês e do alemão mudaram ao longo do tempo. Encontramos semelhanças significativas nas mudanças sintáticas para várias métricas entre as duas línguas, com apenas um número pequeno de casos mostrando tendências opostas. Isso aponta para uma espécie de convergência nas mudanças sintáticas das duas línguas ao longo do período examinado.

Também notamos que o comprimento da frase afetou as mudanças observadas. Por exemplo, frases mais curtas muitas vezes tinham tendências diferentes em comparação com as mais longas, indicando que as mudanças na linguagem podem não ser uniformes em todas as estruturas de frases.

Pré-processamento dos Dados

Para preparar nossos dados para análise, desenvolvemos um processo de quatro etapas para extrair frases dos nossos corpora. Começamos limpando o texto no nível do parágrafo, seguido da segmentação dos parágrafos em frases. Depois, corrigimos os erros do tokenizador de frases e filtramos frases incompletas. Esse processo garantiu que nossa análise fosse baseada em frases bem formadas.

Durante a validação, nossa equipe revisou manualmente amostras dos nossos dados pré-processados para corrigir quaisquer erros. Seguindo nossas diretrizes, buscamos garantir que nosso conjunto de dados final fosse de alta qualidade e adequado para a análise sintática.

Avaliando o Desempenho do Analisador

Para avaliar a confiabilidade dos nossos analisadores, avaliamos seu desempenho usando tanto bancos de dados existentes quanto nossos bancos de dados-alvo especificamente preparados. Analisamos o Unlabeled Attachment Score (UAS) e o Labeled Attachment Score (LAS), que medem quão precisamente os analisadores atribuíram relações entre as palavras.

Nossos resultados mostraram que muitos dos analisadores se saíram bem em ambos os tipos de dados. No entanto, notamos que alguns analisadores tiveram dificuldade com erros como múltiplas raízes ou ciclos nas árvores de dependência, o que poderia levar a imprecisões em nossas medições.

O Impacto do Ruído nos Dados

Geramos dois conjuntos de dados adversariais para testar como erros de ortografia e erros de OCR afetaram nossos analisadores. Ao alterar deliberadamente textos com grafias históricas e substituições aleatórias de caracteres, pudemos ver quanto essas mudanças impactaram o desempenho dos analisadores.

Nossas descobertas indicaram que, enquanto os erros de ortografia histórica tiveram um efeito menor, os erros de OCR tiveram um impacto mais pronunciado na precisão do analisador. A robustez dos analisadores variou, com alguns se saindo melhor do que outros em condições de ruído.

Examinando Relações de Dependência em Detalhe

Indo além das métricas básicas, focamos na estrutura das relações de dependência em si. Examinamos itens como quantas cruzamentos ocorreram na estrutura de dependência de uma frase e quão profunda era a árvore da frase. Isso nos deu insights mais ricos sobre as estruturas sintáticas e como elas evoluíram ao longo do tempo.

Por exemplo, analisamos como diferentes pares de dependência interagiam e a natureza dessas relações. Analisar com que frequência as dependências se cruzavam ajudou a medir a complexidade das estruturas das frases.

Conclusão da Comparação Linguística

Em resumo, este estudo analisou como as estruturas sintáticas em inglês e alemão mudaram nos últimos 160 anos. Aplicando múltiplos analisadores de dependência e considerando várias métricas, destacamos a influência da estrutura e do comprimento na mudança da linguagem.

Nosso estudo revelou que, embora ambas as línguas exibissem padrões semelhantes de mudança, o alemão mostrou uma tendência interessante de alta na média da distância de dependência. As descobertas sugerem que, embora as mudanças linguísticas possam ser graduais e sutis, elas refletem mudanças mais amplas na eficiência da comunicação e na estrutura sintática.

Por fim, reconhecemos algumas limitações em nosso estudo, como o foco apenas em debates parlamentares, que pode não representar totalmente as tendências mais amplas em cada língua. Pesquisas futuras devem investigar outros gêneros textuais e explorar mais a origem dessas mudanças sintáticas, fornecendo uma visão mais abrangente da evolução da linguagem.

Fonte original

Título: Syntactic Language Change in English and German: Metrics, Parsers, and Convergences

Resumo: Many studies have shown that human languages tend to optimize for lower complexity and increased communication efficiency. Syntactic dependency distance, which measures the linear distance between dependent words, is often considered a key indicator of language processing difficulty and working memory load. The current paper looks at diachronic trends in syntactic language change in both English and German, using corpora of parliamentary debates from the last c. 160 years. We base our observations on five dependency parsers, including the widely used Stanford CoreNLP as well as 4 newer alternatives. Our analysis of syntactic language change goes beyond linear dependency distance and explores 15 metrics relevant to dependency distance minimization (DDM) and/or based on tree graph properties, such as the tree height and degree variance. Even though we have evidence that recent parsers trained on modern treebanks are not heavily affected by data 'noise' such as spelling changes and OCR errors in our historic data, we find that results of syntactic language change are sensitive to the parsers involved, which is a caution against using a single parser for evaluating syntactic language change as done in previous work. We also show that syntactic language change over the time period investigated is largely similar between English and German for the different metrics explored: only 4% of cases we examine yield opposite conclusions regarding upwards and downtrends of syntactic metrics across German and English. We also show that changes in syntactic measures seem to be more frequent at the tails of sentence length distributions. To our best knowledge, ours is the most comprehensive analysis of syntactic language change using modern NLP technology in recent corpora of English and German.

Autores: Yanran Chen, Wei Zhao, Anne Breitbarth, Manuel Stoeckel, Alexander Mehler, Steffen Eger

Última atualização: 2024-03-28 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2402.11549

Fonte PDF: https://arxiv.org/pdf/2402.11549

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes