Diversidade Linguística na Aotearoa: Online vs. Vida Real
Um estudo comparando o uso da língua nas redes sociais e nas comunidades.
― 6 min ler
Índice
Este estudo analisa como diferentes espaços online, especialmente as redes sociais, se comparam a locais do mundo real em termos de Diversidade Linguística na Aotearoa Nova Zelândia. Ele examina o uso da linguagem em plataformas como o Twitter e contrasta isso com informações coletadas pelo Censo da Nova Zelândia, focando em áreas geográficas menores.
Importância dos Dados Linguísticos
Os linguistas costumam ter dificuldade em conseguir dados suficientes para ver como a linguagem muda nas comunidades. Dependendo de um número pequeno de pessoas, a visão pode acabar distorcida em relação a um grupo maior. As plataformas online oferecem uma maneira de coletar grandes quantidades de dados linguísticos rapidamente. Isso pode ajudar os pesquisadores a entender melhor o uso da linguagem do que os métodos tradicionais, que geralmente envolvem menos amostras.
O Twitter é destacado como um recurso valioso para esse tipo de dado. No início de 2022, um grande número de pessoas na Nova Zelândia estava online, tornando as redes sociais uma fonte rica de informações para estudar a linguagem. Porém, é importante notar que os dados das redes sociais podem não representar a população inteira de maneira precisa. Por exemplo, o Twitter tem menos usuários em comparação a outras plataformas como o Facebook, o que pode impactar o tipo de linguagens usadas e a diversidade vista nos dados.
Perguntas do Estudo
A pesquisa busca responder duas perguntas principais. Primeiro, quais semelhanças existem entre o uso da linguagem na vida real e nas redes sociais em áreas específicas? Segundo, o que podemos aprender ao analisar a linguagem usada nas redes sociais nessas áreas?
Fontes de Dados
Para coletar dados, o estudo usou duas fontes principais:
- Dados do Twitter: Isso inclui tweets de usuários localizados na Nova Zelândia. Cada tweet está ligado a uma localização específica, permitindo que os pesquisadores analisem o uso da linguagem por região.
- Dados do Censo: O Censo da Nova Zelândia coleta informações sobre as línguas faladas pelas pessoas no país. Essa contagem oficial fornece uma visão geral das habilidades linguísticas da população.
Usar o Twitter permite que os pesquisadores vejam muitos dados de linguagem ao longo do tempo e em diferentes áreas. Apenas tweets da Nova Zelândia foram usados na análise, garantindo que o estudo focasse no uso relevante da linguagem.
Analisando a Variedade Linguística
Para comparar as línguas usadas nos tweets com as relatadas no Censo, os pesquisadores observaram as línguas que as pessoas falavam bem o suficiente para ter conversas do dia a dia. Notavelmente, o Censo não rastreia habilidades de escrita, então as perguntas feitas podem dar uma imagem diferente do que é encontrado no Twitter.
O Censo reportou as línguas faladas, enquanto os dados do Twitter mostraram várias línguas usadas nos tweets. A pesquisa focou na diversidade linguística nas amostras de linguagem coletadas por ambos os meios.
Método de Análise
Para avaliar a diversidade linguística, o estudo usou um método que calcula quantas línguas são usadas e como elas estão distribuídas pela população. Essa medição ajuda a ver se uma certa área é mais diversificada linguisticamente ou se tem uma língua dominante.
Os números iniciais do Censo mostraram que, ao longo do tempo, houve uma pequena, mas notável, tendência indicando um aumento da diversidade linguística. Os dados do Twitter do mesmo ano sugeriram uma história semelhante, mas levemente diferente. Os métodos usados para analisar os dados do Twitter envolveram classificar as línguas e garantir que as informações refletissem o real uso da linguagem na Nova Zelândia.
Resultados e Observações
As descobertas indicam que existem diferenças significativas na diversidade linguística reportada pelo Censo em comparação com a observada no Twitter. Em geral, o inglês tende a dominar em ambas as fontes, mas as línguas específicas e suas classificações diferem. Algumas línguas, como certos dialetos chineses, não estavam representadas nos dados do Twitter, provavelmente porque o Twitter não é amplamente usado em regiões onde essas línguas são comuns.
A análise regional mostrou variabilidade no uso da linguagem. Algumas áreas, como Auckland, se revelaram mais diversificadas linguisticamente do que outras, com Wellington em segundo lugar, e Canterbury tendo a menor diversidade entre as três.
Ao olhar para tendências específicas ao longo do tempo, como durante a pandemia de COVID-19, os pesquisadores notaram aumentos inesperados em certas línguas sendo usadas no Twitter. Por exemplo, línguas como espanhol e português tiveram um aumento durante certos lockdowns, indicando que eventos sociais podem impactar o uso da linguagem nas redes sociais.
Discussão dos Resultados
Os resultados indicam que as redes sociais online podem mostrar efetivamente mudanças na diversidade linguística ao longo do tempo e do espaço. No entanto, é crucial abordar essas descobertas com cautela. A forma como a linguagem é usada na escrita geralmente é diferente de como é falada. Essa discrepância pode fazer com que as línguas apareçam mais ou menos frequentemente nos dados coletados do Twitter em comparação com o Censo.
Em termos dos dados do Censo, a alta porcentagem de falantes de inglês sugere que muitos na Nova Zelândia são bilíngues, o que pode levar a uma mistura de línguas que pode não ser refletida de forma precisa nos dados das redes sociais.
A distribuição geográfica dos dados também levanta questões. Para algumas regiões, tweets estavam faltando ou combinados com áreas próximas, o que pode distorcer a análise. Mesmo assim, o Twitter oferece insights oportunos que refletem melhor as atitudes e eventos sociais atuais do que o Censo, que só captura uma visão geral de um determinado momento.
Implicações para Pesquisas Futuras
Para ter uma visão mais clara do uso da linguagem na Aotearoa Nova Zelândia, mais pesquisas são necessárias para entender como a linguagem online se correlaciona com o uso da linguagem no mundo real. Saber qual é a real população interagindo online ajudará a esclarecer as conclusões tiradas dos dados das redes sociais.
O estudo atual sugere que, embora os dados do Censo ofereçam insights valiosos a longo prazo, as redes sociais podem fornecer uma visão dinâmica de como a linguagem está evoluindo. Acompanhar essas mudanças em tempo real pode ajudar os pesquisadores a entender a variação da linguagem e seus fatores de forma mais eficaz.
Analisando dados de ambas as fontes, estudos futuros podem potencialmente oferecer uma visão mais abrangente da diversidade linguística, especialmente em um cenário social em constante mudança.
Título: Comparing Measures of Linguistic Diversity Across Social Media Language Data and Census Data at Subnational Geographic Areas
Resumo: This paper describes a preliminary study on the comparative linguistic ecology of online spaces (i.e., social media language data) and real-world spaces in Aotearoa New Zealand (i.e., subnational administrative areas). We compare measures of linguistic diversity between these different spaces and discuss how social media users align with real-world populations. The results from the current study suggests that there is potential to use online social media language data to observe spatial and temporal changes in linguistic diversity at subnational geographic areas; however, further work is required to understand how well social media represents real-world behaviour.
Autores: Sidney G. -J. Wong, Jonathan Dunn, Benjamin Adams
Última atualização: 2023-08-20 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.10452
Fonte PDF: https://arxiv.org/pdf/2308.10452
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.