Ligando Processamento de Fala e Processamento de Linguagem Natural
Unindo a linguagem falada e escrita pra melhorar os modelos de comunicação.
― 6 min ler
A linguagem humana é, na maior parte, falada, com a escrita sendo uma invenção posterior. Embora a gente confie muito em texto hoje em dia, o foco do Processamento de Linguagem Natural (PLN) tem sido principalmente na linguagem escrita. Enquanto isso, a Linguagem Falada foi, em grande parte, ignorada e tratada separadamente pela comunidade de processamento de fala, que se concentra em transformar fala em texto. No entanto, novos avanços em aprendizado profundo apresentam uma chance de unir essas duas áreas. Isso pode melhorar nossos sistemas para refletir melhor como os humanos se comunicam, indo além da escrita.
Checando a Realidade
Muita gente aceita que somos naturalmente equipados para a linguagem falada. A escrita é secundária e muito útil, mas vem da fala. Linguistas têm essa visão há muito tempo. Então, é natural se perguntar se chamar o campo de "Processamento de Linguagem Natural" é correto. Estamos realmente avançando em fazer máquinas falarem como humanos, ou só estamos acreditando que sim porque focamos tanto em texto escrito?
PLN é Processamento de Linguagem Escrita
Analisando os artigos publicados em conferências e revistas de PLN, fica claro que há um forte viés em direção à linguagem escrita. Isso é muitas vezes levado como certo. Muitos pesquisadores nem mencionam que estão estudando linguagem escrita, pois é visto como o padrão. Quando eles trabalham com linguagem falada, costumam usar transcrições escritas ao invés de áudio real. Isso é parte por conveniência e parte porque a linguagem escrita é vista como a principal forma de comunicação, fazendo a linguagem falada parecer menos importante.
Até a comunidade de fala se preocupa principalmente com o Reconhecimento Automático de Fala (RAF), que significa transformar linguagem falada em texto escrito. O texto escrito é visto como uma ponte entre o processamento de fala e o PLN, levando a uma desconexão entre os dois campos.
Padrões de Publicação
Olhando os padrões históricos de artigos publicados, mostra que muito poucos focam na linguagem falada. A maioria dos artigos no acervo da ACL não mencionou termos relacionados à fala com frequência, geralmente ficando abaixo de 10%. Houve um pico em 1989, que foi principalmente por causa de um workshop que se concentrou em linguagem falada e escrita, mas desde então, a representação da pesquisa em linguagem falada tem sido mínima.
A Linguagem Falada é Mais Rica
Pesquisas sugerem que a linguagem falada é uma forma mais natural de comunicação. As diferenças entre fala e escrita significam que elas exigem abordagens diferentes. Muitos sistemas de escrita não refletem diretamente como uma língua soa. A escrita perde muitos sinais importantes encontrados na linguagem falada, como emoções, identidade do falante e ritmo. Além disso, a linguagem falada frequentemente inclui dicas da linguagem corporal e expressões faciais, especialmente em línguas de sinais.
A fala natural tem muitos recursos como preenchimentos, pausas e interrupções. Geralmente acontece em uma conversa ao invés de ser um caminho de mão única como a linguagem escrita. Esses recursos tornam o diálogo rico em significado, mas também complexo. Isso cria dificuldades para os métodos atuais, onde a transcrição automática seguida de processamento pode ter dificuldade em capturar a mensagem completa.
Desafios da Fala
Enquanto a auto-supervisão tem funcionado bem para a linguagem escrita, tem enfrentado dificuldades na linguagem falada até recentemente. Isso porque o texto escrito divide claramente as palavras, enquanto a linguagem falada borrifa essas linhas. Pesquisar a linguagem falada apresenta desafios únicos que não se aplicam ao texto escrito.
Processar com sucesso a linguagem falada pode levar a avanços. A natureza rica da linguagem falada oferece mais informações e, se feito corretamente, pode melhorar o desempenho em tarefas de processamento de linguagem. No entanto, desafios como variabilidade e ruído complicam isso.
Unindo Processamento de Fala e PLN
Reconhecer a singularidade da linguagem falada é essencial para o progresso na compreensão e processamento da linguagem humana. Para apreciar totalmente quanto ambas as áreas avançaram, a fala deve ser vista como uma forma genuína de linguagem e não apenas como uma variação difícil.
Tanto a fala quanto o PLN adotaram o aprendizado profundo, criando uma sobreposição maior entre os dois. Sistemas de ponta para linguagem falada e escrita dependem de tecnologias similares. Isso abre a porta para novas oportunidades, como o PLN sem texto, que poderia se beneficiar de uma abordagem combinada.
Modelando a Aquisição de Linguagem
Ao se concentrar mais na linguagem falada, os pesquisadores podem obter percepções sobre como os humanos aprendem a língua. Crianças aprendem a linguagem falada de forma natural e rápida, e modelos que refletem isso serão mais relevantes do que aqueles baseados apenas em dados escritos.
Eficiência de Dados
Está claro que os humanos conseguem aprender a linguagem de forma eficiente e generalizar em diferentes situações. No entanto, avaliar isso através da linguagem escrita pode não fornecer uma imagem verdadeira. As diferenças em como processamos linguagem escrita versus falada devem levar os pesquisadores a considerar o papel da percepção na aprendizagem de línguas.
Línguas Não Escritas
Muitas línguas não têm um sistema de escrita padrão. Isso inclui línguas importantes faladas por milhões, variedades regionais e línguas de sinais. Um foco em processos de linguagem falada e assinada pode apoiar essas comunidades, que muitas vezes são negligenciadas.
Sistemas de Diálogo Falado
A transição da tecnologia de linguagem escrita para falada significa melhorar sistemas que dependem de conversação. Isso poderia aumentar a compreensão e as interações, fazendo com que se sintam mais naturais e semelhantes a humanas.
Dados de Linguagem Não Textuais
Também temos uma quantidade crescente de dados de linguagem não textuais, como podcasts e vídeos. Abordar essas formas de maneira holística, sem convertê-las em texto, pode resultar em melhores resultados.
Se você trabalha em PLN e pensa na linguagem falada como algo separado, é hora de repensar essa posição. A mudança para incluir o processamento de fala é mais viável do que antes. Para quem está na pesquisa de fala, lembre-se de que há muito mais na linguagem do que RAF e texto para fala.
Ambos os campos têm a ganhar ao considerar a totalidade da linguagem humana. Trabalhar juntos não só beneficiaria ambas as comunidades, mas também poderia levar a um verdadeiro progresso na compreensão e simulação de como a linguagem natural funciona.
Conclusão
O foco na linguagem escrita limitou o crescimento da compreensão da comunicação humana real. Ao integrar os campos de processamento de fala e PLN, os pesquisadores podem abrir portas para novos modelos e técnicas que refletem o verdadeiro uso da linguagem no dia a dia. Ir além do texto pode melhorar significativamente as capacidades da tecnologia de linguagem, tornando-a mais eficaz para todos.
Título: Putting Natural in Natural Language Processing
Resumo: Human language is firstly spoken and only secondarily written. Text, however, is a very convenient and efficient representation of language, and modern civilization has made it ubiquitous. Thus the field of NLP has overwhelmingly focused on processing written rather than spoken language. Work on spoken language, on the other hand, has been siloed off within the largely separate speech processing community which has been inordinately preoccupied with transcribing speech into text. Recent advances in deep learning have led to a fortuitous convergence in methods between speech processing and mainstream NLP. Arguably, the time is ripe for a unification of these two fields, and for starting to take spoken language seriously as the primary mode of human communication. Truly natural language processing could lead to better integration with the rest of language science and could lead to systems which are more data-efficient and more human-like, and which can communicate beyond the textual modality.
Autores: Grzegorz Chrupała
Última atualização: 2023-05-23 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.04572
Fonte PDF: https://arxiv.org/pdf/2305.04572
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.