Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Diretrizes para Anotação da Língua Bávara

Regras completas pra anotar o corpus da língua bávara.

― 6 min ler


Regras de Anotação daRegras de Anotação daBavieralíngua bavariana.Diretrizes essenciais para o corpus da
Índice

Esse documento inclui regras para anotar um corpus da língua bávara. O corpus usa tags de parte do discurso (POS) e mostra como as palavras dependem umas das outras nas frases. O objetivo é ajudar quem trabalha com esse corpus a anotar e entender a língua de forma eficaz.

Estrutura do Documento

As diretrizes estão organizadas de um jeito que segue o processo de preparar e anotar frases. Primeiro, a gente olha como preparar e dividir frases em tokens. Depois revisamos as tags de POS e dependências gerais. Em seguida, passamos pelas regras que se aplicam ao alemão e, por fim, focamos nas regras específicas do bávaro.

Observações Gerais

As regras nesse documento são flexíveis. Se você encontrar uma situação onde aplicar uma regra não faz sentido, pode pedir feedback. Além disso, se você estiver em dúvida sobre como lidar com uma certa palavra ou frase, é legal levantar isso para discussão.

Notação Usada Neste Documento

  • Tags POS: Essas estão em letras minúsculas. Palavras marcadas estão em itálico.
  • Relações de Dependência: Essas são escritas em uma fonte especial com a palavra principal sublinhada e palavras dependentes em negrito.

Pré-processamento e Tokenização

Ao preparar os dados, não mantemos nenhum formato original como negrito ou itálico. Se o formato original for vital, por favor, discuta isso.

Ao escolher frases, é melhor selecionar parágrafos inteiros e dividi-los em frases. Listas em artigos geralmente são ignoradas, a menos que a lista inclua frases completas.

Não corrigimos erros de digitação ou pontuação. Dividir frases em partes individuais é geralmente simples.

Para os metadados no nível da frase, incluímos o seguinte:

  • sentid: Um identificador único que indica de onde a frase vem.
  • text: A própria frase.
  • texten: O texto original se a frase foi traduzida.
  • genre: O tipo de texto, tipo artigos da Wikipedia ou ficção.
  • dialectgroup: A área bávara específica de onde a frase vem.
  • location: A cidade ou área mencionada na frase.
  • source: A URL onde a frase é encontrada.
  • author: O nome de usuário do autor de uma frase do Tatoeba.

Diretrizes de Tokenização

Ao descobrir como dividir frases em tokens, geralmente nos baseamos em espaços e pontuação.

Casos Especiais na Tokenização

  • Não separe nomes compostos como "Silben-Trennung."
  • Mantenha palavras abreviadas juntas, como "Sonn-noun undcconj Feiertagenoun."
  • Separe números de unidades e intervalos, como "8num kgnoun" e "400num -adp 500num."
  • Remova colchetes externos em transcrições fonéticas, mas mantenha outras pontuações.

Tokens de Múltiplas Palavras

Preposição + Determinante

Geralmente, separamos preposições fundidas e determinantes em partes, tratando-as como tokens separados. Por exemplo:

  • "zum" se torna "zu" + "m."

O mesmo se aplica a determinantes ou preposições abreviadas em frases nominais:

  • "z'Minga" se divide em "z'" + "Mingapropn."

Verbo/Complementador + Pronomes

Nos casos em que um verbo é seguido imediatamente por um ou mais pronomes, os dividimos usando o recurso SpaceAfter=No. Por exemplo:

  • "gibts" se divide em "gibtverb" e "spron."

Outros Tokens Fundidos

Para outros casos, geralmente usamos SpaceAfter=No, mas sinta-se à vontade para discutir se tiver dúvidas.

Tags de Parte do Discurso

As diretrizes detalhadas para marcar partes do discurso geralmente estão vinculadas.

Dependências Sintáticas

As diretrizes para relações de dependência também estão disponíveis.

Casos Difíceis em Sintaxe

Relações Clausais

Ao decidir se uma cláusula modifica um substantivo ou outra cláusula, pergunte-se se eliminar a cláusula ainda deixa uma frase correta.

Adverbial ou Não

Considere se remover a cláusula deixa uma frase coerente.

Ccomp ou Não

Se a cláusula dependente tem seu próprio sujeito, é uma cláusula de complemento, mas se ela compartilha o sujeito com a cláusula principal, não é.

Decisões Gerais de Anotação

Essas regras se aplicam a todos os dialetos relacionados, incluindo o alemão padrão.

Lidando com Abreviações

Separar abreviações quando faz sentido. Por exemplo, “z.B.” se torna “zu” + “B.”

Nomes e Títulos

Para nomes pessoais, conectamos partes através de uma relação plana.

Adjetivos como Advérbios

Marcamos adjetivos usados adverbialmente como adjetivos, usando a relação apropriada.

Decisões de Anotação em Bávaro

Embora o bávaro seja semelhante ao alemão padrão, há alguns aspectos únicos a considerar.

Frases Nominais

No bávaro, um determinante pode aparecer antes de um nome pessoal, e sobrenomes muitas vezes precedem nomes próprios.

Posse em Bávaro

O bávaro frequentemente usa formas possessivas analíticas em vez do caso genitivo, realizando possessividade através de outras construções.

Adjetivos Postergados

Frases que rearranjam a ordem dos adjetivos para ênfase são reconhecidas no bávaro.

Verbos Auxiliares

Focamos também em verbos auxiliares específicos para construções bávaras.

Construções Infinitivas

Frases infinitivas podem usar o marcador "z(u)" em várias formas.

Pronomes e Flexão

Pronomes omitidos, especialmente na presença de verbos auxiliares, são notados na fala bávara.

Concordância Negativa em Bávaro

Diferente do alemão, o bávaro permite que vários marcadores negativos apareçam em frases.

Cláusulas Relativas

O bávaro frequentemente usa marcadores relativos como "wo" que não se flexionam.

Expressões Temporais

Para frases relacionadas ao tempo, mantemos regras específicas de anotação.

Conclusão

Esse guia serve como uma visão geral abrangente de como anotar frases no corpus bávaro. Cada seção apresenta regras específicas para lidar com vários aspectos da língua, garantindo consistência e clareza no processo de anotação.

Seguindo essas diretrizes, os anotadores contribuirão para um corpus bem estruturado que pode ser usado para futuras análises linguísticas e compreensão do dialeto bávaro.

Ligações de referência

Mais de autores

Artigos semelhantes