Novos Conjuntos de Dados para Reconhecimento de Emoções na Música
Apresentando os conjuntos de dados MERGE pra melhorar a classificação de emoções na música.
― 7 min ler
Índice
Classificar emoções na música virou uma parada bem importante, especialmente com o crescimento dos serviços de streaming que precisam recomendar músicas pros ouvintes. O reconhecimento de emoções na música (MER) foca em identificar a Emoção principal de uma música. Ao longo dos anos, várias maneiras foram sugeridas pra encarar essa tarefa, mas ainda rolam desafios.
Uma das primeiras tentativas de classificar emoções na música começou em 2003. A ideia era determinar uma única emoção dominante em trechos de Áudio. Mas a maioria das abordagens de hoje em dia não conseguiu resultados precisos, principalmente quando tenta classificar emoções em um número limitado de categorias. Muitos estudos mostram que conseguir resultados acima de 70% de precisão tem sido complicado.
Um problema significativo na área é a falta de grandes bancos de dados públicos que tenham tanto áudio quanto letras, que são essenciais pra construir sistemas mais eficazes. Bancos de dados anteriores enfrentaram várias limitações, incluindo a qualidade das tags de emoção, inconsistências nos sistemas de classificação e diretrizes pouco claras pra coleta de dados. Esse artigo propõe três novos bancos de dados que combinam áudio, letras e uma abordagem bimodal pra melhorar o reconhecimento de emoções na música.
Reconhecimento de Emoções na Música: A Importância dos Bancos de Dados
Criar sistemas de MER eficazes depende muito da disponibilidade de bancos de dados de qualidade. Muitos bancos existentes foram pequenos demais ou tinham falta de diversidade nas emoções que representam. Além disso, bancos que incluem tanto áudio quanto letras são particularmente escassos.
Os bancos de dados propostos, chamados MERGE, foram feitos pra lidar com essas limitações. Eles consistem em trechos de áudio, letras e uma combinação de ambos, permitindo métodos diversos de classificação de emoções. Cada banco foi feito com cuidado pra garantir uma ampla variedade de emoções e anotações de alta qualidade.
Taxonomias de Emoções
Pra entender melhor as classificações emocionais na música, existem diferentes modelos. Dois tipos principais são os modelos categóricos, que definem emoções como categorias distintas, e os modelos dimensionais, que posicionam emoções ao longo de um espectro. O modelo circumplexo do Russell é amplamente aceito na comunidade de MER. Ele organiza emoções baseado em duas dimensões: valência (positivo a negativo) e excitação (alta a baixa).
Esse modelo divide as emoções em quatro quadrantes:
- Valência positiva e alta excitação (ex: empolgação)
- Valência negativa e alta excitação (ex: medo)
- Valência negativa e baixa excitação (ex: tristeza)
- Valência positiva e baixa excitação (ex: tranquilidade)
Usar essa estrutura ajuda a categorizar as emoções presentes na música, permitindo uma análise e compreensão melhores.
Coleta e Anotação de Dados
Pra construir os bancos de dados MERGE, clipes de áudio e letras de músicas foram coletados de várias plataformas. Os passos típicos incluíram garantir que os trechos de áudio tivessem qualidade consistente e limpar as letras pra remover conteúdo irrelevante. Coletar e anotar dados é um processo complexo, que geralmente exige muito esforço manual.
Pra anotação, diferentes métodos podem ser usados. Alguns envolvem trabalho manual onde várias pessoas anotam cada música, enquanto outros usam tags sociais de plataformas de música. No entanto, a anotação manual pode ser demorada e cara, por isso uma abordagem semi-automática foi adotada pros novos bancos de dados. Esse método acelera a coleta de dados enquanto busca por anotações de alta qualidade.
As músicas foram analisadas pra combiná-las com categorias emocionais específicas com base em estruturas estabelecidas. Após checagens preliminares, as letras correspondentes foram recuperadas, e as músicas que não se encaixavam nas descrições emocionais foram separadas.
Os Bancos de Dados MERGE
Os bancos de dados MERGE consistem em três tipos:
- MERGE Audio: Contém apenas trechos de áudio.
- MERGE Lyrics: Contém apenas letras.
- MERGE Bimodal: Combina áudio e letras.
Cada tipo tem uma versão completa e uma versão equilibrada. A versão completa inclui todas as músicas disponíveis, enquanto a versão equilibrada garante representação igual das várias categorias emocionais.
No total, os bancos contêm milhares de amostras. O banco de dados de áudio tem milhares de clipes, enquanto o banco de dados de letras é um pouco menor, já que nem todos os clipes de áudio têm letras correspondentes disponíveis. O banco bimodal é menor ainda, pois inclui apenas músicas onde áudio e letras combinam em termos de emoção.
Ao tornar esses bancos de dados públicos, a ideia é apoiar pesquisa e desenvolvimento em reconhecimento de emoções na música e áreas relacionadas.
Validação Experimental
Pra testar a eficácia dos bancos de dados, vários experimentos foram realizados usando técnicas de ponta. Esses incluíram métodos tradicionais de machine learning e novas metodologias de deep learning. O objetivo era avaliar o quão bem os bancos de dados se saem na classificação de emoções a partir da música.
Os resultados mostraram que usar a abordagem bimodal superou significativamente o uso apenas de áudio ou letras. Isso indica o valor agregado de ter tanto áudio quanto letras analisados juntos pra uma previsão melhor das emoções.
Desafios no Reconhecimento de Emoções na Música
Apesar do progresso na criação desses bancos de dados, desafios ainda existem no campo do reconhecimento de emoções na música. Um grande desafio é a necessidade de bancos de dados mais extensos e diversos pra melhorar o treinamento e a precisão nos modelos de deep learning. Outro desafio é a subjetividade da emoção na música, já que ouvintes diferentes podem ter interpretações variadas da mesma música.
Além disso, métodos existentes podem ter dificuldade em distinguir entre emoções que são similares por natureza, especialmente nos quadrantes de baixa excitação. Essas nuances tornam difícil para os sistemas alcançarem alta precisão de forma consistente, apontando pra necessidade de pesquisa e inovação contínuas.
Direções Futuras
A criação dos bancos de dados MERGE é só o começo. A esperança é que os pesquisadores construam em cima dessa base pra explorar e refinar ainda mais métodos no reconhecimento de emoções na música. Potenciais caminhos de pesquisa futuros poderiam envolver o desenvolvimento de abordagens híbridas que combinem características tradicionais com métodos de deep learning, além de explorar novas características que se relacionem à estrutura e expressividade da música.
Com esses bancos de dados, também há a chance de aprimorar aplicações além dos sistemas de recomendação de música. Por exemplo, pesquisadores poderiam investigar como o reconhecimento de emoções poderia ajudar em contextos terapêuticos, ajudando pessoas a se conectarem com a música em um nível emocional mais profundo.
Conclusão
Os bancos de dados MERGE representam um recurso valioso pra pesquisadores que trabalham com reconhecimento de emoções na música. Ao fornecer bancos de dados maiores e mais diversos que combinam áudio e letras, esse trabalho visa avançar significativamente o campo.
Os resultados indicam oportunidades promissoras pra uma classificação emocional mais precisa na música, com métodos tradicionais e avançados mostrando forte potencial. À medida que os bancos de dados forem utilizados em pesquisas contínuas, o futuro do MER parece brilhante, com possibilidades de modelos melhorados e novas aplicações em várias áreas.
Título: MERGE -- A Bimodal Dataset for Static Music Emotion Recognition
Resumo: The Music Emotion Recognition (MER) field has seen steady developments in recent years, with contributions from feature engineering, machine learning, and deep learning. The landscape has also shifted from audio-centric systems to bimodal ensembles that combine audio and lyrics. However, a severe lack of public and sizeable bimodal databases has hampered the development and improvement of bimodal audio-lyrics systems. This article proposes three new audio, lyrics, and bimodal MER research datasets, collectively called MERGE, created using a semi-automatic approach. To comprehensively assess the proposed datasets and establish a baseline for benchmarking, we conducted several experiments for each modality, using feature engineering, machine learning, and deep learning methodologies. In addition, we propose and validate fixed train-validate-test splits. The obtained results confirm the viability of the proposed datasets, achieving the best overall result of 79.21% F1-score for bimodal classification using a deep neural network.
Autores: Pedro Lima Louro, Hugo Redinho, Ricardo Santos, Ricardo Malheiro, Renato Panda, Rui Pedro Paiva
Última atualização: 2024-07-08 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.06060
Fonte PDF: https://arxiv.org/pdf/2407.06060
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.allmusic.com/
- https://www.chartlyrics.com/
- https://www.lyricsmania.com/maxi_lyrics.html
- https://www.musixmatch.com/
- https://smallbusiness.chron.com/copyright-laws-30-seconds-music-61149.html
- https://mirg.city.ac.uk/codeapps/the-magnatagatune-dataset
- https://github.com/keunwoochoi/magnatagatune-list
- https://millionsongdataset.com/
- https://musicbrainz.org/
- https://www.last.fm/
- https://www.7digital.com/
- https://mir.dei.uc.pt
- https://labrosa.ee.columbia.edu/millionsong/sites/default/files/AdditionalFiles/TheBeatlesHDF5.tar.gz
- https://tivo.stoplight.io/docs/music-metadata-api
- https://scikit-learn.org/
- https://www.rdocumentation.org/packages/CORElearn/
- https://keras.io/api/keras_tuner/
- https://github.com/parthenocissus/synesketch_v2.1/
- https://conceptnet.io/
- https://www.liwc.app/
- https://inquirer.sites.fas.harvard.edu/
- https://huggingface.co/sentence-transformers/all-roberta-large-v1