Apresentando o Conjunto de Receitas de Cozinha 3A2M
Um conjunto de dados completo com dois milhões de receitas categorizadas para pesquisa e aplicação culinária.
― 7 min ler
Índice
- Desafios na Categorização de Receitas
- O Conjunto de Dados de Receitas 3A2M
- Usos do Conjunto de Dados de Receitas
- Importância da Categorização de Receitas
- Popularidade de Conjuntos de Dados Culinários
- Conjunto de Dados RecipeNLG
- Desenvolvimento do Conjunto de Dados 3A2M
- Processo de Aprendizado Ativo
- Avaliando a Qualidade do Conjunto de Dados
- Direções Futuras
- Conclusão
- Fonte original
- Ligações de referência
Receitas de culinária são guias simples que ajudam a galera a preparar comida. Elas incluem etapas de como cozinhar vários pratos e quais ingredientes usar. Receitas são importantes porque permitem que as pessoas façam refeições diferentes sem precisar assistir alguém cozinhando. Embora algumas receitas sejam diretas, outras, como Sushi ou Baklava, exigem técnicas específicas. Uma receita pode economizar tempo, pois fornece todas as informações necessárias sobre a preparação e os ingredientes. A galera costuma encontrar novas receitas online, que podem ser totalmente desconhecidas para eles. Importante mencionar que não tem um jeito fixo de escrever uma receita; elas podem parecer diferentes em vários livros de cozinha ou sites, mas ainda assim chegam ao mesmo resultado delicioso.
Desafios na Categorização de Receitas
Um desafio em usar dados de receitas é a falta de exemplos bem rotulados online. Isso dificulta a tarefa de classificar as receitas em seus tipos de comida ou categorias corretas. Pedir ajuda de especialistas em culinária pode ajudar a resolver esse problema. Eles podem oferecer conhecimentos para ajudar a organizar essas receitas da forma certa.
O Conjunto de Dados de Receitas 3A2M
Para atender à necessidade de um conjunto de dados de receitas abrangente, foi criada uma nova coleção, conhecida como Conjunto de Dados de Receitas 3A2M. Esse conjunto inclui dois milhões de receitas organizadas em nove categorias, como bebidas, itens de padaria e fast food. As receitas vêm principalmente de um conjunto de dados existente chamado RecipeNLG. Para montar esse novo conjunto, um grupo de três especialistas em comida – que têm um alto nível de confiança em seu conhecimento – revisou e organizou uma amostra de 300.000 receitas. Eles categorizaram essas receitas com base em um método chamado Reconhecimento de Entidade Nomeada, que ajuda a identificar certos itens alimentícios e agrupá-los de acordo.
Depois da categorização inicial, as receitas restantes foram organizadas usando uma técnica chamada Aprendizado Ativo, que combina os insights de revisores humanos com ferramentas automatizadas. Essa abordagem possibilitou que a equipe rotulasse muitas receitas de forma eficiente.
Usos do Conjunto de Dados de Receitas
O conjunto de dados 3A2M pode apoiar várias tarefas em aprendizado de máquina e processamento de linguagem natural, como classificar receitas por tipo, gerar novas receitas e aplicar habilidades de processamento de linguagem. Esse conjunto pode ajudar a treinar modelos que reconhecem categorias de alimentos ou até criar receitas que se encaixem em um tipo específico de cozinha.
Importância da Categorização de Receitas
Categorizar receitas em diferentes grupos é essencial para os consumidores, pois permite que escolham pratos de acordo com suas preferências, seja vegetariano, não vegetariano ou alimentos específicos como fast food ou itens de padaria. As receitas também podem variar por região, então explorar diferentes gêneros pode ajudar os usuários a fazer escolhas informadas sobre o que cozinhar ou experimentar.
Popularidade de Conjuntos de Dados Culinários
O interesse recente em usar conjuntos de dados de receitas para aprendizado profundo cresceu. Receitas contêm dados valiosos que podem melhorar modelos de aprendizado de máquina. No entanto, atualmente existem poucos conjuntos de dados de culinária públicos disponíveis para pesquisa. RecipeNLG oferece uma solução ao incluir inúmeras receitas e itens alimentares, tornando-se um recurso importante para pesquisa culinária.
Conjunto de Dados RecipeNLG
RecipeNLG é o maior conjunto de dados disponível de receitas de culinária, contendo mais de dois milhões de receitas. No entanto, uma limitação importante é que as receitas não são rotuladas por gênero. O conjunto inclui um título, uma lista de ingredientes e instruções de cozimento passo a passo. Embora sejam valiosas, as receitas existentes precisavam de organização com base em tipos de alimentos.
Desenvolvimento do Conjunto de Dados 3A2M
O conjunto de dados 3A2M se baseia no conjunto de dados RecipeNLG ao adicionar rótulos de categorias específicas com base na entrada de especialistas. O conjunto inclui cinco recursos importantes: o título da receita, as direções de cozimento, detalhes de reconhecimento de entidade nomeada, classificação de gênero e pontuações de confiança para cada receita. Na primeira fase, especialistas rotularam 300.000 receitas em nove categorias. Esse processo envolveu identificar termos únicos de alimentos e decidir como classificá-los.
A segunda fase utilizou aprendizado de máquina para rotular as receitas restantes com métodos automatizados. Essa abordagem permitiu classificar um número maior de receitas de forma eficiente.
Processo de Aprendizado Ativo
Aprendizado ativo é uma abordagem inovadora usada para rotular o restante das receitas. Neste caso, vários classificadores de aprendizado de máquina foram utilizados para categorizar repetidamente as receitas com base em rótulos iniciais fornecidos por especialistas humanos. O sistema aprende à medida que processa mais dados, ficando melhor em fazer previsões a cada iteração.
Os classificadores envolvidos neste estudo incluíram Regressão Logística, Máquina de Vetores de Suporte, Naive Bayes, Perceptron Multicamadas e Floresta Aleatória. A técnica envolveu pegar amostras do conjunto de dados, permitindo que esses classificadores sugerissem categorias e, em seguida, confirmassem essas sugestões com revisores humanos.
Avaliando a Qualidade do Conjunto de Dados
A avaliação da qualidade do conjunto de dados foi essencial para garantir que ele atendesse a altos padrões. Várias medidas foram usadas, incluindo Confiabilidade Interavaliador, que avalia o quanto houve concordância entre especialistas rotulando as mesmas receitas. Outra medida foi o Fleiss Kappa score, que indica o quão consistentemente múltiplos especialistas categorizaram as receitas.
O estudo tinha como objetivo garantir que a resposta da rotulagem de receitas fosse precisa. Uma pontuação de confiabilidade foi calculada para especialistas, confirmando sua competência em categorizar receitas corretamente. Pontuações de confiança também foram aplicadas para determinar quão confiáveis eram os rótulos, mostrando quantos especialistas concordaram em uma classificação específica.
Direções Futuras
Construir um conjunto de dados como esse requer atenção aos detalhes. Frequentemente, há ingredientes semelhantes em diferentes categorias, o que adiciona complexidade à tarefa. O estudo destaca a importância de combinar conhecimento especializado com aprendizado de máquina para criar um conjunto de dados que pode servir a muitos propósitos.
Melhorias futuras podem envolver o refinamento dos sistemas que categorizam receitas ou explorar como as medidas de ingredientes podem ser padronizadas entre as receitas. Isso poderia abrir novas avenidas para análise nutricional ou desenvolvimento de receitas. Além disso, criar aplicativos fáceis de usar com base nesse conjunto de dados pode ajudar os entusiastas da culinária a encontrar novas receitas ou planejar refeições de forma mais eficiente.
Conclusão
O Conjunto de Dados de Receitas 3A2M é uma contribuição significativa para a comunidade de pesquisa culinária. Ele fornece uma extensa coleção de receitas organizadas, facilitando para pesquisadores e desenvolvedores se envolverem em projetos relacionados à comida. Ao utilizar aprendizado ativo e input de especialistas, o conjunto mantém um alto nível de qualidade.
Esse conjunto não só beneficia quem estuda receitas, mas também pode apoiar aplicações em nutrição, planejamento de refeições e geração de receitas. Com o interesse em cozinhar e preparar refeições crescendo, ter conjuntos de dados confiáveis como o 3A2M será vital para promover mais exploração na área culinária.
Título: Assorted, Archetypal and Annotated Two Million (3A2M) Cooking Recipes Dataset based on Active Learning
Resumo: Cooking recipes allow individuals to exchange culinary ideas and provide food preparation instructions. Due to a lack of adequate labeled data, categorizing raw recipes found online to the appropriate food genres is a challenging task in this domain. Utilizing the knowledge of domain experts to categorize recipes could be a solution. In this study, we present a novel dataset of two million culinary recipes labeled in respective categories leveraging the knowledge of food experts and an active learning technique. To construct the dataset, we collect the recipes from the RecipeNLG dataset. Then, we employ three human experts whose trustworthiness score is higher than 86.667% to categorize 300K recipe by their Named Entity Recognition (NER) and assign it to one of the nine categories: bakery, drinks, non-veg, vegetables, fast food, cereals, meals, sides and fusion. Finally, we categorize the remaining 1900K recipes using Active Learning method with a blend of Query-by-Committee and Human In The Loop (HITL) approaches. There are more than two million recipes in our dataset, each of which is categorized and has a confidence score linked with it. For the 9 genres, the Fleiss Kappa score of this massive dataset is roughly 0.56026. We believe that the research community can use this dataset to perform various machine learning tasks such as recipe genre classification, recipe generation of a specific genre, new recipe creation, etc. The dataset can also be used to train and evaluate the performance of various NLP tasks such as named entity recognition, part-of-speech tagging, semantic role labeling, and so on. The dataset will be available upon publication: https://tinyurl.com/3zu4778y.
Autores: Nazmus Sakib, G. M. Shahariar, Md. Mohsinul Kabir, Md. Kamrul Hasan, Hasan Mahmud
Última atualização: 2023-03-27 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2303.16778
Fonte PDF: https://arxiv.org/pdf/2303.16778
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.