Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Intelligenza artificiale# Apprendimento automatico

Presentiamo il Dataset di Ricette di Cottura 3A2M

Un dataset completo di due milioni di ricette categorizzate per ricerca culinaria e applicazione.

― 6 leggere min


Lancio del Dataset 3A2MLancio del Dataset 3A2Mricette.sforzi di classificazione delleNuovo dataset di cucina migliora gli
Indice

Le ricette di cucina sono semplici guide che aiutano le persone a preparare cibo. Includono passaggi su come cucinare diversi piatti e quali ingredienti usare. Le ricette sono importanti perché permettono alle persone di creare pasti vari senza dover guardare qualcuno cucinarli. Anche se alcune ricette sono semplici, altre, come Sushi o Baklava, richiedono tecniche specifiche. Una ricetta può far risparmiare tempo, poiché fornisce tutte le informazioni necessarie sulla preparazione e sugli ingredienti. Le persone trovano spesso nuove ricette online, che potrebbero essere completamente sconosciute. È importante notare che non c'è un modo fisso di scrivere una ricetta; possono apparire diverse tra vari libri di cucina o siti web, ma portare comunque allo stesso risultato delizioso.

Sfide nella categorizzazione delle ricette

Una sfida nell'usare i dati delle ricette è la mancanza di esempi etichettati correttamente online. Questo rende difficile ordinare le ricette nei loro corretti tipi di cibo o categorie. Ricevere aiuto da esperti di cucina potrebbe aiutare a risolvere questo problema. Possono offrire conoscenze utili per sistemare correttamente queste ricette.

Il Dataset delle Ricette di Cucina 3A2M

Per affrontare la necessità di un dataset di ricette completo, è stata creata una nuova collezione, conosciuta come il Dataset delle Ricette di Cucina 3A2M. Questo dataset include due milioni di ricette ordinate in nove categorie, come bevande, prodotti da forno e fast food. Le ricette provengono principalmente da un dataset esistente chiamato RecipeNLG. Per costruire questo nuovo dataset, un gruppo di tre esperti di cibo – che hanno un alto livello di fiducia nelle loro conoscenze – ha esaminato e organizzato un campione di 300.000 ricette. Hanno classificato queste ricette su un metodo chiamato Named Entity Recognition, che aiuta a identificare alcuni alimenti e raggrupparli di conseguenza.

Dopo la prima categorizzazione, le ricette rimanenti sono state ordinate utilizzando una tecnica chiamata Active Learning, che combina le intuizioni dei revisori umani con strumenti automatizzati. Questo approccio ha permesso al team di etichettare molte ricette in modo efficiente.

Usi del Dataset delle Ricette

Il dataset 3A2M può supportare vari compiti nel machine learning e nel processamento del linguaggio naturale, come classificare ricette per tipo, generare nuove ricette e applicare abilità di elaborazione del linguaggio. Questo dataset può aiutare ad addestrare modelli che riconoscono categorie alimentari o addirittura creare ricette che si adattano a un tipo specifico di cucina.

Importanza della Categorizzazione delle Ricette

Categorizzare le ricette in diversi gruppi è fondamentale per i consumatori, poiché consente loro di scegliere piatti in base alle proprie preferenze, che siano vegetariani, non vegetariani o cibi specifici come fast food o prodotti da forno. Le ricette possono anche variare per regione, quindi esplorare diversi generi può aiutare gli utenti a fare scelte informate su cosa cucinare o provare.

Popolarità dei Dataset Culinarie

L'interesse recente nell'usare dataset di ricette per il deep learning è cresciuto. Le ricette contengono dati preziosi che possono migliorare i modelli di machine learning. Tuttavia, attualmente ci sono pochi dataset di cucina pubblici disponibili per la ricerca. RecipeNLG offre una soluzione includendo numerose ricette e alimenti, diventando una risorsa chiave per la ricerca culinaria.

Dataset RecipeNLG

RecipeNLG è il più grande dataset disponibile di ricette di cucina, contenente oltre due milioni di ricette. Tuttavia, una limitazione chiave è che le ricette non sono etichettate per genere. Il dataset include un titolo, un elenco di ingredienti e istruzioni di cottura passo dopo passo. Anche se prezioso, il dataset esistente necessitava di organizzazione in base ai tipi di cibo.

Sviluppo del Dataset 3A2M

Il dataset 3A2M si basa sul dataset RecipeNLG aggiungendo etichette di categoria specifiche basate sui contributi di esperti. Il dataset include cinque caratteristiche importanti: il titolo della ricetta, le istruzioni di cottura, i dettagli di riconoscimento delle entità nominate, la classificazione per genere, e i punteggi di fiducia per ogni ricetta. Nella prima fase, gli esperti hanno etichettato 300.000 ricette in nove categorie. Questo processo ha coinvolto l'identificazione di termini alimentari unici e la decisione su come classificarli.

La seconda fase ha usato il machine learning per etichettare le ricette rimanenti con metodi automatizzati. Questo approccio ha permesso di categorizzare un numero maggiore di ricette in modo efficiente.

Processo di Active Learning

L’active learning è un approccio innovativo usato per etichettare il resto delle ricette. In questo caso, sono stati usati diversi classificatori di machine learning per categorizzare ripetutamente le ricette sulla base delle etichette iniziali fornite da esperti umani. Il sistema impara mentre elabora più dati, diventando migliore nel fare previsioni a ogni iterazione.

I classificatori coinvolti in questo studio includevano Logistic Regression, Support Vector Machine, Naive Bayes, Multi-layer Perceptron e Random Forest. La tecnica ha coinvolto il campionamento dal dataset, permettendo a questi classificatori di suggerire categorie e poi confermare queste proposte con revisori umani.

Valutazione della Qualità del Dataset

La valutazione della qualità del dataset era essenziale per garantire che soddisfacesse elevati standard. Sono state utilizzate diverse misure, tra cui l'Inter-Rater Reliability, che valuta quanto accordo c'era tra gli esperti che etichettavano le stesse ricette. Un'altra misura era il punteggio di Fleiss Kappa, che indica quanto in modo coerente più esperti hanno categorizzato le ricette.

Lo studio mirava a garantire che la risposta dall'etichettatura delle ricette fosse accurata. È stato calcolato un punteggio di affidabilità per gli esperti, confermando la loro competenza a categorizzare correttamente le ricette. Sono stati applicati anche punteggi di fiducia per determinare quanto fossero affidabili le etichette, mostrando quanti esperti concordassero su una particolare classificazione.

Direzioni Future

Costruire un dataset del genere richiede attenzione ai dettagli. Ci sono spesso ingredienti simili in diverse categorie, il che aggiunge complessità al compito. Lo studio evidenzia l'importanza di combinare la conoscenza degli esperti con il machine learning per creare un dataset che possa servire a molti scopi.

Miglioramenti futuri potrebbero riguardare il perfezionamento dei sistemi che categorizzano le ricette o l'esplorazione di come le misurazioni degli ingredienti possano essere standardizzate tra le ricette. Questo potrebbe aprire nuove vie per l'analisi nutrizionale o lo sviluppo di ricette. Inoltre, la creazione di applicazioni user-friendly basate su questo dataset può aiutare gli appassionati di cucina a trovare nuove ricette o pianificare pasti in modo più efficiente.

Conclusione

Il Dataset delle Ricette di Cucina 3A2M è un contributo significativo alla comunità di ricerca culinaria. Fornisce un'ampia collezione di ricette organizzate, rendendo più facile per i ricercatori e gli sviluppatori impegnarsi in progetti legati al cibo. Utilizzando l'active learning e il contributo di esperti, il dataset mantiene un alto livello di qualità.

Questo dataset non solo avvantaggia chi studia le ricette, ma potrebbe anche supportare applicazioni in nutrizione, pianificazione dei pasti e generazione di ricette. Con l'interesse per la cucina e la preparazione dei pasti in continuo aumento, avere dataset affidabili come il 3A2M sarà fondamentale per favorire ulteriori esplorazioni nel campo culinario.

Fonte originale

Titolo: Assorted, Archetypal and Annotated Two Million (3A2M) Cooking Recipes Dataset based on Active Learning

Estratto: Cooking recipes allow individuals to exchange culinary ideas and provide food preparation instructions. Due to a lack of adequate labeled data, categorizing raw recipes found online to the appropriate food genres is a challenging task in this domain. Utilizing the knowledge of domain experts to categorize recipes could be a solution. In this study, we present a novel dataset of two million culinary recipes labeled in respective categories leveraging the knowledge of food experts and an active learning technique. To construct the dataset, we collect the recipes from the RecipeNLG dataset. Then, we employ three human experts whose trustworthiness score is higher than 86.667% to categorize 300K recipe by their Named Entity Recognition (NER) and assign it to one of the nine categories: bakery, drinks, non-veg, vegetables, fast food, cereals, meals, sides and fusion. Finally, we categorize the remaining 1900K recipes using Active Learning method with a blend of Query-by-Committee and Human In The Loop (HITL) approaches. There are more than two million recipes in our dataset, each of which is categorized and has a confidence score linked with it. For the 9 genres, the Fleiss Kappa score of this massive dataset is roughly 0.56026. We believe that the research community can use this dataset to perform various machine learning tasks such as recipe genre classification, recipe generation of a specific genre, new recipe creation, etc. The dataset can also be used to train and evaluate the performance of various NLP tasks such as named entity recognition, part-of-speech tagging, semantic role labeling, and so on. The dataset will be available upon publication: https://tinyurl.com/3zu4778y.

Autori: Nazmus Sakib, G. M. Shahariar, Md. Mohsinul Kabir, Md. Kamrul Hasan, Hasan Mahmud

Ultimo aggiornamento: 2023-03-27 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2303.16778

Fonte PDF: https://arxiv.org/pdf/2303.16778

Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili