Que signifie "Agrégation d'étiquettes"?
Table des matières
L'agrégation des étiquettes, c'est une méthode pour combiner et améliorer la qualité des étiquettes de données récoltées par plein de gens différents. Quand les gens identifient des plantes et uploadent leurs observations, ils font souvent des erreurs ou ont des niveaux de connaissance différents. Ça peut donner ce qu'on appelle des "étiquettes bruyantes", ce qui veut dire que certaines données ne sont pas très fiables.
Pour créer de meilleures données d'entraînement pour identifier les espèces de plantes, il faut trouver un moyen de se mettre d'accord sur les meilleures étiquettes parmi toutes les observations. Les méthodes traditionnelles gardent soit toutes les données, ce qui peut être désordonné, soit jettent trop d'infos utiles en ne sélectionnant que les étiquettes les plus populaires.
Une approche plus intelligente, c'est de donner à chaque personne un score basé sur combien elles identifié bien les plantes. Ce score prend en compte la précision de leurs identifications précédentes. En procédant ainsi, le système peut garder des observations à faible confiance si elles viennent d'utilisateurs avec un score correct. Comme ça, ça permet d'avoir un mélange d'avis d'experts et d'observations du grand public.
En appliquant cette méthode, on améliore la performance globale des modèles d'IA qui aident à identifier les plantes. La combinaison des avis humains et la sélection soignée des données facilitent la création d'un ensemble de données affiné et fiable pour entraîner les systèmes d'IA.