Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle

Faire avancer l'IA dans la reconnaissance des actions vidéo

La recherche se concentre sur l'amélioration de la capacité de l'IA à reconnaître des actions dans les vidéos.

Anastasia Anichenko, Frank Guerin, Andrew Gilbert

― 7 min lire


Modèles d'IA pour lesModèles d'IA pour lesactions vidéol'IA.reconnaissance des actions vidéo parLa recherche vise à améliorer la
Table des matières

La compréhension vidéo est un domaine clé de la recherche en intelligence artificielle (IA). Un aspect important de ce secteur est la reconnaissance des actions dans les vidéos, surtout pour les activités complexes. Les humains sont naturellement doués pour ça, car ils peuvent identifier les actions en observant comment les objets et les gens interagissent dans le temps et l'espace. Par exemple, si tu vois quelqu'un mettre une tasse dans une boîte, tu peux facilement comprendre ce qui se passe. Dans cet article, on va discuter des efforts pour créer des modèles capables d'interpréter les actions vidéo de manière similaire à ce que font les humains.

Importance des modèles interprétables

Il y a plusieurs raisons de développer des modèles de reconnaissance d'actions vidéo qui soient faciles à comprendre. D'abord, on veut que ces modèles soient plus performants que les méthodes actuelles. Les humains surpassent souvent les ordinateurs en matière de reconnaissance des actions, donc créer un modèle qui imite le comportement humain pourrait aider à combler cet écart.

Ensuite, avoir des modèles interprétables est essentiel dans les situations où les gens attendent de la transparence. Par exemple, si un système de vidéosurveillance signale quelqu'un comme suspect, les gens voudraient savoir comment l'IA a pris cette décision. Assurer que les systèmes d'IA soient justes et non biaisés est crucial.

Enfin, étudier comment les humains reconnaissent les actions peut nous en apprendre davantage sur la vision humaine. En construisant des modèles qui répliquent le comportement visuel humain, on peut découvrir comment améliorer encore nos systèmes.

Comment les humains reconnaissent les actions

La recherche montre que les humains différencient les actions similaires en étudiant les relations entre les parties importantes des objets. Par exemple, la façon dont la main d'une personne se déplace par rapport au corps d'une autre peut aider à distinguer entre se battre et s'enlacer. Bien que les modèles d'apprentissage profond puissent potentiellement apprendre ces relations, ils ont du mal à produire des caractéristiques que les gens peuvent facilement interpréter.

Présentation du modèle Top-Down

Le modèle dont on parle ici s'appelle le Modèle Top-Down (TDM). Ce modèle utilise seulement les formes extérieures des objets principaux et des mains à partir des images vidéo sans se fier à des données visuelles ou de mouvement détaillées. Le modèle fonctionne en appliquant différents modèles spécifiques à chaque action sur la vidéo et en vérifiant lequel correspond le mieux.

Pour analyser la vidéo, elle est d'abord divisée en cinq phases représentant les étapes d'une action :

  1. Phase 1 : Les objets sont présents, mais aucune action n'a encore eu lieu.
  2. Phase 2 : Une main entre dans la scène, tenant possiblement un objet.
  3. Phase 3 : L'action importante se produit, comme poser ou ramasser un objet.
  4. Phase 4 : La main sort de la scène, tenant possiblement quelque chose.
  5. Phase 5 : Les objets restent, montrant le résultat de l'action.

La plupart des vidéos montrent les cinq phases, mais certaines peuvent en sauter. Le modèle apprend à attribuer ces phases à partir d'un petit nombre d'exemples.

Une fois les phases identifiées, le modèle calcule des vecteurs de caractéristiques. Ces vecteurs contiennent des informations sur les relations entre les objets et les mains, comme leurs tailles, mouvements, et relations entre eux. Un classificateur de forêt aléatoire est ensuite entraîné pour chaque catégorie d'action en utilisant ces vecteurs de caractéristiques.

Ajout de la conscience 3D

Pour améliorer encore le modèle, les chercheurs ont cherché à ajouter des informations 3D de deux manières. D'abord, ils ont implémenté un modèle de détection de conteneurs pour mieux reconnaître la forme des objets. En peaufinant un système de détection d'objets établi, ils ont cherché à distinguer les conteneurs des non-containers.

Cependant, les résultats ont montré que cet aspect n'améliorait pas significativement la performance. Le modèle avait du mal à identifier les caractéristiques communes qui définissent ce qui fait d'un objet un conteneur. Il est devenu clair que reconnaître la forme tridimensionnelle des objets quotidiens uniquement à partir d'images bidimensionnelles est une tâche difficile.

La seconde amélioration a impliqué la compréhension de la profondeur. Un modèle d'Estimation de profondeur a été utilisé pour recueillir des informations de profondeur pour chaque objet et la main présente dans la vidéo. C'était important car savoir à quelle distance les objets sont les uns des autres peut aider à reconnaître les actions.

Pour évaluer la performance du modèle, le jeu de données Something-Something V2 a été utilisé pour évaluer des actions spécifiques comme mettre quelque chose dans, sur, ou sous un autre objet. Différents modèles ont été comparés, avec le TDM original servant de référence pour l'évaluation.

Évaluation de la performance

Lors des tests des modèles, il est devenu évident que bien que l'ajout de la conscience de la profondeur améliore la performance, l'aspect de détection de conteneurs ne l'a pas fait. Les résultats globaux ont indiqué que même avec des améliorations, le modèle semblable à l'humain était toujours à la traîne par rapport aux méthodes d'apprentissage profond plus avancées.

Plusieurs limitations ont contribué à cela. Le modèle avait des informations limitées sur les objets dans la vidéo. Par exemple, la main n'était décrite que par une simple boîte 2D, alors que les humains peuvent percevoir le mouvement complet d'une main et sa position dans l'espace. Les humains peuvent évaluer facilement comment une main se déplace et interagit avec les objets, leur permettant de prédire certaines actions efficacement.

De plus, les observateurs humains peuvent traiter une grande quantité d'informations sur le contexte environnant et les objets impliqués, leur permettant de former une compréhension plus riche de ce qui se passe dans une vidéo. En revanche, le modèle est plutôt simpliste en comparaison.

Défis pour atteindre la reconnaissance au niveau humain

Il est important de noter qu'il y a très peu d'efforts existants pour modéliser des caractéristiques humaines de manière détaillée. Bien que certaines recherches aient été effectuées, un écart significatif existe encore entre la façon dont les humains perçoivent les actions et le fonctionnement des systèmes d'IA comme le TDM.

La recherche sur la vision humaine suggère qu'on pourrait utiliser moins de couches de traitement que les systèmes d'apprentissage profond, mais extraire des détails plus complexes de chaque couche. Alors que les systèmes d'apprentissage profond analysent de nombreuses relations et caractéristiques faibles, les humains peuvent s'appuyer sur un ensemble plus restreint de caractéristiques critiques pour classer les actions.

En conséquence, les systèmes d'apprentissage profond ont souvent du mal face à des entrées dégradées, tandis que la vision humaine reste robuste jusqu'à ce qu'une caractéristique critique devienne méconnaissable.

Conclusion

L'essai de créer un modèle d'interprétation vidéo semblable à celui des humains a mis en lumière plusieurs défis dans la reconnaissance des actions. Bien que des avancées aient été faites en intégrant des informations 3D et une compréhension de la profondeur, les limitations de tels modèles restent évidentes.

Alors que la technologie continue d'évoluer, il est essentiel d'aborder ces défis et de s'efforcer de créer des systèmes qui peuvent mieux imiter les capacités humaines en matière de reconnaissance des actions. L'exploration continue dans ce domaine pourrait ouvrir la voie à des systèmes d'IA plus efficaces et interprétables à l'avenir.

Source originale

Titre: Interpretable Action Recognition on Hard to Classify Actions

Résumé: We investigate a human-like interpretable model of video understanding. Humans recognise complex activities in video by recognising critical spatio-temporal relations among explicitly recognised objects and parts, for example, an object entering the aperture of a container. To mimic this we build on a model which uses positions of objects and hands, and their motions, to recognise the activity taking place. To improve this model we focussed on three of the most confused classes (for this model) and identified that the lack of 3D information was the major problem. To address this we extended our basic model by adding 3D awareness in two ways: (1) A state-of-the-art object detection model was fine-tuned to determine the difference between "Container" and "NotContainer" in order to integrate object shape information into the existing object features. (2) A state-of-the-art depth estimation model was used to extract depth values for individual objects and calculate depth relations to expand the existing relations used our interpretable model. These 3D extensions to our basic model were evaluated on a subset of three superficially similar "Putting" actions from the Something-Something-v2 dataset. The results showed that the container detector did not improve performance, but the addition of depth relations made a significant improvement to performance.

Auteurs: Anastasia Anichenko, Frank Guerin, Andrew Gilbert

Dernière mise à jour: 2024-09-19 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.13091

Source PDF: https://arxiv.org/pdf/2409.13091

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires