Simple Science

La science de pointe expliquée simplement

# Informatique# Robotique# Apprentissage automatique

Stratégies d'évasion-poursuite avec plusieurs drones

Les drones améliorent le travail d'équipe pour attraper des drones fuyards grâce à l'apprentissage AI.

Jiayu Chen, Chao Yu, Guosheng Li, Wenhao Tang, Xinyi Yang, Botian Xu, Huazhong Yang, Yu Wang

― 7 min lire


Tactiques de drone pourTactiques de drone pourla capturepoursuite-évasion.performance des drones enDes méthodes innovantes améliorent la
Table des matières

Ces dernières années, l'utilisation de drones, ou UAV (véhicules aériens sans pilote), s'est répandue dans divers domaines comme la défense, la recherche et le sauvetage, et les activités récréatives. Un domaine de recherche fascinant est la poursuite-évasion multi-UAV, où un groupe de drones collabore pour attraper un drone évadé. Cette étude explore comment les drones peuvent manœuvrer efficacement dans des environnements complexes, capturant l'évadé tout en évitant les obstacles.

Le défi

Les scénarios de poursuite-évasion impliquent des équipes de poursuivants essayant d'attraper des évadés qui utilisent des stratégies astucieuses pour rester à l'écart. Le défi augmente lorsque ces scénarios se déroulent dans des environnements inconnus ou imprévisibles. Les méthodes traditionnelles, comme la théorie des jeux et les techniques de contrôle, peinent souvent dans ces situations. Elles nécessitent une bonne connaissance de l'environnement et des conditions fixes, ce qui n'est pas toujours disponible. Les situations réelles impliquent souvent des conditions changeantes et des interactions difficiles à prédire.

Pour relever ce défi, les chercheurs explorent le potentiel de l'intelligence artificielle (IA) et plus particulièrement de l'Apprentissage par renforcement (RL). Le RL permet aux drones d'apprendre des stratégies par essai et erreur, en interagissant avec des environnements simulés pour améliorer leur performance au fil du temps.

Approches actuelles et limitations

Bien que l'apprentissage par renforcement ait montré des promesses, de nombreuses méthodes existantes sont limitées à des simulations simples. Ces méthodes considèrent souvent les drones comme des masses ponctuelles basiques avec des propriétés physiques minimales et développent des stratégies élémentaires qui ne tiennent pas compte des complexités du monde réel. De plus, les stratégies sont souvent adaptées à des scénarios fixes, ce qui rend leur adaptation à de nouveaux environnements difficile.

Des efforts récents ont tenté d'utiliser des approches RL dans des tâches de poursuite-évasion réelles, mais celles-ci ont généralement été limitées à des environnements bidimensionnels. Cela signifie qu'elles ne traitent pas pleinement les défis posés par des espaces tridimensionnels où opèrent les drones.

Méthode proposée

L'objectif principal de cette recherche est de développer une politique d'apprentissage par renforcement pour la poursuite-évasion multi-UAV qui fonctionne bien dans des environnements inconnus. Cela se fait à travers diverses techniques innovantes.

Coordination et contrôle

L'étude souligne la nécessité pour les poursuivants de coordonner efficacement leurs actions. Ils doivent travailler ensemble pour capturer l'évadé tout en naviguant parmi les obstacles et en suivant les règles de vol physiques. Cela nécessite une planification soigneuse et un contrôle de leurs mouvements.

Répondre aux défis d'exploration

La nature tridimensionnelle du vol UAV introduit un vaste espace d'exploration. Cela signifie que les drones doivent recueillir beaucoup de données pour apprendre des stratégies viables. Une partie clé de la méthode proposée est d'améliorer l'efficacité de l'exploration, permettant aux drones d'apprendre mieux et plus vite.

Généralisation des politiques

Un autre défi est de créer des stratégies qui se généralisent bien à de nouveaux environnements. Beaucoup de stratégies RL fonctionnent bien dans des tâches spécifiques mais échouent face à des conditions différentes. L'objectif est de créer une politique adaptable qui fonctionne dans divers scénarios.

Application dans le monde réel

Une contribution significative de cette recherche est la transition de la simulation aux applications réelles. Un problème courant dans les études RL est l'écart sim-to-real, où les stratégies qui fonctionnent dans les simulations ne donnent pas de bons résultats dans la pratique. L'objectif ici est de s'assurer que les politiques apprises peuvent être appliquées à des UAV réels opérant dans des environnements réels.

Techniques clés utilisées

Réseau amélioré de prédiction d'évadé

Pour améliorer les stratégies de capture coopérative, l'étude utilise un réseau amélioré de prédiction d'évadé. Ce réseau prédit le mouvement futur de l'évadé en se basant sur son comportement passé. En combinant cette capacité prédictive avec les observations actuelles des drones, le système peut prendre de meilleures décisions sur la manière de capturer l'évadé même lorsque la vue est obstruée.

Générateur d'environnement adaptatif

Un générateur d'environnement adaptatif est introduit pour créer des scénarios d'entraînement diversifiés. Ce générateur permet aux drones de s'entraîner dans diverses conditions, ajustant automatiquement la difficulté des tâches pour favoriser un meilleur apprentissage. Cette approche aide à développer des politiques qui peuvent se généraliser efficacement à travers différents environnements.

Raffinement de récompense en deux étapes

Pour s'assurer que les politiques sont réalisables pour un déploiement dans le monde réel, un processus de raffinement de récompense en deux étapes est utilisé. La première étape consiste à atteindre la capture par des récompenses initiales. Dans la seconde étape, l'accent est mis sur la fluidité des actions, garantissant que les drones peuvent opérer de manière efficace et efficiente.

Évaluation des performances

La méthode proposée a été testée dans une série de simulations à travers divers scénarios. Les résultats montrent une amélioration significative par rapport aux méthodes de base traditionnelles. La nouvelle approche a constamment atteint un taux de capture élevé, démontrant la capacité à se généraliser même dans des environnements non vus. Par exemple, dans des scénarios remplis d'obstacles, l'efficacité des stratégies coopératives des drones était évidente.

Défis des scénarios

Quatre scénarios ont été conçus pour évaluer les performances des drones : le scénario des murs, qui créait des espaces étroits ; le scénario du passage étroit, impliquant des passages serrés ; des scénarios aléatoires avec des placements d'obstacles aléatoires ; et des scénarios de passage, testant l'adaptabilité.

Dans le scénario des murs, les drones devaient adopter un positionnement stratégique pour piéger l'évadé. Dans le scénario du passage étroit, ils ont appris à utiliser des raccourcis pour intercepter l'évadé efficacement. Dans des scénarios aléatoires, les drones ont utilisé le chemin prédit de l'évadé pour le localiser malgré les obstacles. Le scénario de passage a montré comment les drones pouvaient se coordonner en groupes pour bloquer toutes les voies d'évasion potentielles de l'évadé.

Analyse comportementale

Les résultats des tests ont révélé plusieurs comportements intéressants exhibés par les drones. Par exemple, dans le scénario des murs, les drones ont réussi à entourer l'évadé, alors que les méthodes traditionnelles peinaient avec des chemins directs vers la cible. Dans le passage étroit, les drones semblaient se coordonner pour couper efficacement la route de l’évadé.

Tests dans le monde réel

Des tests dans le monde réel ont été effectués en utilisant de véritables quadricoptères, validant les stratégies développées dans les simulations. Les drones étaient équipés de systèmes de capture de mouvement pour suivre leurs positions avec précision. Les méthodes ont montré une efficacité similaire dans des contextes réels, prouvant la praticité des politiques développées.

Conclusion

L'étude représente une avancée significative dans le domaine de la poursuite-évasion multi-UAV en appliquant des techniques d'apprentissage par renforcement pour apprendre et exécuter des stratégies efficaces dans des environnements inconnus. L'introduction d'un générateur d'environnement adaptatif et d'un réseau de prédiction d'évadé améliore la capacité des drones à coopérer et à capturer une cible evasive. Les méthodes ont montré de bonnes performances dans des tests simulés et réels, ouvrant la voie à de futurs travaux sur des tâches plus complexes, y compris des scénarios de poursuite-évasion basés sur la vision.

Source originale

Titre: Multi-UAV Pursuit-Evasion with Online Planning in Unknown Environments by Deep Reinforcement Learning

Résumé: Multi-UAV pursuit-evasion, where pursuers aim to capture evaders, poses a key challenge for UAV swarm intelligence. Multi-agent reinforcement learning (MARL) has demonstrated potential in modeling cooperative behaviors, but most RL-based approaches remain constrained to simplified simulations with limited dynamics or fixed scenarios. Previous attempts to deploy RL policy to real-world pursuit-evasion are largely restricted to two-dimensional scenarios, such as ground vehicles or UAVs at fixed altitudes. In this paper, we address multi-UAV pursuit-evasion by considering UAV dynamics and physical constraints. We introduce an evader prediction-enhanced network to tackle partial observability in cooperative strategy learning. Additionally, we propose an adaptive environment generator within MARL training, enabling higher exploration efficiency and better policy generalization across diverse scenarios. Simulations show our method significantly outperforms all baselines in challenging scenarios, generalizing to unseen scenarios with a 100% capture rate. Finally, we derive a feasible policy via a two-stage reward refinement and deploy the policy on real quadrotors in a zero-shot manner. To our knowledge, this is the first work to derive and deploy an RL-based policy using collective thrust and body rates control commands for multi-UAV pursuit-evasion in unknown environments. The open-source code and videos are available at https://sites.google.com/view/pursuit-evasion-rl.

Auteurs: Jiayu Chen, Chao Yu, Guosheng Li, Wenhao Tang, Xinyi Yang, Botian Xu, Huazhong Yang, Yu Wang

Dernière mise à jour: 2024-09-25 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.15866

Source PDF: https://arxiv.org/pdf/2409.15866

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires

Vision par ordinateur et reconnaissance des formesProgrès dans la reconnaissance faciale grâce à l'analyse de la symétrie

De nouvelles méthodes se concentrent sur la symétrie du visage pour améliorer la précision de la reconnaissance.

Pritesh Prakash, Koteswar Rao Jerripothula, Ashish Jacob Sam

― 7 min lire