Simple Science

La science de pointe expliquée simplement

# Informatique# Intelligence artificielle

Apprentissage sûr dans les systèmes de renforcement

Une approche innovante pour la collecte efficace de retours d'information dans l'apprentissage par renforcement pour la sécurité.

― 12 min lire


Apprentissage parApprentissage parrenforcement pour lasécuritéun comportement d'IA plus sûr.Collecte de feedback rationalisée pour
Table des matières

L'Apprentissage par renforcement (RL) est une méthode utilisée dans l'apprentissage machine où un agent apprend à se comporter dans un environnement en prenant des actions et en recevant des retours d'information sur ces actions. Un des principaux axes de recherche en RL est la sécurité, surtout dans des situations où des erreurs peuvent être nuisibles, comme pour les voitures autonomes. Une approche courante en RL sécurisé est d'ajouter une Fonction de coût. Cette fonction de coût est distincte de la fonction de récompense, qui guide l'agent vers des comportements souhaitables.

Cependant, la création et le test d'une fonction de coût peuvent être très complexes et coûteux. Par exemple, en pensant aux voitures autonomes, il est difficile de créer une fonction de coût qui couvre efficacement tous les comportements dangereux, car elle doit tenir compte de divers facteurs, tels que d'autres voitures et des piétons. Pour faciliter cela, des retours d'information peuvent être collectés pendant l'entraînement, soit d'une machine, soit d'un observateur humain. Les méthodes traditionnelles de collecte de feedback ne se sont pas bien adaptées à des environnements plus complexes et dépendent souvent de retours d'information provenant de chaque état individuel, ce qui n'est pas pratique.

Nous proposons une nouvelle approche capable de gérer des situations plus complexes et de recueillir des retours non seulement à partir d'états individuels, mais également de Trajectoires, ou de séquences d'actions prises par l'agent. Cela réduit l'effort nécessaire de l'évaluateur. Cependant, déterminer quelles actions ou quels états individuels créditer pour un résultat particulier est un défi lorsque l'on utilise des retours d'informations provenant de trajectoires entières plutôt que d'états individuels.

Pour résoudre cela, nous avons créé une méthode qui simplifie le processus en le transformant en une tâche de classification plus gérable. De plus, nous abordons un autre défi en déterminant quelles trajectoires valent la peine d'être montrées à l'évaluateur et combien de ces trajectoires sont nécessaires pour un apprentissage efficace. Notre méthode interroge sélectivement l'évaluateur uniquement lorsque l'agent rencontre de nouvelles situations, ce qui rend la collecte de retours plus efficace.

Dans nos expériences, nous démontrons l'efficacité de notre méthode en utilisant divers benchmarks dans des environnements sûrs et des scénarios de conduite autonome. Dans l'ensemble, nous constatons que notre approche peut presque aussi bien performer que lorsque la fonction de coût est connue, en utilisant uniquement des retours d'information provenant de trajectoires entières, ce qui souligne à la fois son efficacité et son efficience.

Contexte

L'apprentissage par renforcement est particulièrement utile pour apprendre de manière sécurisée car il crée des Politiques pour des agents pouvant agir dans des environnements incertains et potentiellement dangereux. Le défi réside dans la conception de récompenses et de coûts qui reflètent réellement la sécurité. Dans des tâches liées à la sécurité, une fonction de coût peut être ajoutée pour aider à éloigner l'agent des actions dangereuses.

Par exemple, dans un système de conduite autonome, la fonction de récompense pourrait être basée sur la rapidité avec laquelle l'agent atteint sa destination. Cependant, créer une fonction de coût pour pénaliser des actions dangereuses telles que l'excès de vitesse ou des changements de voie agressifs est compliqué. La tâche nécessite une compréhension approfondie de nombreuses variables, y compris le comportement d'autres voitures et d'obstacles. Une voie plus simple pourrait être d'apprendre cette fonction de coût par le biais de retours d'information.

Les retours peuvent provenir soit d'un évaluateur humain soit d'un système automatisé qui évalue les actions de l'agent. L'objectif global est de collecter ce feedback sans submerger l'évaluateur avec trop de demandes, rendant le processus plus efficace.

Aperçu de la méthode

Nous proposons une méthode appelée Apprentissage par Renforcement à partir de Retours de Sécurité (RLSF), conçue pour recueillir efficacement des retours d'information sur la sécurité des actions de l'agent. Notre approche présente plusieurs caractéristiques clés :

  1. Retours sur des horizons plus longs : Au lieu de se concentrer uniquement sur des paires état-action individuelles, nous collectons des retours sur des séquences plus longues (trajectoires). Les retours sont catégorisés comme sûrs ou non sûrs en fonction de la présence d'états non sûrs dans chaque segment de la trajectoire.

  2. Échantillonnage basé sur la nouveauté : Nous sélectionnons quelles trajectoires montrer à l'évaluateur en fonction du fait qu'elles présentent des situations nouvelles. Cela signifie que nous ne demandons des retours que sur de nouvelles expériences, ce qui aide à réduire la quantité totale de retours nécessaires.

  3. Valeurs de coût binaires : Notre approche simplifie le processus de feedback en utilisant des valeurs de coût binaires, où les actions ou états sont classés comme sûrs (0) ou non sûrs (1). Cette méthode facilite la fourniture de retours d'information par des évaluateurs humains.

  4. Amélioration efficace de la politique : Une fois les retours collectés, nous les utilisons pour déduire la fonction de coût et améliorer la politique de l'agent, la rendant plus sûre et plus efficace.

Processus de collecte de feedback

La méthode RLSF commence par la collecte de retours pendant le processus d'entraînement. L'évaluateur reçoit des trajectoires entières, qui sont ensuite divisées en segments pour lesquels des retours sont recueillis. Cela signifie que les évaluateurs n'ont pas à inspecter chaque état individuel, mais peuvent se concentrer sur des segments d'actions, rendant le processus moins chronophage et plus efficace.

Après la collecte des retours, les segments sont étiquetés comme sûrs ou non sûrs. Un segment est considéré comme non sûr s'il contient des états non sûrs. Cette classification claire permet un retour d'information cohérent de l'évaluateur et réduit l'ambiguïté.

Inférence de la fonction de coût

Une fois les retours obtenus, ils sont utilisés pour estimer la fonction de coût sous-jacente en fonction des réponses de l'évaluateur. Les retours indiquent si certains segments des trajectoires sont sûrs ou non. Le défi réside dans l'estimation précise de la fonction de coût sans risquer de faire de mauvaises suppositions dues à des retours incomplets ou bruyants.

Pour gérer cela, nous traitons efficacement les retours pour transformer la tâche en un problème de classification binaire supervisée. Au lieu d'évaluer l'ensemble du segment, nous analysons les états individuels au sein des segments. En utilisant un échantillonnage aléatoire et en minimisant la perte de l'entropie croisée binaire, nous pouvons classer les états de manière précise, même face à des étiquettes bruyantes.

Cette transformation nous permet de transformer un problème d'apprentissage potentiellement complexe en une tâche de classification plus simple, facilitant ainsi l'inférence de la fonction de coût.

Échantillonnage efficace

Une partie importante de notre approche consiste à réduire le nombre de requêtes faites à l'évaluateur. Nous le faisons par le biais d'une approche d'échantillonnage basée sur la nouveauté. Nous évaluons si une trajectoire contient des états nouveaux par rapport à ceux déjà vus. Si la trajectoire inclut de nouveaux états, elle est montrée à l'évaluateur pour des retours.

Cette stratégie réduit le temps total que l’évaluateur doit consacrer à fournir des retours, car nous nous concentrons uniquement sur les situations susceptibles de fournir des informations précieuses sur le comportement de l'agent. À mesure que l'agent apprend et explore son environnement, le nombre de trajectoires nouvelles diminue généralement, ce qui réduit naturellement la charge de feedback sur l'évaluateur au fil du temps.

Amélioration de la politique avec la fonction de coût inférée

Après la collecte et l'inférence de la fonction de coût, l'étape suivante consiste à utiliser ces informations pour améliorer la politique de l'agent. La politique informe l'agent sur la manière d'agir dans l'environnement pour maximiser les récompenses tout en minimisant les coûts. La fonction de coût inférée agit comme un guide, orientant l'agent loin des comportements dangereux tout en lui permettant de rechercher des récompenses.

Nous démontrons notre méthode en utilisant un algorithme d'apprentissage par renforcement populaire, connu sous le nom d'Optimisation de Politique Proximale (PPO), combiné avec une technique garantissant la sécurité par le biais de la fonction de coût. Cette combinaison permet à l'agent d'apprendre des comportements sûrs et efficaces dans divers environnements.

Évaluation expérimentale

Pour valider l'efficacité de notre méthode proposée, nous avons mené plusieurs expériences dans divers environnements qui testent la sécurité dans différentes situations. Celles-ci incluent des environnements d'une suite de benchmarks bien connue pour l'apprentissage par renforcement sécurisé, comme Safety Gymnasium.

Dans ces expériences, nous avons mesuré à la fois les performances de l'agent (en termes de récompenses gagnées) et sa sécurité (en termes de violations de coûts). Nous avons comparé les performances de RLSF à plusieurs méthodes de référence, y compris celles utilisant des stratégies de collecte de retours traditionnelles et celles tentant d'apprendre à partir de démonstrations d'experts.

Nos résultats indiquent que RLSF surpasse les méthodes de référence, atteignant systématiquement des récompenses élevées tout en minimisant les violations de coûts. Dans de nombreux environnements, il approche les performances des agents ayant accès à une fonction de coût connue, soulignant l'efficacité de notre approche.

Scénarios de conduite

Une des principales applications de notre méthode est l'apprentissage de politiques sûres pour les voitures autonomes. Nous avons mené des expériences dans un environnement de conduite simulé, où l'agent devait naviguer tout en évitant les collisions et en respectant des contraintes de sécurité.

Dans ces scénarios de conduite, l'agent recevait des récompenses pour avoir navigué avec succès et incurrait des coûts pour des actions non sécurisées, telles que sortir de la route ou s'approcher trop près d'autres voitures. Nos résultats indiquent que la méthode RLSF enseigne efficacement à l'agent à prendre des décisions plus sûres dans des situations de conduite complexes, avec des performances comparables aux méthodes traditionnelles utilisant une fonction de coût connue.

Transférabilité des coûts

Une autre contribution significative de notre travail est la capacité de transférer la fonction de coût inférée entre différents agents. Nous avons démontré qu'un agent formé sur une certaine tâche pouvait utiliser la fonction de coût apprise d'un autre agent pour s'entraîner depuis le début, sans nécessiter de retours supplémentaires.

Cela montre la flexibilité et l'utilité de la fonction de coût inférée, soulignant son application plus large au-delà d'un seul agent ou tâche. La fonction de coût transférée a permis au nouvel agent de performer de manière comparable à ceux formés avec des coûts connus, démontrant le potentiel d'efficacité et de scalabilité dans l'apprentissage par renforcement sécurisé.

Comparaison avec d'autres méthodes

Tout au long de nos expériences, nous avons comparé notre stratégie d'échantillonnage basée sur la nouveauté avec diverses autres méthodes utilisées dans la littérature. Celles-ci comprenaient des méthodes reposant sur un échantillonnage aléatoire ou des calendriers fixes pour la collecte de retours.

Les résultats ont illustré que notre approche basée sur la nouveauté a constamment surpassé ces alternatives, non seulement en termes d'efficacité, mais aussi en qualité des retours collectés. En nous concentrant sur des situations nouvelles, notre méthode a veillé à ce que les évaluateurs soient engagés de manière significative, entraînant de meilleurs résultats d'apprentissage pour l'agent.

Limitations et travaux futurs

Bien que notre méthode ait montré des résultats prometteurs, il existe des limitations à prendre en compte. Dans certains environnements, la collecte de retours au niveau de l'état est toujours nécessaire, ce qui peut entraîner des inefficacités si les évaluateurs humains deviennent submergés. Les recherches futures pourraient se concentrer sur l'exploration de moyens pour réduire davantage cette charge ou sur le développement de proxies pour le retour d'information qui minimisent le besoin de contribution humaine.

De plus, bien que notre approche mette l'accent sur la sécurité, elle soulève également des questions sur la responsabilité et la confiance dans les systèmes autonomes. À mesure que ces systèmes s'intègrent de plus en plus dans la vie quotidienne, il est essentiel d'aborder directement ces préoccupations éthiques.

Conclusion

En résumé, nous avons présenté une approche complète de l'apprentissage par renforcement qui met l'accent sur la sécurité grâce à une collecte de retours efficace et à une inférence de coûts. En utilisant des retours de trajectoires plus longues et une stratégie d'échantillonnage basée sur la nouveauté, notre méthode réduit efficacement la charge pesant sur les évaluateurs humains tout en maintenant des résultats d'apprentissage robustes.

Nos résultats positifs à travers divers environnements, y compris des scénarios de conduite autonome, soulignent le potentiel de cette approche pour améliorer la sécurité dans des applications complexes de l'apprentissage par renforcement. Alors que nous continuons à développer et à affiner ces méthodes, il existe de grandes promesses dans la mise en œuvre de l'apprentissage par renforcement sécurisé dans des contextes réels.

Source originale

Titre: Safety through feedback in Constrained RL

Résumé: In safety-critical RL settings, the inclusion of an additional cost function is often favoured over the arduous task of modifying the reward function to ensure the agent's safe behaviour. However, designing or evaluating such a cost function can be prohibitively expensive. For instance, in the domain of self-driving, designing a cost function that encompasses all unsafe behaviours (e.g. aggressive lane changes) is inherently complex. In such scenarios, the cost function can be learned from feedback collected offline in between training rounds. This feedback can be system generated or elicited from a human observing the training process. Previous approaches have not been able to scale to complex environments and are constrained to receiving feedback at the state level which can be expensive to collect. To this end, we introduce an approach that scales to more complex domains and extends to beyond state-level feedback, thus, reducing the burden on the evaluator. Inferring the cost function in such settings poses challenges, particularly in assigning credit to individual states based on trajectory-level feedback. To address this, we propose a surrogate objective that transforms the problem into a state-level supervised classification task with noisy labels, which can be solved efficiently. Additionally, it is often infeasible to collect feedback on every trajectory generated by the agent, hence, two fundamental questions arise: (1) Which trajectories should be presented to the human? and (2) How many trajectories are necessary for effective learning? To address these questions, we introduce \textit{novelty-based sampling} that selectively involves the evaluator only when the the agent encounters a \textit{novel} trajectory. We showcase the efficiency of our method through experimentation on several benchmark Safety Gymnasium environments and realistic self-driving scenarios.

Auteurs: Shashank Reddy Chirra, Pradeep Varakantham, Praveen Paruchuri

Dernière mise à jour: 2024-11-05 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2406.19626

Source PDF: https://arxiv.org/pdf/2406.19626

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires