Learning to Act in Continuous Dec-POMDPs

Jilles S Dibangoye; Olivier Buffet

Communication Dans Un Congrès Année : 2018

Learning to Act in Continuous Dec-POMDPs

(1) , (2)

1
2

Jilles S Dibangoye

Fonction : Auteur
PersonId : 4917
IdHAL : jilles-steeve-dibangoye
ORCID : 0000-0001-8826-4438
IdRef : 144368145

Robots coopératifs et adaptés à la présence humaine en environnements dynamiques

Olivier Buffet

Fonction : Auteur
PersonId : 1407
IdHAL : olivier-buffet
ORCID : 0000-0002-5072-5857

Lifelong Autonomy and interaction skills for Robots in a Sensing ENvironment

Résumé

We address a long-standing open problem of reinforcement learning in continuous decentralized partially observable Markov decision processes. Previous attempts focused on different forms of generalized policy iteration, which at best led to local optima. In this paper, we restrict attention to plans, which are simpler to store and update than policies. We derive, under mild conditions, the first optimal cooperative multi-agent reinforcement learning algorithm. To achieve significant scalability gains, we replace the greedy maximization by mixed-integer linear programming. Experiments show our approach can learn to act optimally in many finite domains from the literature.

Nous nous attaquons au problème d'apprentissage par renforcement dans le cadre des processus décisionnels de Markov partiellement observables et décentralisés. Les tentatives précédentes ont conduit à différentes variantes de la méthode généralisée d'itération de politiques, qui dans le meilleur des cas abouties à des optima locaux. Dans ce papier, nous nous restreindrons au plans, qui sont des formes plus simples que des politiques. Nous dériverons, sous certaines conditions, le premier algorithme optimal d'apprentissage par renforcement coopératif. Afin d'accroître le passage a l'échelle de cet algorithme, nous remplacerons l'opérateur glouton traditionnel par un programme linéaire en nombre entier. Les résultats expérimentaux montrent que notre méthode est capable d'apprendre de façon optimale dans plusieurs bancs de test de la littérature.

Mots clés

Decentralized Markov Decision Partially Observable Processes Reinforcement Learning

Processus décisionnels de Markov partiellement observables et décentralisés Apprentissage par Renforcement

Domaines

Intelligence artificielle [cs.AI]

Fichier principal

JFPDA_2018_paper_5.pdf (349.13 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Olivier Buffet : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-01840602

Soumis le : lundi 16 juillet 2018-15:08:15

Dernière modification le : lundi 11 septembre 2023-17:41:19

Archivage à long terme le : mercredi 17 octobre 2018-14:30:08

Dates et versions

hal-01840602 , version 1 (16-07-2018)

Identifiants

HAL Id : hal-01840602 , version 1

Citer

Jilles S Dibangoye, Olivier Buffet. Learning to Act in Continuous Dec-POMDPs. JFPDA 2018 - Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes, Jul 2018, Nancy, France. pp.1-10. ⟨hal-01840602⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA INSA-LYON UNIV-LORRAINE INRIA2 LORIA LORIA-AIS JFPDA2018 CITI INSA-GROUPE UDL

202 Consultations

265 Téléchargements

Learning to Act in Continuous Dec-POMDPs

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager