Processus de décision de Markov
Un processus de décision de Markov partiellement observable (POMDP) est une généralisation d'un processus de décision de Markov (MDP).
Un POMDP modélise un processus de décision d'agent dans lequel il est supposé que la dynamique du système est déterminée par un PDM, mais que l'âge ne peut pas observer directement l'état sous-jacent.
Au lieu de cela, il doit maintenir une distribution de probabilité sur l'ensemble des états possibles, sur la base d'un ensemble d'observations et de probabilités d'observation, et du MDP sous-jacent.
Le cadre POMDP est assez général pour modéliser une variété de processus de décision séquentiels dans le monde réel. Les applications comprennent les problèmes de navigation des robots, la maintenance des machines et la planification sous incertitude en général. Le cadre général des processus de décision de Markov contenant des informations incomplètes a été décrit par Karl Johan Åström en 1965 dans le cas d'un espace d'états discret. Il a ensuite été étudié dans la communauté de la recherche opérationnelle où l'acronyme POMDP avait été inventé. Il a ensuite été adapté pour les problèmes d'intelligence artificielle et de planification automatisée par Leslie P. Kaelbling et Mic hael L. Littman.
Une solution exacte à un POMDP produit l'action optimale pour chaque croyance possible dans les états du monde. L’action optimale maximise (ou minimise) la récompense (ou le coût) attendu de l'agent sur un horizon éventuellement infini. La séquence d'actions optimales est connue sous le nom de stratégie optimale de l'agent pour interagir avec son environnement.