Markovian decision process (MDP)
Un Markovian decision process (ou processus de décision de Markov ou MDP) est un processus de contrôle stochastique temporel discret.
Il fournit un cadre mathématique pour modéliser la prise de décision dans des situations où les résultats sont en partie aléatoires et en partie sous le contrôle d'un décideur. Les processus de décision de Markov sont utiles pour l’étude des problèmes d'optimisation résolus par programmation dynamique et l’apprentissage de renforcement. Les processus de décision de Markov étaient connus au moins dès les années 1950 ; un ouvrage de base sur les processus de décision de Markov est issu de l’ouvrage de Ronald Howard de 1960, Dynamic Programming and Markov Process. Ils sont utilisés dans de nombreuses disciplines, y compris la robotique, le contrôle automatique, l’économie et l’industrie. L’expression « processus de décision de Markov » vient du mathématicien russe Andrey Markov.
A chaque pas de temps, le processus est dans un état de {\ displaystyle de s }, et le décideur peut choisir toute action un {\ displaystyle a } qui est disponible dans l’état de {\ displaystyle de s }. Le procédé répond à l'étape suivante dans le temps en se déplaçant dans un nouveau de manière aléatoire tate d ’{\ displaystyle s’}, et de donner au décideur une récompense correspondante R a (s, s ') {\ displaystyle R_ {a} (s, s ') }.
La probabilité que t - il du processus passe dans son nouvel état d ’{\ displaystyle d } est en influencées par l'action choisie. Plus précisément, il est donné par la fonction de transition d'état P a (s, s ′) {\ displaystyle P_ {a} (s, s ') }.
Ainsi, l'état suivant s ’{\ displaystyle s’} dépend de l'état actuel s {\ displaystyle s } et de l’action du décideur a {\ displaystyle a }. Mais étant donné s {\ displaystyle s } et un {\ displaystyle a }, il est conditionnellement indépendant de tous les états et actions précédents; autrement dit, les transitions d'état d'un MDP satisfont à la propriété de Markov.
Les processus de décision de Markov sont une extension de chaînes de Markov ; la différence réside dans l'ajout d'actions (permettant de choisir) et de récompenses (donnant de la motivation). Inversement, si une seule action existe pour chaque état (par exemple, "attendre") et que toutes les récompenses sont identiques (par exemple, "zéro"), un processus de décision de Markov se réduit à une chaîne de Markov.