Apprentissage par Renforcement
Apprentissage par Renforcement (Reinforcement learning -RL-) est un domaine de l’apprentissage machine qui s’intéresse à la façon dont les agents logiciels devraient prendre des mesures dans un environnement de manière à maximiser une certaine notion de récompense cumulative.
L’apprentissage par renforcement est l’un des trois paradigmes fondamentaux de l’apprentissage automatique, aux côtés de l’apprentissage supervisé et de l’apprentissage non supervisé.
Il diffère de l'apprentissage supervisé en ce qu'il n'est pas nécessaire de présenter les paires étiquetées entrée / sortie et que les actions sous-optimales ne doivent pas être explicitement corrigées. Au lieu de cela, l'objectif est de trouver un équilibre entre l'exploration (d'un territoire inexploré) et l'exploitation (du savoir actuel).
L'environnement est généralement formulé comme un processus de décision de Markov (MDP), car de nombreux algorithmes d'apprentissage par renforcement pour ce contexte utilisent des techniques de programmation dynamiques. La principale différence entre les méthodes classiques de programmation dynamique et les algorithmes d’apprentissage par renforcement réside dans le fait que ces derniers ne supposent pas la connaissance d’un modèle mathématique exact du PDM et s’adressent à de grands PDM où les méthodes exactes deviennent infaisables.