Apprentissage par renforcement sans apprentissage par différence temporelle

Introduction à une nouvelle approche de l'apprentissage par renforcement

Dans cet article, je vais vous présenter un algorithme d'apprentissage par renforcement (RL) basé sur un paradigme alternatif : le diviser pour régner. Contrairement aux méthodes traditionnelles, cet algorithme ne repose pas sur l'apprentissage par différence temporelle (TD), qui présente des défis en matière d'évolutivité, et est bien adapté aux tâches de longue durée.

Contexte : Apprentissage par renforcement hors politique

Avant d'entrer dans le vif du sujet, clarifions ce que signifie l'apprentissage par renforcement hors politique. Il existe deux grandes catégories d'algorithmes en RL : l'apprentissage par renforcement sur politique et hors politique. L'apprentissage sur politique nécessite d'utiliser uniquement des données récentes collectées par la politique actuelle, ce qui implique de devoir abandonner les anciennes données à chaque mise à jour de la politique. Des algorithmes comme PPO et GRPO appartiennent à cette catégorie. En revanche, l'apprentissage hors politique permet d'utiliser n'importe quel type de données, y compris des expériences passées, des démonstrations humaines et des données provenant d'Internet. Cela rend l'apprentissage hors politique plus général et flexible, bien qu'il soit également plus complexe. Q-learning est un algorithme bien connu dans ce domaine.

Dans des domaines où la collecte de données est coûteuse, comme la robotique ou les systèmes de dialogue, l'utilisation de l'apprentissage hors politique devient souvent indispensable, ce qui en fait un problème crucial à résoudre. En 2025, nous avons développé des solutions satisfaisantes pour l'évolutivité de l'apprentissage sur politique (comme PPO et ses variantes), mais nous n'avons pas encore trouvé d'algorithme d'apprentissage hors politique « évolutif » adapté aux tâches complexes et de longue durée.

Paradigmes d'apprentissage de valeur : Différence Temporelle et Monte Carlo

En apprentissage hors politique, nous formons généralement une fonction de valeur en utilisant l'apprentissage par différence temporelle, en appliquant la règle de mise à jour de Bellman. Le défi majeur est que l'erreur dans la valeur suivante se propage à la valeur actuelle via le processus de bootstrap, ce qui entraîne une accumulation d'erreurs sur l'ensemble de l'horizon. Cette dynamique rend l'apprentissage TD difficile à appliquer à des tâches de longue durée.

Pour atténuer ce problème, des chercheurs ont mélangé l'apprentissage TD avec les retours de Monte Carlo. Par exemple, l'apprentissage TD-$n$ utilise les retours réels de Monte Carlo pour les premiers $n$ pas, puis applique la valeur bootstrappée pour le reste. Bien que cela réduise le nombre de recursions de Bellman, cela ne résout pas fondamentalement le problème d'accumulation d'erreurs. De plus, un $n$ trop grand peut conduire à une variance élevée et à une sous-optimalité.

Une troisième approche : Diviser pour régner

Je soutiens qu'une troisième approche, le diviser pour régner, pourrait offrir une solution idéale pour l'apprentissage hors politique, permettant de s'adapter à des tâches d'une durée arbitraire. Cette méthode réduit le nombre de recursions de Bellman de manière logarithmique. L'idée clé est de diviser une trajectoire en deux segments de longueur égale et de combiner leurs valeurs pour mettre à jour la valeur de la trajectoire complète. Cela permet de diminuer le nombre de recursions logarithmiquement, sans nécessiter de choix d'hyperparamètre comme $n$, tout en évitant les problèmes de variance ou de sous-optimalité rencontrés avec l'apprentissage TD-$n$.

Un algorithme pratique

Récemment, avec Aditya, nous avons fait des progrès significatifs pour concrétiser cette idée. Nous avons réussi à adapter l'apprentissage par valeur en utilisant le paradigme diviser pour régner à des tâches complexes, notamment dans le domaine de l'apprentissage par renforcement conditionné par un objectif. Ce type d'apprentissage vise à créer une politique capable d'atteindre n'importe quel état à partir de n'importe quel autre état, ce qui offre une structure naturelle pour appliquer cette méthode.

Dans un environnement déterministe, la distance de chemin le plus court entre deux états $s$ et $g$ doit respecter l'inégalité triangulaire. Nous pouvons transposer cette inégalité à une règle de mise à jour de Bellman. Cela signifie que nous pouvons mettre à jour la valeur de $V(s, g)$ en utilisant deux valeurs plus petites, $V(s, w)$ et $V(w, g)$, où $w$ est le point intermédiaire optimal. Ce processus constitue exactement la règle de mise à jour que nous recherchions.

Conclusion

Bien que cette méthode présente des promesses intéressantes, un défi majeur demeure : comment sélectionner l'objectif intermédiaire optimal $w$. Cette question reste ouverte et nécessite davantage de recherche pour être pleinement résolue. Cependant, le paradigme diviser pour régner pourrait bien transformer l'apprentissage par renforcement en offrant une solution robuste aux problèmes d'évolutivité et de complexité.

Pour toute question ou pour discuter davantage de ces concepts, n'hésitez pas à Contactez-moi.