Toyota Research Institute (TRI) réalise des progrès significatifs dans le domaine de l’apprentissage des robots, en présentant un système capable d’enseigner à un robot de nouvelles compétences du jour au lendemain. Cette percée est un développement important car les méthodes d’apprentissage machine traditionnelles nécessitent des millions de cas d’entraînement, ce qui n’est pas réalisable dans les scénarios d’apprentissage de robots physiques.

Le système développé par TRI combine des techniques d’apprentissage de robots traditionnelles avec des modèles de diffusion, similaires à ceux utilisés dans les modèles de l’intelligence artificielle générative. Grâce à cette méthode, TRI a réussi à former des robots à plus de 60 compétences, et le nombre continue d’augmenter. Cependant, les modèles existants ont encore des limites. Alors que de grands modèles de langage ont été utilisés pour conférer une intelligence cognitive aux robots, leur permettant de comprendre des commandes de haut niveau, ils rencontrent des difficultés avec des tâches spécifiques telles que brancher un périphérique USB ou ramasser un mouchoir.

TRI vise à combler cet écart en développant un système capable de programmer des compétences qui peuvent fonctionner dans des environnements divers et non structurés. Cela est crucial car les robots rencontrent souvent des difficultés dans des environnements moins structurés. Par exemple, naviguer dans un entrepôt est plus facile que naviguer sur une route ou dans une maison. TRI se concentre sur la création de robots capables de s’adapter aux changements de leur environnement, tels que le déplacement de meubles ou la gestion de désordres inattendus.

Le processus d’enseignement pour les robots commence par la téléopération, où un opérateur humain contrôle à distance le robot à travers des démonstrations. Le système collecte des données à partir de différentes sources, y compris la vue et les retours de force, pour obtenir une compréhension globale de la tâche. Les retours de force sont particulièrement importants pour les tâches qui exigent une manipulation correcte, comme tenir un outil correctement.

Après l’entraînement initial, les réseaux neuronaux du système continuent à apprendre pendant la nuit. Cela est réalisé grâce à une politique de diffusion, qui génère le comportement du robot en le représentant comme un processus de diffusion conditionnel et de débruitage. Des résultats prometteurs ont été observés lors d’expériences, avec des taux de réussite élevés pour les tâches impliquant la perception tactile, telles que retourner des crêpes ou étaler de la pâte.

En conclusion, les avancées de TRI dans l’apprentissage des robots repoussent les limites de ce que les robots peuvent réaliser. En enseignant de nouvelles compétences aux robots du jour au lendemain, les chercheurs nous rapprochent d’un avenir où les robots pourront s’adapter et apprendre dans des situations réelles.

Sources :
– Article de TechCrunch, « Toyota’s TRI shows off advances in robot learning, talks plans to productize research »
– Crédits image : Toyota Research Institute