Un obstacle majeur à l’apprentissage automatique est le manque d’ensembles de données à grande échelle appropriés. Les ensembles de données existants en robotique souffrent de problèmes d’évolutivité, car ils sont souvent collectés dans des environnements irréalistes, tels que des environnements de laboratoire contrôlés, et peuvent manquer de diversité. En revanche, les ensembles de données de vision couvrent un large éventail de tâches, d’objets et d’environnements. Pour remédier à cette limitation, les chercheurs ont exploré la possibilité de tirer parti des représentations pré-entraînées développées pour les ensembles de données de vision dans les applications robotiques.
Des travaux antérieurs ont démontré l’utilisation de représentations pré-entraînées qui encodent les observations d’images sous forme de vecteurs d’état. Cette représentation est ensuite transmise à un contrôleur formé à l’aide des données collectées auprès des robots. L’espace latent de ces réseaux pré-entraînés contient déjà des informations importantes au niveau des tâches, ce qui suggère qu’ils peuvent faire bien plus que représenter des états.
Une étude récente menée par une équipe de recherche de l’Université Carnegie Mellon (CMU) a montré que l’imagerie neurale peut être utilisée non seulement comme représentations d’état, mais aussi pour déduire les mouvements du robot. Les chercheurs ont développé une métrique simple en intégrant l’espace pour apprendre la fonction de distance et la fonction dynamique avec un minimum de données humaines. Ces modules ont été utilisés pour construire une raboteuse robotisée qui a été testée dans quatre tâches de manutention spécifiques.
Les chercheurs ont divisé la représentation pré-entraînée en deux modules : un module dynamique en une étape qui prédit l’état suivant du robot en fonction de son état et de ses actions actuels, et un « module de distance fonctionnelle » qui mesure à quel point le robot est proche d’atteindre son objectif. . Dans l’état actuel. En utilisant l’apprentissage par confrontation, une tâche a été apprise à distance avec une petite quantité de données issues de démonstrations humaines.
Le système proposé surpasse les méthodes traditionnelles d’apprentissage par imitation et d’apprentissage par renforcement hors ligne dans l’apprentissage par robot. Il est particulièrement efficace pour gérer les distributions de stocks multimodales. Les résultats de l’étude ont également démontré qu’une meilleure représentation améliorait les performances de contrôle et soulignait l’importance de la mise à la terre dynamique dans les applications du monde réel.
Les résultats de l’étude suggèrent que cette méthode surmonte l’apprentissage de la stratégie par le clonage du comportement en tirant parti des capacités des représentations pré-formées. Une fonction de distance apprise est stable et facile à former, ce qui la rend évolutive et généralisable.
Les chercheurs espèrent que leurs travaux inspireront de nouvelles recherches en robotique et en apprentissage représentationnel. Les recherches futures devraient se concentrer sur le raffinement de la présentation visuelle pour capturer les interactions plus fines entre la pince ou la main d’un robot et l’objet qu’il manipule. De plus, explorer la possibilité d’apprendre sans balises d’action et intégrer des préhenseurs plus fiables dans le système constituerait des pistes intéressantes pour une enquête plus approfondie.