Des chercheurs du MIT ont créé une méthode de navigation IA qui utilise le langage pour guider les robots, en utilisant un grand modèle de langage pour traiter les descriptions textuelles de scènes visuelles et générer des étapes de navigation, simplifiant le processus de formation et améliorant l’adaptabilité à différents environnements.
Des chercheurs de
” données-gt-translate-attributes = “[{“attribute”:”data-cmtooltip”, “format”:”html”}]” tabindex=”0″ role=”link”>AVEC et le MIT-IBM Watson AI Lab ont développé une nouvelle méthode de navigation IA qui convertit les données visuelles en descriptions linguistiques pour aider les robots à effectuer des tâches complexes.
Cette approche utilise un modèle de langage de grande taille pour générer des données de formation synthétiques et prendre des décisions de navigation en fonction des entrées linguistiques. Bien qu’elle ne soit pas plus performante que les modèles visuels, elle offre l’avantage d’être moins gourmande en ressources et plus facile à adapter à diverses tâches et environnements.
Un jour, vous souhaiterez peut-être que votre robot domestique transporte une charge de vêtements sales au rez-de-chaussée et les dépose dans la machine à laver située dans le coin le plus à gauche du sous-sol. Le robot devra combiner vos instructions avec ses observations visuelles pour déterminer les étapes à suivre pour accomplir cette tâche.
Pour un agent d’IA, c’est plus facile à dire qu’à faire. Les approches actuelles utilisent souvent plusieurs modèles d’apprentissage automatique conçus à la main pour traiter différentes parties de la tâche, ce qui nécessite beaucoup d’efforts et d’expertise humaine. Ces méthodes, qui utilisent des représentations visuelles pour prendre directement des décisions de navigation, nécessitent d’énormes quantités de données visuelles pour la formation, qui sont souvent difficiles à obtenir.
Intégration de modèles linguistiques pour une navigation améliorée
Pour surmonter ces défis, les chercheurs du MIT et du MIT-IBM Watson AI Lab ont conçu une méthode de navigation qui convertit les représentations visuelles en morceaux de langage, qui sont ensuite intégrés dans un grand modèle de langage qui réalise toutes les parties de la tâche de navigation en plusieurs étapes.
Plutôt que d’encoder les caractéristiques visuelles des images de l’environnement d’un robot sous forme de représentations visuelles, ce qui nécessite beaucoup de calculs, leur méthode crée des légendes de texte qui décrivent le point de vue du robot. Un modèle de langage de grande taille utilise les légendes pour prédire les actions qu’un robot doit entreprendre pour exécuter les instructions linguistiques d’un utilisateur.
Parce que leur méthode utilise des représentations purement linguistiques, ils peuvent utiliser un grand modèle de langage pour générer efficacement une énorme quantité de données de formation synthétiques.
Bien que cette approche ne soit pas plus performante que les techniques qui utilisent des caractéristiques visuelles, elle fonctionne bien dans les situations où les données visuelles ne sont pas suffisantes pour l’apprentissage. Les chercheurs ont découvert que la combinaison de leurs entrées basées sur le langage avec des signaux visuels conduit à de meilleures performances de navigation.
« En utilisant uniquement le langage comme représentation perceptive, notre approche est plus simple. Étant donné que toutes les entrées peuvent être codées sous forme de langage, nous pouvons générer une trajectoire compréhensible par l’homme », explique Bowen Pan, étudiant diplômé en génie électrique et informatique (EECS) et auteur principal d’un article sur cette approche.
Parmi les co-auteurs de Pan figurent son conseiller, Aude Oliva, directrice de l’engagement stratégique de l’industrie au MIT Schwarzman College of Computing, directrice du MIT-IBM Watson AI Lab et chercheuse principale au Computer Science and Artificial Intelligence Laboratory (
” données-gt-translate-attributes = “[{“attribute”:”data-cmtooltip”, “format”:”html”}]” tabindex=”0″ role=”link”>CSAIL); Philip Isola, professeur associé de l’EECS et membre du CSAIL ; l’auteur principal Yoon Kim, professeur adjoint de l’EECS et membre du CSAIL ; et d’autres personnes du MIT-IBM Watson AI Lab et du Dartmouth College. La recherche sera présentée à la conférence du chapitre nord-américain de l’Association for Computational Linguistics.
Résoudre un problème de vision grâce au langage
Les grands modèles linguistiques étant les modèles d’apprentissage automatique les plus puissants disponibles, les chercheurs ont cherché à les intégrer dans la tâche complexe connue sous le nom de navigation vision-langage, explique Pan.
Cependant, ces modèles utilisent des entrées textuelles et ne peuvent pas traiter les données visuelles provenant de la caméra d’un robot. L’équipe a donc dû trouver un moyen d’utiliser le langage à la place.
Leur technique utilise un modèle de sous-titrage simple pour obtenir des descriptions textuelles des observations visuelles d’un robot. Ces légendes sont combinées à des instructions basées sur le langage et intégrées dans un modèle de langage plus vaste, qui détermine l’étape de navigation suivante que le robot doit suivre.
Le grand modèle de langage génère une légende de la scène que le robot devrait voir après avoir terminé cette étape. Cela permet de mettre à jour l’historique de la trajectoire afin que le robot puisse suivre l’endroit où il se trouve.
Concevoir une navigation IA conviviale
Le modèle répète ces processus pour générer une trajectoire qui guide le robot vers son objectif, une étape à la fois.
Pour rationaliser le processus, les chercheurs ont conçu des modèles afin que les informations d’observation soient présentées au modèle sous une forme standard, comme une série de choix que le robot peut faire en fonction de son environnement.
Par exemple, une légende pourrait dire « à 30 degrés à votre gauche se trouve une porte avec une plante en pot à côté, dans votre dos se trouve un petit bureau avec un bureau et un ordinateur », etc. Le modèle choisit si le robot doit se déplacer vers la porte ou vers le bureau.
« L’un des plus grands défis a été de comprendre comment encoder ce type d’informations dans un langage approprié pour que l’agent comprenne quelle était la tâche et comment il devait réagir », explique Pan.
Avantages de la langue
Lorsqu’ils ont testé cette approche, ils ont constaté qu’elle ne pouvait pas surpasser les techniques basées sur la vision, mais qu’elle offrait plusieurs avantages.
Premièrement, comme la synthèse d’un texte nécessite moins de ressources informatiques que celle de données d’images complexes, leur méthode peut être utilisée pour générer rapidement des données d’entraînement synthétiques. Lors d’un test, ils ont généré 10 000 trajectoires synthétiques basées sur 10 trajectoires visuelles réelles.
Cette technique peut également combler l’écart qui peut empêcher un agent formé dans un environnement simulé de bien fonctionner dans le monde réel. Cet écart se produit souvent parce que les images générées par ordinateur peuvent sembler très différentes des scènes du monde réel en raison d’éléments tels que l’éclairage ou la couleur. Mais le langage qui décrit une image synthétique et une image réelle serait beaucoup plus difficile à distinguer, explique Pan.
De plus, les représentations utilisées par leur modèle sont plus faciles à comprendre pour un humain car elles sont écrites en langage naturel.
« Si l’agent n’atteint pas son objectif, nous pouvons plus facilement déterminer où et pourquoi il a échoué. Peut-être que les informations historiques ne sont pas suffisamment claires ou que l’observation ignore certains détails importants », explique Pan.
De plus, leur méthode pourrait être appliquée plus facilement à des tâches et des environnements variés car elle n’utilise qu’un seul type d’entrée. Tant que les données peuvent être codées sous forme de langage, ils peuvent utiliser le même modèle sans apporter de modifications.
Mais leur méthode présente un inconvénient : elle perd naturellement certaines informations qui seraient capturées par des modèles basés sur la vision, comme les informations de profondeur.
Cependant, les chercheurs ont été surpris de constater que la combinaison de représentations basées sur le langage avec des méthodes basées sur la vision améliore la capacité d’un agent à naviguer.
« Cela signifie peut-être que le langage peut capturer des informations de plus haut niveau qui ne peuvent pas être capturées par des fonctionnalités de vision pure », dit-il.
C’est un domaine que les chercheurs souhaitent continuer à explorer. Ils souhaitent également développer un sous-titreur orienté navigation qui pourrait améliorer les performances de la méthode. De plus, ils souhaitent sonder la capacité des grands modèles linguistiques à faire preuve de conscience spatiale et voir comment cela pourrait faciliter la navigation basée sur le langage.
Référence : « LangNav : la langue comme représentation perceptuelle pour la navigation » par Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola et Yoon Kim, 30 mars 2024, Informatique > Vision par ordinateur et reconnaissance de formes.
arXiv:2310.07889
Cette recherche est financée, en partie, par le MIT-IBM Watson AI Lab.
2024-08-17 22:17:31
1723928746
#Comment #lIA #MIT #maîtrise #navigation #guidée #par #langage