Nouvelles Du Monde

L’IA basée sur le langage peut remédier au manque de bon sens dans les voitures autonomes

Une recherche rapide sur Internet permet d’innombrables vidéos sur les accidents de voitures autonomes, qui suscitent souvent un sourire ou un éclat de rire. Mais pourquoi trouvons-nous ces comportements drôles ? Peut-être parce qu’ils contrastent fortement avec la façon dont nous gérerions des situations similaires au volant.

Des situations quotidiennes qui nous semblent anodines peuvent constituer un défi majeur pour les voitures autonomes. Ils sont conçus à l’aide de méthodes techniques fondamentalement différentes du fonctionnement du cerveau humain. Cependant, les développements récents dans le domaine de l’IA ouvrent de nouvelles possibilités.

Des capteurs à l’action

De nouveaux systèmes d’IA dotés de capacités linguistiques – comme la technologie derrière les chatbots comme ChatGPT – pourraient être la clé pour faire raisonner les voitures autonomes et se comporter davantage comme des conducteurs humains.

La recherche sur la conduite autonome s’est accélérée fin 2010 avec l’avènement des réseaux de neurones profonds (DNN), une forme d’intelligence artificielle (IA) qui traite les données d’une manière inspirée par le cerveau humain. Cela permet de traiter des images et des vidéos de scénarios de circulation pour identifier rapidement les « éléments critiques », tels que les obstacles.

Pour détecter cela, vous devez utiliser un Boîte 3D la taille, l’orientation et la position des obstacles sont calculées. Ce processus, appliqué aux véhicules, piétons et cyclistes par exemple, crée une représentation basée sur des classes et des propriétés spatiales, notamment la distance et la vitesse par rapport à la voiture autonome.

C’est la base de l’approche technique la plus largement utilisée en matière de conduite autonome, connue sous le nom de «sentir-penser-agir‘ (sens-penser-action); données de capteurs traitées par le DNN, puis utilisées pour prédire les trajectoires des obstacles. Enfin, les systèmes planifient les prochaines actions de la voiture.

Bien que cette approche offre des avantages tels qu’un débogage facile, ce cadre sens-penser-agir présente une limite critique : il est fondamentalement différent des mécanismes cérébraux derrière la conduite humaine.

Lire aussi  Des centaines de personnes marchent pour mettre fin à la maladie d'Alzheimer dimanche à New Haven

Leçons du cerveau

Appliquer l’intuition dérivée du cerveau humain aux véhicules autonomes constitue un défi scientifique. Il existe pourtant plusieurs efforts de recherche s’inspirer des sciences neuro-cognitives et de la psychologie pour améliorer la conduite autonome.

Un déjà théorie de longue date montre que « sentir » et « agir » ne sont pas des processus consécutifs mais étroitement liés. Les gens perçoivent leur environnement en fonction de leur capacité à agir en conséquence.

Par exemple, lorsqu’un conducteur se prépare à tourner à gauche à une intersection, il se concentre sur des parties spécifiques de l’environnement et des obstacles liés au virage. En revanche, l’approche sens-penser-action traite l’ensemble du scénario indépendamment des intentions d’action actuelles.

Les gens réussissent mieux dans des scénarios exceptionnels

Une autre différence cruciale par rapport à la pensée humaine est que les DNN reposent principalement sur les données sur lesquelles ils sont formés. Lorsqu’ils sont exposés à une petite variation inhabituelle d’un scénario, ils peuvent échouer ou manquer des informations importantes.

Des scénarios aussi rares et sous-représentés, connus sous le nom de «cas à longue traîne», posent un défi majeur. Les solutions actuelles impliquent la création d’ensembles de données de formation de plus en plus volumineux. Cependant, la complexité et la variabilité des situations réelles ne permettent pas d’envisager toutes les possibilités.

En conséquence, les approches basées sur les données telles que le sens-penser-action ont du mal à se généraliser à des situations invisibles. Les humains, en revanche, excellent dans la gestion de nouvelles situations.

Grâce à notre connaissance générale du monde, nous sommes en mesure d’évaluer de nouveaux scénarios à l’aide de ‘bon sens‘ : un mélange de connaissances pratiques, de raisonnement et de compréhension intuitive du comportement humain, construit à partir d’une vie d’expériences.

En fait, pour les humains, la conduite automobile est une autre forme d’interaction sociale, et le bon sens est la clé pour interpréter le comportement des usagers de la route (autres conducteurs, piétons, cyclistes). Cette capacité nous permet de prendre de bonnes décisions et de prendre de bonnes décisions dans des situations inattendues.

Lire aussi  Gorge craquée, malsaine. Peut provoquer un accident vasculaire cérébral

Copier le bon sens

Reproduire le bon sens dans les DNN a constitué un défi majeur au cours de la dernière décennie, les scientifiques appelant à un changement radical d’approche. Les développements récents de l’IA offrent enfin une solution.

Les grands modèles linguistiques (LLM) – la technologie derrière les robots comme ChatGPT – se sont révélés remarquablement efficaces pour comprendre et générer le langage humain. Leurs compétences impressionnantes proviennent d’une formation sur de grandes quantités d’informations dans des domaines variés, ce qui leur a permis de développer une forme de bon sens similaire au nôtre.

Récemment, les LLM multimodaux (qui peuvent répondre aux demandes des utilisateurs sous forme de texte, d’images et de vidéo), tels que GPT-4o et GPT-4o-mini, combinent le langage et les images, intégrant une connaissance approfondie du monde avec la capacité de raisonner sur la saisie visuelle. .

Ces modèles peuvent gérer des scénarios complexes et invisibles comprendre, fournir des explications en langage naturel et recommander des actions appropriées. Il s’agit d’une solution prometteuse au problème de la « longue traîne ». En robotique, les modèles vision-langage-action (VLAM) émergent, combinant des traitements linguistiques et visuels avec des actions de robots. Les VLAM montrent des premiers résultats impressionnants dans le contrôle des bras robotiques grâce à des instructions linguistiques.

En conduite autonome, les premières recherches se concentrent sur l’utilisation de modèles pour fournir des commentaires de conduite et des explications sur les décisions motrices. Par exemple, un modèle peut indiquer : « Il y a un cycliste devant moi, qui commence à ralentir », ce qui donne un aperçu de la prise de décision, mais améliore également la transparence. La société Wayve en a des prometteuses premiers résultats démontrer dans l’application commerciale de voitures autonomes contrôlées par le langage.

Lire aussi  «Encore 150 mille cas par semaine». Conseil d'Expert

L’avenir de la conduite

Même si les LLM peuvent répondre à des situations de « longue traîne », ils posent de nouveaux défis. L’évaluation de leur fiabilité et de leur sécurité est plus complexe que les approches modulaires telles que sens-penser-action. Chaque partie d’un véhicule autonome, y compris les LLM intégrés, doit être vérifiée, ce qui nécessite de nouvelles méthodes de test.

De plus, les LLM multimodaux sont vastes et exigeant en capacité de calcul, ce qui entraîne une latence élevée ou des retards dans la réponse et la communication. Les voitures autonomes doivent fonctionner en temps réel et les modèles actuels ne peuvent pas réagir assez rapidement. L’exécution de LLM nécessite beaucoup de puissance de calcul et de mémoire, pour lesquelles le matériel actuel des véhicules n’est pas suffisant.

La recherche s’y concentre optimiser les LLM pour utilisation dans les véhicules. Il faudra encore quelques années avant de voir dans les rues des véhicules commerciaux autonomes faisant preuve de bon sens.

Cependant, l’avenir de la conduite autonome est prometteur. Avec des modèles d’IA dotés de capacités linguistiques, nous disposons d’une alternative solide au paradigme sens-pensée-action, qui approche de ses limites.

Les LLM sont la clé du raisonnement humain et du comportement des véhicules. Ces progrès sont cruciaux, car chaque année environ 1,2 million de personnes meurent en raison d’accidents de la route ; la principale cause de décès chez les enfants et les jeunes adultes âgés de 5 à 29 ans. Ainsi, des véhicules autonomes dotés de capacités de raisonnement semblables à celles des humains pourraient sauver d’innombrables vies.

*) Alice Plebe est un chercheur en apprentissage automatique Département d’informatique de l’University College de Londres (UCL). Cet article est paru dans une version anglaise à La conversation.

**) Images désactivées vidéo promotionnelle Waymo

2024-08-03 19:52:52
1722751393


#LIA #basée #sur #langage #peut #remédier #manque #bon #sens #dans #les #voitures #autonomes

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT