Observation et Autonomie

Dans cette série d’articles, nous nous pencherons sur l’histoire et les enjeux de la robotique autonome dans le but de proposer des pistes de réflexions sur les éléments manquants au déploiement de l’autonomie à grande échelle. 

Part 2 :

L'observation est une question d'apprentissage

Suite au DARPA Challenge en 2015, de nombreuses interrogations ont émergé sur la recette magique pour atteindre l’autonomie attendue. Une question restait en suspens : 

Ne serait-il pas préférable de repenser le système de vision et l’utilisation de capteurs pour remettre l’intelligence au cœur des systèmes autonomes ?

Cette question continue d’animer les départements R&D de nombreuses sociétés robotiques en quête d’autonomie. Certaines se sont tournées vers l’utilisation d’une multiplicité de capteurs, avec le lidar toujours en favori. Cette méthode concentre l’expertise des systèmes de vision sur les informations et la précision issues des capteurs plus que sur la compréhension de la scène et des comportements des entités présentes. 

C’est en cela que les systèmes de vision actuels trouvent aujourd’hui certaines limites. De plus, les coûts liés à l’acquisition, l’intégration, la fusion des capteurs et le manque d’interprétation des scènes viennent consolider ces limites sur le long terme, encourageant le changement de paradigme lancé par la course à l’intelligence artificielle et l’apprentissage profond des systèmes. 

L’enjeu est donc ici de mettre en avant la compréhension du monde, c’est-à-dire permettre au robot d’observer et d’apprendre par lui-même. Ainsi il pourra faire une analyse de son environnement qui lui fera prendre les bonnes décisions, tout comme un enfant observe son milieu pour comprendre comment interagir avec celui-ci en grandissant.

Récap de la recette magique:

De la fusion de capteurs vers la fusion de modèles

C’est en 2015 que Tesla s’approprie la recette magique en faisant le pari de n’utiliser que des capteurs caméras (tout comme l’humain utilise ses yeux pour se déplacer), du machine learning et le développement de modèles pour remplacer la perception des lidars. Tesla a mis à profit les centaines d’heures de conduite de tous ces véhicules clients, pour entraîner un ensemble de modèles ML de base (détection de voitures, de piétons, de panneaux, de lignes, etc). 

Cette recette transformée par Tesla, repose sur le développement de l’intelligence et non celui des capteurs. L’utilisation de plusieurs caméras appelée stéréovision (similaire à la vision humaine) permet de reconstruire une scène en trois dimensions et à 360 degrés. Ces caméras stéréo permettent de fournir des informations de profondeur et de compréhension sémantique de l’environnement.

La différence: Les lidars donnent uniquement des informations de profondeur alors que les caméras donnent des informations visuelles nécessaires à la compréhension de la sémantique (signification des signes, notamment du langage).

Aujourd’hui, la solution de Tesla reste la plus fiable et arrive à emmener les voitures à un niveau 3 d’autonomie. Tesla a néanmoins transformé une problématique de fusion de capteurs (agréger les données de caméra avec des lidars, des radars, etc) à une problématique de fusion de modèles de vision (agréger manuellement les données d’une multitude de modèles de ML séparés mais interdépendants).

La fusion manuelle de ces modèles pourrait-elle être un frein au développement  de Tesla dans sa course à la voiture autonome ?

C’est en 2016 que George Hotz, le fondateur de Comma.ai, a eu l’ambition de proposer une alternative à la recette de Tesla : transformer n’importe quelle voiture en voiture autonome grâce à un smartphone et une caméra. Sa recette : une méthode d’apprentissage “de bout en bout” (“end to end learning”). Cela signifie qu’il lui suffit d’un unique modèle responsable de l’observation jusqu’à l’action de la voiture (accélération, freinage, tourner le volant). Ce modèle décide par lui-même de l’action à entreprendre en fonction de l’observation (différence entre un automate et un robot autonome, voir article précédent de cette série). L’ambition qu’a le fondateur de comma.ai est de remplir les fonctions d’une voiture autonome de niveau 2 bien mieux que celles déjà existantes en privilégiant l’intelligence de l’utilisation des données plutôt que la quantité de celles-ci. De fait, cette stratégie s’est avérée efficace et prometteuse puisqu’elle permit de surpasser les approches hybrides ou basées sur des heuristiques manuelles.

Aujourd’hui, cette solution générique (réseau unique capable d’étudier et de faire plusieurs tâches à la fois) reste peu adoptée par les sociétés d’IA et de robotique qui tendent à favoriser la solution lourde mais fiable de la recette magique. Néanmoins, d’autres domaines l’ont intégralement adopté et exploité comme celui des NLP (traitement naturel du langage). Ces modèles se basent sur d’immenses modèles ayant pour vocation à comprendre comment le langage fonctionne de manière générique à cette tâche (appelé modèles de langage).

Notre opinion sur l’observation et son intégration dans le système de la voiture autonome. Les sociétés ont voulu apprendre à un ordinateur à conduire une voiture. Pour rappel un humain avec seulement ces deux yeux donc pas de capteurs très évolué arrivent à apprendre à conduire avec une voiture en une vingtaines d’heures approximativement. Mais si nous prenons assez de recul, l’humain n’arrive pas à apprendre à conduire en seulement 20h de conduite mais en 18 ans + 20h. Ce qui veut dire qu’il s’est confronté au monde et à tous les cas possibles et inimaginables en 18 ans de perception et il se spécialise à la fin pendant ces 20 heures de conduite. Pour les voitures autonomes le cas est similaire c’est grâce à l’observation et donc à toutes les bases de données de visualisation de conduites, que la voiture saura répondre de la façon la plus adéquate à une situation.

NEWSLETTER

Conclusion

Les défis de l’autonomie ne concernent pas seulement les voitures autonomes qui en sont qu’à leurs débuts mais concerne également le futur de la robotique dans n’importe quelles domaines à plus grande échelle.