Le futur de la vision artificielle & les transformers

Couplées à des techniques d’apprentissage non supervisé, les architectures connues sous le nom de « transformeurs » ont permis la forte progression du NLP (Natural Language Processing) observée ces dernières années.

Couplées à des techniques d’apprentissage non supervisé, les architectures connues sous le nom de « transformeurs » ont permis la forte progression du NLP (Natural Language Processing) observée ces dernières années.

Yoshua Bengio, pionnier de l’apprentissage profond, décrit les mécanismes d’attention présents au cœur des transformers comme la nouvelle opération permettant l’émergence d’un système d’apprentissage profond plus générique et performant sur différentes modalités (audio, jeux, flot optique, image ou vidéo). Plusieurs études récentes, comme celle de Perceiver IO, ont mis en avant le caractère multimodal de ces nouvelles architectures et la variété de données massivement disponibles sur lesquelles elles sont capables d’opérer. Et dernièrement, Tesla a adopté les transformeurs pour optimiser son système de vision autonome qui demeure, à ce jour, le plus avancé en production. 

Dans cet article, nous évaluerons le potentiel des transformeurs appliqués au domaine de la Computer Vision et leurs effets sur le futur de la vision artificielle.

Un raisonnement symbolique sur le monde

En 2021, le groupe Facebook, renommé Meta, a multiplié ses publications sur l’application des transformeurs à la compréhension d’image. La publication de DETR (DEtection & TRansformers) qui mixe les mécanismes d’attention avec l’utilisation des réseaux à convolutions (CNN), révèle la simplicité de cette approche pour la détection d’objets, tâche majeure en vision artificielle. Cette approche contraste avec la complexité grandissante des architectures actuelles de détection basées sur les CNN. 

Pour comprendre l’intérêt des transformeurs, attardons-nous avant sur la différence entre l’analyse d’image et le NLP.

En traitement de langage, l’information est segmentée par lettre, syllabe ou mot, laissant une meilleure capacité de concentration au modèle pour effectuer des tâches plus complexes : générer des réponses automatiques, dialoguer, résumer un texte, etc.

En analyse d’image, l’information n’est pas préalablement segmentée. Le caractère continu de l’information contenue dans l’image complique l’extraction d’entités. Les tâches complexes dites de haut niveau (prédire le comportement des entités, évaluer une position 3D, prédire une trajectoire, suivre un objet) demandent au réseau de raisonner sur les entités et non sur l’image. Ces tâches sont alors moins accessibles. Le CNN a une représentation spatialement emmêlée de l’image, compliquant son analyse symbolique (par entités) de la scène et limitant ainsi sa progression vers des résultats aussi efficaces qu’en NLP. 

Le cortex visuel humain analyse son environnement en résumant l’espace en un ensemble d’entités. Quand l’humain est en voiture, les photos successives rencontrées par sa rétine sont automatiquement résumées par le cerveau en un ensemble d’entités essentielles à la réalisation d’une tâche de conduite : « un passage piéton est devant moi, un piéton le traverse. » L’information à haute entropie est extraite par l’humain en un ensemble de symboles finis. 

C’est ce stade de perception que les transformeurs permettent de franchir. Ils exposent une représentation démêlée (disentangled representation) pour fournir un raisonnement symbolique sur le monde. Les transformeurs constituent donc une première étape vers le raisonnement haut niveau. 

Dans le monde de la recherche, des travaux sont en cours pour tester la performance des transformeurs, notamment en les substituant aux CNN pour résoudre certaines tâches. Meta a récemment publié 3DETR, un transformeur pour la détection 3D d’objets. Le projet Ego4D a émergé pour tester la compréhension des actions d’un humain selon son point de vue, Tesla est passé aux transformeurs pour améliorer sa compréhension de scène. 

De l'analyse d'image à la compréhension de scène

Les limitations d’architecture mentionnées plus haut ont nourri la tendance actuelle et contrainte des systèmes de vision de reposer sur l’analyse d’une seule image à la fois. Cependant, fusionner l’information au-delà d’une image est nécessaire pour réaliser les tâches de vision haut niveau. La réalité augmentée, les réseaux sociaux ou encore la robotique autonome exploitent de plus en plus la vidéo afin de fournir une compréhension spatiale et temporelle de la scène. A présent, on observe que les données exploitées sont représentées dans un espace 4D. qui prend en l’image 2D, la temporalité et la dimension spatiale de la scène analysée. 

Encore en 2019, Tesla se reposait sur l’utilisation de CNN adossée à un calcul indépendant pour chaque caméra embarquée sur le véhicule. Les raisonnements haut niveau nécessaires à la conduite étaient donc rendus disponibles par une fusion manuelle longue et coûteuse des détections des caméras (sensor fusion). De plus, cette technique diminuait la généricité et la transférabilité du système de vision à d’autres domaines. Depuis le « Tesla AI Day », nous observons que Tesla a placé les transformeurs au cœur de son architecture multi-caméra afin de fusionner automatiquement les informations issues de chaque capteur.

Les explications de Yoshua Bengio sur l’évolution de l’apprentissage profond permettent de comprendre l’orientation technologique récente de Tesla. Selon le raisonnement initial de Daniel Kahneman, l’humain utilise deux systèmes de cognition : 

Ce qu'il fait intuitivement, sans explication verbale possible (ex : conduire "automatiquement" sur une route connue tout en parlant avec un passager). C'est l'apprentissage pr

Ce qu'il fait avec une analyse consciente de l'environnement. (ex : conduire dans une ville inconnue et devoir trouver son chemin). La mémoire de travail de l'humain est activement sollicitée. Selon Y. Bengio, c'est au cœur de ce système que résident les transformeurs et les mécanismes d'attention.

« On peut envisager l’attention comme un mécanisme créant une connexion dynamique entre deux couches alors que dans un réseau traditionnel les connexions sont fixes. Ici nous pouvons choisir quelle entrée sera envoyée au module que nous utilisons à l’aide d’un mécanisme d’attention. » Y. Bengio, From System 1 Deep Learning to System 2 Deep Learning, NeurIPS. 

Ce rapprochement avec les neurosciences démontre que les mécanismes d’attention sont biologiquement plausibles et permettent d’envisager des raisonnements plus approfondis. Plus encore, la modularité de ce système adresse le problème de la compréhension de scène en général. Cette analyse peut expliquer en partie les choix technologiques de Tesla, notamment avec le Tesla bot. Le potentiel de sa technologie software réside dans sa transférabilité au vaste marché de la robotique autonome, vue au sens large. 

Considérant le changement systémique des besoins liés à l’autonomisation de la robotique, on peut donc envisager que les entreprises maîtrisant cette technologie seront capables de proposer les processeurs vision des robots autonomes de demain.

Pourquoi l’IA en robotique est-elle différente des autres systèmes d’IA ? (Part 2)

Part 2Pourquoi l'IA en robotique est-elle différente des autres systèmes d'IA ?Part 2:  vous savez, mais quand ? Vous avez dit temps réel ? Chez Visual Behavior, nous décrivons les robots comme des systèmes du monde réel capables de…

Lire la suite

Pourquoi l’IA en robotique est-elle différente des autres systèmes d’IA ?

Robotics N°1 Pourquoi l'IA en robotique est-elle différente des autres systèmes d'IA ?  Partie 1 : Qu’est-ce qui vous intéresse ? Dans cette série d’articles, nous aborderons les particularités qui rendent…

Lire la suite

Observation & autonomie (Part 3)

Observation & Autonomie Dans cette série d’articles, nous nous pencherons sur l’histoire et les enjeux de la robotique autonome dans le but de proposer des pistes de réflexions sur les éléments manquants au déploiement de…

Lire la suite

Observation & autonomie (Part 2)

Observation et Autonomie Dans cette série d’articles, nous nous pencherons sur l’histoire et les enjeux de la robotique autonome dans le but de proposer des pistes de réflexions sur les éléments manquants au déploiement de…

Lire la suite

Pourquoi la robotique autonome est-elle si complexe ?

Robotique N°1Pourquoi la robotique autonome est-elle complexe ?Introduction Les robots sont profondément présents dans notre imaginaire, grâce à un large éventail de livres, de films et autres histoires. Cependant, depuis la première…

Lire la suite

Observation et autonomie (Part 1)

Observation et Autonomie Dans cette série d’articles, nous nous pencherons sur l’histoire et les enjeux de la robotique autonome dans le but de proposer des pistes de réflexions sur les éléments manquants au déploiement de…

Lire la suite