Part 2

Pourquoi l'IA en robotique est-elle différente des autres systèmes d'IA ?

Part 2:  vous savez, mais quand ?

Vous avez dit temps réel ?

Chez Visual Behavior, nous décrivons les robots comme des systèmes du monde réel capables de prendre des informations du monde extérieur, d’observer, de décider et d’effectuer une action sur ce monde, le mouvement. Cette définition couvre de nombreux systèmes, des voitures à conduite autonome aux robots industriels, mais elle inclut également d’autres systèmes, comme des caméras intelligentes, qui observe le monde pour décider s’il est nécessaire de prendre une photo ou même tout appareil photo déclenchant une action. Le processus mis en place pour passer de l’observation à l’action n’est pas instantané et induit un certain délai, la latence du système. Ce fait implique que l’action ne se produit pas dans le monde observé, mais dans un monde légèrement dans son futur et potentiellement un peu différent.

Dans les domaines impliquant le temps réel, on dit souvent « qu’avoir une information trop tard est la même chose que de ne pas avoir d’information ». Pour être concret, vous pouvez imaginer un frein d’urgence automatique qui met 5 secondes à détecter un obstacle devant une voiture. La décision et l’action interviendront bien après la collision.

Précision et vitesse

Mengtian Li, Yu-Xiong Wang et Deve Ramanan de l’université Carnegie Mellon et d’Argo AI proposent une solution intelligente pour mesurer le meilleur compromis entre précision et vitesse. Ils l’appellent “Perception en continu ». Elle consiste à évaluer les algorithmes avec une vérité terrain différée. Au lieu d’utiliser la vérité terrain associée aux données d’entrée (l’observation), ils utilisent la vérité terrain correspondant au moment où l’algorithme sort sa prédiction. 

Il existe deux directions pour obtenir de bonnes performances dans ce contexte. La première consiste à réduire la latence à son minimum et à avoir la prédiction aussi proche temporellement que possible de l’observation, ce qui implique toujours une réduction de la qualité de la prédiction. La meilleure solution se situe entre un faible retard et une bonne précision : le compromis entre qualité et latence.

La deuxième solution consiste à compenser la latence en prédisant non pas le monde observé, mais le monde futur proche prédit. Cela implique de développer des algorithmes utilisant non seulement des images fixes mais des séries temporelles d’images, c’est-à-dire une vidéo. Le traitement traditionnel du signal peut constituer une couche de suivi, comme l’estimateur de Kalman, au-dessus des algorithmes classiques d’images fixes.

L’illustration ci-dessus décrit la configuration de la perception en continu. À t=t1, la caméra reçoit une image de la route lorsque la voiture est en position A. À partir de cette image, un algorithme produit une prédiction sur la scène, en particulier un masque et une bbox pour la voiture détectée. Cette prédiction est émise à t=t2, lorsque la voiture est réellement en position B. Traditionnellement, les évaluations d’algorithmes ne tiennent pas compte de la latence, mesurant la performance de prédiction avec la position du véhicule A. L’évaluation de la perception en continu propose d’utiliser les informations du véhicule au moment t=t2 en position B.

Ces considérations sont relativement nouvelles dans le domaine de l’apprentissage profond, ce qui explique pourquoi les algorithmes de suivi traditionnels sont souvent utilisés en conjonction avec des algorithmes d’apprentissage profond plus modernes à image unique, au lieu de pipelines de traitement d’apprentissage profond entièrement conscients de la latence.

Les humains ?

Malgré notre sensation de simplicité et de temps d’écoulement constant, les processus internes responsables de l’action à partir de l’observation chez les humains ne sont pas simples

En fonction de la tâche, notre temps de réaction se situe entre 200 millisecondes et une demi-seconde. Mais cela ne mesure que le temps de réaction. Dans les situations réelles, nous disposons souvent d’informations sur les événements à venir. Notre cerveau passe son temps à prédire l’avenir. Pour ce faire, il utilise des techniques plus ou moins sophistiquées allant d’un simple modèle à vitesse constante pour le déplacement d’un simple objet à un modèle psychologique complet pour prédire l’action de la prochaine personne. Sur la base de ces informations, notre cerveau peut compenser sa latence ou même anticiper en appliquant une action basée sur des observations futures potentielles plutôt que sur une observation réelle. C’est ainsi que nous pouvons saisir une balle qui suit une trajectoire balistique ou que nous pouvons nous orienter dans une foule dense.

Pourquoi l’anticipation est importante

L’anticipation est un bon moyen de compenser la latence. En prédisant non pas l’état du monde actuel mais celui du monde suivant, les robots peuvent agir en fonction d’informations actualisées sur le monde. L’anticipation est essentielle en robotique, non seulement parce que nous devons compenser la latence, mais aussi parce que les interactions riches en ont besoin.

Imaginez une usine où nous voulons que des robots mobiles coopèrent avec les ouvriers en leur livrant des matières premières, par exemple. Le premier niveau d’autonomie doit faire en sorte que le robot ne s’écrase pas sur les humains. Pour ce faire, nous avons besoin d’un détecteur d’humains en 3D qui déclenche un arrêt d’urgence si un humain se trouve devant le robot. Dans ce cas, le robot réagit uniquement à son environnement et le système agit comme un composant de sécurité. Pour que les robots collaborent avec les humains, il faut aller plus loin et concevoir un algorithme qui, au lieu de dire si un humain se trouve devant le robot, dit si, dans un avenir proche, la trajectoire de l’humain va croiser celle du robot et agir en conséquence.

L’équivalent pour la voiture autonome est le besoin de savoir non pas si un humain se trouve au milieu de la route, mais s’il y a une forte probabilité qu’il y ait un humain au milieu de la route lorsque la voiture passe.

Comment nous faisons cela chez Visual Behavior

En travaillant sur notre compréhension générique de la scène chez Visual Behavior, nous avons découvert que la gestion de l’anticipation et de la prédiction temporelle est une opportunité plutôt qu’une contrainte. Parce que nous voulons fournir aux robots des systèmes leur permettant d’avoir des comportements fins et complexes, nous avons déjà la contrainte de l’anticipation. Insérer cette contrainte au cœur du système nous permettra d’accéder à des scénarios d’interaction riches et ouvrira la porte à la robotique collaborative (alias cobotique).

Conclusion

Après avoir parlé de la spécificité de l’évaluation dans un article précédent, nous avons vu ici que la latence peut faire une grande différence lors de l’évaluation des algorithmes. 

Nous avons décrit le compromis entre la précision et la latence. Nous avons décrit l’idée derrière Streaming Perception et son évaluation en fonction de la latence. Nous avons établi une analogie entre les algorithmes artificiels et les humains. Enfin, nous parlons de la latence du point de vue de l’anticipation et de l’autre nécessité d’avoir de bonnes méthodes d’anticipation.

D'AUTRES ARTICLES