Un nouveau test pour la perception visuel des robots

Le test three cup monte

Chez Visual Behavior, nous avons créé un nouveau test de perception visuelle basé sur le jeu populaire « Three Cup Monte » pour tester les capacités des robots à comprendre le monde. Parfois difficile même pour les humains, cette tâche met également les machines au défi de comprendre des scènes complexes et les interactions entre les objets. Pour relever ce défi, nous avons également développé un cortex visuel artificiel qui, bien que de niveau relativement bas, est capable de faire des hypothèses puissantes concernant la cohérence temporelle et les principes physiques. Ce système de vision est basé sur une conception modulaire et permet une analyse en temps réel. Dans cet article, nous décrivons pourquoi notre nouveau test est important pour le domaine de la vision robotique ainsi que notre approche pour résoudre ses défis. Le test et une partie de notre mise en œuvre seront publiés fin 2020.

 

 

 

Introduction

Aujourd’hui, les robots ont déjà un impact sur le monde grâce à un large éventail de tâches, utilisant la fusion de capteurs, la planification et le contrôle dans des environnements hautement structurés. Cependant, à l’exception de quelques cas spécifiques, les robots n’ont toujours pas l’intelligence nécessaire pour comprendre le monde par la vision comme le font les humains. Un développement spécifique, des capteurs coûteux (lidar et radar 3D/2D) et des infrastructures massives sont généralement utilisés pour compenser ce manque de compréhension. Pour résoudre ce problème et trouver des solutions aux défis de la robotique, Visual Behavior développe un cortex visuel artificiel qui comprend les scènes visuelles complexes.

“Toute personne qui ce fie au lidar est condamnée ».

– Elon musk.

La robotique peut être considérée comme la combinaison de trois tâches : percevoir l’environnement, décider des actions à entreprendre et exécuter ces actions. La capacité des robots à effectuer des actions physiques complexes s’est considérablement améliorée au cours des dernières décennies, et la robotique est aujourd’hui un secteur en pleine expansion des démonstrations impressionnantes continuent d’être présentées. La capacité à prendre de bonnes décisions dans des environnements simulés ou très contrôlés s’est également améliorée parce que nous disposons de bonnes représentations. Cependant, les algorithmes de décision, qu’il s’agisse d’algorithmes pour des types d’apprentissage comme l’apprentissage par renforcement ou de règles de décision élaborées à la main, ne sont pas performants dans les environnements complexes car une représentation visuelle correcte du monde est nécessaire pour prendre des décisions. Les données incomplètes ou imprécises ne peuvent pas toujours être compensées par de bons algorithmes de décision. Aujourd’hui, la robotique a atteint un point où l’amélioration de la vision des robots est la clé pour atteindre l’autonomie des robots.

Nous pensons que le bon sens dans la perception des robots ne peut émerger que d’un système basé sur certains principes de physique première comme la cohérence spatiale et temporelle et certaines notions de base des propriétés physiques des objets. Par exemple, cela permet de comprendre la permanence et l’occlusion des objets. Les enfants d’environ sept mois comprennent qu’un objet peut être temporairement caché mais continuer à exister même s’il ne peut être vu. De telles capacités sont souvent absentes des systèmes de vision des robots actuels car ils ne sont pas conçus pour les laisser émerger. Nous pensons que ce sont des éléments nécessaires et fondamentaux pour concevoir des systèmes de vision plus évolués et prétendre atteindre des capacités de vision de niveau humain.

Par conséquent, les tests de référence en vision devraient permettre aux chercheurs d’évaluer ces capacités et de vérifier que certaines contraintes robotiques sont respectées : analyse en temps réel, matériel de calcul faible et nécessité de prédictions cohérentes. Ces considérations nous ont amenés à proposer un nouveau test pour mettre au défi les systèmes de vision robotique qui incluent des contraintes d’analyse en temps réel.

Le test three cup monte

Le test Three cup Monte est difficile pour les systèmes de vision actuels car il requiert du bon sens pour comprendre les interactions complexes et parfois ambiguës entre les objets.
Le but du jeu est de suivre une balle sous un gobelet. La complexité survient lorsque quelqu’un mélange les gobelets. De plus, la balle peut passer d’un gobelet à l’autre. Cependant, comme tous les gobelets sont identiques, le succès du programme repose sur sa capacité à comprendre la dynamique complexe des objets.
Comme défi supplémentaire, nous avons ajouté deux composants majeurs pour que le test soit plus réaliste. Premièrement, le défi devait être relevé en ligne et en temps réel. Deuxièmement, pour intégrer les contraintes de la plupart des environnements robotiques, nous avons limité les ressources nécessaires au moment de l’inférence à celles offertes par un ordinateur portable de jeu.

Sense commun

Le bon sens couvre un large spectre de l’intelligence (artificielle). Cependant, dans le contexte de la perception des robots, il peut être aussi « simple » que de saisir l’idée qu’un objet peut être visible, en mouvement ou caché par un autre objet. Au-delà de son importance dans ce jeu, la compréhension de tels détails est essentielle dans les applications complexes d’autonomie des robots, comme les voitures à conduite autonome ou la mobilité des robots. En pensant à un cycliste qui passe derrière une voiture, nous pouvons facilement imaginer pourquoi cette fonctionnalité est importante dans les applications robotiques.

Analyse du temps réel

« L’analyse en temps réel » pourrait également être appelée « perception en continu ». Ce terme décrit la capacité d’un agent à percevoir le monde afin de pouvoir réagir efficacement. Dans le contexte de la robotique, une telle capacité devient extrêmement importante car, dès qu’un modèle de vision traite une image, le monde peut changer radicalement. Dans la vidéo suivante, nous montrons comment une latence importante peut avoir un impact sur notre croyance sur l’état du monde.

Détection avec le modèle latence mask-rcnn
Détection avec notre modèle de latence
Détection avec notre modèle de latence + notre réseau de flux optique

En effet, de récente recherches montrent que des mesures telles que la précision moyenne (AP) qui sont utilisées pour évaluer les détecteurs sémantiques pourraient chuter de 38,0 à 6,2 sous des contraintes de temps réel. Comme toutes les tasses sont similaires, le test three cup monte, met au défi les algorithmes actuels d’être à la fois précis (précision), rapides (temps d’inférence) et efficaces (calcul sur un matériel limité). Dans notre cas, nous avons réussi à résoudre ce problème en exécutant trois réseaux avec quatre sorties (bbox, masques, flux, profondeur) en temps réel dans un ordinateur portable de jeu.

Détails technique

La technologie que nous utilisons est basée sur une architecture de conception modulaire inspirée des zones du cortex visuel humain. En effet, nous connaissons, grâce à des décennies de recherche en neurosciences, les facteurs impliqués dans la perception visuelle des mammifères. Comme le prévoit le détecteur sémantique actuel (Yolo, Mask-RCNN, SSD), Les humains peuvent détecter et reconnaître des entités spécifiques. Cependant, notre vision biologique ne se limite pas à la détection sémantique et inclut d’autres processus pour estimer le mouvement et la profondeur. Au-delà de son utilité pratique, une telle estimation joue un rôle important dans le développement des bébés pour comprendre une scène. Dans le contexte des applications robotiques, cette architecture apporte également des valeurs pour l’émergence des capacités de vision et des applications pratiques et expérimentales telles que le test three cup monte.

Comme règle importante, nous avons refusé d’adapter spécifiquement nos réseaux et l’architecture de notre technologie à ce problème particulier. Nous avons observé que les benchmarks ont tendance à biaiser les solutions proposées vers une procédure d’optimisation axée sur le score. Nous préférons viser l’objectif à long terme lié à un benchmark plutôt que des solutions spécifiques au problème. C’est la philosophie que nous avons suivie en abordant cette tâche.

« Lorsqu’une mesure devient un objectif, elle cesse d’être une bonne mesure. »

– Marilyn Strathern.

Pipeline

Détection sémantiquePour relever ce défi, nous avons utilisé un détecteur sémantique basé sur les prédictions de la boîte et du masque. Suivant la procédure décrite ci-dessus, nous n’avons pas spécifiquement entraîné notre détecteur sémantique sur les tasses montrées dans la vidéo ni sur le jeu de données spécifique des tasses. Cependant, notre détecteur sémantique peut détecter et segmenter les objets de la vidéo. COCO dataset,y compris certains objets venant de la cuisine comme des tasses.

Suivi d’objets en mouvement :Comme le monde est toujours en mouvement, nous utilisons un réseau de flux optique pour estimer le mouvement de chaque image. Le réseau est entraîné sur des données synthétiques ainsi que sur des données réelles de manière non supervisée. Au-delà de la simple application du flux optique, nous utilisons également l’estimation de l’occlusion pour détecter quand un objet passe devant un autre ou quand un objet disparaît.
En outre, le détecteur sémantique produit une intégration spatiale des objets, ce qui permet de détecter si un objet est perdu pendant le suivi.

Estimation de la profondeur: La vision humaine est basée sur la vision stéréo, ce qui signifie que nous utilisons deux yeux pour avoir une idée de la distance à laquelle se trouve chaque objet dans la scène. De même, nous entraînons un réseau stéréo pour estimer la profondeur à partir des deux caméras. Cette estimation est importante pour détecter les interactions d’objets ambigus ainsi que pour prédire leurs positions futures.

Analyse en temps réel: Nous utilisons des mécanismes d’attention (qui ne sont pas directement liés aux transformateurs en PNL) inspirés des processus cognitifs neuronaux pour optimiser la vitesse d’inférence de nos modèles. Bien qu’il s’agisse encore d’une technologie en attente de brevet, ce processus est basé sur de nouvelles architectures et méthodes de réseaux neuronaux pour analyser efficacement une scène en temps réel. Ainsi, nous sommes en mesure d’utiliser des réseaux neuronaux de pointe plus rapidement dans du matériel moins coûteux. Chacune des méthodes précédentes peut donc bénéficier de ces améliorations pour fonctionner dans des scénarios en temps réel.

Tracking: En plus des modules présentés ci-dessus, nous avons ajouté un algorithme de suivi (MOT) qui combine les estimations de chaque réseau. Comme chaque module fournit déjà des informations significatives telles que les détections, les distances, les mouvements et les occlusions, nous n’avons pas eu besoin d’inclure un large éventail de post-traitements pour fusionner les sorties de tous les réseaux. En effet, les sorties des modules tendent à expliquer par elles-mêmes la plupart des événements de la scène, limitant ainsi le besoin de calculs de post-traitement lourds.

Prochaines étapes et améliorations

Newsletter

Visual Behavior travaille sur l’avenir de la robotique. Bien que cette expérience ait été axée sur la recherche, elle donne un excellent retour d’information sur la façon dont notre système pourrait comprendre des scènes complexes. Pour rester informé de notre prochaine démonstration et de la publication du projet sur GitHub, inscrivez-vous à notre newsletter ou suivez-nous sur les médias sociaux. Le test three cup monte n’était qu’une première étape vers l’objectif ultime de construire le futur des systèmes robotiques. Nous publierons bientôt du contenu pour la communauté et montrerons comment une telle technologie pourrait être appliquée à des problèmes du monde réel.


Plus d’articles

Comprendre le comportement humain

Dans cet article, nous présentons un autre aspect de notre système visuel. Au cours du premier test de perception visuelle Three Cup Monte Test, nous avons démontré les capacités du logiciel à suivre des objets et à comprendre leurs mouvements et leur interaction dans le monde extérieur…..

Voir l'article