Robotics N°1

Pourquoi l'IA en robotique est-elle différente des autres systèmes d'IA ? 

Partie 1 : Qu’est-ce qui vous intéresse ?

Dans cette série d’articles, nous aborderons les particularités qui rendent l’intelligence artificielle en robotique vraiment différente des autres domaines de l’IA.

Disclaimer : nous parlerons beaucoup des voitures autonomes mais la robotique va au-delà de ce cas d’utilisation. Les industries ont dépensé des milliards de dollars pour tenter de résoudre ce défi spécifique de la robotique autonome, et il est riche d’enseignements de penser à l’avenir de l’IA appliquée au domaine de la robotique.


Dans ce premier article, nous allons parler de ce dont on se soucie lors de la conception d’un système d’IA. 

Il existe une différence évidente entre la conception d’un pilote automatique pour les avions ou un joueur IA pour un jeu vidéo. Les résultats sont très différents et il est évident qu’ils impliquent des processus de développement différents. Dans un cas, vous voulez développer un système zéro défaut, dans l’autre, vous vous concentrez davantage sur l’équilibre, la créativité, etc.

En robotique, chaque fois que vous essayez de détecter des personnes, de classer des images ou de suivre des objets, vous optimisez certains paramètres ou indicateurs clés de performance pour mesurer la distance (ou la proximité) qui vous sépare de votre objectif. Ces mesures vous permettent de savoir objectivement si votre algorithme est performant, combien de fois il réussit ou échoue. Nous utilisons presque toujours les mêmes, comme la précision ou l’erreur absolue moyenne, selon le cas. 

Mais derrière ce consensus, ces mesures en disent long sur ce que nous essayons de faire et nous verrons comment elles influencent les cas d’application, notamment en robotique.

Optimisation du meilleur, du moyen ou du poire des cas ?

L’industrie de l’IA est très proche de la recherche. Les articles de recherche se transforment rapidement en cas d’utilisation industrielle, révolutionnant parfois les processus antérieurs. Cependant, les objectifs de la recherche peuvent être très différents de ceux de l’industrie, notamment en ce qui concerne l’utilisation de métriques.

Les articles de recherche semblent publier des métriques presque neutres, telles que l’exactitude moyenne et la précision moyenne. Comme ils ne sont pas motivés par un objectif applicatif, ils traitent tous les échantillons (exemples) avec la même importance. Mais ils montrent souvent certains résultats « qualitatifs » pour être convaincants, par exemple lorsque des objets sont bien détectés ou que des images sont bien classées. Ils essaient également de présenter leurs meilleurs résultats en mettant en avant leurs métriques les plus performantes. Cela conduit à un cas que nous appellerons « optimisation du meilleur cas » ou, au moins, « optimisation du cas moyen ». Nous parlons ici d’optimisation humaine, c’est-à-dire du fait que les chercheurs conçoivent et optimisent leurs recherches pour obtenir de bons résultats pour ces cas spécifiques.

Les applications des GAFAs tombent presque dans la même catégorie. Même si elles ont un cas d’utilisation applicatif, elles optimisent le « cas moyen » car aucun des événements n’est critique pour elles. Prenons par exemple un système de modération automatique, comme celui utilisé par Youtube. Leur objectif est d’atténuer l’impact des vidéos hors-la-loi sur leur plateforme. Réduire de 50 % le nombre de vidéos violant les normes de la communauté est une bonne nouvelle. C’est une mesure moyenne. Il existe de nombreux exemples de ce type : la détection des visages dans les photos Facebook, les sous-titres automatiques dans les vidéos ou les numéros de rue dans Google Maps. Ils appartiennent tous à la catégorie « optimisation du cas moyen ».

Au contraire, les applications robotiques, comme toutes les autres industries critiques, doivent être optimisées pour le pire des cas. Pour s’en convaincre, il suffit de jeter un coup d’œil à l’industrie des voitures autonomes. En fait, ces voitures fonctionnent très bien en moyenne, presque mieux que les conducteurs humains.  Mais si vous regardez l’actualité des accidents de voitures autonomes, celui d’Uber par exemple, vous comprendrez le problème auquel cette industrie est confrontée. Un accident est le pire cas que la conduite autonome puisse rencontrer et la plupart des gens ne regardent que le pire effet pour dire si la conduite autonome est bien ou pas. Même si les voitures autopilotées d’Uber ont parcouru des millions de kilomètres en toute sécurité, un seul accident suffit à mettre fin à leurs expériences. Toute l’industrie de la voiture autonome est dirigée par la minimisation des pires scénarios.

En autre illustration de l’optimisation des pires scénarios, on peut parler de SpaceX, spécialiste de la chute. Même si 99% de leurs systèmes fonctionnent, il suffit d’un seul sous-système défaillant pour faire des boules de feu géantes.

Lorsque vous faites de la robotique, vous vous souciez beaucoup plus des pires cas que des cas moyens ou des meilleurs cas. Si vous placez un robot de 100 kilogrammes au milieu d’une foule, vous êtes bien plus préoccupé par la possibilité que le robot fonce sur la foule que par le résultat « moyen » où le robot évite les gens. 

Cette particularité n’est pas réservée à la robotique, elle s’applique à tous les systèmes dits critiques. 

Pour les entreprises de robotique, il existe une particularité, car comme nous l’avons décrit précédemment, les algorithmes d’apprentissage automatique sont développés dans un état d’esprit d’optimisation du « meilleur cas ». Or, les utiliser pour la robotique autonome peut s’avérer problématique et représenter une grande perte de temps et de ressources.

Le long tail ou la malédiction des évènements rares.

En statistiques et en affaires, la long-tail de certaines distributions de nombres est la partie de la distribution présentant de nombreuses occurrences ou événements rares (en jaune) loin de la « tête » ou partie centrale (en vert) de la distribution.

Un problème de cette optimisation du pire cas en robotique et en apprentissage automatique est apparu avec les événements rares. Les systèmes d’apprentissage automatique sont formés sur de grands ensembles de données et évalués sur de nombreux échantillons. C’est un cas d’optimisation du « cas moyen » où le modèle est en fait presque concentré et évalué sur les événements les plus probables. Dans le cas où la métrique est liée au pire cas, cette approche donne de mauvais résultats. (Il existe certaines méthodes pour atténuer ce problème, comme l’équilibrage des ensembles de données ou l’extraction d’échantillons durs, mais elles ne sont souvent pas suffisantes).

Comme vous le savez, l’apprentissage automatique, et en particulier l’apprentissage profond, a besoin de beaucoup d’exemples pour être performant, souvent des centaines par cas. Évidemment, les entreprises de voitures autonomes acquièrent des données en conduisant des voitures. Imaginez un événement rare qui ne se produirait qu’une fois tous les millions de kilomètres. Même si vous exploitez des méthodes d’atténuation, vous aurez besoin de centaines d’exemples de cet événement, qui représentent des centaines de millions de kilomètres. Et même avec cela, vous ne pouvez pas être sûr que cet événement sera géré correctement.

Vous pouvez penser que ce n’est pas un problème, car les événements rares sont rares, par définition. Nous pouvons donc les gérer par d’autres méthodes, comme l’utilisation de techniques spécifiques ou de codes artisanaux (par opposition à des codes appris) pour les détecter. Mais dire qu’un événement est rare signifie seulement qu’il se produit rarement, cela ne renseigne pas sur le nombre d’événements rares existants. Si vous avez un million d’événements rares différents ne se produisant qu’une seule fois sur des millions de kilomètres, vous obtenez un événement rare par kilomètre, même s’ils sont « rares ». Vous aurez besoin de millions de solutions spécifiques pour chacun d’entre eux. C’est ce que nous appelons la « malédiction des événements rares ».

Le problème du long-tail est bien connu des fabricants de voitures autonomes. Les coûts et les délais de développement augmentent de manière exponentielle avec les performances du système d’IA. Comme la gestion de tout type d’événement coûte la même chose si cet événement se produit souvent ou rarement, les derniers pourcentages de performance (ou de sécurité) du système sont très coûteux. Ils sont composés d’un nombre accru d’événements rares dont la résolution nécessite du temps et de l’argent. De plus, certains événements rares nécessitent de la créativité pour être résolus, et cette caractéristique conduit à des solutions artisanales réalisées par des ingénieurs. En fin de compte, les solutions artisanales remplacent l’apprentissage automatique lorsque vous entrez dans la long-tail.

Robustesse et Précision

Plus que des petites astuces, l’optimisation dans le pire des cas exige de repenser en profondeur les systèmes d’IA. Lorsqu’un système résout le problème moyen ou le meilleur cas, il utilise toutes les informations disponibles pour améliorer ses performances. Lorsqu’un système est conçu pour le problème du pire cas, il utilise généralement les informations disponibles de manière redondante afin de minimiser la probabilité d’échec. Il s’agit d’une différence de conception majeure qui conduit à des solutions très différentes. 

Les algorithmes d’IA sont conçus (par des chercheurs qui cherchent à optimiser le meilleur cas ou le moyen cas) pour utiliser leurs informations afin de produire les meilleures décisions. C’est l’une des principales raisons pour lesquelles les systèmes de vision de l’IA peuvent être trompés par des autocollants ou, plus récemment, par des notes manuscrites. À l’inverse, la vision humaine utilise la redondance pour faire un compromis entre les meilleures décisions et les décisions robustes.

Pour nous, un panneau STOP peut difficilement être trompé par de simples autocollants car nous construisons un contexte global et redondant de l’objet. Notre compréhension d’un panneau STOP ne se limite pas à une forme octogonale rouge dans une image mais est composée de plusieurs éléments : il a une forme spécifique isolée du fond en termes de couleur, mais aussi de profondeur. Il se trouve souvent à environ 2 mètres du bord de la route. Il est souvent utilisé en conjonction avec certaines marques peintes sur le sol. Il est le plus souvent statique par rapport au sol (pas de mouvement spécifique). Tout écart par rapport à ces a priori nous incite à faire attention, au lieu de simplement manquer le panneau. 

En parlant de panneaux d’arrêt, un des cauchemars des fabricants de voitures autonomes est l’événement rare de travailleurs tenant des panneaux d’arrêt, un bon exemple (pas si rare) d’un problème lié à la long-tail. 

Comment nous gérons cela chez Visual Behavior

Chez Visual Behavior, nous avons accordé une attention particulière à la conception de systèmes robustes à différents niveaux. 

La principale façon d’atténuer le problème du long-tail et des événements rares est au cœur de la technologie de Visual Behavior. Nous tendons à résoudre le problème général de la robotique. Notre technologie est conçue pour être destinée à un usage général, avec bon sens et adaptabilité. Comme notre technologie ne dépend pas d’un objectif, la notion d’ « événement rare » est moins présente. Un ballon de basket qui rebondit sur la route est un événement rare pour une voiture autonome. Cependant, pour un algorithme qui a appris à analyser des matchs de sport, le ballon a des mouvements plutôt prévisibles. Par analogie, les humains apprennent à conduire une voiture en quelques dizaines d’heures, mais en fait, ils utilisent des années d’expérience qu’ils ont dans ce monde et transfèrent leurs connaissances à cette nouvelle compétence spécifique.

Une autre façon d’atténuer ce problème consiste à concevoir des algorithmes multimodaux/multitâches persistants de bout en bout. Nos systèmes ne font pas de prédictions indépendantes sur le monde mais construisent plutôt une compréhension complète de la scène, qui est spatialement et temporellement stable. Ils font des prédictions grâce à cette représentation du monde.

Newsletter

Conclusion

Notre premier voyage vers la spécificité des systèmes d’IA robotiques nous a conduit à la différence entre l’optimisation du meilleur cas/cas moyen et l’optimisation du pire cas. Nous avons vu que les systèmes critiques ont besoin de solutions spécifiques pour minimiser les défaillances et les pires cas. Nous avons analysé le problème des systèmes à long-tail remplis d’événements rares et la difficulté (et le coût !) à les gérer. Enfin, nous avons eu un aperçu de la façon dont les humains gèrent ce problème et comment les systèmes robotiques peuvent s’en inspirer.

Nous avons vu que les systèmes robotiques sont pleins de compromis, et ne sont pas seulement guidés par la précision. La prochaine fois, nous parlerons d’un autre compromis important des systèmes d’IA robotiques : la contrainte de temps.