Vision par ordinateur et reconnaissance d’images : focus sur les jeux de données

Vision par ordinateur et reconnaissance d’images : focus sur les jeux de données

2023-12-22 12:39:29

Une étude récente du MIT jette un regard critique sur les ensembles de données d’images standard utilisés pour former les modèles de vision par ordinateur actuels. Des jeux de données jugés trop « faciles », trop « simples ». Et une formation « facile » conduit à de mauvais résultats.

L’formation de systèmes de vision par ordinateur pour une reconnaissance précise des images et, par conséquent, des objets qui peuplent la scène à analyser, présente un défaut fondamental.

La question a été soulevée par un groupe de chercheurs du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) et du Centre des cerveaux, des esprits et des machines (CBMM) – tous deux au sein du Massachusetts Institute of Technology (MIT) – auteurs de l’étude illustrée dans «Dans quelle mesure les ensembles de données de vision par ordinateur sont-ils difficiles ? Calibrage de la difficulté de l’ensemble de données en fonction du temps de visualisation» et présenté à la conférence annuelle « Neural Information Processing Systems » (NeurIPS), qui s’est tenu à la Nouvelle-Orléans du 10 au 16 décembre 2023.

Commençons par dire que, dans le domaine des études sur l’intelligence artificielle, la capacité de « reconnaître » une image présuppose l’identification des choses, des personnes et des lieux présents en son sein et représente la « base » des tâches requises d’un modèle de vision par ordinateur. De cette capacité découlent ensuite des opérations plus raffinées et complexes, dont la classification et la segmentation d’une même image, l’analyse des interactions entre les objets qui la composent, ainsi que leurs déplacements dans l’espace examiné.

Selon l’équipe du MIT, le défaut sous-jacent réside dans le fait que, malgré les nombreux travaux de ces dernières années visant à améliorer le niveau de précision et les temps d’analyse des modèles d’intelligence artificielle responsables de la reconnaissance d’images, les ensembles de données standards avec lesquels ils sont formés continuent d’être caractérisés par la présence de «données vidéo trop simples».

La démarche de ceux qui les créent tend à «sous-échantillonnage des images jugé difficile pour la machine», commente le groupe de recherche. Ce qui conduit inévitablement à des ensembles de données orientés vers des images moins complexes et la surestimation qui en résulte des performances du laboratoire. Quand à la place, ce sont les performances dans le monde réel qu’il faut regarder. Surtout celles dans lesquelles les images à analyser présentent des formes déformées, une faible définition, des occultations ou des variations de répartition dans l’espace représenté.


Si, pendant longtemps, le besoin de ceux qui créent des ensembles de données standards pour entraîner les systèmes de vision artificielle à la reconnaissance d’images était celui de la « quantité », il n’est aujourd’hui plus possible d’ignorer les aspects liés à la difficulté et à la complexité des données vidéo à analyser.
Inspirés par l’allongement des temps de traitement des stimuli visuels chez l’homme face à des images considérées comme « difficiles », les chercheurs du MIT ont défini une méthodologie permettant de calculer le niveau de difficulté des données d’entraînement.
Les tests effectués pour prouver la validité de la nouvelle méthodologie ont utilisé des images extraites de deux ensembles de données standards bien connus tels qu’ImageNet et ObjectNet, démontrant les hypothèses de départ formulées par l’équipe, à savoir que les deux bases de données sont déséquilibrées vers des images simples, reconnaissables de manière court instant .

Vision par ordinateur et reconnaissance d’images : il est urgent de mesurer le degré de difficulté des données d’entraînement

La qualité d’un système d’intelligence artificielle est directement proportionnelle à la qualité des données utilisées pour le former. Nous ne devrions jamais ignorer cette hypothèse. D’autant plus lorsqu’on parle de vision par ordinateur et de reconnaissance d’images, dont les applications vont de la conduite autonome à l’imagerie diagnostique, de la vidéosurveillance la plus avancée à la maintenance prédictive dans le secteur industriel, pour n’en citer que quelques-unes.

«En général – soulignent les auteurs – le problème des ensembles de données de formation standard persiste, car Les développeurs d’IA n’ont aucune indication sur leur niveau de difficulté. Et sans ces informations il devient compliqué d’évaluer objectivement les progrès d’un système de vision artificielle, son approche de la performance humaine, couvrant toute la gamme».

Pendant des années, la plus grande préoccupation de ceux qui rassemblent des ensembles de données pour entraîner des algorithmes d’IA à la reconnaissance d’images a été leur taille : le slogan était “plus c’est gros, c’est mieux”, « Plus nous collectons de données, meilleure sera la formation. » La notion de « complexité » a été complètement ignoréece qui est plutôt typique de la vision humaine.

Toutefois, en se concentrant sur les techniques et les méthodes visant à mesurer la difficulté des données vidéo au fur et à mesure de leur collecte, il est possible calibrer les ensembles de données et créer les ressources nécessaires pour développer des systèmes d’IA plus équilibrés du point de vue de la performance, souligne l’équipe.

La métrique « Durée minimale de visionnage »

Certaines données vidéo nécessitent plus de temps pour être traitées, reconnues et classées par le système visuel humain. Cet allongement des temps est dû, par exemple, à un mauvais éclairage, à des images floues, à une scène désordonnée et bondée, dans laquelle les objets se chevauchent, ne sont pas au premier plan ou sont partiellement cachés.

Partant de ce principe absolu, les auteurs de l’étude sur la vision par ordinateur et la reconnaissance d’images ont développé une métrique appelée «Durée minimale de visionnage »(MVT) – ou “durée minimale de visionnage” – «capable de quantifier la difficulté de reconnaître une image en fonction du temps mis par un sujet pour la visualiser avant de procéder à une identification correcte» expliquent-ils.

La nouvelle métrique a été testée sur un échantillon de personnes utilisant des sous-ensembles d’ImageNet et d’ObjectNet. Le premier est un large ensemble d’images réelles extraites du Web (plus de 14 millions, toutes étiquetées), spécialement créées pour la formation dans le domaine de la vision par ordinateur ; le second est un ensemble de données similaire, mais – contrairement au précédent – les objets représentés ont des arrière-plans, des points de vue et des rotations complètement aléatoires.

ImageNet et ObjectNet, deux ensembles de données standards en cours d’investigation

Pendant le test, les participants ont vu des images clignotantes sur un écran, une à la fois. durée comprise entre 17 millisecondes et 10 secondes. La tâche consistait à classer correctement l’objet, en choisissant parmi 50 options.

Les images qui nécessitent des flashs courts pour être reconnues sont celles considérées comme « faciles » à identifier, tandis que celles qui nécessitent quelques secondes de visionnage entrent dans la catégorie « difficiles ». L’objectif était un : vérifier le niveau de difficulté des images prises sur ImageNet et ObjectNet, que les chercheurs du MIT ont toujours considéré comme sous-échantillonnées. C’était l’hypothèse de départ.

Eh bien, après plus de 200 000 essais, les deux ensembles de données semblaient déséquilibrés vers des images plus simples, reconnaissables plus rapidement, la grande majorité des performances dérivées d’images faciles pour les sujets auxquels elles étaient administrées.

Quelques-unes des images présentées aux participants lors du test avec lesquelles la métrique « Durée minimale de visionnage » a été testée : en commençant par les plus simples, à gauche, pour arriver aux plus complexes, à droite. Ci-dessus, les temps de visualisation minimaux avant qu’ils soient correctement reconnus, de 17 millisecondes à 10 secondes (Source : « Quelle est la difficulté des ensembles de données de vision par ordinateur ? Calibrer la difficulté des ensembles de données en fonction du temps de visualisation » – Laboratoire d’informatique et d’intelligence artificielle (CSAIL) et Center for Brains , Minds and Machines (CBMM) du Massachusetts Institute of Technology).

A la fin de l’expérimentation, l’équipe a mis à disposition les jeux de données utilisés – dont les images ont été marquées en fonction de la difficulté de reconnaissance – ainsi qu’une série d’outils pour calculer automatiquement le Temps Minimum de Visualisation, permettant ainsi à d’autres groupes de travail d’ajouter cette métrique aux benchmarks existants et l’étendre à diverses applications.

Vision par ordinateur et reconnaissance d’images : les prochaines étapes de la recherche

Pour mettre en œuvre les capacités des machines dans le traitement et la classification des signaux vidéo, il est important de travailler à trouver le plus de corrélations possible entre ces opérations et les difficultés exprimées par le « temps de visionnage » nécessaire. La fin est générer des versions plus difficiles (ou plus faciles) des ensembles de données d’images utilisés pendant la formation. L’accent est mis sur le “calibrage”, explique l’équipe d’étude au sujet de la vision par ordinateur et de la reconnaissance d’images :

«Cela contribuera à développer des références plus réalistes, ce qui conduira non seulement à des améliorations des performances des systèmes de vision par ordinateur, mais également à des comparaisons plus justes entre l’intelligence artificielle et la perception visuelle humaine.»

À l’avenir – poursuit-il – avec des modifications par rapport à l’expérience récente, «une métrique de difficulté MVT pourrait également être créée pour classer plusieurs objets en même temps. Calibrer notre domaine en fonction de ce que les humains peuvent faire dans un large éventail de tâches de vision, compte tenu de certains ensembles de données et de certaines conditions, reste un défi important, mais que nous pensons désormais pouvoir relever.».

Anticipation des scénarios futurs

Que devrions-nous attendre – dans trente, quarante, cinquante ans – d’une machine qui perçoit mieux que notre appareil optique tous les stimuli visuels du monde réel (faciles et difficiles, simples et complexes) et qui, ensuite, les traite de manière uniforme ? plus rapide et plus précis que notre cerveau ?

La vision par ordinateur et la reconnaissance d’images sont l’un des sujets les plus fascinants de l’IA, mais elles suscitent également un certain choc en raison du « pouvoir » que pourraient avoir – dans un avenir lointain – ses applications concrètes.

Au-delà de la conduite autonome et de la maintenance prédictive évoquées plus haut dans le secteur industriel, les utilisations dans le domaine médical et dans la vidéosurveillance publique sont celles qui sont aujourd’hui difficiles à calculer.

Pensons simplement à l’analyse des images (radiographies, scanners, IRM, TEP) dans le diagnostic précoce des maladies chroniques graves, des maladies neurodégénératives et oncologiques, dont l’infiniment petit détail nous échappe encore aujourd’hui. De nombreuses vies seraient sauvées ou, en tout cas, il serait possible de ralentir encore la progression de certaines pathologies, grâce à un système de vision artificielle poussé à sa puissance maximale.

Le appareils photo avec, à bord, un système de analyse vidéo capable d’analyser tout type de scène dans un temps très court, pourrait, dans 50 ans, être systématiquement utilisée – dans le secteur public comme dans le secteur privé – pour leanalyse prédictive de la lutte contre la criminalité et pas seulement (comme c’est le cas aujourd’hui) à des fins de simple dissuasion.

Il s’agit de scénarios futuristes, que l’on peut aujourd’hui anticiper en cartographiant leurs impacts, afin de faire face aux changements et aux révolutions qu’ils entraîneront inévitablement avec eux à terme.

Reproduction réservée © (Article protégé par le droit d’auteur)



#Vision #par #ordinateur #reconnaissance #dimages #focus #sur #les #jeux #données
1703279318

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.