2025-01-07 21:03:00
En 2012, la nouvelle édition du célèbre concours « défi de reconnaissance visuelle à grande échelle » (Défi de reconnaissance visuelle à grande échelle ImageNet), où ont été présentées des innovations dans le domaine de la vision par ordinateur, capables de reconnaître des millions d’images appartenant à des milliers de catégories différentes, a marqué une étape technologique. Là, le scientifique Geoffrey Hintonprix Nobel de physique 2024, a annoncé avec ses collaborateurs Alex Krijevski e Ilya Sutskever un nouveau modèle de réseau neuronal, qu’ils ont nommé AlexNet.
Ce qui frappe dans le nouveau modèle, c’est qu’il a été capable d’obtenir des rendements bien supérieurs à ceux attendus des résultats obtenus lors des éditions précédentes. Le groupe de Hinton avait réussi à réduire l’erreur de reconnaissance à seulement 15 %.
Ce fut le tournant qui lança la popularité des modèles de type AlexNet, appelés réseaux de neurones convolutifs (CNN), quelle est leur importance dans l’impact actuel des réseaux de neurones sur l’intelligence artificielle. Cela a également catapulté l’invention de modèles ultérieurs, basés sur les idées fournies par CNN.
Mais qu’est-ce qui a motivé l’apparition soudaine de ces nouveaux modèles ?
L’universalité des données
La principale source d’apprentissage des réseaux de neurones sont les données. Afin de développer des modèles capables d’effectuer efficacement des tâches générales très complexes, de la même manière qu’un être humain le ferait, des modèles comportant de nombreux paramètres sont nécessaires.
Mais pour que ces modèles, dits « profonds », puissent apprendre, il faut une énorme quantité de données. Cela n’était possible qu’avec l’émergence des réseaux sociaux et autres plateformes numériques.
Facebook, Twitter, Instagram, YouTube et TikTok génèrent quotidiennement d’immenses volumes d’informations sous forme de textes, d’images, de vidéos et de métadonnées. Cela permet de collecter et de stocker des données massives, comme il était jusqu’à présent impensable de l’imaginer.
Selon Homme d’ÉtatEn 2024, la quantité totale de données créées, capturées, copiées et consommées dans le monde atteindra 149 zettaoctets (ZB ; l’unité équivaut à 1 180 591 620 717 411 303 424 octets). Et il devrait atteindre 394 ZB au cours des cinq prochaines années.
Le développement de l’industrie du jeu vidéo
Depuis la fin du siècle dernier, l’industrie du jeu vidéo génère de plus en plus de profits. En seulement une décennie, la croissance du chiffre d’affaires a été exponentielle, dépassant celle du cinéma et de la musique réunis, ce qui a dopé la compétitivité des sociétés de développement. Dans la course à la création de jeux aux graphismes plus réalistes, les besoins en puissance de calcul ont radicalement augmenté.
De ce besoin est né le développement d’un nouveau module de processus appelé «unité de traitement graphique» (GPU). Les GPU ont été spécialement conçus pour optimiser les opérations matricielles, qui sont celles effectuées dans les environnements graphiques, puisque les images sont stockées sous forme d’énormes fichiers. tableaux de pixels.
Ils sont également conçus pour être gérés en parallèle, en utilisant plusieurs GPU en même temps. Cela permettait aux jeux d’avoir des images de résolution de plus en plus élevée, sans altérer la vitesse de mouvement. Les images apparaissent naturellement dans le jeu, sans sauter, produisant une apparence semblable à une vidéo.
Il s’avère que les modèles de réseaux neuronaux ont également un représentation matricielle de ses paramètres. Autrement dit, les opérations à effectuer sont matricielles et les matrices utilisées, comme dans les environnements graphiques, sont très grandes.
Ainsi, grâce à l’essor de l’industrie du jeu vidéo, la communauté scientifique disposait d’un nouvel appareil capable de fonctionner avec une capacité suffisante pour concevoir des réseaux de neurones avec des centaines de millions de paramètres.
La complexité des modèles
Les ingrédients ont été servis. D’une part, la nécessité de modèles plus complexes pour pouvoir gérer l’énorme quantité de données existantes, afin d’extraire des informations pertinentes à partir de données non structurées. D’autre part, le développement d’un dispositif capable d’entraîner des modèles complexes avec un très grand nombre d’exemples.
C’est à partir de ce moment que Hinton et son équipe ont pu concevoir un modèle complexe, le réseau précité AlexNetcomposé de onze couches cellulaires de complexité différente, comprenant plus de 60 millions de paramètres. De plus, ils ont utilisé la nouvelle technologie GPU pour l’entraîner avec les millions d’images disponibles, jusqu’à obtenir des résultats sans précédent.
Ce qui est arrivé ensuite était inimaginable. De nouveaux modèles de réseaux profonds aux performances de plus en plus grandes sont apparus, comme ResNet oui VGG. Des modèles génératifs sont nés – capables d’imiter des voix, de produire des images et des vidéos d’une manière impossible à distinguer des créations humaines –, réseaux génératifs antagonistes et le auto-encodeurs variationnels.
Dans le même temps, des modèles sont apparus, capables de traiter le langage naturel d’une manière qui n’avait jamais été possible. Et enfin, les modèles appelés transformateur et de attentionqui ont joué un rôle clé dans le développement de modèles de langage tels que ChatGPT et Gemini, qui ont un impact considérable sur la mise en œuvre de l’IA dans le monde.
#Comment #les #jeux #vidéo #sont #devenus #moteur #lIA #moderne
1736297917