Nous entraînons notre propre neurone image sur le GPU. L’icône de toutes les icônes YOLO 11 sera maîtrisée par un novice complet – Živě.cz

Nous entraînons notre propre neurone image sur le GPU. L’icône de toutes les icônes YOLO 11 sera maîtrisée par un novice complet – Živě.cz

Les chatbots IA existent depuis près de deux ans et, pour beaucoup, ils constituent déjà la même révolution que l’avènement massif d’Internet il y a trente ans. Les soi-disant grands modèles de langage résoudront peut-être un jour même les problèmes les plus complexes de l’humanité, mais pour l’instant, ils soutiennent encore toute une constellation de neurones beaucoup plus simples.

Un modèle d’IA mille fois plus petit n’écrira pas un poème sur Brno et ne peindra pas le pape François dans une piscine avec de jolies religieuses, mais d’un autre côté, il peut également fonctionner sur un processeur de caméra de sécurité relativement simple.

Il faut d’abord du fer

Dans le prochain volet de notre série de programmation électronique, nous l’essaierons en pratique et nous entraînerons notre propre neurone de classification d’images. Et pour ne pas passer toute la fin de la puberté à faire de l’exercice, on fera appel à une carte graphique à l’aide GeForce RTX 4060 Ti Windforce OC 16G.


Le GPU avec la puce Nvidia GeForce RTX 4060 Ti et dans la version avec 16 Go de mémoire deviendra la machine de référence pour nos jeux avec neurones basiques et IA générative pour les semaines et mois à venir

Le processeur graphique de Nvidia est armé 4 352 cœurs de calcul CUDA un 16 GB mémoires rapides, l’apprentissage automatique peut donc être considérablement parallélisé – divisé en sous-tâches traitées côte à côte en même temps.

Lorsque vous avez 4 000 cœurs au lieu de 12 dans votre ordinateur

Autrefois, cette approche rendait le rendu des polygones 3D dans les jeux PC incroyablement rapide et les cerveaux explosifs encore plus photoréalistes dans la série Battlefield, mais les esprits intelligents ont vite découvert que des algorithmes spéciaux pour les miniprocesseurs CUDA pouvaient tout aussi bien faire autre chose.

4833a720-04a7-46fb-a49f-30ff559894eb
Un Xeon de bureau n’est qu’un Xeon, et même si mon E5-1650 v4 est très ancien, 12 cœurs à 3,6 GHz feront encore une tonne de travail. Mais la GeForce RTX 4060 Ti embarque 4 352 cœurs de calcul !

Grâce au parallélisme massif, ils peuvent trier un tableau de 200 millions de nombres aléatoires en, disons, un ridicule 130 millisecondes. À titre de comparaison, sur mon Xeon de bureau vieillissant à douze cœurs (Intel Xeon E5-1650 v4), la même tâche prend environ 5 600 millisecondes.

Alors maintenant, nous savons tous pourquoi nous entraînons les neurones sur les cartes graphiques. Ils disposent de milliers de petits cœurs de calcul, ce qui leur permet de résoudre très rapidement un problème que nous pouvons décomposer en eux. Bien que les cœurs d’un processeur de bureau classique puissent être plus rapides en eux-mêmes et soient bien sûr beaucoup plus polyvalents, nous en avons encore trop peu sous le capot de la machine.

YOLO 11ème génération

Assez de théorie, passons à la pratique ! Nous sommes en 2024, il existe de nombreuses technologies éprouvées disponibles, nous n’avons donc pas besoin de réinventer la roue. Nous allons entraîner notre détecteur d’images à Réseau neuronal YOLO d’Ultralytics, déjà disponible aujourd’hui dans son propre format 11ème générationest de loin le plus populaire dans son domaine et peut gérer cinq tâches de base :

Chacune des variantes est également disponible en plusieurs tailles apprises de 1,6 million à 62 millions de paramètres. Je vous rappelle simplement que le nombre de paramètres correspond à la complexité du réseau de neurones appris, et les grands modèles de langage peuvent en avoir des centaines de millions, voire des milliards. Pour la même raison, ils ont besoin d’un superordinateur pour fonctionner, alors que vous pouvez faire fonctionner un neurone avec des unités de millions de paramètres sur (presque) n’importe quoi.

c1220be9-7120-4d0c-a2fe-2488a7549a5c
Capacités de base et variantes du neurone image YOLO

Nous pouvons utiliser directement le YOLO fini dans notre code en utilisant absolument la bibliothèque Ultralytics à toute épreuve pour Python. Un tel programme est vraiment suffisant avec seulement quelques lignes de code, car il suffit d’envoyer une image JPEG au modèle et il crache bientôt ce qu’il y voit.

Mais comme le modèle est petit, il n’est entraîné qu’à voir un nombre limité d’objets. Mais que se passe-t-il si nous devons l’utiliser pour détecter quelque chose qui manque dans la base de données ?

Réapprendre un réseau, c’est comme un tout-petit voyant un nouveau jouet. Ils n’apprennent pas complètement à partir de zéro

C’est déjà une tâche pour notre GPU (ou, bien sûr, un processeur CPU classique, avec le fait que l’apprentissage sera plusieurs fois plus lent), nous pouvons facilement recycler n’importe quel YOLO du menu sur nos propres données.

Je n’entrerai pas dans les détails, mais l’astuce du recyclage d’un réseau neuronal est que nous n’avons pas besoin de le former à partir de zéro, nous changeons uniquement sa dernière couche. Qu’est-ce que cela signifie en pratique ?

Si nous devions apprendre à un neurone à voir à partir de zéro, ce serait extrêmement difficile. Le réseau neuronal doit tout modéliser progressivement, comme lorsqu’un bébé ouvre les yeux pour la première fois et commence à percevoir différentes couleurs, divisions de couleurs, et commence seulement plus tard à distinguer et à identifier différents objets.

Lors du recyclage du neurone YOLO, nous n’avons pas besoin d’apprendre au réseau à voir à nouveau, mais un bambin qui sait déjà que les cinq idiots ringards au-dessus du berceau sont des jouets Temunous vous en présentons quelques nouveautés qui n’ont pas encore été vues.

Le pauvre enfant utilisera ses capacités existantes et sera capable de les identifier relativement rapidement. Essentiellement, YOLO et d’autres IA d’image fonctionnent de manière assez similaire.

Nous allons fabriquer un détecteur météo

Le rôle de loin le plus simple des modèles YOLO est classification. Dans ce cas, l’IA n’apprend pas exactement où et quel objet se trouve dans l’image, que nous pouvons ensuite marquer avec un rectangle et continuer à travailler, mais découvre seulement si l’image correspond à l’objet ou non et avec quelle probabilité.

0da873dd-3ff6-4019-83cf-f7719f977862
La variante de classification YOLO 11 est la plus simple de toutes et nous l’utiliserons donc également dans l’expérience.

Ainsi, pendant que l’IA de détection dira :

  • Je vois avec 95% de probabilité une tasse en position 135,45 et a des dimensions de 543×256 px,

L’IA de classification dira :

La détection de classification n’est pas si exigeante en termes de calcul et dans de nombreux cas, elle est plus que suffisante, y compris la mission d’aujourd’hui. Nous allons essayer de nous entraîner un détecteur météo qui classera si la photo a un ciel clair, semi-clair ou nuageux. Il n’aura pas besoin de préciser où il se trouve exactement, car cela n’a absolument aucune importance.

640950b6-9779-4edb-b6c2-8340b3212122
Notre neurone entraîné en action lors du calcul du type de météo sur la vidéo d’entrée. Le ciel se détériore progressivement, donc le nombre d’images dans lesquelles le YOLO recyclé voit un ciel partiellement clair et nuageux augmente

Nous pourrions ensuite utiliser le neurone ainsi appris, par exemple, sur un Raspberry Pi avec une caméra qui prendrait une photo de la vue depuis votre fenêtre toutes les dix minutes et enregistrerait des informations sur la météo. Ou, si vous n’êtes pas amateur de météorologie, il pourrait parcourir une archive de vos photos au fil des ans quelque part sur un NAS et stocker le mot-clé concernant la météo dans l’image au format EXIF ​​​​pour une récupération facile de toutes les photos dans ce qui était sympa.

À propos, les galeries de photos cloud AI telles que Google Photos et autres fonctionnent sur un principe similaire.

Se connecter
et lis-le gratuitement
cet article

Vous pouvez également après vous être connecté
discuter sous les articles

#Nous #entraînons #notre #propre #neurone #image #sur #GPU #Licône #toutes #les #icônes #YOLO #sera #maîtrisée #par #novice #complet #Živě.cz

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.