Home » International » Comment les innovateurs chinois en IA remettent en question le statu quo

Comment les innovateurs chinois en IA remettent en question le statu quo

by Nouvelles

QINGDAO, CHINE – 05 JANVIER : Dans cette illustration photo, le logo de Deepseek est affiché sur un … [+] Écran de smartphone le 5 janvier 2025 à Qingdao, province chinoise du Shandong. (Photo par VCG/VCG via Getty Images)

VCG via Getty Images

Les contrôles américains à l’exportation de semi-conducteurs avancés étaient destinés à ralentir les progrès de la Chine en matière d’IA, mais ils ont peut-être stimulé l’innovation par inadvertance. Incapables de compter uniquement sur le matériel le plus récent, des entreprises comme celles de Hangzhou Recherche profonde ont été contraints de trouver des solutions créatives pour faire plus avec moins.

De plus, la Chine poursuit une stratégie open source et émerge comme l’un des plus grands fournisseurs de modèles d’IA puissants et entièrement open source au monde.

Ce mois-ci, DeepSeek a publié son modèle R1, utilisant des techniques avancées telles que l’apprentissage par renforcement pur pour créer un modèle qui est non seulement parmi les plus formidables au monde, mais qui est également entièrement open source, le rendant accessible à tous dans le monde pour l’examiner, le modifier. , et bâtir sur.

DeepSeek-R1 démontre que la Chine n’est pas hors course à l’IA et qu’elle pourrait en fait dominer le développement mondial de l’IA grâce à sa surprenante stratégie open source. Grâce à des modèles compétitifs open source, les entreprises chinoises peuvent accroître leur influence mondiale et potentiellement façonner les normes et pratiques internationales en matière d’IA. Les projets open source attirent également des talents et des ressources du monde entier pour contribuer au développement de l’IA chinoise. La stratégie permet en outre à la Chine d’étendre sa portée technologique dans les pays en développement, en intégrant potentiellement ses systèmes d’IA – et par extension, ses valeurs et normes – dans l’infrastructure numérique mondiale.

Les performances de DeepSeek-R1 sont comparables à celles des meilleurs modèles de raisonnement d’OpenAI pour une gamme de tâches, notamment les mathématiques, le codage et le raisonnement complexe. Par exemple, sur le benchmark mathématique AIME 2024, DeepSeek-R1 a obtenu un score de 79,8 %, contre 79,2 % pour OpenAI-o1. Sur le benchmark MATH-500, DeepSeek-R1 a atteint 97,3 % contre 96,4 % pour o1. Dans les tâches de codage, DeepSeek-R1 a atteint le 96,3e centile sur Codeforces, tandis que o1 a atteint le 96,6e centile – bien qu’il soit important de noter que les résultats des tests de référence peuvent être imparfaits et ne doivent pas être surinterprétés.

Mais ce qui est le plus remarquable, c’est que DeepSeek a pu y parvenir en grande partie grâce à l’innovation plutôt qu’en s’appuyant sur les dernières puces informatiques.

Ils ont introduit le MLA (attention latente multi-têtes), qui réduit l’utilisation de la mémoire à seulement 5 à 13 % de l’architecture MHA (attention multi-têtes) couramment utilisée. MHA est une technique largement utilisée en IA pour traiter plusieurs flux d’informations simultanément, mais elle nécessite beaucoup de mémoire.

Pour rendre leur modèle encore plus efficace, DeepSeek a créé la structure DeepSeekMoESparse. « MoE » signifie Mixture-of-Experts, ce qui signifie que le modèle n’utilise qu’un petit sous-ensemble de ses composants (ou « experts ») pour chaque tâche, au lieu d’exécuter l’ensemble du système. La partie « clairsemée » fait référence à la façon dont seuls les experts nécessaires sont activés, économisant ainsi la puissance de calcul et réduisant les coûts.

L’architecture de DeepSeek-R1 compte 671 milliards de paramètres, mais seulement 37 milliards sont activés pendant le fonctionnement, démontrant une efficacité informatique remarquable. La société a publié un rapport technique complet sur GitHub, offrant une transparence sur l’architecture et le processus de formation du modèle. Le code open source qui l’accompagne comprend l’architecture du modèle, le pipeline de formation et les composants associés, permettant aux chercheurs de pleinement comprendre et reproduire sa conception.

Ces innovations permettent au modèle de DeepSeek d’être à la fois puissant et nettement plus abordable que ses concurrents. Cela a déjà déclenché une guerre des prix d’inférence en Chine, qui risque de se propager au reste du monde.

DeepSeek facture une petite fraction de ce que coûte OpenAI-o1 pour l’utilisation de l’API. Cette réduction spectaculaire des coûts pourrait potentiellement démocratiser l’accès aux capacités avancées d’IA, permettant ainsi aux petites organisations et aux chercheurs individuels de tirer parti de puissants outils d’IA qui étaient auparavant hors de portée.

DeepSeek a également été pionnier dans la distillation des capacités de ses grands modèles en modèles plus petits et plus efficaces. Ces modèles distillés, allant de 1,5 milliard à 70 milliards de paramètres, sont également open source, offrant à la communauté des chercheurs des outils puissants et efficaces pour poursuivre l’innovation.

En rendant leurs modèles disponibles gratuitement pour un usage commercial, une distillation et une modification, DeepSeek renforce la bonne volonté au sein de la communauté mondiale de l’IA et établit potentiellement de nouvelles normes de transparence dans le développement de l’IA.

DeepSeek a été fondée par Liang Wenfeng, 40 ans, l’un des principaux investisseurs quantitatifs de Chine. Son fonds spéculatif, High-Flyer, finance la recherche de l’entreprise en matière d’IA.

Dans une rare interview en Chine, le fondateur de DeepSeek, Liang, a lancé un avertissement à OpenAI : « Face aux technologies disruptives, les fossés créés par les sources fermées sont temporaires. Même l’approche fermée d’OpenAI ne peut empêcher les autres de rattraper leur retard.

DeepSeek s’inscrit dans une tendance croissante des entreprises chinoises à contribuer au mouvement mondial de l’IA open source, contrecarrant la perception selon laquelle le secteur technologique chinois est principalement axé sur l’imitation plutôt que sur l’innovation.

En septembre, la société chinoise Alibaba a dévoilé plus de 100 nouveaux modèles d’IA open source dans le cadre de la famille Qwen 2.5, prenant en charge plus de 29 langues. Le géant chinois de la recherche Baidu propose la série Ernie, Zhipu AI la série GLM et MiniMax la famille MiniMax-01, tous offrant des performances compétitives à des coûts nettement inférieurs à ceux des principaux modèles américains.

Alors que la Chine continue d’investir et de promouvoir le développement de l’IA open source, tout en faisant face aux défis posés par les contrôles à l’exportation, le paysage technologique mondial est susceptible de connaître de nouveaux changements dans la dynamique du pouvoir, les modèles de collaboration et les trajectoires d’innovation. Le succès de cette stratégie pourrait positionner la Chine comme une force majeure dans l’élaboration de l’avenir de l’IA, avec des conséquences considérables sur le progrès technologique, la compétitivité économique et l’influence géopolitique.

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.