Home » Sciences et technologies » Qu’est-ce qui explique le succès de Deepseek R1? – Science et données

Qu’est-ce qui explique le succès de Deepseek R1? – Science et données

by Nouvelles

2025-02-10 20:59:00

Deepseek est une société artificielle de renseignement chinois, fondée en 2023 par Liang Wenfeng, co-fondateur de Hedge High-Flyer. Basée à Hangzhou, Zhejiang, en Chine, la société est dédiée au développement de modèles de langage open source à grande échelle (LLM).

En janvier 2025, Deepseek a lancé Deepseek-R1, un LLM qui a donné naissance à un chabot qui est rapidement devenu le téléchargement le plus rapide sur Apple App Store d’Apple, dépassant Chatgpt. Ce modèle s’est démarqué de son efficacité, de son faible coût et de son gratuit, offrant du code et des explications techniques détaillées pour l’adaptation et l’amélioration.

L’approche open source de Deepseek permet aux entreprises d’utiliser et de modifier librement leurs modèles, bien que cela nécessite une expertise technique considérable. Cependant, l’association de l’entreprise avec le gouvernement chinois et les problèmes potentiels de sécurité des données nécessitent une prudence, ce qui entraîne des restrictions telles que l’interdiction de l’utilisation de la marine américaine.

L’essor de Deepseek dans le scénario d’intelligence artificielle représente une étape importante, en particulier pour la communauté de l’open source, et démontre les capacités avancées de la Chine dans le développement de l’IA. Sa transparence contraste avec les approches les plus réservées à certaines sociétés d’IA occidentales, générant des discussions sur la vie privée, la sécurité nationale et la dynamique de la concurrence mondiale de l’IA.

Qu’est-ce qui explique le succès de Deepseek R1?

L’une des raisons techniques du succès de Deepseek R1 est le mélange d’experts (MOE), une architecture neuronale sophistiquée qui agit comme un système de routage intelligent dans le modèle.

Les segments MOE du modèle dans plusieurs «experts», qui, en pratique, sont des sous-réseaux neuronaux complets, chacun avec une spécialisation différente dans certains types de traitement ou de domaines de connaissance. Un composant appelé «routeur» (routeur) décide dynamiquement quels experts doivent être activés pour chaque entrée spécifique. Il est fascinant de comprendre comment la logique de routage est profondément intégrée au fonctionnement de l’intelligence artificielle.

Dans l’illustration ci-dessous, nous observons que le modèle, bien qu’il ait une pleine capacité impressionnante de 671 milliards de paramètres, au cours de toute inférence, le routeur active seulement un sous-ensemble d’experts, totalisant 37 milliards de paramètres.

Ce mécanisme est essentiel car:

Chaque expert fonctionne comme un réseau neuronal autonome, capable de développer des compétences spécifiques (par exemple, l’un peut devenir plus efficace dans les calculs mathématiques, une autre interprétation en contexte et une autre en génération de code).

Le routeur apprend à identifier et à sélectionner la meilleure combinaison d’experts pour chaque tâche, assurant un traitement plus efficace et spécialisé.

Cette architecture vous permet de mettre à l’échelle le modèle pour des centaines de milliards de paramètres sans compromettre l’efficacité de calcul, car seul un petit ensemble d’experts est activé à la fois.

Variations MOE

Hash Moe: fonctionne avec une fonction de hachage fixe. Par exemple, si un jeton est «mange» et le hachage pour (1,4,2,3), dans un transformateur à quatre couches, le jeton sera envoyé aux experts 1,4,2 et 3, respectivement, dans chacun couche. Cette méthode suit un routage déterministe fixe.

Soft MOE: Pour un ensemble de n experts traitant les consultations par lots (x1… XT), une matrice de probabilité W (i, j, k) est utilisée, où la consultation d’experts est déterminée par σ (w (i, j, k) × xk). Dans ce cas, il existe une distribution probabiliste, permettant à chaque fragment d’informations d’être partiellement traité par plusieurs experts en même temps, chacun contribuant proportionnellement à sa pertinence pour cette entrée spécifique.

Parallèle avec le cerveau humain

L’architecture MOE présente des similitudes avec les théories cognitives, telles que la modularité de l’esprit proposée par Jerry Fodor. Selon cette théorie, l’esprit humain est composé de modules spécialisés et relativement indépendants qui fonctionnent avec l’encapsulation informationnelle. Par exemple, le module de traitement visuel n’a pas besoin de comprendre comment fonctionne le module de langue. De plus, les modules cognitifs sont conçus pour des fonctions spécifiques, organisant un système de pensée central avec des modules périphériques spécialisés.

Un autre parallèle intéressant est l’attention sélective. Lorsqu’une personne effectue une activité spécifique, comme jouer un instrument de musique, son cerveau actif est principalement des zones spécialisées dans la coordination moteur fine, la mémoire musicale, le traitement auditif et la synchronisation entre les mains, tandis que d’autres régions restent moins actives.

En plus de MOE, une autre technique innovante à Deepseek R1 est l’attention multi-AD latente, un thème qui mérite une exploration plus approfondie dans un futur article.

David Matos

Références:

Deepseek-R1: Incitiser la capacité de raisonnement dans les LLM via l’apprentissage du renforcement



#Questce #qui #explique #succès #Deepseek #Science #données
1739307121

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.