Comment (et pourquoi) l’apprentissage fédéré améliore la cybersécurité

Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et du contenu exclusif sur la couverture de l’IA de pointe. Apprendre encore plus

Chaque année, les cyberattaques deviennent plus fréquentes et les violations de données plus coûteuses. Que les entreprises cherchent à protéger leur système d’IA pendant le développement ou à utiliser leur algorithme pour améliorer leur sécurité, elles doivent atténuer les risques de cybersécurité. L’apprentissage fédéré pourrait permettre de faire les deux.

Qu’est-ce que l’apprentissage fédéré ?

L’apprentissage fédéré est une approche du développement de l’IA dans laquelle plusieurs parties entraînent séparément un seul modèle. Chacun télécharge l’algorithme principal actuel à partir d’un serveur cloud central. Ils entraînent leur configuration de manière indépendante sur des serveurs locaux et la téléchargent une fois terminée. De cette façon, ils peuvent partager des données à distance sans exposer les données brutes ou les paramètres du modèle.

L’algorithme centralisé pèse le nombre d’échantillons qu’il reçoit de chaque configuration formée de manière disparate, les agrégeant pour créer un modèle global unique. Toutes les informations restent sur les serveurs ou appareils locaux de chaque participant : le référentiel centralisé pèse les mises à jour au lieu de traiter les données brutes.

Apprentissage fédéré horizontal

Il existe deux types d’apprentissage fédéré. L’option conventionnelle est l’apprentissage fédéré horizontal. Dans cette approche, les données sont réparties sur différents appareils. Les ensembles de données partagent des espaces de fonctionnalités mais ont des échantillons différents. Cela permet aux nœuds périphériques de former de manière collaborative un modèle d’apprentissage automatique (ML) sans partager d’informations.

Apprentissage fédéré vertical

Dans l’apprentissage fédéré vertical, c’est le contraire : les fonctionnalités diffèrent, mais les échantillons sont les mêmes. Les fonctionnalités sont réparties verticalement entre les participants, chacun possédant des attributs différents sur le même ensemble d’entités. Puisqu’une seule partie a accès à l’ensemble complet des échantillons d’étiquettes, cette approche préserve la confidentialité.

Comment l’apprentissage fédéré renforce la cybersécurité

Le développement traditionnel est sujet à des failles de sécurité. Même si les algorithmes doivent disposer d’ensembles de données étendus et pertinents pour maintenir leur précision, l’implication de plusieurs départements ou fournisseurs crée des opportunités pour les acteurs malveillants. Ils peuvent exploiter le manque de visibilité et la large surface d’attaque pour injecter des biais, mener une ingénierie rapide ou exfiltrer des données de formation sensibles.

Lorsque des algorithmes sont déployés dans des rôles de cybersécurité, leurs performances peuvent affecter la posture de sécurité d’une organisation. La recherche montre que la précision du modèle peut soudainement diminuer lors du traitement de nouvelles données. Même si les systèmes d’IA peuvent paraître précis, ils risquent d’échouer lorsqu’ils sont testés ailleurs, car ils ont appris à prendre de faux raccourcis pour produire des résultats convaincants.

Étant donné que l’IA ne peut pas penser de manière critique ou véritablement prendre en compte le contexte, sa précision diminue avec le temps. Même si les modèles de ML évoluent à mesure qu’ils absorbent de nouvelles informations, leurs performances stagneront si leurs compétences décisionnelles reposent sur des raccourcis. C’est là qu’intervient l’apprentissage fédéré.

D’autres avantages notables de la formation d’un modèle centralisé via des mises à jour disparates incluent la confidentialité et la sécurité. Étant donné que chaque participant travaille de manière indépendante, personne n’est obligé de partager des informations exclusives ou sensibles pour progresser dans la formation. De plus, moins il y a de transferts de données, plus le risque d’attaque de l’homme du milieu (MITM) est faible.

Toutes les mises à jour sont cryptées pour une agrégation sécurisée. Le calcul multipartite les cache derrière divers systèmes de cryptage, réduisant ainsi les risques de violation ou d’attaque MITM. Cela améliore la collaboration tout en minimisant les risques, améliorant ainsi la sécurité.

Un avantage négligé de l’apprentissage fédéré est la rapidité. Il a une latence bien inférieure à son homologue centralisé. Étant donné que la formation s’effectue localement plutôt que sur un serveur central, l’algorithme peut détecter, classer et répondre aux menaces beaucoup plus rapidement. Des délais minimes et des transmissions de données rapides permettent aux professionnels de la cybersécurité de gérer facilement les acteurs malveillants.

Considérations pour les professionnels de la cybersécurité

Avant de tirer parti de cette technique de formation, les ingénieurs en IA et les équipes de cybersécurité doivent prendre en compte plusieurs facteurs techniques, de sécurité et opérationnels.

Utilisation des ressources

Le développement de l’IA coûte cher. Les équipes qui construisent leur propre modèle doivent s’attendre à dépenser entre 5 millions de dollars à 200 millions de dollars d’avance, et plus de 5 millions de dollars par an pour l’entretien. L’engagement financier est important même avec des coûts répartis entre plusieurs parties. Les chefs d’entreprise doivent tenir compte des coûts du cloud et de l’informatique de pointe.

L’apprentissage fédéré nécessite également beaucoup de calculs, ce qui peut introduire des limitations en termes de bande passante, d’espace de stockage ou de calcul. Même si le cloud permet une évolutivité à la demande, les équipes de cybersécurité risquent de se retrouver bloquées par un fournisseur si elles ne font pas attention. La sélection stratégique du matériel et des fournisseurs est de la plus haute importance.

Confiance des participants

Même si les formations disparates sont sécurisées, elles manquent de transparence, ce qui rend préoccupantes les préjugés intentionnels et les injections malveillantes. Un mécanisme de consensus est essentiel pour approuver les mises à jour du modèle avant que l’algorithme centralisé ne les regroupe. De cette façon, ils peuvent minimiser les risques de menace sans sacrifier la confidentialité ni exposer des informations sensibles.

Sécurité des données de formation

Même si cette technique de formation par apprentissage automatique peut améliorer la posture de sécurité d’une entreprise, la sécurité à 100 % n’existe pas. Le développement d’un modèle dans le cloud comporte des risques de menaces internes, d’erreurs humaines et de perte de données. La redondance est la clé. Les équipes doivent créer des sauvegardes pour éviter toute interruption et annuler les mises à jour, si nécessaire.

Les décideurs devraient revoir les sources de leurs ensembles de données de formation. Dans les communautés de ML, d’importants emprunts d’ensembles de données se produisent, soulevant des inquiétudes fondées quant au désalignement des modèles. Sur Papers With Code, plus de 50 % des communautés de tâches utiliser des ensembles de données empruntés au moins 57,8 % du temps. De plus, 50 % des ensembles de données proviennent de seulement 12 universités.

Applications de l’apprentissage fédéré en cybersécurité

Une fois que l’algorithme principal agrège et pèse les mises à jour des participants, il peut être repartagé pour n’importe quelle application pour laquelle il a été formé. Les équipes de cybersécurité peuvent l’utiliser pour détecter les menaces. L’avantage ici est double : alors que les acteurs de la menace restent dans l’incertitude puisqu’ils ne peuvent pas facilement exfiltrer les données, les professionnels mettent en commun leurs informations pour obtenir des résultats très précis.

L’apprentissage fédéré est idéal pour les applications adjacentes telles que la classification des menaces ou l’indicateur de détection de compromission. La grande taille de l’ensemble de données de l’IA et sa formation approfondie construisent sa base de connaissances, conservant une vaste expertise. Les professionnels de la cybersécurité peuvent utiliser ce modèle comme mécanisme de défense unifié pour protéger de larges surfaces d’attaque.

Les modèles ML, en particulier ceux qui font des prédictions, ont tendance à dériver au fil du temps à mesure que les concepts évoluent ou que les variables deviennent moins pertinentes. Grâce à l’apprentissage fédéré, les équipes pourraient mettre à jour périodiquement leur modèle avec des fonctionnalités ou des échantillons de données variés, ce qui permettrait d’obtenir des informations plus précises et plus opportunes.

Tirer parti de l’apprentissage fédéré pour la cybersécurité

Que les entreprises souhaitent sécuriser leur ensemble de données de formation ou exploiter l’IA pour détecter les menaces, elles devraient envisager d’utiliser l’apprentissage fédéré. Cette technique pourrait améliorer la précision et les performances et renforcer leur posture de sécurité à condition qu’ils fassent face de manière stratégique aux menaces internes potentielles ou aux risques de violation.

Zac Amos est l’éditeur de fonctionnalités chez Repirater.

DataDecisionMakers

Bienvenue dans la communauté VentureBeat !

Si vous souhaitez en savoir plus sur des idées de pointe et des informations à jour, sur les meilleures pratiques et sur l’avenir des données et de la technologie des données, rejoignez-nous sur DataDecisionMakers.

#Comment #pourquoi #lapprentissage #fédéré #améliore #cybersécurité

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.