NVIDIA accusé de récupérer quotidiennement 80 ans de vidéos pour former des modèles d’IA – ce que vous devez savoir

NVIDIA a été accusé de télécharger des vidéos de YouTube, Netflix et d’autres ensembles de données pour former des projets d’IA commerciaux. 404 reportages dans les médias que l’entreprise utilisait les vidéos téléchargées pour former des modèles d’IA pour des produits comme le générateur de monde 3D Omniverse de l’entreprise et des efforts « humains numériques » comme le projet d’IA incarnée Gr00t.

« Le droit d’auteur protège certaines expressions, mais pas les faits, les idées, les données ou les informations », peut-on lire dans leur déclaration. « Toute personne est libre d’apprendre des faits, des idées, des données ou des informations provenant d’une autre source et de les utiliser pour s’exprimer elle-même. »

Ils ont également fait valoir que la formation de modèles d’IA est un exemple d’utilisation gratuite du contenu dans un but transformateur.

La loi sur le droit d’auteur protège les expressions particulières, mais pas les faits, les idées, les données ou les informations. Chacun est libre d’apprendre des faits, des idées, des données ou des informations provenant d’une autre source et de les utiliser pour s’exprimer.

Déclaration de Nvidia

À l’époque, Mohan répondait aux rapports selon lesquels OpenAI entraînait son générateur de vidéos Sora AI sur des vidéos YouTube sans autorisation. Il a déclaré : « Cela ne permet pas de télécharger des éléments tels que des transcriptions ou des extraits vidéo, et cela constitue une violation flagrante de nos conditions de service. Ce sont les règles de conduite en termes de contenu sur notre plateforme. »

Lire aussi  Même s'il a reçu un diagnostic de maladie, l'intelligence de Danadyaksa Hannan Prawira a été vue lors de la visite de la KSAU et de Mme Inong Fadjar Prasetyo.

Ce n’est pas la première fois cet été que NVIDIA est accusée de supprimer YouTube. Plusieurs grandes entreprises, dont Apple et Anthropic, auraient extrait des informations d’un énorme ensemble de données appelé « la Pile », qui contient des milliers de vidéos YouTube, notamment de créateurs populaires comme Marques Brownlee et PewDiePie.

Des préoccupations éthiques soulevées… et rejetées

404Media rapporte que les employés qui ont soulevé des préoccupations éthiques ou juridiques ont été informés par leurs responsables que cette pratique avait le feu vert des « plus hauts niveaux de l’entreprise ».

« Il s’agit d’une décision de la direction », a répondu Ming-Yu Liu, vice-président de la recherche chez NVIDIA. « Nous avons une approbation générale pour toutes les données. »

Apparemment, certains dirigeants ont repoussé la question à plus tard, en affirmant que la suppression du dossier était une question juridique ouverte que l’entreprise traiterait plus tard.

Les vidéos YouTube et Netflix ne sont pas les seules données qui auraient été supprimées par NVIDIA. La société aurait également supprimé des données de la base de données de bandes-annonces de films MovieNet, des bibliothèques de séquences de jeux vidéo et de l’ensemble de données vidéo Github WebVid.

Lire aussi  Dernière liste de prix iPhone sur Digimap 2024

Il se peut que le scraping crée des opportunités pour que des données de mauvaise qualité s’infiltrent dans la formation des modèles, car les entreprises semblent récupérer tout ce qu’elles peuvent.

Bruno Kurtic, PDG de Bedrock Security, suggère que cela peut créer des modèles médiocres : « Étant donné les très grandes échelles de données utilisées, les tentatives manuelles pour le faire aboutiront toujours à des réponses incomplètes et, par conséquent, les modèles pourraient ne pas résister à l’examen réglementaire. »

Il a ensuite suggéré que les entreprises de développement d’IA fournissent une « liste de données vérifiable pour mettre en évidence la provenance des données sur lesquelles elles se sont entraînées et celles qui ont été obtenues de manière éthique ».

C’est une façon pour les entreprises de résoudre leurs problèmes d’IA, mais lorsque tout le monde supprime tout le monde, quelles données sont propres ?

Qu’est-ce qui n’est pas du jeu équitable ?

Apparemment, certaines des vidéos utilisées par NVIDIA provenaient d’une immense bibliothèque de vidéos YouTube marquées comme étant destinées uniquement à des fins académiques. Cette licence d’utilisation précise que les vidéos sont uniquement destinées à la recherche universitaire. Apparemment, NVIDIA a affirmé que la bibliothèque universitaire était une cible légitime pour les produits d’IA commerciaux.

Alphabet, la société mère de YouTube, n’est pas à l’abri des critiques qui l’accusent d’avoir utilisé Internet pour créer des modèles d’IA. L’été dernier, Google a publié un plan visant à utiliser toutes les « informations accessibles au public pour aider à former les modèles d’IA de Google et à créer des produits et des fonctionnalités tels que Google Translate, Bard et les capacités d’IA dans le cloud ».

Lire aussi  Verre trempé ou boitier ? PanzerGlass est livré avec une protection pour les Galaxy A35 et A55 - SMARTmania.cz

On peut supposer sans risque que tout ce qui est publié sur les plateformes Google comme YouTube est considéré comme du gibier équitable, mais également tout ce qui est publié sur Internet en général.

À l’époque, un porte-parole de Google avait déclaré à Tom’s Guide : « Notre politique de confidentialité indique depuis longtemps que Google utilise des informations accessibles au public provenant du Web ouvert pour former des modèles linguistiques pour des services comme Google Translate. Cette dernière mise à jour précise simplement que des services plus récents comme Bard sont également inclus. Nous intégrons des principes et des mesures de protection de la confidentialité dans le développement de nos technologies d’IA, conformément à notre Principes de l’IA.”

Cela implique que toute publication publique effectuée à tout moment alimente les propres ambitions de Google en matière d’IA.

Le rapport complet de 404 Media contient beaucoup plus de détails et mérite d’être lu.

Plus d’informations sur Tom’s Guide

2024-08-07 02:52:04
1722999132


#NVIDIA #accusé #récupérer #quotidiennement #ans #vidéos #pour #des #modèles #dIA #vous #devez #savoir

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.