Google et OpenAI entraînent les IA avec des vidéos YouTube, selon un journal

Google et OpenAI entraînent les IA avec des vidéos YouTube, selon un journal

Un rapport du New York Times révèle que les grandes technologies utilisent YouTube pour former des IA dans une course aux plus grandes bases de données disponibles.

8 avril
2024
– 19h09

(mis à jour le 9/04/2024 à 8h51)

Un rapport du New York Times révèle que les entreprises Google et OpenAI utilisent des documents publics publiés sur Youtube pour entraîner vos modèles d’intelligence artificielle, en particulier Gemini et GPT-4. Le problème est que YouTube, propriété de Google, interdit l’utilisation de vidéos pour des applications extérieures à la plateforme.



Photo : Andrés Siimon/Unsplash/Canaltech

Collecte de données irrégulière

Selon la publication, OpenAI a créé un outil de transcription audio appelé Whisper qui a été utilisé pour collecter du matériel sur YouTube à partir de fin 2021.

Au lieu d’utiliser des vidéos pour entraîner le modèle d’IA, l’entreprise a utilisé des transcriptions textuelles de plus d’un million d’heures de contenu sur la plateforme. Même si ces vidéos sont « publiques », la pratique viole les politiques de YouTube et les droits des créateurs de contenu.




Le contenu publié sur YouTube est utilisé pour entraîner des IA, affirme le journal (Image : Reproduction/Freepik)

Le contenu publié sur YouTube est utilisé pour entraîner des IA, affirme le journal (Image : Reproduction/Freepik)

Photo: Canaltech

Dans ce cas, des heures de matériel – même transcrites en texte – réutilisent le travail et la production de milliers de personnes pour développer un outil pour une autre entreprise, qui peut encore gagner beaucoup d’argent avec son modèle d’IA.

La situation reste curieuse en ce qui concerne Google lui-même et ses C’est un Gémeaux. Le New York Times souligne que Big Tech a également utilisé le contenu de YouTube pour entraîner le modèle et que, même si elle est propriétaire de la plateforme, elle n’aurait pas non plus le droit de collecter ces données.

Course aux données

Le reportage du journal décrit le scénario de la course aux grandes entreprises technologie par les plus grandes bases de données et informations disponibles pour former des modèles d’intelligence artificielle.

“La course pour diriger le secteur de l’IA est devenue une recherche désespérée des données numériques nécessaires pour faire progresser la technologie. Pour obtenir ces données, des entreprises technologiques dont OpenAI, Google et Métaont pris des raccourcis, ignoré les politiques des entreprises et débattu de la violation de la loi”, écrit le Times.



Dans la course au volume de données pour former les IA, les Big Tech ignorent les politiques (Image : Rawpixel/Freepik)

Dans la course au volume de données pour former les IA, les Big Tech ignorent les politiques (Image : Rawpixel/Freepik)

Photo: Canaltech

Selon la publication, les activités récentes de ces entreprises illustrent comment toutes les informations publiées sur le Web sont utilisées par l’industrie de l’IA. Cette pratique peut être considérée comme un vol de contenu de propriété intellectuelle, qu’il s’agisse de texte, d’audio ou de vidéo.

Cette ruée désespérée des Big Tech est liée à la nécessité de disposer de volumes de données robustes pour former des modèles d’IA dans les spécialités les plus diverses. Le journal souligne que ce mouvement a amené Google, par exemple, à modifier les conditions de service de ses produits pour permettre la collecte de données dans les documents publics sur Drive et les avis d’établissements sur Maps.

Sans réglementation de ces pratiques, les individus sont pris en otage par les Big Tech – sans autre alternative que de protéger leurs données et sans la garantie que leur travail ne sera pas utilisé pour former des IA, alors qu’ils profitent et ne paient pas pour l’utilisation de ces informations. .

Source: Le New York Times

Tendance pas de Canaltech :

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.