OpenAI aurait transcrit des vidéos YouTube pour la formation à l’IA

Les géants américains de la technologie OpenAI Inc., Google LLC d’Alphabet Inc. et Meta Platforms Inc. auraient opté pour des méthodes d’apprentissage de l’intelligence artificielle (IA) qui tombent dans la zone grise de la loi sur le droit d’auteur couvrant la technologie, car les entreprises ont du mal à obtenir des données de formation de qualité.

Selon un journal américain, OpenAI aurait utilisé son outil de reconnaissance vocale, Whisper, pour transcrire le son de plus d’un million d’heures de vidéos sur la plateforme YouTube de Google.

L’entreprise, avec l’aide de son président Greg Brockman, aurait utilisé les transcriptions pour créer des textes conversationnels afin d’entraîner son dernier grand modèle de langage (LLM) GPT-4.

Cette nouvelle intervient après que le développeur de ChatGPT a retiré des données de vidéos YouTube et de podcasts pour entraîner deux de ses IA. Selon le rapport, Google a également pris une mesure similaire pour l’apprentissage de l’IA.

La société OpenAI, basée à San Francisco, était apparemment consciente de l’incertitude potentielle quant à la légalité de son action, mais a estimé qu’il s’agissait d’une utilisation équitable. L’entreprise s’est entretenue avec l’équipe d’OpenAI pour savoir si la transcription de vidéos YouTube pouvait enfreindre les règles de la plateforme de partage de vidéos.

Du côté de Meta, le rapport indique que la société mère de Facebook a exploré l’option d’acquérir le groupe d’édition américain Simon & Schuster LLC afin d’accéder à des contenus de longue durée qu’elle pourrait intégrer dans son modèle d’IA.

Meta aurait également envisagé de se procurer des œuvres protégées par des droits d’auteur sur l’internet, car les discussions sur les licences avec les éditeurs, les artistes et les médias prennent plus de temps.

La semaine dernière, Neal Mohan, directeur général de YouTube, a reconnu qu’OpenAI pourrait utiliser YouTube pour entraîner son modèle de génération de vidéos, Sora.

Matt Bryan, porte-parole de Google, a déclaré que l’entreprise avait recours à des « mesures techniques et juridiques » pour remédier à ce type d’utilisation non autorisée, à condition qu’elle ait une raison légitime ou technique.

 

 

Les entreprises d’IA peinent à trouver un accès plus large aux données

Le rapport a été publié alors que les entreprises d’IA qui tentent de construire des modèles d’IA plus puissants pourraient avoir eu du mal à acquérir de vastes quantités d’informations qu’elles pourraient utiliser pour aider leurs systèmes à apprendre.

OpenAI, Google et l’ensemble de l’espace de formation à l’IA sont confrontés à une diminution rapide des données de formation pour leurs systèmes d’IA, qui deviennent de plus en plus perfectionnés à mesure qu’ils sont alimentés en données. Une semaine plus tôt, on apprenait que les entreprises risquaient de ne plus avoir de nouveaux contenus d’ici à 2028.

La forte demande épuise les sources disponibles d’excellentes données textuelles en ligne, et certains propriétaires de données interdisent aux entreprises d’IA d’accéder à leurs informations.

Certains cadres et chercheurs s’attendent désormais à voir les entreprises ralentir le développement de l’IA, car la demande de données de qualité risque de dépasser l’offre dans deux ans.

Il est possible de répondre à cette préoccupation en permettant aux modèles d’IA d’apprendre à partir de données « synthétiques », c’est-à-dire d’informations qu’ils ont eux-mêmes générées.

Une autre option est l' »apprentissage curriculaire », une tactique qui permet de former les systèmes d’IA en leur fournissant des données de qualité d’une manière contrôlée afin de permettre un lien plus intelligent entre les concepts avec beaucoup moins de données.

Ces deux méthodes n’ont pas encore été testées.

Sending
User Review
0 (0 votes)

ARTICLES SIMILAIRES

Leave a Reply

Inscrivez-vous à Notre Newsletter

Recevez les meilleures actualités des marchés financiers directement dans votre e-mail. Inscrivez-vous pour recevoir les dernières nouvelles des marchés financiers.