Technology News

OpenAI aurait transcrit des vidéos YouTube pour la formation à l’IA

Les géants américains de la technologie OpenAI Inc., Google LLC d’Alphabet Inc. et Meta Platforms Inc. auraient opté pour des méthodes d’apprentissage de l’intelligence artificielle (IA) qui tombent dans la zone grise de la loi sur le droit d’auteur couvrant la technologie, car les entreprises ont du mal à obtenir des données de formation de qualité.

Selon un journal américain, OpenAI aurait utilisé son outil de reconnaissance vocale, Whisper, pour transcrire le son de plus d’un million d’heures de vidéos sur la plateforme YouTube de Google.

L’entreprise, avec l’aide de son président Greg Brockman, aurait utilisé les transcriptions pour créer des textes conversationnels afin d’entraîner son dernier grand modèle de langage (LLM) GPT-4.

Cette nouvelle intervient après que le développeur de ChatGPT a retiré des données de vidéos YouTube et de podcasts pour entraîner deux de ses IA. Selon le rapport, Google a également pris une mesure similaire pour l’apprentissage de l’IA.

La société OpenAI, basée à San Francisco, était apparemment consciente de l’incertitude potentielle quant à la légalité de son action, mais a estimé qu’il s’agissait d’une utilisation équitable. L’entreprise s’est entretenue avec l’équipe d’OpenAI pour savoir si la transcription de vidéos YouTube pouvait enfreindre les règles de la plateforme de partage de vidéos.

Du côté de Meta, le rapport indique que la société mère de Facebook a exploré l’option d’acquérir le groupe d’édition américain Simon & Schuster LLC afin d’accéder à des contenus de longue durée qu’elle pourrait intégrer dans son modèle d’IA.

Meta aurait également envisagé de se procurer des œuvres protégées par des droits d’auteur sur l’internet, car les discussions sur les licences avec les éditeurs, les artistes et les médias prennent plus de temps.

La semaine dernière, Neal Mohan, directeur général de YouTube, a reconnu qu’OpenAI pourrait utiliser YouTube pour entraîner son modèle de génération de vidéos, Sora.

Matt Bryan, porte-parole de Google, a déclaré que l’entreprise avait recours à des « mesures techniques et juridiques » pour remédier à ce type d’utilisation non autorisée, à condition qu’elle ait une raison légitime ou technique.

Les entreprises d’IA peinent à trouver un accès plus large aux données

Le rapport a été publié alors que les entreprises d’IA qui tentent de construire des modèles d’IA plus puissants pourraient avoir eu du mal à acquérir de vastes quantités d’informations qu’elles pourraient utiliser pour aider leurs systèmes à apprendre.

OpenAI, Google et l’ensemble de l’espace de formation à l’IA sont confrontés à une diminution rapide des données de formation pour leurs systèmes d’IA, qui deviennent de plus en plus perfectionnés à mesure qu’ils sont alimentés en données. Une semaine plus tôt, on apprenait que les entreprises risquaient de ne plus avoir de nouveaux contenus d’ici à 2028.

La forte demande épuise les sources disponibles d’excellentes données textuelles en ligne, et certains propriétaires de données interdisent aux entreprises d’IA d’accéder à leurs informations.

Certains cadres et chercheurs s’attendent désormais à voir les entreprises ralentir le développement de l’IA, car la demande de données de qualité risque de dépasser l’offre dans deux ans.

Il est possible de répondre à cette préoccupation en permettant aux modèles d’IA d’apprendre à partir de données « synthétiques », c’est-à-dire d’informations qu’ils ont eux-mêmes générées.

Une autre option est l' »apprentissage curriculaire », une tactique qui permet de former les systèmes d’IA en leur fournissant des données de qualité d’une manière contrôlée afin de permettre un lien plus intelligent entre les concepts avec beaucoup moins de données.

Ces deux méthodes n’ont pas encore été testées.

Add rating

User Review

0 (0 votes)

Published by

Heather Erickson

1 mois ago

Les actions de Reddit montent en flèche suite à l’accord de formation ChatGPT d’OpenAI

Jeudi, les actions de Reddit ont augmenté en raison de sa collaboration avec OpenAI pour…

2 jours ago

Technology News

OpenAI conclut un accord pour permettre à ChatGPT d’accéder aux messages de Reddit

Jeudi, OpenAI a annoncé une collaboration permettant à ChatGPT de s'entraîner en utilisant les données…

2 jours ago

Commodity News

Les prix du sucre tirés vers le bas par l’abondance de l’offre mondiale

Jeudi, les prix du sucre ont prolongé leurs pertes sur des rapports indiquant des contrats…

2 jours ago

Stock News

L’action Nio s’effondre suite au lancement d’Onvo pour rivaliser avec le modèle Y de Tesla

Mercredi, l'action de Nio a chuté après que l'entreprise se soit lancée dans une concurrence…

3 jours ago

Technology News

Nio dévoile son premier Onvo EV, un défi direct au modèle Y

Mercredi, Nio a présenté la première offre de sa nouvelle marque à bas prix Onvo,…

3 jours ago

Commodity News

La reprise des prix du cacao stimulée par le manque de liquidités

Mercredi, les prix du cacao ont grimpé en raison d'un manque de liquidité, l'intérêt ouvert…

3 jours ago

This website uses cookies.

OpenAI aurait transcrit des vidéos YouTube pour la formation à l’IA

Les entreprises d’IA peinent à trouver un accès plus large aux données

User Review

Recent Posts

Les actions de Reddit montent en flèche suite à l’accord de formation ChatGPT d’OpenAI

OpenAI conclut un accord pour permettre à ChatGPT d’accéder aux messages de Reddit

Les prix du sucre tirés vers le bas par l’abondance de l’offre mondiale

L’action Nio s’effondre suite au lancement d’Onvo pour rivaliser avec le modèle Y de Tesla

Nio dévoile son premier Onvo EV, un défi direct au modèle Y

La reprise des prix du cacao stimulée par le manque de liquidités