Piedu utilise une version piratée pour la formation générale à l’IA – Piedu News

L’une des préoccupations entourant l’IA générative est sa nature furtive. Des entreprises comme Meta et OpenAI utilisent de grandes quantités de matériel écrit pour construire des systèmes capables de répondre à des questions comme les humains. Cependant, l’étendue des textes utilisés pour former ces programmes est largement méconnue du public.

Dans un récent procès intenté en Californie, les auteurs Sarah Silverman, Richard Cadre et Christopher Golden ont accusé Meta d’avoir violé les lois sur le droit d’auteur. Il a affirmé que Meta avait utilisé son livre pour former LLaMA, un modèle de langage similaire au GPT-4 d’OpenAI. La combinaison ne fournissait pas d’informations spécifiques sur les livres utilisés dans la formation LLaMA.

Cependant, l’analyse par Meta de l’ensemble de données utilisé pour former LLaMA a révélé que les données de formation comprenaient 170 000 livres, principalement publiés au cours des 20 dernières années. Le livre comprend des œuvres d’auteurs tels que Michael Pollan, Rebecca Solnit, John Krakauer, James Patterson, Stephen King, George Saunders, Zadie Smith et Junot Diaz. L’ensemble de données connu sous le nom de « Books3 » a été utilisé non seulement pour former LLaMA, mais également d’autres programmes d’IA générative tels que BloombergGPT de Bloomberg et GPT-J d’EleutherAI.

Il s’avère que l’ensemble de données Books3 contient non seulement le texte du livre, mais également d’autres sources telles que les sous-titres de vidéos YouTube, les documents du Parlement européen, les e-mails d’Enron Corporation, etc. L’IA générative analyse les relations entre les mots pour rendre les sujets moins importants que la quantité de texte disponible.

Des programmes spéciaux sont nécessaires pour gérer la taille énorme de l’ensemble de données Books3. Plus de 170 000 livres ont été identifiés grâce à ce processus, y compris des titres de fiction et de non-fiction d’éditeurs grands et petits. La collection comprend des œuvres d’auteurs tels qu’Elena Ferrante, Rachel Cusk, Haruki Murakami, Jennifer Egan, Jonathan Franzen, Bell Hooks, David Grann et Margaret Atwood, ainsi que des livres de L. Ron Hubbard et John F. MacArthur.

L’utilisation du piratage est une pratique courante dans la formation à l’IA générative. Bien que certains efforts soient déployés pour créer des ensembles de données sous licence exclusive à cette fin, la disponibilité et l’utilisation généralisées de matériel protégé par le droit d’auteur soulèvent des inquiétudes quant aux droits de propriété intellectuelle et à leur impact sur l’industrie de l’édition.

Bien que cette pratique ne soit pas largement connue en dehors de la communauté de l’IA, elle met en évidence les considérations éthiques entourant le développement et l’utilisation de modèles d’IA générative. La transparence et la collaboration avec les créateurs et les titulaires de droits sont importantes pour garantir que le matériel protégé par le droit d’auteur est utilisé dans les limites légales et éthiques.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *