Dans le monde de l’intelligence artificielle, la quête de données pour entraîner des modèles soulève des questions éthiques et légales. Un procès récent aux États-Unis met en lumière les pratiques de Meta et l’implication d’un de ses anciens employés, désormais à la tête d’une entreprise française en pleine ascension.
Résumé en 3 points
L’entraînement des modèles d’intelligence artificielle nécessite une quantité considérable d’informations. Les entreprises explorent diverses sources de données, ce qui les amène parfois à franchir des limites légales. Aux États-Unis, des auteurs et ayants droit ont initié des procédures contre des entreprises soupçonnées d’avoir exploité des œuvres protégées illégalement.
L’affaire « Kadrey v. Meta Platforms Inc. » est un exemple frappant de cette dynamique, où des écrivains ont accusé Meta d’avoir utilisé des livres piratés pour son modèle Llama.
Guillaume Lample, avant de cofonder Mistral AI, travaillait au sein de l’équipe IA de Meta. Mediapart souligne son implication dans la décision d’utiliser des données de Library Genesis, un site connu pour héberger des œuvres piratées. Des échanges d’e-mails révèlent qu’il aurait soutenu l’utilisation de ces données pour des recherches exploratoires.
Les plaignants affirment que Lample aurait téléchargé environ 70 To de données, une quantité considérable qui a alimenté les débats lors du procès.
En juin, le tribunal a statué en faveur de Meta, invoquant le principe du « fair use ». Ce concept permet l’usage limité d’œuvres protégées dans certaines conditions. Malgré les preuves de piratage présentées, le juge a estimé que les plaignants n’avaient pas prouvé que l’utilisation de leurs livres par Meta était nuisible.
Les avocats des plaignants, bien que respectant la décision, ont exprimé leur désaccord face à cette conclusion. Meta, de son côté, a défendu l’usage du « fair use » comme essentiel pour le développement de technologies innovantes.
Mistral AI, cofondée par Guillaume Lample, est aujourd’hui valorisée à 11,7 milliards d’euros, ce qui témoigne de sa croissance rapide dans le domaine de l’IA. L’entreprise utilise une combinaison de données publiques, de jeux de données sous licence et de données synthétiques générées en interne pour entraîner ses modèles, affirmant ainsi s’éloigner des pratiques controversées observées chez Meta.
Cette affaire met en lumière les défis éthiques et légaux auxquels font face les entreprises d’intelligence artificielle, tout en soulignant l’importance de définir des cadres clairs pour l’utilisation des données dans le développement technologique.