L’IA face au RGPD

Nous vivons au cœur de l’une des plus grandes ruées vers l’or technologique de l’histoire récente. Le chatbot d’OpenAI a atteint 100 millions d’utilisateurs en deux mois. Pour rester dans la course, Google a introduit son propre chatbot IA, et Microsoft a ajouté un chatbot à son moteur de recherche Bing (avec… des résultats mitigés(nouvelle fenêtre)).

À l’instar d’une véritable ruée vers l’or, la course à la perfection de l’IA repose sur une exploitation hasardeuse des ressources. Seulement au lieu de déboiser des forêts ou de barrer des rivières, ces entreprises d’IA exploitent nos données personnelles.

Si vous avez déjà écrit un article de blog, soumis un avis en ligne sur un produit, ou posté sur des sites comme Reddit et Stack Overflow, vous avez probablement contribué sans le savoir à vos données pour entraîner un modèle d’IA. Et si ces entreprises ont collecté les données de personnes résidant en Europe, elles sont probablement coupables de porter atteinte au RGPD : ChatGPT a déjà été bloqué, bien que temporairement, en raison de préoccupations liées à la vie privée.

Ce début hésitant dans la régulation des modèles de langage puissants montre que l’avenir de la politique d’IA n’est pas encore écrit. Une fois de plus, les géants de la tech sont en passe de réaliser des bénéfices de plusieurs milliards sur vos données personnelles sans votre consentement. Les régulateurs et les consommateurs vont-ils une fois de plus l’accepter ?

Le blocage de ChatGPT en Italie n’est que le début

Le 31 mars, l’autorité de protection des données italienne (DPA), le Garante, a émis une injonction d’arrêt du traitement(nouvelle fenêtre) contre ChatGPT, ce qui a conduit OpenAI à géobloquer les utilisateurs potentiels avec une adresse IP italienne. Deux semaines plus tard, le Garante a publié une liste d’exigences que OpenAI devrait satisfaire pour reprendre le service dans le pays.

Cette liste comprenait plusieurs protections de la vie privée, incluant :

L’instauration d’un contrôle d’âge pour que les mineurs ne puissent pas accéder à ChatGPT
Fournir une explication plus détaillée sur les données traitées pour entraîner les algorithmes de ChatGPT
Permettre aux personnes de se désinscrire de ce traitement

Au 28 avril 2023, après que ChatGPT ait mis en œuvre ces mesures, le Garante a levé son interdiction. Dans un article élargi du centre d’aide(nouvelle fenêtre), OpenAI affirme qu’il utilise l’intérêt légitime (tel que défini par le RGPD) comme base légale pour collecter et traiter des données afin d’entraîner ses algorithmes.

Bien que ChatGPT ne soit plus interdit, l’ordre du Garante pourrait n’avoir été que le premier coup de semonce. Les autorités de protection des données de France, d’Allemagne et d’Irlande(nouvelle fenêtre) ont communiqué avec le Garante et envisagent leurs propres enquêtes. L’autorité de protection des données espagnole(nouvelle fenêtre) a annoncé sa propre enquête. Et le Conseil européen de la protection des données(nouvelle fenêtre) de l’UE a annoncé qu’il lancerait un groupe de travail sur ChatGPT.

Est-il légal de collecter des données sur Internet pour entraîner l’IA ?

Dans l’article du centre d’aide mentionné précédemment, OpenAI a clarifié qu’il avait utilisé des informations collectées sur Internet pour entraîner ChatGPT. Le fait qu’il n’était initialement pas clair d’où provenaient ces données implique qu’OpenAI a collecté toutes ces données sans l’autorisation explicite des personnes concernées.

L’autorité de protection des données française (DPA) a publié par le passé des directives stipulant que même si une personne partage publiquement ses coordonnées, cela reste des informations personnelles et ne peuvent pas être librement utilisées ou traitées par une entreprise sans la connaissance de la personne. En supposant que les autorités de protection des données sont disposées à traiter d’autres types d’informations personnelles comme les coordonnées, le grattage du web par ChatGPT semble être une violation manifeste du RGPD puisqu’il ne remplit aucune des autres conditions de l’Article 6(nouvelle fenêtre) du RGPD.

Puisqu’il est également probable que ChatGPT ait collecté tous ces ensembles de données en masse sans cas d’utilisation explicitement défini, cela semble également être une violation manifeste du principe de minimisation des données tel qu’énoncé dans l’Article 5.1.c(nouvelle fenêtre) du RGPD.

Étant donné la structure des modèles d’IA, il n’existe aucun moyen légitime d’assurer l’application du « droit à l’oubli » du RGPD sur les données collectées sur le web, une violation manifeste de l’Article 17(nouvelle fenêtre) du RGPD. ChatGPT semble avoir introduit un mécanisme permettant aux personnes d’empêcher la conservation et l’utilisation de leurs instructions pour entraîner l’algorithme, mais les données que ces entreprises ont collectées pour entraîner leur IA en premier lieu seront bien plus difficiles à démêler.

Enfin, il y a le fait qu’OpenAI est une entreprise américaine. Depuis Schrems II(nouvelle fenêtre), une décision de justice qui exige des fournisseurs de cloud de vérifier les protections des données des pays avant d’y transférer des données, l’Union européenne a (à juste titre) adopté une position critique sur les protections de la vie privée aux États-Unis. OpenAI, une entreprise américaine, doit prouver qu’elle a mis en place des garanties adéquates avant de pouvoir transférer les données des individus vivant en Europe vers les États-Unis sans leur permission expresse. Sinon, elle serait en violation de l’Article 46(nouvelle fenêtre) du RGPD.

La politique de confidentialité(nouvelle fenêtre) d’OpenAI mentionne brièvement les transferts de données, indiquant seulement qu’elle utilisera des garanties appropriées pour le transfert de renseignements personnels hors de l’EEE, de la Suisse et du Royaume-Uni.

Ceci n’est qu’un aperçu de la situation. Ce sont toutes les violations probables du RGPD commises juste dans la création et la publication des modèles d’IA.

Dans son article du centre d’aide, ChatGPT prétend que, puisque l’entraînement de l’IA nécessite d’énormes quantités de données, il n’avait pas d’autre choix que de collecter des données sur internet. Il affirme également que les informations étaient déjà disponibles publiquement et qu’il n’avait pas l’intention de nuire aux individus. Il souligne aussi qu’il n’utilise pas les données des individus pour créer des profils personnels, les contacter ou leur faire de la publicité, ou vendre des produits. Malheureusement pour OpenAI, aucun de ces points ne justifie le traitement des données en vertu du RGPD.

L’exposition des entreprises d’IA a encore augmenté maintenant que des entreprises tierces appliquent ChatGPT à diverses fonctions, comme l’assistance pour les appels de service client(nouvelle fenêtre). À moins que les données des personnes ne soient correctement anonymisées ou qu’elles ne consentent expressément à parler avec un chatbot IA, ces entreprises tierces commettront également des violations du RGPD.

Il convient également de souligner que le RGPD n’a pas été rédigé pour faire face à l’IA. Bien que ces infractions semblent être des violations manifestes du RGPD, la manière dont fonctionne l’IA brouille quelque peu la distinction entre les sujets de données, les contrôleurs de données et les processeurs de données. Nous n’aurons pas de clarté sur ces questions tant que les autorités de protection des données et les tribunaux n’auront pas rendu leurs décisions.

La politique de confidentialité inhabituelle de Google

Google n’est pas novice en intelligence artificielle, ayant été pionnier des « réseaux neuronaux » avec Google Translate et des innovations dans la compréhension de l’intention derrière les recherches des gens. Il a même développé son propre modèle de langage de grande envergure, LaMDA(nouvelle fenêtre).

Ce qui est nouveau, c’est la politique de confidentialité de Google, qui a été récemment mise à jour pour accorder à l’entreprise une large autorité pour collecter des données sur l’ensemble de l’internet.

Dans une mise à jour de juillet 2023, Google a ajouté une petite ligne à sa politique de confidentialité(nouvelle fenêtre) dans la section « Fins commerciales pour lesquelles les informations peuvent être utilisées ou divulguées » : « Google utilise des informations pour améliorer nos services et développer de nouveaux produits, fonctionnalités et technologies au bénéfice de nos utilisateurs et du public. Par exemple, nous utilisons des informations publiquement disponibles pour aider à entraîner les modèles d’IA de Google et à construire des produits et fonctionnalités comme Google Translate, Bard et les capacités d’IA Cloud. »

La formulation « informations publiquement disponibles » fait écho à la description par OpenAI des données qu’elle utilise pour entraîner ses produits d’IA. Cela nous dit très peu sur les types précis de données utilisées pour entraîner leurs modèles. L’implication est que toutes les données sont équitables.

Ce qui est véritablement différent dans la politique de confidentialité de Google, c’est qu’elle semble être destinée à la population mondiale, et pas seulement aux personnes qui utilisent les services de Google. Même la politique de confidentialité d’OpenAI ne comprend pas de clause comme celle-ci.

Il sera difficile pour Google d’arguer qu’il a obtenu le consentement des citoyens de l’Union européenne avant de traiter leurs données lorsque sa seule indication qu’il le ferait se trouve dans un minuscule « par exemple » dirigé à personne en particulier.

Le droit d’auteur et les entreprises pourraient ensuite s’en prendre à l’IA

ChatGPT et d’autres services d’IA sont examinés par des Business ainsi que des régulateurs publics. JPMorgan Chase(nouvelle fenêtre), Amazon(nouvelle fenêtre) et Samsung(nouvelle fenêtre) ont limité l’utilisation des outils IA, tandis que des sites comme Reddit(nouvelle fenêtre), Stack Overflow(nouvelle fenêtre) et Getty Images(nouvelle fenêtre) ont exigé une compensation de la part des entreprises d’IA ou les ont poursuivies. JPMorgan Chase a indiqué à ses employés de ne pas utiliser ChatGPT par crainte que le partage d’informations sensibles sur les clients avec le chatbot ne porte atteinte aux réglementations financières.

Amazon et Samsung craignent que leurs données propriétaires ne soient utilisées pour entraîner ChatGPT. Comme l’a dit un avocat d’Amazon sur le Slack de l’entreprise, « C’est important car vos contributions peuvent être utilisées comme données d’entraînement pour une nouvelle itération de ChatGPT, et nous ne voudrions pas que sa production inclue ou ressemble à nos informations confidentielles (et j’ai déjà vu des cas où sa production correspond étroitement à du matériel existant). » Samsung a mis en place son interdiction après avoir découvert que ses développeurs avaient déjà importé du code sensible dans ChatGPT.

Getty Images est allé le plus loin et, en février 2023, a déposé une plainte au Royaume-Uni accusant Stability AI, la société derrière l’outil d’art IA Stable Diffusion, de porter atteinte au droit d’auteur. Getty Images affirme que Stability AI a « copié et traité illégalement » des millions de ses images de stock protégées par le droit d’auteur. Le fait que les filigranes de Getty Images soient relativement courants dans les images de Stable Diffusion n’arrange rien.

Stability AI a rendu public le jeu de données utilisé pour entraîner son algorithme. Cela a permis à des experts indépendants d’examiner les données(nouvelle fenêtre) et de conclure qu’elles contiennent une quantité substantielle d’images de Getty. Et ce n’est pas le seul outil d’IA faisant face à des accusations de violation du droit d’auteur ou de plagiat.

https://twitter.com/erockappel/status/1652786155665096704

De même, Reddit et Stack Overflow ont déclaré qu’ils commenceraient à facturer aux entreprises d’IA l’accès à leurs API. « Explorer Reddit, générer de la valeur sans rien redonner à nos utilisateurs, c’est un problème pour nous », a déclaré le PDG de Reddit, Steve Huffman, à The New York Times(nouvelle fenêtre).

C’est précisément pour cette raison que de nombreuses autres entreprises d’IA, y compris OpenAI, ont été bien plus prudentes concernant les données qu’elles utilisent, craignant qu’une transparence totale ne conduise à encore plus de problèmes réglementaires et de droit d’auteur.

So why aren't the big AI companies more transparent about what's in the data that they use to train their models?

One reason, experts say, is because they're afraid they'd get in trouble if people found out. pic.twitter.com/im1cfrSXuA(nouvelle fenêtre)
— Will Oremus (@WillOremus) April 19, 2023(nouvelle fenêtre)

Les entreprises d’IA n’ont pas gagné notre confiance

Bien que la question reste ouverte de savoir ce qui arrivera à ChatGPT, Stable Diffusion, Dall-E et d’autres outils d’IA, tout cela s’est déjà produit auparavant.

Avant OpenAI, il y avait Clearview AI(nouvelle fenêtre). Cette entreprise de surveillance faciale a entraîné son IA avec des millions de photos qu’elle a extraites des réseaux sociaux sans le consentement de personne. Elle a depuis combattu de nombreuses injonctions de cesser et desist et continue d’opérer grâce à la faible protection de la vie privée offerte par la législation américaine.

Suivant ce modèle, les entreprises d’IA ont avancé à grands pas, créant un mélange de données presque impossible à démêler. Les entreprises d’IA suivent toujours l’approche désuète et dangereuse « avancer rapidement et casser des choses », mais en poussant le concept à un autre niveau.

Le RGPD n’a peut-être pas été rédigé en pensant à l’IA, mais c’est à ce jour la législation la plus solide en matière de protection des données. Heureusement, l’Union européenne travaille maintenant sur une proposition pour son Acte sur l’Intelligence Artificielle(nouvelle fenêtre). Si tout se déroule comme prévu, la proposition finale devrait être disponible en juin de cette année, et l’application de la loi pourrait commencer dès fin 2024.

L’IA a le potentiel d’être un développement véritablement révolutionnaire, capable de stimuler le progrès pendant des siècles. Mais cela doit être fait correctement. Ces entreprises sont en passe de gagner des milliards de dollars de revenus, et pourtant elles ont porté atteinte à notre vie privée et entraînent leurs outils en utilisant nos données sans notre permission. L’histoire récente montre que nous devons agir maintenant si nous voulons éviter une version encore pire du capitalisme de surveillance.

Mise à jour le 13 juillet 2023 pour discuter de la mise à jour de la politique de confidentialité de Google.