Développement de l'IA : quelle protection des données personnelles ?

Le quatrième article de la SAGA AI du cabinet Féral est consacré au défi que représente le droit de la protection des données à caractère personnel pour les fournisseurs de systèmes d’IA et les utilisateurs de ces solutions.

Quelles que soient leurs caractéristiques, les intelligences artificielles reposent sur l’analyse de masses conséquentes de données qui doivent répondre à des impératifs de volume, de variété, de vélocité, de véracité et de valeur – les fameux « 5V ».

Ces traitements de données massifs constituent un défi en matière de respect du droit de la protection des données à caractère personnel, en particulier du Règlement UE 2016/679 sur la protection des données personnelles (« RGPD »), tant pour les fournisseurs de systèmes d’IA, que pour leurs utilisateurs.

L’applicabilité du droit de la protection des données personnelles aux systèmes d’IA

La question de la protection des données à caractère personnel dans le cadre d’une intelligence artificielle ne se pose que si celle-ci traite effectivement de telles données, définies comme étant « toute information se rapportant à une personne physique identifiée ou identifiable »^[1].

Il est parfaitement imaginable d’envisager des IA fonctionnant sans traiter aucune donnée à caractère personnel. Toutefois, les possibilités grandissantes de réidentification des données par croisements ou corrélations, couplées à l’appréciation large de la notion de données à caractère personnel, brouillent la frontière entre les données à caractère personnel et les données non personnelles comprises dans des ensembles de données mixtes.

Il en résulte qu’un ensemble de données mixtes sera le plus souvent soumis aux obligations découlant du RGPD^[2].

L’importance de mettre le système d’IA en conformité avec le RGPD dès sa conception

Le RGPD prévoit que le responsable d’un traitement de données personnelles doit s’assurer, dès sa conception (« by design »), que ce traitement respecte les principes essentiels de la réglementation sur la protection des données personnelles.

Cela passe par l’adoption de mesures techniques et organisationnelles appropriées tenant compte « de l’état des connaissances, des coûts de mise en œuvre et de la nature, de la portée, du contexte et des finalités du traitement ainsi que des risques » dont le degré de probabilité et la gravité varient pour les personnes concernées.

Jusque-là, les sanctions prononcées par l’autorité de protection de données française (la CNIL) sur ce fondement sont rares.

A titre d’illustration, la CNIL a prononcé une amende de 300 000 euros à l’encontre d’un opérateur téléphonique ayant manqué à son obligation de protection des données dès la conception. Cet opérateur a été sanctionné pour avoir créé un système faisant obligatoirement apparaître les lignes téléphoniques résiliées sur la facturation des abonnés titulaires d’une offre multiligne, sans permettre l’effacement de ces données personnelles alors que celles-ci n’étaient pas nécessaires pour la finalité poursuivie^[3].

Cette obligation revêt une importance déterminante s’agissant de la conception d’un système d’IA.

Dans le cas d’espèce précédemment cité, l’opérateur a pu remédier à la contrainte technique relevée par la CNIL qui imposait un traitement de données personnelles inutiles.

Or, le développement d’une IA qui n’intègre pas, dès sa conception, le respect des principes essentiels du RGPD présente le risque de ne jamais pouvoir être mis en conformité ou seulement au prix de coûts et d’efforts disproportionnés.

En ce sens, notons qu’il est du pouvoir de l’autorité de protection des données personnelles d’ordonner la suppression d’une base de données constituée de manière illégale.

La décision prononcée par la CNIL à l’encontre du système Clearview AI est un excellent exemple à cet égard.

Cette société a créé un moteur de recherche permettant de trouver une personne physique par une recherche lancée à partir de sa photographie. Pour atteindre ce résultat, Clearview a collecté illégalement des milliards d’images à travers le web afin de se constituer une base de données.

Cette collecte de données est naturellement illicite, notamment en raison de l’absence d’information des personnes concernées et de l’absence de base légale à ce traitement massif de données personnelles.

Après une mise en demeure restée infructueuse, la CNIL a prononcé une amende de 20 millions d’euros à l’encontre de ce fournisseur d’un système d’IA, et l’a enjoint, sous astreinte, à « supprimer l’ensemble des données à caractère personnel de[s] personnes » concernées.

Les manquements retenus à l’encontre de cet opérateur résultent d’une méconnaissance initiale de l’obligation de privacy by design : les concepteurs de ce système d’IA n’ont pas tenu compte, dès sa conception, du respect des principes élémentaires du RGPD.

Envisager une mise en conformité semble désormais difficile, voire impossible pour cet opérateur, contraint de supprimer sa base de données constituée illégalement.

Les points d’attention pour mettre un système d’IA en conformité avec le RGPD

En premier lieu, le concepteur du système d’IA doit s’interroger sur la source des données utilisées et s’assurer qu’elles ont été collectées de manière licite.

Il doit également s’assurer du respect du principe de minimisation imposant de traiter seulement les données personnelles adéquates, pertinentes et limitées à ce qui est nécessaire au regard des finalités poursuivies par le traitement envisagé.

Aussi, la ou les finalités du traitement, c’est-à-dire l’objectif poursuivi par le système d’IA, devront être déterminées à l’avance. Enfin, le concepteur devra également s’interroger en amont sur la base légale des traitements envisagés, qui reposeront le plus souvent sur l’intérêt légitime de la société qui développe le système d’IA, mais peuvent aussi être fondés sur le consentement des personnes concernées ou sur l’exécution d’un contrat.

Pour s’assurer de rester dans ce cadre, la CNIL recommande aux concepteurs du système d’IA de prévoir un cahier des charges permettant de déterminer :

Le résultat attendu,
Les indicateurs de la performance acceptable de la solution,
Le contexte d’utilisation du système permettant d’identifier les informations prioritaires pour son usage opérationnel,
Les contextes d’utilisation exclus et les informations non pertinentes pour le ou les principaux cas d’usage envisagés.

En définissant ce cadre, le fournisseur du système d’IA doit s’efforcer de prévoir les mesures appropriées pour limiter les conséquences potentiellement négatives pour les droits et libertés des personnes concernées.

La CNIL recommande par exemple aux fournisseurs des systèmes d’IA d’inclure des mesures de :

Généralisation, visant à généraliser ou diluer les attributs des personnes concernées en modifiant leur échelle ou leur ordre de grandeur respectif,

Randomisation, visant à ajouter du « bruit » aux données afin d’en diminuer la précision et affaiblir le lien entre les données et l’individu.

Ces mesures doivent être mises en œuvre aussi bien sur les données que sur les métadonnées qui y sont associées.

Il est également indispensable de définir une durée de conservation appropriée.

Lors de la conception d’un système d’IA, il sera nécessaire de séquencer les différentes phases de développement puis de déploiement de l’outil pour planifier à l’avance les durées de conservation appropriées.

En matière de conception de système d’IA, deux grandes phases se distinguent généralement :

La phase de développement, qui inclut la conception du système d’IA, la constitution d’une base de données, l’apprentissage et l’entraînement du système d’IA,
La phase de déploiement, qui impliquera nécessairement des opérations de maintenance et d’amélioration du système d’IA.

Ces phases répondent à des objectifs différents, et le séquençage permet de déterminer pour chacune de ces phases (i) quelles données sont indispensables à l’atteinte de l’objectif poursuivi, (ii) la durée de conservation des données appropriée qui sera limitée au strict nécessaire et enfin (iii) le sort des données, à savoir l’effacement, l’anonymisation ou la réutilisation pour une finalité compatible à l’issue de la phase considérée.

Les utilisateurs des systèmes d’IA tenus de mettre en œuvre leur propre conformité

Une fois le système d’IA conçu, bien évidemment dans le respect des principes élémentaires du RGPD précédemment rappelés, faut-il encore que les utilisateurs en fassent un usage conforme à la réglementation applicable.

L’utilisateur du système d’IA doit non seulement s’assurer que le fournisseur fournit une solution conforme au droit de la protection des données personnelles, mais il doit également prendre les mesures appropriées pour se mettre lui-même en conformité : définir une finalité, une base légale, une durée de conservation limitée, assurer la sécurité du traitement, informer les personnes concernées et respecter leurs droits, etc.

Cette coopération entre l’utilisateur et le fournisseur du système d’IA devra se poursuivre lors de la détermination du rôle et de la qualification des parties : co-responsabilité, sous-traitance, responsabilité indépendante. La qualification retenue est cruciale pour déterminer les obligations des parties et l’acte juridique à adopter pour matérialiser ces obligations.

L’utilisateur devra également vérifier si une analyse d’impact (AIPD) est nécessaire. L’AIPD est obligatoire si le traitement envisagé est susceptible d’engendrer un risque élevé pour les droits et libertés des personnes physiques^[4].

Le Comité européen de la protection des données (CEPD) a identifié neuf critères permettant d’aider les responsables de traitement à déterminer si une AIPD est requise, étant précisé que si au moins deux critères sont remplis, l’AIPD s’impose^[5].

En matière d’IA, les critères relatifs au caractère innovant de la solution et la collecte de données à grande échelle conduiront souvent à rendre obligatoire la mise en œuvre d’une analyse d’impact.

Ce sera aussi le cas dans l’hypothèse du traitement de données sensibles, des données de personnes vulnérables ou encore de croisement de données^[6].

Enfin, l’utilisation des systèmes d’IA va conduire à nourrir la question du profilage et de la prise de décision entièrement automatisée^[^7].

L’article 22 du RGPD pose le principe du droit, pour les personnes physiques, de ne pas faire l’objet d’une décision fondée exclusivement sur un traitement automatisé produisant des effets juridiques la concernant ou l’affectant de manière significative de façon similaire.

Des exceptions sont néanmoins prévues et, dans ce cas, des garanties spécifiques doivent encadrer le traitement fondant une telle décision^[^8].

En principe donc, une intervention humaine est nécessaire lors d’une prise de décision susceptible d’affecter significativement les personnes concernées.

Ce sont précisément les dérives de l’usage des systèmes d’IA qui sont visés par ce texte. A titre d’illustration, à compter de 2014, Amazon a utilisé un système d’IA pour le recrutement de ses salariés. Ce système a dû être arrêté après trois ans d’usage et la découverte de la discrimination systématique des profils féminins du fait des biais algorithmiques qu’il comportait^[9].

Le défi de l’exercice des droits par les personnes concernées

Dernier point, et non des moindres, tant pour le fournisseur du système d’IA, que pour les utilisateurs de la solution : le respect des droits des personnes concernées.

Tout d’abord, les personnes concernées doivent être informées du traitement mis en œuvre sur les données personnelles qui les concernent. Se pose alors (de nouveau) la question de la collecte des données et de leur source.

Les systèmes d’IA reposent souvent sur de vastes bases de données sur lesquelles elles s’entraînent durant la phase d’apprentissage.

Les personnes concernées devront être informées de ce traitement préalablement à sa mise en œuvre, ce qui peut être difficile à mettre en place.

Les systèmes d’IA, en particulier les IA génératives, peuvent également conduire l’utilisateur à renseigner des données à caractère personnel. Le cas échéant, le responsable de traitement devra informer clairement les personnes concernées de l’utilisation qui sera faite des données renseignées, et en particulier si elles seront réutilisées à des fins d’apprentissage et d’amélioration de l’IA.

C’est d’ailleurs précisément ce que certaines autorités de protection des données européennes reprochent à ChatGPT, l’IA conversationnelle développée par OpenAI.

L’autorité de protection italienne a notamment reproché à l’opérateur de ne pas informer suffisamment clairement les utilisateurs de la manière dont leurs données sont utilisées et notamment du fait que les conversations entretenues avec le système d’IA servent à alimenter et perfectionner l’algorithme.

Autre reproche : l’inexactitude de certaines informations que ChatGPT fournit et pouvant s’avérer erronées ou obsolètes, car elles reposent sur des informations anciennes ou qui ne sont pas fiables.

Les personnes concernées sont alors en théorie en droit d’obtenir la rectification ou l’effacement de ces données inexactes. En pratique, la mise en œuvre de ces droits n’est pas toujours facile.

Et pour cause, faut-il encore que, dès la conception, le fournisseur du système d’IA ait prévu de pouvoir extraire facilement (et dans le délai légal) les données concernées, les transmettre à la personne concernée qui formule une demande d’accès, rectifier ou effacer le cas échéant les données qui s’avèrent inexactes, erronées ou collectées illicitement.

Face au défi que représente le respect du droit de la protection des données lors du développement et l’utilisation des systèmes d’IA, la CNIL a créé un service dédié à l’intelligence artificielle, dont l’objectif est d’accompagner le développement de ces solutions innovantes^[10].

^[^1] RGPD, art. 4 §1

^[2] Article 4§1 du RGPD

^[³^] Délibération SAN-2021-021 du 28 décembre 2021

^[4] Article 35 du RGPD

^[^5] Lignes directrices concernant l’analyse d’impact relative à la protection des données (AIPD) et la manière de déterminer si le traitement est « susceptible d’engendrer un risque élevé» aux fins du règlement (UE) 2016/679, CEPD, 4 avril 2017 (lien)

^[⁶^] Réaliser une analyse d’impact si nécessaire, CNIL, 11 octobre 2023 (lien)

^[7^] Profilage et décision entièrement automatisée, CNIL, 29 mai 2018 (lien)

^[8^] Cela concerne les décisions fondées sur le consentement explicite des personnes concernées, les décisions nécessaires à la conclusion ou à l’exécution d’un contrat, les décisions encadrées par des dispositions légales spécifiques.

^[9^] Les Échos, Quand le logiciel de recrutement d’Amazon discrimine les femmes, 13 octobre 2018 (lien)

^[10] Création d’un service de l’intelligence artificielle à la CNIL et lancement des travaux sur les bases de données d’apprentissage, 23 janvier 2023 (lien)

Retrouver les autres articles de la SAGA AI :

SAGA AI #1 – AI Act : L’UE adopte le premier règlement sur l’intelligence artificielle au monde
SAGA AI #2 – Les enjeux de l’utilisation de l’IA en matière de PI : focus sur les œuvres utilisées pour entraîner les IA
SAGA AI #3 – Contenus générés par une intelligence artificielle : qui détient quels droits ?

Le développement de l’IA confronté au droit de la protection des données personnelles