La CNIL guide les acteurs de l’IA, qui développent ou utilisent de tels systèmes, en fournissant 7 fiches thématiques pratiques.
L’intelligence artificielle (« IA ») connait depuis plusieurs années un développement exceptionnel que la CNIL souhaite accompagner afin de préserver les libertés individuelles des personnes concernées.
Pour fonctionner, certains systèmes d’IA requièrent, lors de leur phase de développement, la constitution de bases de données d’apprentissage à partir desquelles les algorithmes s’entraînent.
Ces bases de données peuvent être constituées en tout ou partie de données à caractère personnel et leur constitution doit donc obéir aux principes du RGPD.
C’est la raison pour laquelle la CNIL a publié ses fiches pratiques afin d’accompagner les fournisseurs de ces systèmes dans leur démarche de conformité avec le RGPD.
La CNIL opère alors une distinction entre la phase de développement du système d’IA (celle pendant laquelle le système est conçu et développé) et celle de son déploiement (sa mise sur le marché).
À noter, ces fiches se concentrent uniquement sur la phase de développement d’un système d’IA et non sa phase de déploiement, qui peut impliquer des traitements de données personnelles distincts.
Une application des principes du RGPD adaptée aux systèmes d’IA
La CNIL rappelle dans ses fiches l’importance de respecter les principes du RGPD. En ce sens, elle consacre des fiches entières aux problématiques liées au choix de la finalité ou de la base légale des traitements mis en œuvre.
Sur la détermination de la finalité, la CNIL précise qu’il peut exister des cas où une seule et même finalité peut être retenue pour les phases de développement et de déploiement. C’est le cas lorsque l’usage opérationnel du système d’IA est déjà déterminé lors de sa phase de développement.
Lorsque ce n’est pas le cas, la phase de déploiement devra avoir sa propre finalité. Cette dernière devra à tout le moins mentionner, pour être conforme aux exigences du RGPD[1], deux éléments :
- Le type de système déployé (développement de modèles de langage, système d’IA génératives d’images, etc.) ;
- Les fonctionnalités et capacités techniquement envisageables du système d’IA.
Les finalités formulées de façon trop large ne seront pas considérées comme « conformes ». Les fournisseurs de système d’IA devront également veiller à ne pas réutiliser les données personnelles traitées pour des finalités différentes et incompatibles avec l’objectif initial.
La CNIL rappelle par ailleurs l’importance de déterminer une base légale (consentement, intérêt légitime, contrat, etc.) lors de la mise en œuvre des traitements de données.
Elle insiste également sur l’importance de respecter les autres principes du RGPD, tels que le principe de minimisation. Elle invite ainsi les fournisseurs de système d’IA à ne collecter que les données nécessaires pour optimiser l’entraînement de l’algorithme, en évitant l’utilisation de données personnelles inutiles[2]. Ils devront également veiller à assurer la sécurité des données personnelles.
Ces fournisseurs devront aussi déterminer des durées de conservation des données traitées. Ces durées seront différentes selon les phases de développements et le type de système développé. Elles pourront varier de quelques semaines à plusieurs mois. La CNIL admet cependant des durées plus longues dans les cas où le système d’IA est utilisé à des fins de recherche scientifique.
La qualification juridique des fournisseurs de système d’IA
La CNIL a également publié une fiche dédiée à la qualification juridique des fournisseurs de système d’IA. Cette qualification est importante, car c’est elle qui détermine qui a la charge de certaines responsabilités et obligations au titre du RGPD.
À cet égard, elle considère que le fournisseur qui est à l’initiative du développement du système, et qui constitue la base de données d’apprentissage à partir de données qu’il a sélectionné pour son propre compte, est le responsable de traitement.
Il en va de même lorsque le fournisseur du système d’IA réutilise les données collectées par un autre organisme. Dans cette hypothèse, la personne qui met à disposition les données (le diffuseur) et la personne qui les réutilise (le réutilisateur) sont deux responsables de traitement indépendants.
Les fournisseurs pourront cependant être responsables conjoints lorsqu’ils alimentent une même base de données avec un objectif conjointement défini.
Un fournisseur de système d’IA pourra également être qualifié de sous-traitant au sens du RGPD. C’est notamment le cas du fournisseur de système d’IA qui développe le système pour le compte de l’un de ses clients, ou de celui qui collecte et traite des données selon des instructions documentées.
Les actions à mettre en œuvre par les fournisseurs de système d’IA au titre du principe d’accountability
En pratique, la mise en conformité des fournisseurs de système d’IA résulte, outre le respect des principes du RGPD, par différentes actions qui devront être documentées au titre du principe d’accountability.
Ils devront ainsi documenter leur choix de procéder ou non à une analyse d’impact[3] (AIPD). La CNIL rappelle à ce sujet que cette analyse est requise dès lors que la constitution d’une base d’apprentissage peut engendrer un risque élevé pour les droits et libertés des personnes. L’AIPD permettra ainsi d’anticiper les risques liés à l’IA (risque de biais discriminant, prise de décisions automatisées par l’IA, etc.).
En outre, les fournisseurs de système d’IA devront prendre en compte la protection des données dès la phase de conception (privacy by design) en mettant notamment en place des mesures de généralisation et de randomisation[4] des données. La CNIL les invite à s’interroger sur l’objectif du système, son architecture, la pertinence des données, etc.
S’agissant des sources des données, l’autorité recommande aux fournisseurs de système d’IA d’être particulièrement attentifs lorsqu’ils réutilisent des bases de données publiquement accessibles afin d’éviter l’utilisation d’une base de données non conforme au RGPD.
Elle les invite à s’assurer au minima que :
- La description de la base de données mentionne leur source ;
- La constitution ou la diffusion de la base de données ne résulte pas d’un crime ou d’un délit ou a fait l’objet d’une condamnation ou d’une sanction publique ;
- Il n’existe pas de doute flagrant sur la licéité de la base de données ;
- La base ne contient pas de données sensibles ou de données d’infractions (si tel est le cas, des vérifications supplémentaires s’imposent).
La CNIL recommande la conclusion d’un accord entre le diffuseur des données et le fournisseur de système d’IA afin d’obtenir une garantie de la licéité de la base de données. Ces contrats pourront notamment mentionner la source, le contexte de la collecte, la base légale du traitement, l’existence d’une AIPD ou encore les mentions d’informations des personnes concernées.
Lire les fiches pratiques IA publiées par la CNIL le 11 octobre 2023
[1] Pour répondre aux exigences du RGPD, une finalité doit être déterminée, explicite et légitime.
[2] Voir la fiche n°6. Pour concevoir un système de façon à éviter le risque de sur-collecte de données, le fournisseur d’IA doit déterminer (i) le type de résultat attendu, (ii) les indicateurs de la performance acceptable de la solution et (iii) le contexte d’utilisation du système permettant d’identifier les informations prioritaires et a contrario, les informations non pertinentes, en considération de l’usage opérationnel du système.
[3] Article 35 du RGPD
[4] Voir la fiche n°7