L’utilisation de l’intelligence artificielle implique différents enjeux de droit de la propriété intellectuelle. Féral consacre cet article à la question de l’utilisation d’œuvres comme données d’entraînement.
Certaines intelligences artificielles ont pour finalité de générer, à partir d’une instruction (« prompt ») et grâce à une base de contenus (« dataset »), un texte, une image ou encore une musique ou une vidéo. Ces « IA génératives » utilisent parmi leurs données d’entraînements des œuvres, contenus protégés sur lesquels différents titulaires détiennent des droits.
Certains ayants-droits ont déjà engagé des procédures à l’encontre de développeurs d’IA génératives, considérant que ces derniers portent atteinte à leurs droits de propriété intellectuelle en utilisant leurs contenus protégés. On pense notamment aux actions en contrefaçon de copyright déposées par le New York Times à l’encontre d’Open AI et Microsoft (respectivement développeur et propriétaire de ChatGPT) devant la District Court de Manhattan, ou par Getty Images à l’encontre de Stability AI (développeur de Stable Diffusion) devant la Hight Court de Londres et la District Court du Delaware.
Si l’issue de ces litiges anglo-saxons est encore incertaine, en Europe la Commission européenne s’est déjà positionnée sur le sujet dans une réponse en date de mars 2023, et les titulaires de droit français organisent dès à présent leur réaction à l’utilisation des œuvres de leurs catalogues en tant que données d’entraînement. Reste qu’en pratique, la traçabilité des œuvres utilisées comme données d’apprentissage peut être impossible.
L’analyse d’œuvres à des fins d’entraînement des IA pourrait entrer dans le cadre de l’exception dite de « Text and Data Mining »
Les bases de données permettant aux IA d’améliorer leur LLM (Large Language Model) peuvent être alimentées d’une grande quantité de contenus protégés. Afin de constituer ces corpus, les développeurs d’IA ont largement recours aux œuvres mises à la disposition du public en ligne.
Une première question est de déterminer si les droits de propriété intellectuelle des titulaires sur les contenus protégés concernés sont opposables lorsque l’entraînement des IA implique leur utilisation – ce que la doctrine autorisée affirme[1].
À considérer que cette utilisation donne prise au droit d’auteur, l’exception dite de « Text and Data Mining » (« TDM ») prévue par le Code de la Propriété intellectuelle[2] pourrait s’appliquer dans les cas où les développeurs d’IA analysent les œuvres de façon automatique avec des logiciels de TDM.
C’est également en ce sens que la Commission européenne s’est positionnée dans la réponse donnée par Thierry Breton en mars 2023 : « En ce qui concerne les œuvres protégées par le droit d’auteur qui sont utilisées pour développer l’IA, dans le cadre du droit d’auteur, le développeur de l’IA devrait demander l’autorisation du titulaire des droits, sauf lorsque des exceptions au droit d’auteur s’appliquent ».[3]
Possibilité de s’opposer à l’analyse des œuvres par les IA : comment procéder à l’opt-out ?
Le bénéfice de l’exception de TDM se limite au cas où la fouille, réalisée sur un corpus d’œuvres auxquelles il a été accédé légalement, est menée (i) à des fins de recherche scientifique publique ou (ii) à des fins privées et à condition que le titulaire de droit ne s’y soit pas opposé.
La forme de cette opposition n’a pas à être motivée et peut être exprimée par tout moyen.
Il est précisé par décret[4] que dans le cas de contenus mis à la disposition du public en ligne, cette opposition peut notamment (et non exclusivement) être exprimée :
- Au moyen de métadonnées (ou tout autre procédé lisible par machine) ;
- Par le recours à une mention dans les conditions générales d’utilisation d’un site internet ou d’un service.
Si la majorité des plateformes de partage de contenus en ligne ont mis en place un tel opt-out, l’expression de l’opposition est plus difficile pour les auteurs qui diffusent leurs œuvres par des procédés alternatifs. Aussi, plusieurs organismes de gestion collective (Sacem, Scad, Scam, Sdvp) ont déclaré mettre en œuvre leur droit d’opt-out au bénéfice de leurs membres.
Le respect des droits de PI conditionné à la transparence des bases de données d’apprentissage ?
En pratique, les datasets ne sont pas rendus publics par les développeurs d’IA de type générative.
Le règlement AI Act[5] voté par le Parlement européen le 13 février 2024 prévoit des obligations de transparence plus ou moins contraignantes selon la catégorie de système d’IA (notamment la catégorie de modèles d’IA dits « à usage général ») et le niveau de risque associé au système d’IA concerné. Ainsi, les systèmes d’IA à haut risque sont soumis à une obligation de transparence consistant à fournir aux autorités compétentes les informations nécessaires à l’évaluation de la conformité du système. Les systèmes d’IA à risque faible sont quant à eux soumis à une obligation de transparence consistant à indiquer aux utilisateurs que le contenu est généré par intelligence artificielle.
Le sujet est à suivre et son enjeu est crucial : la mise en œuvre du droit d’auteur pourrait se heurter à l’impossibilité pour les titulaires de droit de déterminer si les systèmes d’IA utilisent leurs œuvres en tant que données d’apprentissage.
[1] Voir en ce sens le rapport français du Congrès 2023 de l’ALAI « Intelligence artificielle, droit d’auteur et droits voisins », rédigé par Alexandra Bensamoun, Anne-Charlotte Jeancard et Pierre Sirinelli.
[3] Réponse donnée par M. Breton au nom de la Commission européenne le 31 mars 2023 (E-000479/2023)
[5] Retrouver la SAGA AI #1– AI Act : L’UE adopte le premier règlement sur l’intelligence artificielle au monde