Glossaire Règlement IA et protection des données

Pour permettre à ses travaux de disposer d’un socle commun de définition, et ainsi d’éviter tout ambiguïté dans la production de ses livrables, le groupe de travail Protection des données du Clusif, en partenariat avec l’AFCDP, propose ce glossaire. Les définition qui y sont présentées reprennent, sauf mention contraire, le contexte du RIA (ou IA Act).

Ce glossaire aura vocation a être enrichi et mis à jour par le groupe de travail régulièrement.

Algorithme

Suite d’instructions qui doivent être exécutées de façon automatique par une machine

Analyse d’Impact sur les Droits Fondamentaux (AIDF) (RIA) / Fundamental Rights Impact Assessment (FRIA)

Etude qui doit être menée lorsque des risques sur les droits fondamentaux sont engendrés par certains SIA à haut risque

Analyse d’Impact sur la Protection des Données (AIPD) (RGPD)

Etude qui doit être menée lorsqu’un traitement de données personnelles est susceptible d’engendrer un risque élevé pour les droits et libertés des personnes physiques concernées.

Anonymiser

Supprimer totalement et de manière irréversible le lien entre une donnée et une personne physique

Apprentissage fédéré

Technique cryptographique qui permet à plusieurs parties de collaborer à l’analyse des données sans divulguer aucune entrée individuelle. Type d’apprentissage dans lequel plusieurs entités entraînent collaborativement un modèle d’IA sans mise en commun de leurs données respectives. Les modèles appris sur leurs données locales sont envoyées à un centre orchestrateur afin de consolider le modèle global.

Apprentissage par renforcement

Mode d’apprentissage automatique qui consiste à envoyer à un agent un signal qui lui indique si l’action ou la réponse qu’il propose est correcte ou non (récompense), l’ensemble des résultats obtenus lui permettant de formuler des règles et d’apprendre à analyser l’environnement ainsi qu’à planifier ses actions pour l’accomplissement de sa tâche.

Approche non supervisée

Approche dans laquelle la machine ne dispose pas de catégorisation pour la guider. Elle repère des liens entre les données pour donner un résultat statistiquement plausible.

Approche supervisée

Approche dans laquelle une catégorisation connue d’avance et un objectif de résultat correct permettent à la machine de reconnaitre des caractéristiques lui permettant d’aboutir à un résultat.

Attaque par exfiltration de modèle/model evasion attack

Attaque qui vise à permettre le vol d’un modèle d’IA et/ou de ses paramètres et hyperparamètres.

Attaque par inférence d’appartenance

Attaque qui vise à déterminer si des données relatives à un individu ont été utilisées lors de la phase d’entraînement

Attaque par inversion de modèle /model inversion attack

Attaque qui vise à reconstruire les données ayant servi pour l’apprentissage du système : un grand nombre d’entrées sont soumis au système d’IA afin d’observer les sorties produites.

Attaques par empoisonnement /Data poisoning attack

Attaque qui vise à modifier le comportement du système d’IA en introduisant des données biaisées ou corrompues en phase d’entraînement

Autorité de Surveillance du Marché (ASM)/Market Surveillance Authority (MSA)

Autorité nationale désignée par chaque pays de l’UE (exemple DGCCRF) qui surveille que les produits sont conformes à la législation d’harmonisation de l’UE. Pour l’intelligence artificielle, l’autorité (ou les autorités) assure que le SIA respecte le RIA, qu’il ne nuise pas aux intérêts publics et aux droits fondamentaux. L’autorité doit être informée par les fournisseurs de certains évènements liés à leur SIA. Elle dispose de pouvoirs d’enquête, reçoit les réclamations et peut imposer des sanctions ou des mesures correctives.

Biais

Point de vue déformé, qui entraine une différence de traitement systématique. Dans l’usage courant, cette différence a une connotation négative et peut entrainer des décisions injustes, inexactes ou discriminatoires. Néanmoins dans le domaine de l’IA, la différence dans le traitement peut être neutre, ou parfois même souhaitée.

Biométrie (RGPD/RIA)

Application de techniques d’observation des caractéristiques physiques ou comportementales uniques à des fins de génération de données biométriques. Exemples : analyse de comportement unique de navigation (scrolls, clics…), reconnaissance faciale ou vocale.

Carte de données/data card modèle de SIA

Document standardisé qui décrit de manière claire, structurée et transparente un jeu de données utilisé pour entraîner, valider ou tester un modèle d’IA.

Catégories particulières de données (parfois appelées « données sensibles ») (RGPD)

Données listées de façon limitative dans l’Article 9 du RGPD. Il s’agit des informations qui révèlent la prétendue origine raciale ou ethnique, les opinions politiques, les convictions religieuses ou philosophiques ou l’appartenance syndicale, ainsi que le traitement des données génétiques, des données biométriques aux fins d’identifier une personne physique de manière unique, des données concernant la santé ou des données concernant la vie sexuelle ou l’orientation sexuelle d’une personne physique.

Chiffrement homomorphe / Homomorphic encryption

Technique permettant de réaliser des opérations sur des données chiffrées sans que celles-ci aient à être déchiffrées.

Comité National Pilote d’Ethique du Numérique (CNPEN)

Organisme français qui rend des avis consultatifs qui éclairent les décideurs et les autorités publiques françaises

Confidentialité différentielle

Propriété d’anonymisation visant à protéger en limitant les résultats de requêtes faites à une base de données en minimisant les risques d’identification des entités qu’elle contient, si possible en maximisant la pertinence des résultats de la requête.

Ces techniques reposent sur l’ajout contrôlé de bruit pour rendre les données analytiquement utiles mais ne permettant pas de déterminer si les données d’une personne spécifique sont incluses dans une base de données. En ajoutant du bruit, la présence ou l’absence d’un individu dans une base de données n’affecte pas le résultat obtenu.

Décision individuelle automatisée

Décision prise à l’égard d’une personne, par le biais d’algorithmes appliqués à ses données personnelles, souvent pour permettre une automatisation de traitement de gros volumes de données. Selon qu’il y ait ou pas implication humaine, le degré d’intervention humaine et parfois son contexte, l’individu est plus ou moins protégé vis à vis de ce mode de prise de décision.Certaines de ces décisions sont fortement encadrées par la loi, si la décision est entièrement automatique et a un impact fort sur la personne.

Défenseur Des Droits – DDD

Autorité administrative indépendante française chargé du respect des droits et libertés, notamment en luttant contre les discriminations et en promouvant l’égalité.

Déploiement

Processus d’installation, de configuration et de mise en service d’un logiciel ou d’une application dans un environnement opérationnel

Discrimination

Fait de traiter différemment – et de manière injuste – certains individus ou groupes, favorisant ou défavorisant certaines personnes sur la base de critères comme : le genre, l’origine ethnique, l’âge, le lieu de résidence, le niveau socio-économique. Certaines discriminations sont interdites et constituent un délit.

Distributeur (RIA)

Un organisme qui commercialise un système d’IA créé par un autre opérateur

Données augmentées

Données créées à partir de données existantes pour en crééer de nouvelles.

Données biométriques (RIA ≠ RGPD)

RGPD : données personnelles résultant d’un traitement technique qui utilise des caractéristiques physiques ou comportementales d’une personne pour l’identifier ou vérifier son identité.

RIA : données personnelles résultant d’un traitement technique, relatives aux caractéristiques physiques, physiologiques ou comportementales d’une personne physique.

Données commerciales/Sales data

Données de clients ou de prospects collectées à l’occasion d’un parcours d’achat : préférences d’achat, démographie, géolocalisation, interactions avec l’organisme, comportement (clics….)

Données industrielles

Informations saisies par les opérateurs, les techniciens ou générées par les machines au sein d’une usine (commandes, stocks, production, maintenance…) ou d’autres installations (exemples : raffinerie, exploitation minière, entrepot logistique, station de ski, trieur de bagages d’aéroport.

Données personnelles

Toute sorte d’information qui concerne une personne identifiée ou identifiable que ce soit dans un cadre privé ou professionnel

Données synthétiques

Données générées pour imiter des données du monde réel (qui peuvent être rares, ou sensibles), générées par anonymisation ou mathématiquement (modèle aléatoire).

Droit de fouille

Faculté d’aller puiser dans les données protégées accessibles sur Internet (œuvres, bases de données, etc)

Droits fondamentaux (RIA)/Fundamental rights

Droits essentiels reconnus à toute personne, qui relèvent des droits de l’homme et de libertés publiques, consacrés par divers textes dont la Charte des droits fondamentaux de l’UE qui vise les principes de Dignité, Liberté, Egalité, Solidarité et Citoyenneté listés en 50 droits. Certains sont plus particulièrement concernés par l’IA: droit à la vie privée et à la protection des données personnelles, droit à la non-discrimination, droit à un recours effectif et à un procès équitable, liberté d’expression et d’information, dignité humaine (capacité à décider), droit à la sécurité et à la liberté.

Entrainement

Processus de l’apprentissage automatique pendant lequel le système d’intelligence artificielle construit un modèle à partir de données.

Environnement d’exécution sécurisé/Trusted exécution environnement (TEE)

Dans un processeur, zones sécurisées et isolées des autres environnements d’exécution afin que les données soient traitées de manière sécurisée.

Ethique

Analyse des facteurs moraux qui orientent la conduite humaine

European Data Protection Board -EDPB/CEPD (RGPD)

Comité Européen de la Protection des Données : le CEPD est institué par le RGPD au niveau de l’UE pour veiller à une application uniforme du RGPD dans les pays membres. L’EDPD donne notamment des recommandations (non règlementaires) sur la manière d’interpréter le RGPD. Les lignes directrices (sur la notion de sous-traitant, sur les cas où l’AIPD est obligatoire, …) éclairent les praticiens du RGPD sur la manière d’appliquer le RGPD. Mais seul le RGPD fait loi, les Lignes Directrices sont seulement indicatives. Les autorités judiciaires peuvent avoir des interprétations différentes, et prendre des décisions non alignées avec les Lignes Directrices.

Explicabilité

Faculté d’expliquer un résultat obtenu à l’aide d’un SIA. Par exemple, description des variables qui contribuent le plus à un résultat algorithmique donné.

Fine tuning/Ajustement

Processus consistant à optimiser le comportement du système lors de son exécution. Il permet de s’assurer, dans le domaine d’emploi, de l’adéquation des données de sortie avec les résultats attendus. Cela consiste à réentrainer un modèle préentraîné (déjà intelligent) sur des données spécifiques, pour qu’il soit plus adapté à une tâche précise ou à personnaliser un modèle existant pour qu’il devienne expert dans un domaine ou une tâche spécifique.

Formation/Literacy (RIA)

Mise à disposition, au profit des concepteurs et utilisateurs de SIA, des informations nécessaires pour leur permettre de comprendre les principes de fonctionnement du SIA, ainsi que des conditions de travail adéquates leur permettant d’exercer leur pouvoir de jugement

Gouvernance

Ensemble des mesures et/ou dispositifs qui permettent à une organisation d’être conforme à la règlementation et à ses objectifs opérationnels : politiques, gestion des risques, implication des acteurs, etc : (politiques, procédures, comitologie, audits)

Hyperparamètre

Élément indépendant de l’apprentissage tels que le nombre de nœuds et la taille des couches cachées du réseau de neurones, l’initialisation des poids, le coefficient d’apprentissage, la fonction d’activation, etc.

IA générative

Type de système d’intelligence artificielle capable de générer des données (du texte, des images, des vidéos ou d’autres médias) en réponse à des requêtes/prompts

Identification- Réidentification

Fait de pouvoir relier une donnée à une personne physique spécifique.

Intelligence artificielle (IA)

Procédé logique et automatisé reposant généralement sur un algorithme et en mesure de réaliser de manière autonome des tâches bien définies

Intelligence artificielle à usage général – General Purpose Artificial Intelligence (GPAI)

L’Intelligence artificielle à usage général est conçue pour la polyvalence. Le GPAI n’est pas conçu pour une application unique. Il génère des résultats pertinents pour un grand nombre de tâches et sert souvent de base à des SIA spécialisés (adaptés à des cas d’usage spécifiques).

Intelligibilité

Capacité de mettre en relation et de rendre compréhensible les éléments pris en compte par le système d’IA pour la production d’un résultat. Exemple : variables d’entrée et leurs conséquences sur la prévision d’un score, et ainsi sur la décision.

Minimisation

Le principe de minimisation consiste à toujours faire le maximum pour réduire les données personnelles traitées au minimum possible, en termes de nombre de données personnelles traitées, de niveau de détail et de nombre de personnes pouvant y accéder.

Mise en service (RIA)

Fourniture d’un produit destiné à être utilisé sur le marché de l’UE

Mise sur le marché

Fait de rendre disponible un produit pour la première fois sur le marché de l’UE.

Modèle d’intelligence artificielle

Construction mathématique générant une déduction ou une prédiction à partir de données d’entrée. Le programme détecte des schémas spécifiques, puis après entraiment agit sur des données ou fait des prédictions à partir de données qu’il n’a pas vu auparavant.

Moissonnage/Webscraping

Extraction automatisée de contenus de sites Internet

National Institute of Standards and Technology (NIST)

Agence gouvernementale américaine auteur du « NIST AI 100-1: AI Risk Management Framework » : cadre de gestion des risques liés à l’IA (non règlementaire)

Paramètre

Propriété apprise des données utilisées pour l’entraînement (par exemple le poids de chaque neurone d’un réseau)

Prédiction

Résultat qu’un modèle fournit après avoir analysé des données d’entrée. C’est une estimation, une devinette probabiliste, basée sur ce que le modèle a appris à partir de données passées.

Profilage

Traitement utilisant les données personnelles d’un individu en vue de l’évaluer, de le catégoriser, d’analyser et de prédire son comportement ou sa localisation. Exemple : attribuer à une personne des préférences d’achat par déduction de son parcours sur internet, considérer qu’une personne présente des risques d’insolvabilité vu l’historique de ses crédits précédents.

Pseudonymiser

Faire en sorte que la personne physique à laquelle est reliée une donnée ne soit pas directement identifiable. Le lien avec la personne physique existe toujours, mais il suppose d’avoir accès à un élément autre pour connaitre l’identité de la personne physique. Exemple : sur le badge d’accès d’un salarié figure le matricule du salarié, mais pas son nom et son prénom. Une table de correspondance permet de retrouver le nom et prénom qui correspond au matricule.

Qualité (RIA)

Désigne le niveau de sécurité et autres objectifs en matière de politique publique visés par les législations d’harmonisation de l’Union.

À ne pas confondre avec la signification du terme «qualité» dans un contexte commercial qui permet de différencier les différents niveaux de qualité d’un produit

Reconnaissance d’entités nommées/ Named-entity recognition (NER)

Sous-tâche d’extraction d’informations qui cherche à localiser et classifier les mentions d’entités nommées dans du texte non structuré en catégories prédéfinies, emplacements, codes médicaux, expressions de temps, quantités, valeurs monétaires

Règlement sur l’Intelligence Artificielle (RIA)/Artificial Intelligence Act (AI Act)

Règlementation européenne de l’utilisation de l’intelligence artificielle pour des produits disponibles dans l’UE ou ayant un impact dans l’UE. Cette règlementation s’inscrit dans la logique de conformité des produits du Nouveau Cadre Législatif de l’UE.

Régurgitation

Reproduction de données d’entrainement par un modèle génératif, « mot à mot » (sans transformation, interprétation ou compréhension).

Responsable de Traitement (RT) (RGPD)

L’organisme (personne morale ou physique) qui, seul ou conjointement avec d’autres, décide pourquoi et comment les données personnelles sont traitées. La définition de la finalité est principale, les moyens peuvent être délégués à un sous-traitant.

Retrieval Augmented Generation (RAG)

Technique qui permet de combiner la recherche d’informations pertinentes (retrieval dans une base documentaire pertinente) et la génération de texte avec un modèle de langage (generation). Cela consiste à réentrainer un modèle préentraîné (déjà intelligent) sur des données spécifiques, pour qu’il soit plus adapté à une tâche précise et/ou à personnaliser un modèle existant pour qu’il devienne expert dans un domaine ou une tâche spécifique.

Robustesse

Capacité d’un modèle à bien fonctionner même dans des situations difficiles, imprévues ou légèrement différentes de ce qu’il a appris

Secret des affaires

Information non généralement connue, ayant une valeur commerciale. Comprend le secret des procédés, des informations économiques et financières et des stratégies commerciales ou industrielles

Sous-traitant – Processor (RGPD)

Entité qui traite des données personnelles au bénéfice et sous les instructions du responsable de traitement. Une filiale peut être sous-traitante RGPD de sa société mère, ou l’inverse. Bien que les termes soient identiques en français, le sous-traitant RGPD (processor) ne doit pas être confondu avec le sous-traitant en droit général (subcontractor). Parfois le RT est le client, d’autres fois le RT est le subcontractor.

Système d’Intelligence Artificielle (SIA)

Machine qui perçoit et réagit au monde qui l’entoure au travers d’un logiciel programmé pour faire une tâche ou résoudre un problème avec une autonomie plus ou moins grande. Système algorithmique qui fournit à son utilisateur des données en sorties, à partir des données en entrées fournies et des règles de fonctionnement paramétrées.

Système d’Intelligence Artificielle à Haut Risque (SIA à Haut Risque)

Système d’IA soumis au RIA qui présente un risque important pour la santé, la sécurité ou les droits fondamentaux des personnes

Système d’Intelligence Artificielle Général (SIAG)

Système qui peut être utilisé et adapté à un large éventail d’applications pour lesquelles il n’a pas été conçu intentionnellement et spécifiquement

Test

Processus consistant à évaluer les performances d’un système et à rechercher des erreurs liées à l’exécution d’un algorithme ou d’un programme en s’appuyant sur des jeux de données d’entrée n’ayant pas été utilisés lors de la phase d’entrainement

Traitement de donnée (RGPD)

Action opérée sur une donnée : opération utilisation, stockage, partage, lecture, envoi, suppression, etc

Transformer

Pour les modèles d’IAG, architecture de modèle autosupervisé qui repose sur l’attention (analyse de tous les segments et attribution d »importance), la compréhension sous différents angles et les couches successives pour affiner.

Validation