Services financiers – Gouvernance des risques et des modèles

Validation fédérée des modèles pour le scoring de crédit et la fraude — conforme aux exigences Bâle/PSD2/RGPD. Suivi continu du drift, robustesse et équité sans exposer les données transactionnelles.

Contexte réglementaire et opérationnel

Les régulateurs bancaires européens ont durci les règles encadrant les modèles internes. En 2025, la BCE a révisé son guide sur les modèles internes pour exiger que les modèles de machine learning soient « adéquatement explicables » et que leurs performances justifient leur complexité[1]. Parallèlement, le nouveau Règlement européen sur l’IA (AI Act, adopté en mars 2024) classe les systèmes de credit scoring IA parmi les applications à haut risque, nécessitant des garanties strictes de robustesse, d’exactitude et de supervision humaine[2]. La directive PSD2 impose quant à elle une authentification forte du client et l’ouverture des services bancaires via des API sécurisées, obligeant les banques à partager l’accès aux comptes avec des tiers en toute sécurité[3]. Enfin, le RGPD – renforcé par un arrêt historique de la CJUE – considère qu’un score de crédit utilisé pour octroyer un prêt constitue une décision individuelle automatisée soumise à l’article 22[4]. En pratique, cela signifie que les banques doivent gouverner leurs modèles de bout en bout : valider les modèles de risque de crédit (PD/LGD) selon Bâle, surveiller les modèles de fraude et LBC-FT, et démontrer leur équité (pas de traitement « discriminatoire illégal » des données personnelles[5]) – tout en respectant la confidentialité des données et les contraintes de localisation transfrontalière.

Enjeux principaux

Protection des données & fédération : Traditionnellement, valider un modèle de façon centralisée implique de copier des données client sensibles vers un référentiel commun, ce qui pose de sérieux risques de conformité (RGPD, PSD2). Le projet pilote d’AffectLog adopte un schéma fédéré où aucune donnée brute ne quitte jamais le périmètre sécurisé de chaque banque[6][7]. Chaque établissement conserve ses données transactionnelles localement, et seule une synthèse chiffrée des résultats de validation est partagée. Cela élimine l’exposition des données clients tout en permettant une validation collaborative.

Dérive et robustesse des modèles : Dans le monde réel, les distributions de données évoluent (saisonnalité, chocs économiques, etc.), et sans surveillance continue, les performances d’un modèle peuvent se détériorer, entraînant des risques imprévus ou de fausses alertes. On appelle drift ce phénomène de dégradation progressive d’un modèle dû à des changements dans les données ou la relation entre variables d’entrée et de sortie[8]. Le système AffectLog intègre un suivi en continu des dérives de données et de concept (data drift et concept drift) ainsi que des tests de robustesse. Cette surveillance permanente répond aux attentes des superviseurs en matière de re-validation ex post des modèles[1][9], afin d’identifier rapidement toute dégradation et d’y remédier avant qu’elle n’impacte la gestion des risques (par ex. éviter que des modèles de détection de fraude obsolètes génèrent des faux positifs massifs).

Biais et explicabilité : Les régulateurs européens exigent des garanties d’équité et de transparence dans les décisions automatisées. La plateforme AffectLog mesure tout un ensemble de métriques de fairness (parité entre groupes, équité contrefactuelle, etc.) et veille au « traitement équitable » des données personnelles conformément au RGPD[5]. Une analyse causale identifie si des attributs sensibles (âge, genre, nationalité…) influencent indûment les résultats des modèles. En outre, des outils d’IA explicable (valeurs SHAP, exemples contrefactuels) fournissent une traçabilité pour expliquer chaque décision du modèle. Cela permet de répondre aux exigences d’audit et d’explicabilité du ML fixées par la BCE et l’AI Act, en s’assurant que les modèles « boîte noire » soient rendus interprétables et supervisables par l’humain.

Solution de validation fédérée par AffectLog

AffectLog déploie une plateforme deeptech combinant trois composants intégrés :

  • Orchestration éphémère de bacs à sable (multi-cloud) : Le système lance à la demande des enclaves de calcul isolées au sein de l’environnement cloud ou on-premise de chaque banque, puis les détruit immédiatement après chaque cycle de validation. Ces sandboxes éphémères sont provisionnées via des scripts d’infrastructure-as-code (Kubernetes, Azure ARM, CloudFormation), garantissant une création/fermeture rapide et aucune persistance de données. Concrètement, l’enclave de chaque banque charge localement ses données et modèles derrière son pare-feu. Une fois la validation terminée, l’enclave et toutes les données temporaires sont supprimées – éliminant ainsi tout risque de fuite persistante. Ce protocole éphémère garantit une conformité « zéro résidu de données » (aucune donnée n’est conservée en dehors de chaque banque)[10][11].
  • DSL de conformité RegLogic (~400 clauses) : Un moteur de règles spécifique encode les exigences réglementaires pertinentes (AI Act de l’UE, RGPD, norme ISO/IEC 42001 sur la gestion de l’IA, guide OWASP sur la sécurité de l’IA, etc.). Cette ontologie de clauses permet de vérifier automatiquement que le comportement des modèles et leur documentation respectent les obligations en vigueur. Par exemple, le DSL signalera si un modèle de crédit ne comporte pas de seuils de risque conformes aux attentes prudentielles, ou si un score de fraude enfreint le principe de minimisation des données. Chaque étape de validation est ainsi tracée vis-à-vis des exigences légales correspondantes, assurant une auditabilité complète du processus[2]. RegLogic fournit aux banques un rapport de conformité expliquant, clause par clause, comment le modèle validé satisfait (ou non) aux règles de Bâle, du RGPD, de l’AI Act, etc. – un atout précieux en cas d’inspection des superviseurs.
  • Pipeline XAI conscient des biais : Une chaîne d’explicabilité fédérée s’exécute localement sur chaque site bancaire. Pour chaque modèle, le système calcule localement les contributions de caractéristiques (SHAP values) aux prédictions, génère des exemples contrefactuels (en identifiant les plus petits changements d’entrée capables d’inverser une décision) et produit des insights à partir de graphes causaux. Seules des agrégations de ces résultats sont partagées au niveau fédéré, révélant des tendances globales sans exposer de cas individuels. Par exemple, l’analyse SHAP fédérée permet de détecter si, dans l’une ou l’autre banque, une variable de scoring contribue disproportionnellement aux refus de crédit pour un groupe démographique particulier. Des tests contrefactuels vérifient que remplacer une caractéristique sensible par un autre profil (par ex. comparer deux candidats au crédit de même revenu mais de groupes différents) ne provoque pas de changements systématiques d’issue. Ce pipeline outille la gouvernance de l’équité par des métriques statistiques et causales robustes[5]. En parallèle, il améliore l’explicabilité globale du modèle fédéré : chaque institution peut expliquer ses décisions locales, et ensemble elles obtiennent une vision consolidée des facteurs de risque – conforme aux bonnes pratiques de sécurité et de transparence de l’IA[12].

Chacun de ces volets a fait l’objet d’une validation par des experts métiers et techniques. Par exemple, des auditeurs bancaires indépendants ont examiné les protocoles des enclaves éphémères pour confirmer qu’aucune donnée transactionnelle ne peut en sortir. De même, des analystes risques ont passé en revue les règles du DSL RegLogic afin de s’assurer qu’aucune exigence réglementaire clé (Bâle, EBA, PSD2, etc.) ne manquait à l’appel.

Workflow de mise en œuvre

  1. Initialisation des sandboxes : L’orchestrateur central déclenche la création d’un nœud de calcul éphémère dans la région cloud de chaque banque (via Kubernetes, modèles ARM Azure ou templates CloudFormation selon l’infrastructure)[10]. Chaque sandbox est isolé et préconfiguré avec l’environnement nécessaire.
  2. Chargement des modèles et données : Au sein de son enclave sécurisée, chaque banque importe son modèle propriétaire (par ex. un modèle de scoring crédit IRB ou de détection de fraude) ainsi qu’un jeu de données de validation prédéfini. Ce dataset de test peut comporter des échantillons transactionnels anonymisés ou des scénarios synthétiques fournis dans le cadre du consortium. Aucune donnée client brute n’est transmise en dehors : chaque jeu reste local, conformément aux contraintes GDPR/PSD2 sur la localisation des données.
  3. Évaluation fédérée locale : Dans chaque sandbox, le modèle est exécuté sur les données locales pour produire des prédictions et indicateurs de performance (taux d’erreur, distributions de scores, etc.). En parallèle, le pipeline XAI « biais-aware » tourne sur place : calcul des valeurs SHAP par observation, génération d’exemples contrefactuels (pour tester la robustesse des décisions), mesures de dérive en comparant les données de test à des distributions de référence, et simulations de stress tests pour évaluer la résilience du modèle. Toutes ces analyses se font localement, exploitant uniquement les données de la banque hôte.
  4. Agrégation des métriques : Chaque nœud ne renvoie qu’une synthèse chiffrée de ses résultats vers un gestionnaire central de résultats. Ces sorties agrégées incluent par exemple des histogrammes globaux d’importance des variables, des statistiques d’erreur ou d’AUC, des indicateurs de dérive (p-values de tests de Kolmogorov-Smirnov, etc.), et des scores d’équité (différences de taux d’acceptation entre groupes, etc.). Aucune observation individuelle (aucun enregistrement de transaction ou de client) n’est partagée, seulement des résumés statistiques. Les données sont chiffrées en transit et au repos, garantissant qu’aucune information sensible ne soit exposée durant l’agrégation.
  5. Démantèlement des environnements : Immédiatement après la phase de calcul, chaque sandbox est automatiquement détruit. Tous les fichiers temporaires, jeux de données et journaux de logs sont supprimés, assurant qu’aucune donnée locale du client ne persiste au-delà de la fenêtre de validation[10]. Ce nettoyage après usage – vérifié par audit – est essentiel pour satisfaire au principe de minimisation des données et éviter tout risque de fuite ultérieure. On retrouve ici l’exigence de « zéro résidu » déjà évoquée : chaque exécution laisse un système vierge comme avant, sans trace des données traitées.
  6. Contrôle réglementaire automatisé : Les résultats agrégés sont alors passés au crible du moteur RegLogic. Celui-ci confronte chaque métrique et documentation collectée aux clauses réglementaires encodées. Par exemple, il vérifie que les indicateurs d’équité se situent dans les fourchettes acceptables implicites du RGPD et de l’AI Act (pas de biais disproportionné entre groupes protégés), que les documents fournis couvrent bien les « explications » exigées pour un modèle de crédit automatisé, ou encore que les paramètres de risque du modèle respectent les fourchettes prudentielles (PD et LGD conformes aux attentes Bâle/EBA). Le moteur génère en sortie un rapport complet de conformité point par point, qui peut être examiné par les experts risques des banques et partagé avec les régulateurs si besoin.

Grâce à cette chaîne automatisée, les vérifications de modèles deviennent des processus routiniers “lights-out”, c’est-à-dire sans intervention humaine manuelle lourde. Au lieu de mobiliser une équipe pendant plusieurs jours pour auditer un modèle, le consortium obtient désormais en quelques heures un rapport de validation exhaustif, incluant toutes les explications et traces nécessaires pour un audit. Cette approche industrialisée n’élimine pas le rôle humain (notamment pour interpréter les résultats et décider d’actions correctives), mais elle accélère drastiquement le cycle de gouvernance et fiabilise la conformité en réduisant les erreurs ou oublis possibles dans une revue manuelle.

Cas d’usage démonstratifs

La solution de validation fédérée d’AffectLog a été appliquée à plusieurs modèles financiers critiques, afin de tester son efficacité sur des cas concrets représentatifs :

  • Scoring de crédit (modèles IRB) : Le pilote a fédéré la validation de modèles de Probability of Default (PD) et Loss Given Default (LGD) utilisés sous le régime des approches internes (IRB) de Bâle. Chaque banque a soumis son modèle de crédit interne (prêts hypothécaires, crédit conso, etc.) et l’a évalué sur des scénarios hors échantillon couvrant différentes conditions macroéconomiques. Les résultats agrégés ont mis en évidence des différences de sensibilité des caractéristiques et des dérives selon les régions, offrant une vision comparative inédite entre établissements. L’exercice a confirmé la conformité aux lignes directrices de l’EBA sur la validation des modèles internes[13], tout en illustrant l’importance du jugement humain : suite à la récente décision de la CJUE qualifiant un score de crédit de « décision automatisée », les banques ont dû renforcer l’intervention humaine dans le processus d’octroi pour satisfaire l’article 22 du RGPD[4]. Le pilote a aidé à identifier quels segments de clients ou quels paramètres de modèle nécessitent une revue humaine plus approfondie avant décision, conciliant performance du scoring et droits des clients.
  • Surveillance des transactions & détection de fraude : Le consortium a expérimenté des analyses de fraude interbancaires en mode fédéré. Par exemple, des modèles de détection d’anomalies de paiement ont été entraînés séparément sur les données de chaque banque, puis testés sur un flux combiné d’événements simulés multi-banques. La pipeline d’explicabilité a permis de mettre en lumière comment certaines caractéristiques (heure de la transaction, montant, pays émetteur) influençaient les scores de fraude selon les banques, fournissant des explications unifiées sur les alertes. Surtout, le pilote a reproduit dans les sandboxes des scénarios alignés sur PSD2, avec authentification forte du client (SCA) et échanges via API sécurisées, afin de vérifier qu’aucune alerte frauduleuse n’était due à un manquement aux contrôles SCA ou à une vulnérabilité dans le partage d’API[3]. L’absence de « faux positifs » liés à ces mécanismes réglementaires a renforcé la confiance que les modèles respectent bien les exigences PSD2 en conditions réelles. En somme, ce cas d’usage a montré la faisabilité d’une analyse antifraude collaborative sans centraliser les données, chaque banque améliorant ses modèles grâce aux retours agrégés tout en maintenant l’étanchéité de son périmètre de sécurité.
  • Score LCB-FT (Lutte Contre le Blanchiment – Financement du Terrorisme) : Des scorecards ML évaluant le risque LCB des clients (profilage KYC/AML et surveillance des transactions suspectes) ont été testées pour robustesse et biais via la plateforme. Des tests contrefactuels ont vérifié que le retrait d’un attribut sensible tel que l’origine ethnique ou la nationalité n’entraînait pas de variation drastique du score de risque, garantissant que le modèle ne pénalise pas indûment un groupe protégé, conformément au principe de « traitement équitable » du RGPD[5]. Par ailleurs, le système a évalué la sensibilité de ces modèles AML à différentes typologies de blanchiment simulées (par ex. découpages de transactions, schémas de virement complexes) afin de s’assurer que le modèle détecte correctement ces scénarios de stress. Cela a permis de tester la robustesse du modèle face à des techniques de blanchiment émergentes et d’identifier d’éventuels ajustements nécessaires (seuils, nouvelles variables) pour ne pas manquer certaines alertes. Là encore, toutes ces validations se sont faites sans jamais exposer de données client réelles hors de leur banque : chaque institution a pu vérifier la conformité de son scoring AML tout en bénéficiant d’un benchmark global sur la performance et l’équité de modèles similaires chez ses pairs.
  • Détection de réseaux de fraude (fraud rings) : En fédérant des analyses de graphe, la solution a pu scanner les réseaux de virements interbancaires à la recherche de schémas collusoires de mules financières. Chaque banque a calculé localement des indicateurs sur ses sous-graphes de transactions, et le système a ensuite consolidé ces informations pour repérer des clusters suspects traversant plusieurs établissements (typiquement, des personnes recevant des virements de sources multiples puis transférant les fonds rapidement). Grâce à l’explicabilité fédérée, chaque cluster détecté a été accompagné d’explications locales (variables clés, sous-graphe illustratif) via des méthodes SHAP appliquées aux graphes. Cela a permis d’expliquer pourquoi tel ensemble de comptes était qualifié de fraud ring (par ex. forte connectivité entre comptes récemment ouverts, transferts en cascade typiques d’un schéma de blanchiment). Cette approche s’aligne sur les lignes directrices OWASP pour une détection secure et auditable : toute alerte sur un réseau frauduleux peut être justifiée a posteriori par des éléments concrets, renforçant la confiance dans le système de détection[5]. Ce cas d’usage a démontré la flexibilité du cadre AffectLog : bien qu’initialement paramétré pour des modèles tabulaires de scoring, le pipeline fédéré a su intégrer des algorithmes graphiques avancés sans adaptation majeure, montrant qu’il peut couvrir d’autres types de modèles AI à haut risque.

Chaque cas d’utilisation a confirmé l’adaptabilité du système. Si, à l’origine, il a été configuré pour des banques de l’UE (avec un focus Bâle/EBA), le même cadre pourrait s’appliquer à d’autres modèles IA critiques dans n’importe quel secteur. Par exemple, un assureur pourrait fédérer la validation de ses modèles tarifaires entre filiales, ou des fintechs de crédit en ligne pourraient utiliser ce pipeline pour se conformer aux régulations locales sur l’IA et le crédit. Le concept de fédération et d’audit automatisé transcende les secteurs : il constitue un blueprint généralisable de gouvernance de modèles fiables sous fortes contraintes réglementaires.

Résultats et passage à l’échelle

Les premiers enseignements du pilote montrent des gains substantiels en efficacité de model governance et en préparation à la conformité. L’approche fédérée a éliminé des mois de travail manuel de mise en commun de données : les banques n’ont plus besoin d’extraire et partager des journaux de transactions complets pour un audit centralisé, ce qui réduit la charge opérationnelle et les risques de sécurité liés au transfert de données. Du point de vue des superviseurs, voir plusieurs banques produire des analyses cohérentes et recoupées leur donne davantage confiance dans la fiabilité des modèles validés[6][7]. La traçabilité exhaustive offerte (attributions de caractéristiques, scénarios de test archivés, rapports de conformité RegLogic) signifie que chaque institution peut en tout temps fournir aux autorités une preuve détaillée du bon encadrement de ses algorithmes. En cas d’inspection ou de demande ponctuelle du régulateur, le consortium est capable de délivrer un dossier complet en quelques heures, là où précédemment cela aurait pris des semaines.

Le projet a aussi démontré que ce cadre de validation pouvait monter en échelle au niveau paneuropéen. En s’appuyant sur des outils cloud et containers standard de l’industrie, la solution a été déployée sans heurts à travers des SI hétérogènes de banques de premier plan. Elle s’étend naturellement à des groupements multi-pays (ex. fédérations bancaires européennes) et peut intégrer les futures exigences nationales en matière d’IA. L’architecture est de fait modulaire : de nouvelles régulations (par ex. des lois IA locales à venir) pourront être ajoutées au DSL RegLogic, et d’autres modules XAI se greffer au pipeline, sans refonte du noyau. Le pilote a d’ailleurs déjà pris en compte des retours pour enrichir certaines règles (par ex. aligner les contrôles d’usure du modèle sur les attentes du superviseur national X ou Y), illustrant sa capacité d’évolution continue.

En résumé, le projet mené par AffectLog prouve que les institutions financières peuvent réaliser une validation continue et auditable de leurs modèles sans compromettre la confidentialité des données ni leur agilité d’innovation. En combinant de manière inédite l’apprentissage fédéré, l’automatisation de la conformité et l’IA explicable, la solution répond aux impératifs réglementaires actuels (Bâle/MaRisk, PSD2, RGPD, AI Act) tout en posant les bases pour la gouvernance IA de demain à l’échelle de l’Europe[2]. Le projet est toujours en cours, mais les experts du domaine s’accordent déjà à dire que cette approche inaugure un nouveau standard de gouvernance des risques et des modèles dans le secteur financier, conciliant haute technologie et exigences réglementaires.

Points clés

·   Confidentialité des données : Toutes les vérifications de modèles s’exécutent in situ dans chaque banque, de sorte qu’aucune donnée transactionnelle brute ne quitte jamais les pare-feux des établissements[6][7]. La fédération permet de mutualiser les enseignements sans centraliser les données sensibles, assurant le respect strict du RGPD et des règles de localisation.

·   Couverture réglementaire : Le moteur DSL RegLogic encode les régulations IA/finance de l’UE afin de signaler automatiquement tout écart de conformité (par ex. exigences d’explicabilité ou tests de biais selon le RGPD et l’AI Act) lors de la validation[4][5]. Chaque contrôle réglementaire est tracé et relié à une clause de loi, garantissant un audit complet et la tranquillité d’esprit des dirigeants face aux superviseurs.

·   Surveillance continue : Le pipeline surveille en permanence le data drift et la dégradation des modèles en temps réel, permettant d’anticiper et corriger les dérives avant qu’elles ne posent problème[8]. Cette approche proactive répond au cœur des risques de gouvernance : elle assure que les modèles restent performants, stables et justifiables tout au long de leur cycle de vie, et non seulement à la date de leur validation initiale.

·   Explicabilité : Les analyses fédérées SHAP et contrefactuelles fournissent des insights granulaires sur le fonctionnement des modèles, ce qui rassure auditeurs et régulateurs quant au « pourquoi » derrière chaque décision algorithmique[12]. Les banques peuvent démontrer qu’elles comprennent l’impact de chaque variable sur les prédictions et qu’aucune « boîte noire » incontrôlée ne pilote leurs processus métiers critiques, conformément aux attentes accrues en matière d’audit de l’IA.

Sources : Dernières orientations BCE/EBA sur les modèles internes[1] ; synthèse réglementaire sur l’AI Act et le RGPD[2][4] ; guide OWASP sur la sécurité de l’IA (fairness et privacy)[5] ; travaux industriels de recherche sur le federated learning appliqué au crédit et à la fraude[6][7] ; bonnes pratiques cloud pour les environnements éphémères[10]. Ces sources ont inspiré la conception du pilote et valident ses choix techniques.

[1] Federated Learning for Credit Scoring – OpenMined
[2] Secure and Transparent Banking: Explainable AI-Driven Federated Learning Model for Financial Fraud Detection
[3] ECB publishes revised guide to internal models
[4] [14] Setting the ground rules: the EU AI Act
[5] [6] What is PSD2? A guide to PSD2 compliance | Stripe
[7] CJEU rules that a credit score constitutes automated decision making under the GDPR – A&O Shearman
[8] [13] OWASP AI Security and Privacy Guide | OWASP Foundation
[9] What Is Model Drift? | IBM
[10] Using Ephemeral Environments for Chaos Engineering and Resilience Testing
[11] ISO/IEC 42001:2023 – AI management systems
[12] Regulatory Technical Standards on credit scoring and loan pricing disclosure, credit risk assessment and risk management requirements for crowdfunding service providers | European Banking Authority


[1] [13] ECB publishes revised guide to internal models

[2] Setting the ground rules: the EU AI Act

[3] What is PSD2? A guide to PSD2 compliance | Stripe

[4] Regs Are Catching Up to Data Brokers | Osano

[5] OWASP AI Security and Privacy Guide | OWASP Foundation

[6] Federated Learning for Credit Scoring – OpenMined

[7] [12] Secure and Transparent Banking: Explainable AI-Driven Federated Learning Model for Financial Fraud Detection

[8] [9] What Is Model Drift? | IBM

[10] [11] Ephemeral Environments for Blue-Green Deployments: A Step-by-Step Guide