Le cruel dilemme des données de santé à l’ère de l’IA : vie privée ou équité ?

Publié le 24 juin 2024

Cet article est republié à partir de The Conversation par Nesrine Kaâniche, maître de conférences, experte en cybersécurité et protection de la vie privée, membre de la Chaire VP-IP IMT et Aymen Boudguiga, Ingénieur chercheur en cybersécurité au Commissariat à l’énergie atomique et aux énergies alternatives (CEA).

L’intelligence artificielle (IA) se diffuse partout dans notre quotidien, transformant des domaines comme les diagnostics médicaux, les transports, la finance ou la sécurité. Elle s’immisce de plus en plus dans nos prises de décision grâce à la collecte massive et à l’analyse de nos données, alimentant des algorithmes décisionnels et permettant d’influencer nos choix. Cette omniprésence soulève des questions éthiques et sociales importantes et impose une question complexe sans réponse facile : doit-on lui faire confiance ?

Avec le projet EQUIHid, nous étudions le potentiel de l’apprentissage fédéré pour rendre les services de santé plus équitables et respectueux de la vie privée. L’apprentissage fédéré permet d’entraîner un modèle d’intelligence artificielle de manière collaborative. Cela dans le but de répondre à un problème spécifique, comme l’analyse des images mammographiques pour la détection précoce du cancer ou l’évaluation de la présence du mélanome dans les images de lésions cutanées. Le modèle est entraîné sur une multitude de données de patientes, provenant de différents hôpitaux.

Des modèles d’IA qui reproduisent les inégalités

Imaginons un modèle conçu pour diagnostiquer le cancer de la peau, qui les détecte avec une précision remarquable chez les patients à la peau claire, mais dont l’efficacité s’effondre lorsqu’il s’agit de peaux plus foncées. On dit alors que le modèle n’est pas équitable, car il favorise injustement un groupe de patients par rapport à un autre. Comment ce phénomène peut-il se produire ?

La réponse réside dans les données utilisées pour entraîner ce modèle. Si ces données sont biaisées, en surreprésentant un certain type de patients, le modèle sera plus performant avec ce groupe, reproduisant ainsi le biais présent dans les données.

Si la base de données d’entraînement est majoritairement composée d’images de patients à la peau claire, le modèle sera moins exposé aux variations de pigmentation et aux formes de cancer qui se manifestent plus fréquemment sur les peaux foncées. En conséquence, il sera moins performant pour diagnostiquer le mélanome chez les patients à la peau foncée. Les conséquences d’un tel biais peuvent être graves. Un patient victime d’un diagnostic erroné ou retardé pourrait voir son pronostic de santé sérieusement compromis. De plus, ces biais renforcent les inégalités existantes dans le système de santé, défavorisant les groupes déjà marginalisés.

De tels biais s’intensifient notamment si les grands volumes de données, sur lesquels ces modèles sont entraînés, ne sont pas représentatifs de la population générale. En effet, les données médicales pour l’entraînement proviennent de consultations hospitalières. Or, chaque établissement n’ayant qu’une vision partielle du problème via sa population locale, il rencontrera des difficultés à obtenir un modèle équitable. Une solution à ce problème consiste à croiser différentes sources de données pour les enrichir, et assurer ainsi un apprentissage fédéré équitable.

Équité, vie privée et apprentissage décentralisé

Le principe ? Plusieurs entités communiquent directement entre elles, avec l’objectif de coopérer, sans partager de données potentiellement sensibles et sans avoir à les centraliser dans un site commun géré par un tiers. La souveraineté des données est ici assurée, mais elle n’est pas suffisante pour garantir le respect de la vie privée des patientes dans les bases d’apprentissage. En effet, même si leurs données ne sont pas directement exposées, les modèles qu’elles ont permis d’entraîner peuvent dévoiler des informations de santé sensibles en cas d’attaque informatique.

Reprenons l’exemple précédent d’un modèle de diagnostic du cancer de la peau. Un attaquant pourrait interagir avec le modèle pour essayer de deviner des détails personnels sur un patient donné, notamment la probabilité que celui-ci développe cette maladie. Si le modèle répond avec une grande certitude, cela indique que le patient en question était probablement présent dans l’ensemble d’entraînement, révélant ainsi sa prédisposition à cette maladie, sans accès direct à ses données médicales.

Le projet EQUIHid vise à concevoir de nouveaux algorithmes d’apprentissage fédéré, à la fois respectueux de la vie privée et capables d’entraîner de manière décentralisée des modèles qui ne soient pas discriminatoires. Outre les développements algorithmiques, une particularité du projet est la volonté d’étudier le problème de façon théorique, afin d’évaluer comment l’équité impacte-t-elle la performance des modèles. Comment l’équité interagit-elle avec l’apprentissage fédéré ? Comment interfère-t-elle avec l’apprentissage respectueux de la vie privée ? Enfin, comment les trois concepts interagissent ensemble ?

Si les domaines de l’équité, du respect de la vie privée et de l’apprentissage fédéré ont largement été étudiés individuellement, leurs interactions ne sont que rarement considérées dans la littérature scientifique actuelle. Ainsi, il faut trouver le bon équilibre pour résoudre cette équation à trois paramètres.

Vers une implémentation de modèles plus équitables

Des chercheurs de l’Université nationale de Singapour (NUS) ont démontré que l’équité dans les modèles d’apprentissage automatique a un coût en matière de respect de la vie privée. Ce coût n’est d’ailleurs pas réparti de manière égale : la fuite d’informations liée aux modèles d’apprentissage est nettement plus importante pour les sous-groupes défavorisés, ceux-là mêmes pour lesquels l’apprentissage équitable est crucial. Dans le cadre d’EQUIHid, nous avons démontré que plus les données d’entraînement sont biaisées, plus le coût en matière de vie privée pour atteindre l’équité pour ces sous-groupes sera élevé.

Pendant la première phase du projet, nous avons exploré une solution existante, FairFed, qui construit un modèle d’apprentissage à partir de plusieurs modèles plus ou moins équitables dans le but de créer un modèle global plus équitable que ceux qu’il agrège. Nous avons cherché à étendre cette approche à des contraintes supplémentaires, en particulier le respect de la vie privée. Pour ce faire, nous avons introduit une première proposition basée sur des techniques de chiffrement homomorphe et de confidentialité différentielle.

Le chiffrement homomorphe est une technique cryptographique qui permet d’effectuer des opérations mathématiques sur des données chiffrées, sans avoir besoin de les déchiffrer au préalable. Cela permet de garantir la confidentialité des données pendant leur traitement. La confidentialité différentielle, quant à elle, est une propriété mathématique des données statistiques qui garantit qu’il est très difficile de déduire si un individu spécifique est présent ou non dans un ensemble de données, même après la publication de statistiques agrégées.

Une IA centrée sur l’humain

Notre solution s’appuie sur ces concepts et permet d’entraîner un modèle commun à partir de plusieurs modèles chiffrés provenant de différentes entités. Tout en les agrégeant, elle pondère leur participation en fonction de leur niveau d’équité. Cela permet d’assurer une meilleure confidentialité des données d’entraînement et de développer un modèle global plus équitable.

Durant la deuxième phase du projet, nous nous pencherons sur la question de l’intégrité de l’apprentissage fédéré pour assurer le bon déroulement de l’entraînement du modèle et éviter toute déviation dont les conséquences pourraient être importantes, notamment la génération d’un modèle biaisé menant à des diagnostics médicaux erronés ou une fuite massive de données sensibles.

La question de l’IA et de l’équité est devenue prioritaire pour les institutions européennes et internationales. L’Artificial Intelligence Act (AI Act), adopté par le Parlement européen en mars 2024, insiste sur les droits fondamentaux en matière de protection des données, de dignité humaine et de non-discrimination. Ainsi, mener des recherches sur la détection et la réduction, voire la suppression, des biais des modèles d’apprentissage est un enjeu essentiel pour promouvoir une IA plus équitable et centrée sur l’humain.

Le projet EQUIHid est soutenu par l’Agence nationale de la recherche (ANR), qui finance en France la recherche sur projets. Elle a pour mission de soutenir et de promouvoir le développement de recherches fondamentales et finalisées dans toutes les disciplines, et de renforcer le dialogue entre science et société. Pour en savoir plus, consultez le site de l’ANR.

⇒ Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Écoutez Nesrine Kâaniche dans l'épisode du podcast Sciences Num. : “Données personnelles : quelle protection de la vie privée pour les services de e-santé ?”

→ Abonnez-vous à Sciences Num. ici

Le cruel dilemme des données de santé à l’ère de l’IA : vie privée ou équité ?

Des modèles d’IA qui reproduisent les inégalités

Équité, vie privée et apprentissage décentralisé

Vers une implémentation de modèles plus équitables

Une IA centrée sur l’humain

La Chaire VP-IP de l’Institut Mines-Télécom conçoit un protocole sécurisé, respectueux de la vie privée et infalsifiable

Qui fera main basse sur la sécurité d’Internet en Europe ?

Comment anonymiser des données personnelles ?

Des modèles d’IA qui reproduisent les inégalités

Sur The Conversation, retrouvez des analyses, pas des invectives.

Équité, vie privée et apprentissage décentralisé

Vers une implémentation de modèles plus équitables

Une IA centrée sur l’humain

La Chaire VP-IP de l’Institut Mines-Télécom conçoit un protocole sécurisé, respectueux de la vie privée et infalsifiable

Qui fera main basse sur la sécurité d’Internet en Europe ?

Comment anonymiser des données personnelles ?