Jean-Francois Rajotte : Données synthétiques : partager sans (trop) divulguer
Vous pouvez consulter l’enregistrement de ce séminaire ici (durée : ).
Heure et date : le 3 juin 2026 à 12h30
Lieu : PK-5115 et Zoom
Conférencier : Jean-François Rajotte
Résumé :
Les données synthétiques sont souvent proposées comme alternative lorsque les données réelles ne peuvent être partagées. Elles permettent plusieurs utilisations en aval telles que l’entraînement de modèles et l’analyse exploratoire. Créer de bonnes données synthétiques est déjà un défi et en créer sans divulguer de l’information sur les données d’entraînement est encore plus difficile. La confidentialité différentielle est la méthode reconnue pour contrôler les fuites d’information, mais une bonne protection vient souvent au prix de l’utilité. Dans cette présentation, je discuterai de ce compromis entre l’utilité et la confidentialité. Dans un premier temps, je présenterai comment les attaques de confidentialité permettent d’évaluer la confidentialité des données synthétiques. Ensuite, je présenterai des méthodes de génération basées sur la récupération d’information comme les RAG (Retrieval-Augmented Generation). Je montrerai avec des applications concrètes comment ces approches permettent de limiter la quantité de données réelles utilisées pour la génération.
Biographie :
Jean-François Rajotte est professeur au département d’informatique de l’UQAM depuis 2023. Dans ses recherches, il explore les données synthétiques sous plusieurs angles, de leur génération à leurs applications. Il s’intéresse particulièrement à leur utilisation dans le domaine de la santé, ce qui entraîne des enjeux de vie privée. La confidentialité peut être intégrée dès la phase de génération, par exemple en adaptant les méthodes d’apprentissage via la confidentialité différentielle, ou être évaluée par des méthodes d’attaques de vie privée comme l’inférence par appartenance. Au-delà des questions de confidentialité, Jean-François s’intéresse également aux biais que les données synthétiques peuvent engendrer ou magnifier, tant directement que par des modèles d’apprentissage en aval, ainsi qu’aux méthodes permettant de les atténuer.
