Karell Bertet : Analyse de données complexes et hétérogènes avec GALACTIC


mercredi 30 octobre 2024 - Séminaires

Le lien vers l’enregistrement se trouve ici (durée : 1 heure et 44 minutes).

Heure et date : le 30 octobre 2024 à 12h00
Lieu : PK-4610 et Zoom
Conférencier : Karell Bertet (La Rochelle Université)
Titre : Analyse de données complexes et hétérogènes avec GALACTIC

Résumé : Des résultats novateurs permettent d’envisager de nouvelles méthodes d’analyse de données complexes et hétérogènes, offrant lisibilité et explicabilité, pour une analyse interactive guidée par l’analyste des données. Il s’agit d’un nouvel algorithme, NextPriorityConcept, publié en Août 2020[1], qui repose sur les propriétés des treillis de descriptions d’enveloppes convexes généralisées[2] pour générer un clustering hiérarchique de données complexes et hétérogènes, et de la plateforme GALACTIC[3] (GAlois LAttices, Concept Theory, Implicational systems and Closures) qui en fournit une implémentation générique, la première version ayant été diffusée en Janvier 2020.

L’algorithme NextPriorityConcept, issu de l’analyse formelle de concepts, calcule un treillis de concepts à partir de données complexes et hétérogènes, où chaque concept est composé d’un sous-groupe de données avec leurs motifs communs. Cet algorithme se positionne ainsi dans les domaines de la fouille de données et de la découverte de motifs, et repose sur la résolution de deux verrous scientifiques :

  • Descriptions génériques des données par des prédicats, permettant d’analyser des données complexes et de mixer des données hétérogènes
  • Stratégies génériques d’exploration non exhaustive de l’espace de recherche, permettant de réduire le déluge des patterns et d’envisager un mécanisme de navigation interactive

NextPriorityConcept est un algorithme de clustering hiérarchique par division (chaque cluster est successivement divisé, en commençant par le cluster de toutes les données) où les prédicats de description et de stratégies sont calculés à chaque étape. Alors que les descriptions correspondent aux bordures de l’enveloppe convexe généralisée de chaque cluster, les stratégies correspondent à des coupes dans cette enveloppe. Sur un plan algébrique, un tel espace de description est une géométrie convexe qui possède la propriété de treillis. 

Quant à la plateforme GALACTIC, elle propose un mécanisme de plugins pour un ajout facilité de descriptions de nouveaux types de données, de stratégies d’exploration et de mesures de qualité des sous-groupes, qui peuvent s’envisager dans un contexte de recherche interactive guidée par l’analyste des données. Des plugins ont été implémentés pour des données binaires, catégorielles, numériques, chaînes de caractères et séquences.

Dans cet exposé, nous décrirons l’algorithme NextPriorityConcept, les treillis de description par prédicats, et la plateforme GALACTIC. Puis nous présenterons des résultats obtenus sur différents jeux de données hétérogènes.


[1] Next Priority Concept: A new and generic algorithm computing concepts from complex and heterogeneous data. C. Demko, K. Bertet, C. Faucher, J.-F. Viaud, S. O. Kuznetsov. Theoretical Computer Science (TCS). 845: 1-20 (2020)
[2] Description lattices of generalised convex hulls. C. Demko, K. Bertet, J-F. Viaud, C. Faucher, D. Mondou: Int. J. Approx. Reason. 174: 109269 (2024)
[3] galactic.univ-lr.fr

Biographie :

Je suis professeure des universités au laboratoire L3I (Informatique, Image, Interaction) de La Rochelle université où j’ai été recrutée en 1999, après avoir obtenu un doctorat au laboratoire LIAFA (Informatique Algorithmique : Fondements et Applications) de l’université de Paris 7. Mes travaux de recherche ont toujours eu pour fil directeur la structure algébrique de treillis et l’Analyse Formelle des Concepts, avec des contributions à la fois algébriques, algorithmiques et applicatives. Je suis responsable de l’équipe Modèles & Connaissances du laboratoire L3I, et responsable du CMI Informatique (Cursus Master Ingénierie) de mon université.