Doctorat

Doctorant : Ottavio Khalifa

Titre : Clustering de données longitudinales catégorielles

Encadrant : François Petit

Ecole doctorale : ED 393 Epidémiologie et Sciences de l’Information Biomédicale, Université Paris Cité

Sujet de thèse :

Les données longitudinales sont fréquentes en épidémiologie clinique, et permettent de caractériser l’évolution d’une pathologie, ou la réponse à un traitement, au cours du temps. De nombreuses approches d’analyse de ces données longitudinales existent, et une de ces approches consiste à chercher à identifier des familles de trajectoires, qui permettent soit d’informer les patients ou les médecins de l’évolution probable de la maladie, soit de cibler des groupes pour des interventions spécifiques.

L’identification de ces familles de trajectoires se fait généralement à l’aide de méthodes de clustering. La question considérée ici peut être vu comme un problème de clustering de séries temporelles. Une des difficultés est que les résultats concernant les méthodes de clustering pour les données catégorielles et en particulier pour les séries temporelles à valeur catégorielles sont rares et éparpillés dans la littérature. Des progrès ont récemment été fait pour le clustering dans le cadre statique, mais beaucoup reste à faire dans le cadre dynamique (données longitudinales).

Ce projet de thèse porte sur l’évaluation et le développement de méthode de clustering pour les séries temporelles à valeur catégorielles (ou mixtes).

1/ Quelles sont les méthodes de clustering adaptées à l’identification de trajectoires de patients où l’essentielles des données sont de natures catégorielles ?

Les données rencontrées dans le cadre de la médecine stratifiée présentent certaines particularités : nombreuses variables catégorielles, données sparse etc… Ici, l’un des enjeux majeurs sera l’identification de trajectoires d’évolution de symptômes. Bien qu’il existe un certain nombre de méthodes de clustering de séries temporelles à valeurs catégorielles, ces techniques sont peu documentées et n’ont pas été comparées de façon exhaustive. Nous les évaluerons de manière intensive. Ceci permettra d’identifier les méthodes les plus adaptée au clustering de trajectoires de symptômes. On appliquera ensuite la méthode identifiée au clustering des trajectoires de patients souffrant de Covid long.

2/ Peut-on adapter les méthodes de clustering de séries temporelles, s’appuyant sur des techniques d’analyse topologiques de données au cas des séries temporelles à valeurs catégorielles ?

Nous aurons recours à des données synthétiques que nous génèrerons à partir de modèles qui seront développés dans le cadre de la thèse. Nous utiliserons également les données de la cohorte ComPaRe Covid long. Ces données décrivent l’évolution des symptômes du Covid long de 1200 patients environs au cours du temps, avec des questionnaires tous les 60 jours sur plus de 2 ans.

On commencera par effectuer une revue systématique de la littérature pour identifier les méthodes de clustering potentiellement exploitables. On étudiera ensuite la possibilité d’adapter les méthodes de clustering topologiques ou géométriques au cas des séries temporelles à valeurs catégorielles. Un point de départ possible est constitué des articles. Les différentes méthodes seront évaluées sur des données synthétiques générées à partir de modèles développés dans le cadre de ce travail. Ceux-ci permettront d’explorer un grand nombre de scénarios. Ceci nécessitera d’avoir une réflexion sur les métriques pertinentes pour évaluer les différents algorithmes. La méthode de clustering retenue sera enfin mise en œuvre sur la cohorte ComPaRe Covid long.

Membres

Right
Back to top