Lot 0 – Coordination & Valorisation
Ce lot vise la gestion du projet dans son ensemble, ainsi que la mise en œuvre des actions de communication et de valorisation des activités. Une attention particulière sera portée à la coordination des activités des lots afin de s’assurer que : i) les objectifs du projet peuvent être atteints, et ii) les livrables attendus sont conformes aux objectifs scientifiques et techniques définis et respectent les délais fixés. Les questions relatives au Plan de Gestion des Données et à la réglementation RGPD sont également traitées dans ce lot. La coordinatrice du projet assurera la représentation du consortium auprès des instances de l’ANR.

Lot 1 – Revisiter l’exploitation des enquêtes biographiques au regard des TVS et des approches IA
Particulièrement structurant pour la démarche globale de recherche, ce lot aborde une question centrale : « Comment, en s’appuyant sur le formalisme de Trajectoires de Vie Sémantisées (TVS) et des méthodes issues de l’IA, revisiter l’analyse des données biographiques en répondant à de nouveaux questionnements ? ». Ce lot est articulé en quatre tâches. Les tâches 1.1. et 1.2 alimentent les lots 2 à 5 en questionnements, données et spécifications. La tâche 1.3 exploite et met à l’épreuve les productions des autres lots dans le cadre d’une réanalyse des données de l’enquête 3B retenue comme cas d’étude. Enfin, un retour d’expérience sera conduit sur l’ensemble du projet et mènera à la proposition d’une méthodologie reproductible (tâche 1.4).
Lot 2 – (Méta-)modélisation de TVS pour les données d’enquêtes biographiques
Ce lot est en charge de la modélisation des données de TVS et du choix d’un format pour leur stockage. Les contributions visées sont : la production d’un méta-modèle (tâche 2.1), son implémentation (tâche 2.2) et son application au cas d’étude, afin de créer le modèle de TVS adapté à l’enquête 3B (tâche 3.3). Sur la base de ce modèle, un graphe de connaissances (KG-3B) stockant les données de l’enquête 3B sera alors produit (tâche 2.4) afin d’être exploité par les lots 3, 4 et 5.
Lot 3 – Enrichissement des KG de TVS
Ce lot vise l’enrichissement du KG3B produit par le lot 2 afin d’accroître ex-post la qualité des données d’enquête et d’affiner les analyses qui en sont faites. Le choix d’une implémentation des données d’enquêtes biographiques dans les formats du Web Sémantique ouvre la voie à la découverte, l’exploration et l’exploitation de données ouvertes et liées, susceptibles d’enrichir les données collectées, sous réserve que ce processus soit facilité. Une méthodologie pour supporter ce processus sera définie (tâche 3.1) en prenant appui sur les spécifications fournies par le lot 1 (étude des besoins en matière d’enrichissement). Des algorithmes et briques logicielles pour l’enrichissement seront développés (tâche 3.2). L’ensemble de la démarche sera testé (tâche 3.3) afin de produire le graphe KG3B+, version enrichie du graphe KG3B.
Lot 4 – Requêtage de KG de TVS en langue naturelle
L’objectif de ce lot est de développer des services d’interrogation en langue naturelle des KGs de TVS en s’appuyant sur l‘API d’un LLM . Il s’agit de permettre : 1) d’exprimer des requêtes (tâche 4.1) sur un KG de TVS, possiblement enrichi, et 2) d’invoquer les méthodes d’analyse statistiques (tâche 4.2). Les capacités d’analyse des LLM, à la fois en matière de langue naturelle (comme le français) et de langage formel (comme SPARQL), ainsi que d’assimilation et de restitution formatée de connaissances (via des techniques de prompt engineering), seront exploitées. Une interface pour formuler ces deux types de requêtes sera conçue (tâche 4.3). L’évaluation des performances du système de questions-réponses basé sur un LLM construit sera menée sur les jeux de données des graphes KG3B (lot 2) et KG3B+ (lot 3) et sur les méthodes d’analyse (lot 5).
Lot 5 – Exploration statistique des TVS
Ce lot traite des méthodes d’analyse statistique dédiées aux TVS. La tâche 5.1 vise à évaluer et adapter les approches existantes du domaine de l’analyse de séquences aux TVS en tenant compte de leurs spécificités. La tâche 5.2 est centrée sur l’utilisation d’outils statistiques classiques en analyse biographique pour faciliter les interprétations collectives à partir de parcours individuels. Elle cherchera à intégrer des données contextuelles riches (issues du lot 3) dans ces approches. Les contributions des tâches précédentes seront évaluées à l’aide de données simulées et réelles, et mises à disposition sous forme de bibliothèques ou de packages R ou Python (tâche 5.3). La tâche 5.4 portera sur le développement de techniques de visualisation pour restituer les résultats des analyses des tâches précédentes.
Responsabilités des lots
Lot 0 : Marlène Villanova (LIG)
Lot 1 : France Guérin-Pace (Ined) et Paule-Anick Davoine (LIG)
Lot 2 : Marlène Villanova (LIG) et Pascal Sebille (ESO)
Lot 3 : Camille Bernard (LIG) et Arnaud Bringé (Ined)
Lot 4 : Jérôme Gensel (LIG) et Pascal Sebille (ESO)
Lot 5 : Caroline Bazzoli (TIMC) et Arnaud Bringé (Ined)

