Thèse Année : 2024

Machine learning and domain adaptation for enhancing the measure of brain health with MEG and EEG signals

Apprentissage statistique et adaptation de domaine pour l'amélioration de la mesure de la santé cérébrale à partir de signaux MEG et EEG

Résumé

Neuroscience studies face challenges in gathering large datasets, which limits the use of machine learning (ML) approaches. One possible solution is to incorporate additional data from large public datasets; however, data collected in different contexts often exhibit systematic differences called dataset shifts. Various factors, such as site, device type, or experimental protocol, can lead to substantial divergence of M/EEG signals that can hinder the success of ML across datasets. This variability can induce distribution shifts in the data and in the biomedical variables of interest. ML algorithms typically require similar feature distributions at train and test time. Thus, these shifts limit the application of supervised ML algorithms. This thesis investigates dataset shifts in M/EEG data to understand their causes, how they affect ML models, and proposes methods adapted to the context and shift typeto improve the generalization of predictive models. In the first part, we focused on dataset shifts occurring in M/EEG recordings, not considering shifts in the label distributions. We investigated how changes in brain activity, anatomy, or device configuration can lead to dataset shifts in M/EEG data. To harmonize the data distribution, we used a Riemannian data alignment approach and adapted it to an unsupervised regression context. To assess the effectiveness of the alignment methods, we performed a series of experiments on simulated and real data. We showed that the performance of ML models can be affected by dataset shifts and that it can be improved by aligning the data distributions. In the second part, we focused on dataset shifts occurring jointly in M/EEG recordings and in the y distribution, the variable to predict. Such situations are common in clinical studies where data is collected from different sites and populations. In this context, the previously proposed alignment methods are not enough to handle these shifts. We proposed a novel method to address domain adaptation for situations in which source domains have distinct y distributions. This method exploits the geometric structure of the Riemannian manifold to jointly learn a domain-specific re-centering operator and the regression model. We performed empirical benchmarks on the cross-site generalization of age-prediction models with resting-state EEG data from a large multi-national dataset. The proposed approach significantly improved the generalization of the models across sites compared to state-of-the-art methods. In the third part, we addressed the problem of different recording devices in EEG data. The varying number and positions of sensors make it difficult to compare data from different devices, and even make it impossible to directly train a ML model on data from one device and test it on data from another. To tackle this, we proposed an unsupervised approach leveraging EEG signal physics: we map EEG channels from various configurations to a template of fixed positions using field interpolation. Comparative analysis against other methods was conducted with leave-one-dataset-out validation on six public BCI datasets for a right-hand/left-hand motor imagery classification task. It demonstrated that field interpolation is similar or better than the other methods. The contributions presented in this thesis aimed at improving the generalization of ML models across datasets in M/EEG data from different aspects and situations. The goal was to provide a better understanding of the dataset shifts in M/EEG data and to propose approaches to mitigate their effects in realistic scenarios.
Les études en neurosciences rencontrent des défis dans la collecte de grandes bases de données, limitant ainsi l'utilisation de l'apprentissage statistique. L'intégration de données publiques peut être une solution, mais les données recueillies dans différents contextes présentent souvent des différences systématiques, appelées décalages de données (dataset shifts). Ces décalages, causés par des variations dans les sites d'enregistrement, le dispositif d'enregistrement ou les protocoles expérimentaux, compliquent l'application des méthodes d'apprentissage, qui exigent généralement des données d'entraînement et de test similaires. Cette thèse examine ces décalages dans les données M/EEG pour en comprendre les causes, leurs effets sur les modèles d'apprentissage, et propose des solutions adaptées au type de décalage pour améliorer la généralisation des modèles prédictifs. Dans un premier temps, nous avons analysé les décalages survenant dans les enregistrements M/EEG en lien avec l'activité cérébrale, l'anatomie ou la configuration des capteurs. Pour harmoniser la distribution des données, nous avons utilisé une approche riemannienne d'alignement des données et l'avons adaptée à la régression non supervisée. Pour évaluer l'efficacité de l'alignement, nous avons réalisé des expériences sur des données simulées et réelles. Nous avons montré que la performance des modèles d'apprentissage peut être affectée par ces décalages et qu'elle peut être améliorée en alignant les distributions de données. Dans la deuxième partie, nous nous sommes concentrés sur les décalages survenant à la fois dans les données M/EEG et la distribution de la variable à prédire y. Cette situation est courante dans les études cliniques où les données sont recueillies dans différents sites et auprès de différentes populations. Dans ce contexte, l'alignement proposé précédemment n'est pas suffisant pour traiter les décalages. Nous avons proposé une nouvelle méthode pour aborder l'adaptation de domaine dans des situations où les domaines sources ont des distributions de y distinctes. Cette méthode exploite la structure géométrique de la variété riemannienne pour apprendre conjointement un opérateur de recentrage spécifique au domaine et le modèle de régression. Nous avons réalisé des comparaisons empiriques sur la généralisation inter-sites des modèles de prédiction de l'âge avec des données EEG provenant d'un grand ensemble de données multinationales. L'approche proposée a significativement amélioré la généralisation des modèles à travers les sites par rapport aux méthodes de référence. Finalement, nous avons abordé le problème des différents dispositifs d'enregistrement EEG. Le nombre et les positions variables des capteurs rendent difficile la comparaison des données provenant de différents dispositifs, et rendent même impossible l'utilisation directe des méthodes d'apprentissage. Pour remédier à cela, nous avons proposé une approche non supervisée exploitant la physique des signaux EEG : nous avons interpolé les canaux EEG de diverses configurations sur des positions fixes avec l'interpolation basée sur la physique de la propagation électromagnétique. Une évaluation comparative avec d'autres méthodes a été effectuée sur six bases de données publiques pour la classification d'imagerie motrice main droite/gauche. L'interpolation s'est montrée similaire ou meilleure que les autres méthodes. Les contributions de cette thèse visent à améliorer la généralisation des modèles d'apprentissage appliqués aux données M/EEG sous différents aspects et situations. Le but était de mieux comprendre les décalages de données M/EEG et de proposer des approches pour atténuer leurs effets dans des scénarios réalistes.
Fichier principal
Vignette du fichier
137701_MELLOT_2024_archivage.pdf (4) Télécharger le fichier
Origine Version validée par le jury (STAR)

Dates et versions

tel-04906458 , version 1 (22-01-2025)

Identifiants

  • HAL Id : tel-04906458 , version 1

Citer

Apolline Mellot. Machine learning and domain adaptation for enhancing the measure of brain health with MEG and EEG signals. Artificial Intelligence [cs.AI]. Université Paris-Saclay, 2024. English. ⟨NNT : 2024UPASG068⟩. ⟨tel-04906458⟩
0 Consultations
0 Téléchargements

Partager

More