Thèse Année : 2024

Reliable statistical inference : controlling the false discovery proportion in high-dimensional multivariate estimators

L'inférence statistique fiable : contrôle de la proportion de fausses découvertes pour des estimateurs en grande dimension

Résumé

Statistically controlled variable selection is a fundamental problem encountered in diverse fields where practitioners have to assess the importance of input variables with regards to an outcome of interest. In this context, statistical control aims at limiting the proportion of false discoveries, meaning the proportion of selected variables that are independent of the outcome of interest. In this thesis, we develop methods that aim at statistical control in high-dimensional settings while retaining statistical power. We present four key contributions in this avenue of work. First, we introduce Notip, a non-parametric method that allows users to obtain guarantees on the proportion of true discoveries in any brain region. This procedure improves detection sensitivity over existing methods while retaining false discoveries control. Second, we extend the Knockoff framework by proposing KOPI, a method that provides False Discovery Proportion (FDP) control in probability rather than in expectancy. KOPI is naturally compatible with aggregation of multiple Knockoffs draws, addressing the randomness of traditional Knockoff inference. Third, we develop a diagnostic tool to identify violations of the exchangeability assumption in Knockoffs, accompanied by a novel non-parametric Knockoff generation method that restores false discoveries control. Finally, we introduce CoJER to enhance conformal prediction by providing sharp control of the False Coverage Proportion (FCP) when multiple test points are considered, ensuring more reliable uncertainty estimates. CoJER can also be used to aggregate the confidence intervals provided by different predictive models, thus mitigating the impact of modeling choices. Together, these contributions advance the reliability of statistical inference in high-dimensional settings such as neuroimaging and genomic data.
La sélection de variables sous contrôle statistique est un problème fondamental rencontré dans divers domaines où les praticiens doivent évaluer l'importance des variables d'entrée par rapport à un résultat d'intérêt. Dans ce contexte, le contrôle statistique vise à limiter la proportion de fausses découvertes, c'est-à-dire la proportion de variables sélectionnées qui sont indépendantes du résultat d'intérêt. Dans cette thèse, nous développons des méthodes visant à assurer un contrôle statistique dans des contextes de grande dimension tout en conservant la puissance statistique. Nous présentons quatre contributions clés dans ce domaine de recherche. Premièrement, nous introduisons Notip, une méthode non paramétrique qui permet aux utilisateurs d'obtenir des garanties sur la proportion de vraies découvertes dans n'importe quelle région cérébrale. Cette procédure améliore la sensibilité de détection par rapport aux méthodes existantes tout en conservant le contrôle des fausses découvertes. Deuxièmement, nous étendons le cadre Knockoff en proposant KOPI, une méthode qui fournit un contrôle de la proportion de fausses découvertes (FDP) en probabilité plutôt qu'en espérance. KOPI est naturellement compatible avec l'agrégation de plusieurs tirages Knockoff, ce qui permet de prendre en compte la variabilité de l'inférence Knockoff traditionnelle. Troisièmement, nous développons un outil de diagnostic pour identifier les violations de l'hypothèse d'échangeabilité dans Knockoffs, accompagné d'une nouvelle méthode non paramétrique de génération de Knockoffs qui restaure le contrôle des fausses découvertes. Enfin, nous introduisons CoJER pour améliorer la prédiction conforme en fournissant un contrôle précis de la proportion de couverture fausse (FCP) lorsque plusieurs points de test sont pris en compte, garantissant des estimations d'incertitude plus fiables. CoJER peut également être utilisé pour agréger les intervalles de confiance fournis par différents modèles prédictifs, atténuant ainsi l'impact des choix de modélisation. Ensemble, ces contributions renforcent la fiabilité de l'inférence statistique dans des contextes de grande dimension tels que les données de neuroimagerie et de génomique.
Fichier principal
Vignette du fichier
140566_BLAIN_2024_archivage.pdf (8.26 Mo) Télécharger le fichier
Origine Version validée par le jury (STAR)

Dates et versions

tel-04935172 , version 1 (07-02-2025)

Identifiants

  • HAL Id : tel-04935172 , version 1

Citer

Alexandre Blain. Reliable statistical inference : controlling the false discovery proportion in high-dimensional multivariate estimators. Artificial Intelligence [cs.AI]. Université Paris-Saclay, 2024. English. ⟨NNT : 2024UPASG083⟩. ⟨tel-04935172⟩
0 Consultations
0 Téléchargements

Partager

More