Liste thĂšses en cours
ALAMICHEL Louise : Bayesian nonparametric methods for complex genomic data - - DĂ©but de la thĂšse :
The aim of this thesis is to develop and analyse Bayesian nonparametric models to explore diversity in metagenomic data. This involves 1) furthering the knowledge about the fundamental properties of existing Bayesian nonparametric processes, 2) using them as building blocks to develop flexible models for noisy and high-dimensional data and 3) designing efficient and scalable inference algorithms, via parallelisation, optimisation and/or careful approximations.
The conceptual framework of Bayesian nonparametric models is particularly well-suited to describe complex and noisy data such as metagenomic data. Such data represent a crucial tool to explore the diversity of environments, such as marine environments (with environmental DNA, Cowart et al., 2018), human body (Van Rossum et al., 2020), tumor diversity (Nik-Zainal et al., 2012) or virus strain diversity. They are inherently large dimensional, suffer from multiple sources of noise, exhibit a complex latent structure (clusters, tree, network) and present challenges for which Bayesian nonparametric approaches have been recognised as promising, e.g. Lee et al. (2015); Roth et al. (2014). Bayesian nonparametric approaches are particularly interesting for complex data because they naturally account for uncertainty about the precise data generating mechanism, allowing flexibility in crucial aspects such as the functional form of the dependence to covariates, the error model, or the size of the latent space. On top of this, the Bayesian framework allows carrying this uncertainty seamlessly into the estimation uncertainty or real-time prediction uncertainty.
Moreover, addressing concrete biological questions often stimulates the development of new Bayesian nonparametric processes, for instance because standard processes such as the Dirichlet process are sometimes too simplistic and fail to describe certain patterns in the data (such as power-law behaviours). Additional advances are stimulated by the computational challenges in dealing with large dimensional data, requiring the development of bespoke inference strategies. We envision several possible approaches: variational inference (Blei and Jordan, 2006) replaces costly Markov chain Monte Carlo sampling by a high-dimensional optimisation problem for which efficient algorithms such as stochastic gradient descent may be used. Approximate Bayesian computation (ABC) replaces unfeasible likelihood evaluations, which may occur when modelling data with complex latent discrete structures (e.g. trees), by a large number of simulations. We have used ABC in the context of Bayesian nonparametric models and of inverse problems respectively in Kon Kam King et al. (2019) and Forbes et al. (2021). An efficient implementation of approximate Bayesian computation strategies will entail particular efforts in parallelisation and high-performance computing. Finally, when possible, we will also investigate the possibility of analytical approximations of Bayesian nonparametric processes, for which finite-size and asymptotic approximations have been shown to give good results (Bystrova et al., 2021).
The main biological application which will be addressed in this thesis will be to describe the diversity observed in metagenomic data and its relation to covariates. The type of metagenomic data considered can include environmental DNA (eDNA), describing for instance how the composition of soil microbial communities relates to environmental pollution (Arbel et al., 2016), or shotgun metagenomic data characterising the microbial composition of several compartments (milk, air, grass, cheese) in an agroecological cheese production line (TANDEM project, see below). We have access to a couple of rich datasets to carry out this application: (i) the StatInfOmics team is involved in the project TANDEM, supported by the INRAE flagship project HOLOFLUX. This project aims to study bacterial fluxes inside agro-ecological systems for cheese production, from grazing material to cheese through cows and milk. This involvement will present multiple opportunities for tackling interesting biological questions, analyse original data and develop mature and practical methodology directly benefiting areas of interest to INRAE; (ii) eDNA data sampled at study sites in the northern French Alps thanks to collaborations of Daria Bystrova and Julyan Arbel with Wilfried Thuiller at LECA. This study sites belong to the long-term observatory ORCHAMP (https://orchamp.osug.fr/home), which aims to observe, understand and model biodiversity and ecosystem functioning over space and time.
References
Arbel, J. (2019). Bayesian Statistical Learning and Applications. HDR thesis, Universit Ìe Grenoble-Alpes.
Arbel, J., Kon Kam King, G., Lijoi, A., Nieto-Barajas, L. E., and Pr Ìunster, I. (2021). BNPdensity: Bayesian
nonparametric mixture modeling in R. Australian & New Zealand Journal of Statistics, in press.
Arbel, J., Mengersen, K., and Rousseau, J. (2016). Bayesian nonparametric dependent model for par-
tially replicated data: The influence of fuel spills on species diversity. The Annals of Applied Statistics,
10(3):1496â1516.
Blei, D. M. and Jordan, M. I. (2006). Variational inference for Dirichlet process mixtures. Bayesian Analysis,
1(1).
Bystrova, D., Arbel, J., Kon Kam King, G., and Deslandes, F. (2021). Approximating the clustersâ prior dis-
tribution in Bayesian nonparametric models. In Third Symposium on Advances in Approximate Bayesian
Inference.
Cowart, D. A., Murphy, K. R., and Cheng, C.-H. C. (2018). Metagenomic sequencing of environmental DNA
reveals marine faunal assemblages from the West Antarctic Peninsula. Marine Genomics, 37:148â160.
Forbes, F., Nguyen, H. D., Nguyen, T. T., and Arbel, J. (2021). Approximate Bayesian computation with
surrogate posteriors. Submitted.
Kon Kam King, G., Arbel, J., and Pr Ìunster, I. (2017). Bayesian Statistics in Action, chapter A Bayesian non-
parametric approach to ecological risk assessment, pages 151â159. Springer Proceedings in Mathematics
& Statistics, Volume 194. Springer International Publishing, Editors: Raffaele Argiento et al.
Kon Kam King, G., Canale, A., and Ruggiero, M. (2019). Bayesian functional forecasting with locally-
autoregressive dependent processes. Bayesian Analysis, 14(4):1121â1141.
Lee, J., M Ìuller, P., Gulukota, K., and Ji, Y. (2015). A Bayesian feature allocation model for tumor hetero-
geneity. The Annals of Applied Statistics, 9(2):621â639.
Nik-Zainal, S., Van Loo, P., Wedge, D. C., Alexandrov, L. B., Greenman, C. D., Lau, K. W., Raine, K.,
Jones, D., Marshall, J., Ramakrishna, M., Shlien, A., Cooke, S. L., Hinton, J., Menzies, A., Stebbings,
L. A., Leroy, C., Jia, M., Rance, R., Mudie, L. J., Gamble, S. J., Stephens, P. J., McLaren, S., Tarpey,
P. S., Papaemmanuil, E., Davies, H. R., Varela, I., McBride, D. J., Bignell, G. R., Leung, K., Butler,
A. P., Teague, J. W., Martin, S., J Ìonsson, G., Mariani, O., Boyault, S., Miron, P., Fatima, A., LangerĂžd,
A., Aparicio, S. A. J. R., Tutt, A., Sieuwerts, A. M., Borg, ÌA., Thomas, G., Salomon, A. V., Richardson,
A. L., BĂžrresen-Dale, A.-L., Futreal, P. A., Stratton, M. R., and Campbell, P. J. (2012). The Life History
of 21 Breast Cancers. Cell, 149(5):994â1007.
Roth, A., Khattra, J., Yap, D., Wan, A., Laks, E., Biele, J., Ha, G., Aparicio, S., Bouchard-CÎté, A.,
and Shah, S. P. (2014). PyClone: Statistical inference of clonal population structure in cancer. Nature
Methods, 11(4):396â398.
Van Rossum, T., Ferretti, P., Maistrenko, O. M., and Bork, P. (2020). Diversity within species: Interpreting
strains in microbiomes. Nature Reviews Microbiology, 18(9):491â506.
CARPENTIER Juliette : Le microbiote au cĆur des interactions Brassica napus x Delia radicum - Ăcologie, GĂ©osciences, Agronomie et Alimentation (EGAAL) - DĂ©but de la thĂšse :
Directeur.trice : C. Mougel - Encadrant(s) : S. Derocles, M. Mariadassou - Equipes : StatInfOmics
GUĂRIN Cyprien : Conception et mise en Ćuvre dâun systĂšme modulaire de mini-biorĂ©acteurs pour la culture continue de microorganismes - ED577 SDSV - DĂ©but de la thĂšse :
Les systĂšmes de culture continue en biorĂ©acteurs restent, malgrĂ© leur intĂ©rĂȘt, peu utilisĂ©s dans les laboratoires de microbiologie. Lâobjectif de ce projet de thĂšse est de faciliter leur mise en Ćuvre en proposant un nouveau systĂšme modulaire de mini-biorĂ©acteurs pilotĂ©s par ordinateur en sâappuyant sur les opportunitĂ©s offertes par lâessor des technologies de fabrication numĂ©rique et des microcontrĂŽleurs programmables. Les volumes de culture visĂ©s sont de lâordre de 5 Ă 10 mL afin de permettre des plans dâexpĂ©riences complexes pouvant impliquer de nombreux biorĂ©acteurs (en parallĂšle, en cascade, avec suivi et contrĂŽle en temps rĂ©el, ...). Comme preuves de concept, plusieurs applications chez la bactĂ©rie Gram-positive Bacillus subtilis sont envisagĂ©es aussi bien dans des contextes dâĂ©volution expĂ©rimentale et dirigĂ©e que pour des Ă©tudes physiologiques sâappuyant sur de la comparaison de transcriptomes.
Directeur.trice : P. Nicolas - Encadrant(s) : M. Jules (Micalis) - Equipes : StatInfOmicsJUNKER Romane : Diversité génomique et fonctionnelle des communautés bactériennes associées aux produits végétaux fermentés : une approche interdisciplinaire incluant métagénomique et bioinformatique dans un contexte de recherche-action participative - SDSV - Début de la thÚse :
Le projet de theÌse proposeÌ sâinscrit dans une deÌmarche interdisciplinaire et un contexte de sciences ouvertes et participatives. Il vise aÌ concevoir et mettre en Ćuvre des approches bioinformatiques et numeÌriques innovantes pour analyser, comparer, interpreÌter et diffuser des jeux de donneÌes de donneÌes (meta)geÌnomiques dâeÌcosysteÌmes alimentaires fermentaires. La theÌse sâappuiera pour ce travail sur les donneÌes du projet de science participative FLEGME (2019-2022) qui a pour objectif (i) dâeÌvaluer la diversiteÌ des eÌcosysteÌmes microbiens associeÌs aux leÌgumes fermenteÌs fournis par des citoyens- fermenteurs et (ii) de documenter lâimpact des pratiques de transformation sur la composition de lâeÌcosysteÌme fermentaire aÌ partir dâeÌchantillons produits par des petites entreprises speÌcialiseÌes. Une premieÌre partie de la theÌse consistera aÌ travailler sur la conception dâun workflow bioinformatique ouvert et reproductible permettant de deÌcrire, comparer et repreÌsenter la diversiteÌ des espeÌces et souches microbiennes preÌsentes dans les eÌchantillons de microbiotes dâaliments fermenteÌs du projet Flegme en utilisant des modes de repreÌsentations adapteÌs aÌ diffeÌrents publics cibles (scientifiques, citoyens, professionnels du secteur). Une deuxieÌme partie de la theÌse ciblera la constitution de jeux de donneÌes geÌnomiques de reÌfeÌrence sur des espeÌces cleÌ de la fermentation veÌgeÌtale aÌ partir de donneÌes publiques ou produites dans le cadre de la theÌse. Ce travail, qui sâinscrit dans une deÌmarche dâouverture des donneÌes de la recherche, s'accompagnera dâune reÌflexion sur la publication des meÌtadonneÌes associeÌes aÌ ces jeux de donneÌes. La troisieÌme partie de la theÌse sâappuiera sur les jeux de donneÌes construits preÌceÌdemment pour caracteÌriser le potentiel meÌtabolique des microbiotes associeÌs aÌ des fermentations alimentaires en reliant les informations phylogeÌneÌtiques, les donneÌes geÌnomiques et les analyses de meÌtabolites produites sur les eÌchantillons du projet Flegme. Enfin, la dernieÌre partie de la theÌse sera consacreÌe aÌ la mise en place dâune deÌmarche geÌneÌrique pour travailler avec un public non speÌcialiste sur les modaliteÌs de diffusion des reÌsultats des analyses de diversiteÌ microbienne et du potentiel meÌtabolique associeÌ obtenus dans le projet FLEGME, dans une deÌmarche de meÌdiation des sciences et un contexte de sciences participatives.
Directeur.trice : HélÚne Chiapello, Stéphane Chaillou - Encadrant(s) : HélÚne Chiapello, Stéphane Chaillou, Michel-Yves Mistou, Florence Valence-Bertel - Equipes : StatInfOmicsPASSERI Iacopo : Statistical analysis of methylation patterns from S. meliloti - University of Florence ComBo - Début de la thÚse :
The primary focus of our collaborative efforts will be on the statistical analysis of methylation data derived from Pac-Bio-sequenced DNA. The overarching goal is to develop a robust machine learning and statistical model that will pro-vide mathematical insights into the underlying biological processes reflected in the data.
More specifically the project will involve a comprehensive analysis of methylation data obtained through PacBio se-quencing technology. This cutting-edge technique offers a high-resolution view of DNA methylation patterns, provid-ing a wealth of information about epigenetic modifications. The ultimate objective is to unravel the intricate relation-ships between methylation patterns (i.e., methylation of DNA motifs) and biological processes in the symbiotic nitro-gen-fixing alphaproteobacterium Sinorhizobium meliloti. Strains of this species exhibit a multipartite genome struc-ture, comprising a chromosome, a chromid, and a megaplasmid: the pronounced genomic and phenotypic variation observed in these strains positions them as exemplary models for investigating evolutionary hypotheses concerning the interplay between epigenomic signatures, genome structure evolution, and phenotypic transitions. Moreover, since its capability of conducting symbiotic nitrogen fixation upon interacting with legume hosts such as the Medica-go plant, S. meliloti represents an element of strong interest for the agritech field and for green revolution technolo-gies applications.
1. Data Collection and Preprocessing:
Acquirement of PacBio sequencing data from S. meliloti.
Quality control and preprocessing steps to ensure data integrity.
2. Feature Selection and Extraction:
Implement quality control measures to eliminate noise and irrelevant information.
Develop methods for extracting meaningful features from the raw data.
Identify relevant features that contribute significantly to the methylation patterns (MeStudio software).
3. Model Development:
Utilize machine learning techniques to build a predictive model.
Implement statistical methods to quantify the relationships between methylation patterns and biological factors.
Validate and refine the model through iterative testing and optimization.
4. Mathematical Insight and Interpretation:
Derive mathematical insights from the developed model.
Interpret the findings in the context of biological processes and phenomena.
Collaborate closely with the scientific group to ensure the biological relevance of the mathematical insights.
5. Documentation and Reporting:
Maintain detailed documentation of the entire process, including methodologies and code.
Provide regular updates to the scientific group on progress, challenges, and potential solutions.
Generate a comprehensive final report summarizing the methodology, results, and implications of the study.
Directeur.trice : Alessio Mengoni - Encadrant(s) : G. Kon Kam King, G. Gautreau, H. Chiapelo - Equipes : StatInfOmicsPETY SolĂšne : MĂ©thodes hologĂ©nomiques pour prendre en compte le microbiote de lâhĂŽte dans les Ă©valuations gĂ©nĂ©tiques - ED581 ABIES - DĂ©but de la thĂšse :
Les animaux et leur microbiote forment un organisme composite, appelĂ© holobionte, qui peut ĂȘtre considĂ©rĂ© comme l'unitĂ© ultime sur laquelle agissent l'Ă©volution et la sĂ©lection. Les gĂšnes de l'hĂŽte et l'environnement influent sur la colonisation, le dĂ©veloppement et le fonctionnement des divers microbiotes, qui en retour contribuent Ă façonner les phĂ©notypes de l'hĂŽte. De plus le microbiote est Ă©galement transmis de la mĂšre au descendant (par exemple, lors de la mise-bas, de lâallaitement et des soins maternels chez les mammifĂšres), ce dernier participe ainsi Ă la transmission non-gĂ©nĂ©tique des phĂ©notypes. Un enjeu majeur pour la sĂ©lection animale est donc le dĂ©veloppement des approches hologĂ©nomiques intĂ©gratives capables dâanalyser conjointement les ensembles de donnĂ©es gĂ©nomiques de l'hĂŽte et de son microbiote, ainsi que les phĂ©notypes et les paramĂštres environnementaux dans lesquels Ă©voluent les holobiontes. De telles mĂ©thodes sont prometteuses pour apporter une amĂ©lioration de la prĂ©cision de prĂ©diction et la comprĂ©hension des caractĂšres impliquĂ©s dans l'adaptation des animaux aux systĂšmes de production agroĂ©cologique chez diffĂ©rentes espĂšces d'intĂ©rĂȘt agronomique. Dans ce cadre, ce projet de thĂšse se focalise sur le dĂ©veloppement, optimisation, et Ă©valuation de mĂ©thodes intĂ©gratives permettant de prendre en compte simultanĂ©ment la variabilitĂ© gĂ©nomique et les indicateurs mĂ©tagĂ©nomiques de lâhĂŽte, ainsi que leur interaction. Ce projet contribuera Ă Ă©tablir des lignes directrices claires pour la simulation de donnĂ©es hologĂ©nomiques rĂ©alistes, la construction de matrices de similaritĂ© basĂ©es sur le microbiote, et la combinaison optimale de donnĂ©es gĂ©nomiques, microbiotes, et multi-omiques dans une grande variĂ©tĂ© de scenarios.
Directeur.trice : Andrea Rau - Encadrant(s) : Mahendra Mariadassou, Ingrid David - Equipes : StatInfOmicsProcope-Mamert Sylvain : Algorithmes d'inférence pour des modÚles de Markov cachés hiérarchiques à observations non linéaires - applications à l'analyse de données omiques suivies au cours du temps. - ED574 EDMH - Début de la thÚse :
Ces travaux sont notamment motivés par des données originales de transcriptomique suivie au cours du temps, collectées par des partenaires du projet et qui permettront une application directe des premiers travaux réalisés.
SAMSON Samantha : "Potentiation in silico de molĂ©cules hits sur la M-targetâ" - ED577 SDSV - DĂ©but de la thĂšse :
L'antibiorésistance est un problÚme de santé publique et de nouveaux médicaments sont nécessaires de toute urgence. Un défi majeur pour une conception efficace du médicament est de trouver la cible bactérienne appropriée. Dans cette optique, le projet de thÚse de Samantha Samson se concentre sur Mfd -Mutation frequency decline- une cible protéique nouvelle et innovante que nous avons identifiée. Il vise à caractériser in silico les pharmacophores i.e le profil structure/fonction/activité des molécules prometteuses que nous avons validées in vitro. Il veut étendre leur spectre d'inhibition depuis les cibles de E. coli (Gram-) et B. cereus (Gram+) aux cibles du groupe ESKAPE, considérées comme pathogÚnes prioritaires par l'OMS. In fine, cette caractérisation mÚnera à potentialiser les molécules en candidats médicaments tout en élargissant leur spectre d'action sur des bactéries particuliÚrement résistances aux antibiotiques. La thÚse se fera à MaIAGE, en biologie structurale moléculaire et computationnelle sous la direction de Gwenaëlle André. Par ailleurs, elle se fera en interaction constante avec les expériences in vitro et in vivo menées à Micalis dans l'équipe Pims dirigée par Nalini Rama Rao. |