Mathématiques et Informatique Appliquées
du Génome à l'Environnement

 

 

Bases de données

Une activité concernant la conception et le développement de base de données s'est développée dans l'unité. Les bases de données constituent en effet un enjeu essentiel de la bioinformatique pour la structuration et l'exploitation de la masse de données produites par les programmes de génomique. En parallèle, la diffusion des méthodes issues des recherches de l'unité MaIAGE auprès de la communauté des biologistes, bioanalystes ou bioinformaticiens se fait en grande partie grâce aux logiciels qui mettent en oeuvre ces méthodes

Notre objectif est de disposer, à terme, d'un ensemble de bases cohérent du point de vue de sa conception et de ses interfaces qui seront le fondement du futur système d'information de l'unité. Les choix conceptuels que nous avons effectués sont :

  • l'utilisation du modèle relationnel pour la conception et l'implémentation des modèles physiques,
  • la centralisation physique des données sur un serveur SUN/Unix national,
  • le développement d'interfaces Web conviviales pour accéder à l'ensemble des bases.

Les contraintes techniques que nous nous sommes imposés concernent d'une part l'utilisation de logiciels libres permettant la diffusion des bases et de leurs interfaces, et d'autre part l'utilisation de logiciels et de modules standards permettant un portage aisé sur différentes plates-formes. Toutes les bases de données de l'unité sont implémentées sur un serveur PostgreSQL (Système de Gestion de Base de Données Relationnel Objet). Les traducteurs (parsers) et les interfaces Web ont été réalisés en Perl à l'aide de modules standards : DBI (DataBase independent Interface) pour la connexion au serveur de bases de données, CGI (Common Gateway Interface) pour les interfaces Web et BioPerl (Boîte à outils de scripts Perl pour la bioinformatique et la génomique) pour certains traducteurs.

Nous avons ainsi déjà réalisé les bases suivantes :

  • FUNYBASE (FUNgal phYlogenomic dataBASE) Base de données dédiée à l'analyse et à la classification des protéines homologues extraites des génomes complets fongiques. Cette ressource propose deux types de résultats : d'une part l'ensemble des familles de gènes orthologues et paralogues détectés à partir de 31 génomes complets fongiques et d'autre part un sous-ensembles de 246 familles de gènes orthologues uniques à 21 génomes complets pour lesquels des analyses approfondies sont disponibles : modèle d'évolution protéique, pourcentage d'identité moyen des protéines alignées, nombre de sites variables, arbre phylogénétique.
  • Le portail IGO permet l'intégration des différentes bases suivantes (Nouveautés de la version 2):
    • MICADO (MICrobial Advanced Database Organization) Base de données relationnelle dédiée aux génomes microbiens. Elle intègre notamment l'ensemble des séquences primaires microbiennes issues de Genbank, les génomes complets microbiens réannotés dans la banque Emglib et les données d'analyse fonctionnelle de la bactérie modèle B. subtilis
    • MOSAIC (Analyse comparative de génomes microbiens) Base de données relationnelle qui permet de comparer des génomes bactériens d'une même espèce et de définir le squelette et les boucles
    • PAREO (PAthway RElational Organization) Base de données relationnelle intégrant les connaissances sur les voies métaboliques issues de la base japonaise Kegg.
    • PROSE (PROtein SEquences) Base de données relationnelle qui gère les séquences protéiques issues de SwissProt et trEMBL. Une interface Web conviviale permet d'effectuer des interrogations fines sur la base ou même d'exécuter une requête SQL personnalisée directement sur le serveur de base de données(compte à demander à l'unité MIG). Le modèle relationnel de la base est fourni dans la rubrique documentation.

D'autres projets de bases de données sont en cours de développement dans l'unité. Le plus important concerne la réalisation d'une base de données relationnelle gérant les structures 3D des protéines extraites de la banque PDB. Outre l'aspect développement d'un système d'information décrit précédemment, les données relatives aux structures 3D des protéines jouent un rôle central évident dans l'analyse des relations séquence-structure 3D des protéines, un sujet d'intérêt dans l'unité.