CHAPITRE I : INTRODUCTION A LA BIOINFORMATIQUE ET BANQUES DE DONNEES INTRODUCTI

CHAPITRE I : INTRODUCTION A LA BIOINFORMATIQUE ET BANQUES DE DONNEES INTRODUCTION La bioinformatique est une ‘’interdiscipline’’ a la frontière de la biologie, de l’informatique , des mathématiques. ➢Émergé dans les années 1980 ➢Le spécialiste qui travaille à mi-chemin entre ces sciences est appelé bio- informaticien ou bionaute. ➢L'utilisation du terme bio-informatique est documentée pour la première fois en 1970 dans une publication de Paulien Hogeweg et Ben Hesper (université d'Utrecht, Pays-Bas) Les système biologique sont très complexes et les techniques modernes d’investigation du monde biologique fournissent une vaste quantité de données expérimentales Donc le but ultime de la bio-informatique « Est d’intégrer ces données d’origines très diverse pour modéliser les systèmes vivants afin de comprendre et prédire leurs comportements dans des conditions de fonctionnement normales ou pathologiques ». But de la bio-informatique La bioinformatique est la discipline de l’analyse « in silico » de l’information biologique renfermée dans les séquences nucléotidiques (séquences de nucléotides) et protéiques (séquence des acides aminés). LA BIOINFORMATIQUE DÉFINITION : ❖Son apparition, dans les années 1980. Coïncide avec la création des premières banques de données (EMBL et GenBank). ❖À partir des années 1990, la bioinformatique devient indispensable avec l’accumulation des données de séquençage notamment les génomes complets. ❖Fondée sur les acquis de la biologie, elle permet de produire de nouvelles connaissances et des suggestions pour de nouvelles expériences. La bioinformatique propose des méthodes et des logiciels qui permettent : - La collection, le stockage et la gestion des données biologiques et leur distribution à travers les réseaux. - Le développement des outils (logiciels/algorithmes) pour analyser les problèmes de biologie moléculaire . - L’analyse, la comparaison et la prédiction de la structure des gènes. - La modélisation et la prédiction de la structure et de la fonction des protéines. -Les études phylogénétiques et l’évolution moléculaire des êtres vivants. LES BANQUE DE DONNÉES BIOLOGIQUES Les bases de données contenant des informations biologiques et des données largement diffusées par le réseau Internet. Elles sont généralement reliées entre elles par des liens « links » . Il existe un grand nombre de bases de données d'intérêt biologique . Nous nous limiterons ici à une présentation des principales banques de données publiques DEUX TYPES DE BANQUES -Celles qui correspondent à une collecte des données l plus exhaustive possible et qui offrent finalement un ensemble plutôt hétérogène d'informations. -Traitent des thématiques générales -Celles qui correspondent à des données plus homogènes et spécifiques . -Traitent des thématiques particulières ‘’Banques de données" ‘’Bases de données", Banques de données ou bases de données GÉNÉRALISTES Banques de données ou bases de données SPÉCIALISÉES OU OU LES BANQUES GÉNÉRALISTES On appelle banques généralistes, ou banques primaires, les ressources qui collectent, gèrent, archivent et mettent à disposition de la communauté scientifique un ensemble de données primaires. Classiquement, on considère comme banques primaires les banques généralistes qui contiennent des séquences nucléiques et protéique obtenus par des méthodes expérimentales. bien que actuellement la plupart des séquences protéiques ne soient pas obtenues expérimentalement, mais à partir des données de séquence nucléiques. ainsi que les banques qui gèrent les structure tridimensionnelles des protéines. Banque nucléiques Il existe trois banques nucléique internationales (1) GenBank la banque américaine gérée par le National Center for Biotechnology Information (NCBI) La banque européenne maintenue à l’European Bioinformatic Institute (EBI) (2) EMBL (European Molecular Biology Laboratory) (3) DDBJ La banque japonaise ou DNA DataBase of Japan Ces trois banques gèrent l’ensemble des séquences nucléique et leurs annotations : elles coopèrent et échange quotidiennement leurs données afin de garantir une cohérence maximale dans la mise à disposition des séquences de la communauté scientifique. Ces séquences sont organisées dans les banque sous forme des entrées . les entrées nucléiques sont organisées dans les trois banques se forme de « division », selon deux types de critères : •Le groupe taxonomique d’origine de la séquence : Humans, bactéries, vertébrés, plantes, virus etc. •Le type de molécule séquencée : Expressed Sequence Tag (EST) et Genome Survey Sequence (GSS) etc. Les entrés nucléiques Division Code pour les entrées ESTs EST Bacteriophages PHG Fungi FUN Genome Survey GSS High Through Genome, HTGs HTG Humans HUM Invertebrates INV LA BANQUE EMBL EMBL contient plus de 2.4 millions entrées (une entrée, entry en anglais, contient la séquence et des informations sur cette séquence). La recherche de sources de données biologiques en utilisant EMBL Les ressources de données représentées dans EMBL comprennent: -Séquences nucléotidiques et protéiques aux niveaux génomiques et protéomiques, -Structures allant de produits chimiques aux complexes macromoléculaires……, -Classifications fonctionnelles, les bibliothèques de la littérature globales qui couvrent les sciences biomédicales et la propriété intellectuelle connexe. VUE D'ENSEMBLE D'UNE ENTRÉE EMBL-BANK EMBL-Bank offre une vue facile à lire des données, où des informations telles que la taxonomie et des annotation sont regroupés en sections distinctes. En outre, il a une représentation graphique de l'assemblage et des fonctions d'annotation. EMBL-Bank a également une vue de texte brut qui est utile pour l'accès programmatique [A] Dans la vue par défaut, le sommaire d'entrée fournit des informations sur l'organisme, la division et le groupe taxonomique; vous pouvez également télécharger séquence et changer le point de vue de l'entrée. [B] Partie fournit des liens vers d'autres ressources, y compris le portail de la taxonomie, Ensemble et la séquence Version Archive (de vieilles versions de l'entrée). [C] Aperçu fournit une représentation graphique des données d'assemblage et d'annotation. [D] Source entité (s) donne des informations sur la source de la séquence, telle que l'organisme, organite ou pays… [E] Autres caractéristiques fournit des informations détaillées sur la fonction de différentes régions de la séquence. [F] Assemblée fournit des informations détaillées sur la façon dont la séquence a été construit à partir de séquences de niveau inférieur. [G] Références vous permettent de visualiser le document (s) citant la séquence et son annotation. [H] Séquence peut être utilisée pour rechercher des séquences similaires dans la base de données. [I] Le point de vue de texte de la même entrée; ce peut être consulté en cliquant sur 'TEXT' dans la section [A]. Ce point de vue est utile de vous écrivez des programmes car il fournit tous les codes de ligne qui identifie le type de ligne; par exemple «DE» identifie la ligne 'Description'. Code Signification, contenu de la ligne Nombre /entrée ID C’est l’identificateur de l’entrée contenant la séquence. Cette ligne a la structure suivante : nom de l’entrée classe de la donnée ; molécule (DNA, RNA, RNAm, XXX si l’entrée n’a pas été annotée) ; division ; longueur de la séquence en paire de bases (BP). 1 XX Cette ligne est une ligne vide qui sert à limiter les différents champs de l’entrée et à clarifier sa lecture. Plusieur s NI Indique l’identificateur de l’acide nucléique. 1 AC Donne le numéro d’accession de l’entrée. >=1 DT Donne la date d’incorporation dans la base (1ère ligne) et la date de la dernière mise à jour de l’entrée (2ème ligne). >=1 DE Contient des informations descriptives sur la séquence : comme la région du génome dont elle est issue … >=1 KW Donne le(s) mot(s)-clé(s) qui peuvent être utilisés pour retrouver l’entrée dans la base. Les mots-clés, séparés par des ; , sont rangés par ordre alphabétique. >=1 Exemple d'entrée de la base EMBL : tableau des codes et leurs significations : Code Signification, contenu de la ligne Nombre/ entrée OS Spécifie l’organisme d’où provient la séquence ; le plus souvent on donne le nom latin suivi du nom anglais entre parenthèses. Dans le cas d’hybrides, les lignes OC/OS sont spécifiées pour chaque organisme de l’hybride. >=1 OC 1ère ligne : Donne le nom scientifique de l’organisme. 2ème ligne :Donne la classification taxonomique de l’organisme avec le groupe le plus général en premier, chaque groupe est séparé par un ;. Cette classification peut s’étendre sur plusieurs lignes OC. >=1 OG Indique la localisation sub-cellulaire des séquences non nucléaires. 0 ou 1 RN Donne le numéro unique attribué à chaque référence bibliographique de l’entrée. Ce numéro est utilisé pour désigner la référence dans les commentaires (CC) et dans la table des caractéristiques (FT). >=1 RC Donne des commentaires sur la référence. >=0 RX Donne la région pour laquelle la référence bibliographique est associée. >=0 RP Donne les références associées aux différentes régions de la séquence. >=1 RA Indique les auteurs de l’article ou du travail cité, ils sont inscrits dans l’ordre donné dans la publication. >=1 RT Indique le titre de l’article, si la séquence a été soumise à la base et non publiée, la ligne ne contiendra qu’un point virgule. >=1 RL Donne d’une manière abrégée, les références du journal. >=1 DR Etablit des liaisons avec d’autres bases de données qui contiennent une information en relation avec cette entrée. Par exemple, si la traduction protéique d’une séquence existe dans la banques de données Swiss-Prot, la ligne DR pointera sur l’entrée correspondante dans Swiss-Prot. >=0 FH Sert à améliorer la lecture d’une entrée : c’est l’en-tête du champ FT 0 ou 2 FT Enumère les caractéristiques de la séquence, elle répond aux abréviations utilisées dans " uploads/Science et Technologie/ cours-1-bioinformatique.pdf

  • 25
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager