1 Banques de données biologiques I. Introduction II. Les banques de séquences g

1 Banques de données biologiques I. Introduction II. Les banques de séquences généralistes III. Les banques/bases spécialisées IV. Interrogation des banques de données 2 Rôle des banques/bases de données • Collecter/Traiter/Filtrer les informations  séquences, cartographie physique, génétique…  données génomiques, structurales, relationnelles…  images, …. ⇒ Auprès de: biologistes, littérature, autres bases de données … • Stocker/Organiser de façon logique et cohérente • Diffusion libre/large de l’information • Faciliter l’exploitation des données  interface web conviviale  possibilité de comparaison de données  définition de nombreux critères de recherche 3 Centre de ressources • ISB/Expasy: http://www.expasy.org/links.html • NAR: http://www3.oup.co.uk/nar/database/c/ • PASTEUR: http://www.pasteur.fr/recherche/banques • EBI: http://www.ebi.ac.uk/Databases • NCBI: http://www.ncbi.nlm.nih.gov/Database/index.html • Genome Net: http://www.genome.jp/ • NIH: http://nihlibrary.nih.gov/ResearchTools/Pages/molbioDatabases.aspx 4 Repères historiques • 1956: 1ére séquence de protéine: insuline (F. Sanger) • 1965: 1ère compilation de protéines: Atlas of protein Sequences • 1971: PDB; Protein Data Bank (structure 3D) • 1970: Création du Modèle de données relationnelles • 1974: 1er pas d’internet (TCP: Transmission Control Protocol) • 1975: Microsoft • 1978: 1er SGBD (Oracle, …) • 1980: Constitution des banques de données: EMBL et Genbank • 1981: 1er PC par IBM • 1983: 1er génome complet (bactériophage Lambda) • 1984: 1er Mac par Apple 5 Repères historiques • 1985: 1ere revue de bioinformatique: CABIOS • 1986: Banque Swiss-Prot (A. Bairoch) au SIB • 1987: Genbank, EMBL et DDBJ s’échangent leur contenu et adoptent un système de conventions communes • 1988: Processus de double publication: Dépôt des séquence dans une banque avant soumission de l’article associé aux revues scientifiques. • 1991: Début du WWW au CERN à Genève • 1994: 1er navigateur web (Netscape) • 1998: 1er génome eucaryote (levure) • 2004: Uniprot • 2006: EMBL: nouveaux nommage des IDentifiants. 6 Qu’est-ce qu’une banque de données? • Collection de données (séquence, format, structure) en « fichier texte »: - organisation séquentielle - information indépendante - information souvent redondante • Format standard, simple et lisible par l’être humain. • Difficilement interrogeable/utilisable/maintenable: - gros fichier - lecture ligne par ligne - indexation nécessaire • Données texte portables dans différents environnements informatiques. • Facilement utilisables par certains programmes de bioinformatique (blast, clustalw, hmmer ...). 7 Qu’est-ce qu’une banque de données? Mon_fichier1 Mon_fichier2 Mon_fichier3 Ma_banque1 Ma_banque2 Ma_banque3 Elem1 Elem2 Elem3 8 Qu’est-ce qu’une banque de données? Ma_banque1 Ma_banque2 Ma_banque3 Elem1 Elem2 Elem3 Indexation Index1 Elem1: Ligne1 E1M1: L1C30 E1M2: L3C50 E1M3: L4C15 Elem2: Ligne34 E2M1: L36C14 E2M2: L35C47 E2M3: L37C38 Elem3: Ligne67 E3M1: L67C17 E3M2: L68C30 E3M3: L69C50 M1 M2 M3 M1 M1 M2 M3 M3 M2 Index2 Index3 9 Banques de données biologiques I. Introduction II. Les banques de séquences généralistes 1. Les banques de séquences nucléiques 2. Les banques de séquences protéiques III. Les banques/bases spécialisées IV. Interrogation des banques de données 10 Les banques de séquences généralistes • «Fiches» descriptives (portion d’un fichier) de séquences nucléiques ou protéiques, quelque soit l'organisme dont elles sont issues, et quelle que soit leur nature (ADN, ADNc, ARN, protéine). • Mission: Rendre publiques les données issues des fonds publics, donc collectives. • Les «fiches» contiennent sous forme de commentaires structurés des informations variées, issues d'expertises biologiques ou d'analyses bioinformatiques (annotation). 11 Banques de données biologiques I. Introduction II. Les banques de séquences généralistes 1. Les banques de séquences nucléiques 2. Les banques de séquences protéiques III. Les banques/bases spécialisées IV. Interrogation des banques de données 12 Les banques de séquences nucléiques • Les 3 banques nucléotidiques principales coexistent et coopèrent depuis 1987: • Collection de séquences par soumission directe des auteurs (95% de l'ensemble des données) et balayage systématique de la littérature scientifique (brevets). • Chaque enregistrement ou « entrée » correspond à une séquence nucléique. • Echange quotidien entre les 3 banques. • EMBL: Banque européenne créée en 1980 (Heidelberg, DE) et financée par l'EMBO (European Moleculary Biology Organisation), elle est aujourd'hui diffusée par l'EBI (European Bioinformatics Institute, Cambridge, GB) • Genbank: Créée en 1982 par la société IntelliGenetics (Los Alamos, US) et diffusée maintenant par le NCBI (National Center for Biotechnology Information, Bethesda, US) • DDBJ (DNA Data Bank of Japan) : Créée en 1986 et diffusée par le NIG (National Institute of Genetics, Japon). 13 Attention EMBL = GENBANK = DDBJ 14 Croissance d’EMBL 15 Organisation d’une fiche de banque (entrée) EMBL  les informations relatives à la séquence (annotation)  la séquence • Format général  TOUTES les entrées d’une banque sont distribuées sous forme d’UN ou plusieurs fichiers texte (fichier plat)  Les données dans une entrée sont organisées séquentiellement. • 2 parties: • 5 champs:  qui facilitent l’accès à l’information  qui regroupe des informations de même type 16 Fiche EMBL: General information ID J04199; SV 1; linear; genomic DNA; STD; PRO; 2726 BP! XX! AC J04199;! XX! DT 22-APR-1989 (Rel. 19, Created)! DT 04-MAR-2000 (Rel. 63, Last updated, Version 3)! XX! DE E.coli purA gene encoding adenylosuccinate …! XX! KW adenylosuccinate synthetase; purA gene.! XX! OS Escherichia coli! OC Bacteria; Proteobacteria; Gammaproteobacteria; ! OC Enterobacteriaceae; Escherichia.! XX! RN [1]! RP 1-2726! RX PUBMED; 3058695.! RA Wolfe S.A., Smith J.M.;! RT "Nucleotide sequence and analysis of the purA gene! RT encoding adenylosuccinate synthetase of Escherichia! RT coli K12";! RL J. Biol. Chem. 263(35):19147-19153(1988).! Code à 2 lettres! • ID : Identificateur  Nom de l’entrée  Classe de la donnée  Molécule (DNA, RNA, RNAm, XXX)  Division  Longueur de la séquence en pb • AC : Numéro d’accession • XX : Ligne vide • SV : Version de la séquence • DT : Date d’incorporation et date de la dernière mise à jour 17 Fiche EMBL: Description ID J04199; SV 1; linear; genomic DNA; STD; PRO; 2726 BP! XX! AC J04199;! XX! DT 22-APR-1989 (Rel. 19, Created)! DT 04-MAR-2000 (Rel. 63, Last updated, Version 3)! XX! DE E.coli purA gene encoding adenylosuccinate …! XX! KW adenylosuccinate synthetase; purA gene.! XX! OS Escherichia coli! OC Bacteria; Proteobacteria; Gammaproteobacteria; ! OC Enterobacteriaceae; Escherichia.! XX! RN [1]! RP 1-2726! RX PUBMED; 3058695.! RA Wolfe S.A., Smith J.M.;! RT "Nucleotide sequence and analysis of the purA gene! RT encoding adenylosuccinate synthetase of Escherichia! RT coli K12";! RL J. Biol. Chem. 263(35):19147-19153(1988).! Code à 2 lettres! • DE : Description • KW : Mots clés • OS : Nom de l’organisme • OC : Classification 18 Fiche EMBL: Reference . . . ! XX! RN [1]! RP 1-2726! RX PUBMED; 3058695.! RA Wolfe S.A., Smith J.M.;! RT "Nucleotide sequence and analysis of the purA gene! RT encoding adenylosuccinate synthetase of Escherichia! RT coli K12";! RL J. Biol. Chem. 263(35):19147-19153(1988).! XX! DR GOA; P0AF63.! DR GOA; P21499.! DR UniProtKB/Swiss-Prot; P0AF63; YJEB_ECOLI.! DR UniProtKB/Swiss-Prot; P21499; RNR_ECOLI.! XX! CC Draft entry and computer readable copy of sequence in! CC [1] kindly provided by J.Smith 22-AUG-1988.! Code à 2 lettres! • RN : Numéro de la référence • RC : Commentaire (facultatif ) • RP : Région • RX : Référence bibliographique • RA : Auteurs • RT : Titre • RL : Journal, volume, pages, année • DR : Références croisées • CC : Commentaires 19 Fiche EMBL: Additional information (Features) FH Key Location/Qualifiers! FH! FT source 1..2726! FT /organism="Escherichia coli"! FT ! /mol_type="genomic DNA"! FT ! /db_xref="taxon:562"! FT CDS 502..1800! FT /codon_start=1! FT /transl_table=11! FT /note="adenylosuccinate synthetase (EC 6.3.4.4)"! FT /db_xref="GOA:P0A7D4"! …! FT /db_xref="UniProtKB/Swiss-Prot:P0A7D4"! FT /protein_id="AAA24446.1"! FT /translation="MGNNVVVLGTQWGDEGKGKIVDLLTER . . .! FT INGEKTVLHLIPSGILRENVTSIIGNGVVLSPAALMKEMKE . . .! FT PLILDYHVALDNAREKARGAKAIGTTGRGIGPAYEDKVARR . . .! FT EVMEYHNFQLVNYYKAEAVDYQKVLDDTMAVADILTSMVVD . . .! FT GAQGTLLDIDHGTYPYVTSSNTTAGGVATGSGLGPRYVDYV . . .! FT ELFDETGEFLCKQGNEFGATTGRRRRTGWLDTVAVRRAVQL . . .! FT EVKLCVAYRMPDGREVTTTPLAADDWKGVEPIYETMPGWSE . . .! FT IKRIEELTGVPIDIISTDPDRTETMILRDPFDA"! Code à 2 lettres! • FH : Entête • FT : Informations http://www.ebi.ac.uk/embl/Documentation/FT_definitions/feature_table.html 20 Fiche EMBL: Sequence SQ Sequence 2726 BP; 648 A; 642 C; 741 G; 695 T; 0 other;! attcatccgt agcctgcgtg cttatgagaa cagcttctct ggcaatcagg acgtgatggt 60! catgagcccg gatagatttc ttccgctaca tgaagacgcc gacttccgca acgcgttaat 120! ataacgactg cggtacaggt caataaagcc accgcatcct cagggatgtc ggtggttttc 180! tttttctata aggataatga atgaattcga caatctggct ggcgcttgcc ctggttttgg 240! tactggaagg tttagggccg atgctttacc cgaaggcatg gaagaagatg atctctgcga 300! tgaccaattt gcccgataat attttacgtc gttttggcgg tggacttgtg gttgcgggcg 360! ttgtggtcta ctacatgttg aggaaaacga ttggctgaac aaaaaacaga ctgatcgagg 420! tcatttttga gtgcaaaaag tgctgtaact ctgaaaaagc gatggtagaa tccattttta 480! agcaaacggt gattttgaaa aatgggtaac aacgtcgtcg tactgggcac ccaatggggt 540! …! caaagttttc ttacggaact ggataactac acgcttgccg atttggttga agagaatcaa 2400! ccgctttata aattattgct ggtggagtga cgaaaatctt catcagagat gacaacggag 2460! gaaccgagat gtcacaagat cctttccagg aacgcgaagc tgaaaaatac gcgaatccca 2520! tccctagtcg ggaatttatc ctcgaacatt taaccaaacg tgaaaaaccg gccagccgtg 2580! atgagctggc ggtagaactg cacattgaag gcgaagagca gcttgaaggc ctgcgtcgcc 2640! gcctgcgcgc gatggagcgc gatggtcaac tggtcttcac tcgtcgtcag tgctatgcgc 2700! tgccggaacg cctcgacctg gtgaaa 2726! //! Code à 2 lettres! • SQ : Séquence - nombre de paire de bases - répartition entre les différents nucléotides • // : Fin fiche 21 Fiche GENBANK LOCUS ECOPURAA 2726 bp DNA linear BCT 26-APR-1993! DEFINITION E.coli purA gene encoding adenylosuccinate synthetase.! ACCESSION J04199! VERSION J04199.1 GI:147405! KEYWORDS adenylosuccinate synthetase; purA gene.! SOURCE Escherichia coli! ORGANISM Escherichia coli! Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;! Enterobacteriaceae; Escherichia.! REFERENCE 1 (bases 1 to 2726)! AUTHORS Wolfe,S.A. and Smith,J.M.! TITLE Nucleotide sequence and analysis of the purA gene encoding! adenylosuccinate synthetase of Escherichia coli K12! JOURNAL J. Biol. Chem. 263 (35), 19147-19153 (1988)! PUBMED 3058695! COMMENT Original source text: E.coli (K12) DNA, cell line XPh43, clones! uploads/Finance/ 1-db-1-pdf.pdf

  • 18
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Jan 06, 2021
  • Catégorie Business / Finance
  • Langue French
  • Taille du fichier 2.3462MB