Remerciez-le!

Remerciez @Admin pour avoir partagé cet document gratuitement, de la manière la plus simple, en partageant sur les réseaux sociaux.

Chapitre II : Banques de données biologiques A.La bioinformatique et le Web 1.

Chapitre II : Banques de données biologiques A.La bioinformatique et le Web 1. Introduction Des années 1960 à 1990, l'utilisation de l'informatique par les biologistes se faisait sur des consoles reliées à une machine centrale (un serveur) où étaient implantés les programmes, les banques de données : le serveur devait posséder toutes les ressources nécessaires. La mise en place d'Internet a permis de développer la mise en commun de ressources, partagées par les biologistes, que ce soit par échange de courrier, de données (ftp) ou encore par l'utilisation à distance d'un serveur. Toutefois, cela obligeait l'utilisateur à apprendre le "jargon" informatique des commandes de bases des systèmes d'exploitation ainsi que les commandes particulières pour chaque programme qu'il veut utiliser. 2. Architecture client-serveur De nombreuses applications fonctionnent selon un environnement client/serveur, cela signifie que des machines clientes (des machines faisant partie du réseau) contactent un serveur qui leur fournit des services. Ces services sont des programmes fournissant des données telles que l'heure, des fichiers, une connexion, .. Les services sont exploités par des programmes, appelés programmes clients, s'exécutant sur les machines clientes. On parle ainsi de client ftp, client de messagerie, client Web, etc … - Le client émet une requête vers le serveur grâce à son adresse et le port, qui désigne un service particulier du serveur. C'est toujours le client qui déclenche une demande de service. - Le serveur reçoit la demande et répond à l'aide de l'adresse de la machine client et son port. Le serveur attend passivement les requêtes des clients (port d'écoute) et peut traiter plusieurs requêtes en même temps. Par exemple, le numéro de port du service ftp est le 21, du service smtp (mail) 25 : pour les serveurs Web, le port par défaut est 80. 3. Le Web C'est le dernier système d'échanges d'information du modèle client/serveur, protocole http (HyperText Transport Protocol) et qui peut se définir comme un système d'information réparti hypermédia. Le serveur gère et héberge l'information sous forme de fichiers. Les documents fournis par le serveur sont dans le format HTML (HyperText Markup Langage) qui contient non seulement du texte, des images mais aussi des liens (référence de type url) vers d'autres fichiers ou d'autres serveurs. Les adresses des serveurs que vous indiquez à votre logiciel client sont normalisées (URL : Uniform Resource Locator) de la forme : <protocole>://<adresse machine>[port]/<reference locale> - protocole : http, ftp, gopher, news - adresse : machine nom symbolique ou adresse I.P. - port : numéro du service (si aucun port n'est indiqué, c'est le numéro prédéfini qui est utilisé par exemple pour WWW : 80) - reference locale : désigne un fichier ou répertoire qui sont définis par rapport au type de serveur Pour le cas particulier du protocole "http", il existe une méthode CGI (Common Gateway Interface) qui permet d'incorporer des programmes s'exécutant au sein d'un serveur Web, sur requête du navigateur du client. Ceci est largement utilisé pour mettre à disposition de la communauté scientifique des programmes bioinformatiques qui s'exécutent sur le serveur et dont le client reçoit le résultat dans le format html. 4. Délocalisation des ressources Les premières ressources disponibles pour les biologistes étaient soit sur le même serveur ou sur des serveurs différents mais elles obligeaient l'utilisateur à jongler avec celles-ci et les logiciels. Le protocole "http" qui permet : 1) d'incorporer des programmes par un appel à partir d'une "forme" (ou formulaire) dans une page html et ce de manière totalement transparente pour l'utilisateur. 2) d'incorporer des liens (URL) dans les pages html a induit une délocalisation complète des ressources. Par exemple, un serveur d'une banque de séquences biologiques peut très bien envoyer à l'utilisateur des informations qui : - sont le résultats de calculs exécutés sur un autre serveu -qui sont des liens spécifiques vers d'autres banques de données bibliographiques ou de séquences ou autres (voir les références croisées) Bien évidemment, pour qu'un tel système fonctionne correctement et soit transparent pour l'utilisateur, il faut un minimum d'entente entre les organismes qui mettent des informations disponibles sur leurs serveurs (URL fixe). B. Banques et bases de données biologiques Souvent les termes de banque ou base sont utilisées sans distinction particulière. Toutefois il existe une différence non seulement pour l'utilisateur mais aussi pour l'implantation informatique de ces dernières : Banque de données : ensemble de données relatif à un domaine défini des connaissances et organisé pour être offert aux consultations d'utilisateurs Base de données: ensemble de données organisé en vue de son utilisation par des programmes correspondant à des applications distinctes et de manière à faciliter l'évolution indépendante des données et des programmes. Par exemple, on peut considérer la banque GenBank comme un énorme fichier contenant une suite d'enregistrement et pour chacun des champs spécifiques définis, avec une seule clé d'index comme entrée. Par exemple, MICADO (MICrobial Advanced Database Organization) est une base de données relationnelle (système de gestion PostgreSQL), dédiée aux génomes microbiens. Elle intègre notamment l'ensemble des séquences primaires microbiennes issues de Genbank, les génomes complets microbiens réannotés dans la banque Emglib et les données d'analyse fonctionnelle de la bactérie modèle B. subtilis. Il existe un grand nombre de banques ou bases de données d'intérêt biologique. Cette introduction sera limitée à une présentation des principales banques de données publiques, basées sur la structure primaire des séquences. Nous distinguerons deux types de banques : - celles qui correspondent à une collecte des données la plus exhaustive possible et qui offrent finalement un ensemble plutôt hétérogène d'informations (banques de séquences généralistes) - celles qui correspondent à des données plus homogènes établies autour d'une thématique et qui offrent une valeur ajoutée à partir d'une technique particulière ou d'un intérêt suscité par un groupe d'individus (banques ou bases de séquences spécialisées). La séquence est l'élément central autour duquel les banques de données se sont constituées. Les séquences biologiques, dès qu'elles ont pu être établies, ont très tôt fait l'objet d'une compilation dans les banques de données. La première compilation de protéines est publiée en 1965 par Margaret Dayhoff : c'est l'Atlas of Protein Sequences qui contient alors 50 entrées. D'abord imprimé jusqu'en 1978, il fut ensuite proposé sous forme électronique. 1. Les banques de séquences généralistes C'est au début des années 80 que les premières banques de séquences sont apparues sous l'initiative de quelques équipes dont la première à l'initiative de Grantham et C. Gautier à Lyon. Très rapidement avec les évolutions techniques du séquençage, la collecte et la gestion des données ont nécessité une organisation plus conséquente. Ainsi, plusieurs organismes ont pris en charge la production de telles bases de données. Nous présenterons dans les paragraphes suivants l'information contenue dans les banques telles qu'elle apparaît lors d'une requête et nous ne dirons rien de la structuration informatique de celles-ci. Trois banques de séquence nucléiques : - EMBL : banque européenne créée en 1980 et financée par l'EMBO (European Moleculary Biology Organization), elle est aujourd'hui diffusée par l'EBI (European Bioinformatics Institute, Cambridge, UK) - GenBank : créée en 1982 par la société IntelliGenetics et diffusée maintenant par le NCBI (National Center for Biotechnology Information, Los Alamos, US) - DDBJ : créée en 1986 et diffusée par le NIG (National Institute of Genetics, Japon). Ces trois banques s'échangent systématiquement leur contenu depuis 1987 et ont adopté un système de conventions communes : "The DDBJ/EMBL/GenBank Feature Table Definition". Deux banques protéiques : - PIR-NBRF : créée en 1984 par la NBRF (National Biomedical Research Foundation). Elle est maintenant un ensemble de données issues du MIPS (Martinsried Institute for Protein Sequences, Munich, Allemagne) et de la banque japonaise JIPID (Japan International Protein Information Database) - SwissProt : créée en 1986 à l'Université de Genève et maintenue depuis 1987 dans le cadre d'une collaboration, entre cette université (via ExPASy, Expert Protein Analysis System ) et l'EBI. Celle-ci regroupe aussi des séquences annotées de la banque PIR- NBRF ainsi que des séquences codantes, traduites de l'EMBL. Elles contiennent les protéine obtenues de plusieurs manières différentes :  in silico : déduite à partir de la séquence nucléique, par simple traduction du ou des exons la codant  isolée à partir de la cellule  ou encore par génie génétique 1.1. EMBL (nucléique) Financée par l'EMBO (European Moleculary Biology Organisation), développée au sein du Laboratoire Européen de Biologie Moléculaire situé à Heidelberg (Allemagne), elle est maintenant diffusée par l'EBI (European Bioinformatics Institute), situé près de Cambridge (Angleterre). Cette banque contient 74 491 158 213 nucléotides dans 44 538 943 entrées à la date du Vendredi 22 0ctobre 2004. Voici l'évolution du nombre du nombre de nucléotides depuis sa création : (extrait des statistiques : http://www3.ebi.ac.uk/Services/DBStats/) L'évolution du nombre d'entrées a un profil similaire. Toute la documentation pour cette banque est disponible sur le serveur de l'EBI : http://www.ebi.ac.uk/embl/Documentation/ Voici un exemple d'entrée : Le texte en style gras est une information par un lien (URL) vers un serveur Web. Chaque entrée de la base EMBL est composée de lignes ou champs qui commencent par une étiquette, code à 2 caractères indiquant le type d’information contenue dans la uploads/Finance/ chapitre-ii-les-banques-de-donnees.pdf