BI – Cours 1 et 2 Introduction à la Bio-informatique et la Génomique Biais de c

BI – Cours 1 et 2 Introduction à la Bio-informatique et la Génomique Biais de composition des séquences Introduction : La bioinformatique Qu'est-ce que c'est ? C'est répondre à des problématiques biologiques en utilisant des méthodes informatiques. Comment ça se passe ? A partir d'une problématique biologique et éventuellement de données expérimentales (séquençage, puces à ADN, données d'interaction, RNA-seq, etc ….), la bioinformatique permet un traitement massif et rapide du problème afin de réduire les champs d'investigation à venir et/ou de formuler des prédictions. Les prédictions établies sur la base d'une méthodologie bio-informatique sont ensuite validées (ou invalidées) expérimentalement. Rien n'empêche que la bioinformatique soit l'élément déclenchant du questionnement. Importance du dialogue Biologiste/(Bio-)Informaticien. Interfaces fréquentes avec d'autres disciplines telles que la physique, les mathématiques, les statistiques. Pour quoi faire ? Champs d'investigation vastes et variés. Quelques exemples : – Analyse de séquences (comparaisons, recherche de motifs/domaines, recherche de répétitions, recherche de biais du contenu, etc.) – Prédictions de structures tri-dimensionnelles (protéines,ARNs) – Bases de données pour stocker et mettre à disposition les données (séquences) ou répertorier des plans expérimentaux (Limms) – Analyses phylogénétiques et évolutives (classification, arbre, étude des pressions évolutives) Et bien d'autres. Dans ce module, on insistera surtout sur les méthodes bioinformatiques de la génomique. La Génomique Qu'est-ce que c'est ? C'est la science/le domaine (-omique)1 qui étudie les génomes en se basant sur leur séquence. Les analyses génomiques concernent les génomes individuellement et les uns par rapport aux autres => Génomique comparative Oui mais un génome ? 1On parle aussi de protéomique, transcriptomique, métagénomique, etc. C'est l'ensemble du matériel génétique d'un organisme, c'est à dire les gènes codants (=> protéines) ou non codants (ARNt, ARNr ARNi, snARN, snoARN et microARN), les signaux de régulation (séquences types « boîtes » par ex.) et plus encore ... J'en veux un … facile ! Les données issues du séquençage sont stockées dans des banques de données. Certaines données sont privées mais de nombreux génomes complètement séquencés sont publiques et leur séquence est disponible en ligne. Par exemple, au NCBI (http://www.ncbi.nlm.nih.gov/genome/browse/) ou à l'EMBL-EBI (http://www.ebi.ac.uk/genomes/) . Depuis les années 80, séquençage de génomes complets (de + en + grand). Maintenant métagénome aussi. Séquençage de + en + rapide. EMBL-EBI : (Janvier 2014) 2615 bactéries, 171 eucaryotes, 3490 virus, 1514 phages Ça ressemble à quoi ? C'est une longue série des bases A,C,G,T des acides nucléiques qui composent l'ADN de l'organisme étudié. On parle de séquence brute. Le format standard pour échanger ce type de données est le format FASTA2. Il se compose d'une ligne d'entête (> suivi d'un identifiant/commentaire sur la nature et l'origine des données) puis la séquence elle même sur les lignes suivantes avec un nombre fixe de caractères par ligne (nbre variable d'un fichier à un autre, autour de 60 à 80). Pour un génome qui contient plusieurs chromosomes, le fichier est souvent un « fasta multiple » qui contient autant de '>' et de séquences qu'il y a de chromosomes (les uns à la suite des autres). Rque importante : Où commence cette séquence ?? arbitraire sinon comment choisir ? Surtout si molécule circulaire. ORI pour les bactéries ? Qu'est-ce qu'on en fait ? Etude des caractéristiques générales : Les génomes sont de tailles variables (de 160 kb à 10Mb pour les bactéries). Quelques repères de taille : Virus : de quelques Kb à 10^5 bp et jusqu'à 1200 gènes (mimivirus) E. coli (K12) : 4,6Mb 4400 gènes Levure : 1,4x10^7 bp, 6000 gènes Drosophile : 1x10^8 bp, 12000 gènes Homme/Souris : 3x10^9 bp, 35000 gènes Rq : k=10^3, M=10^6, G=10^9 Composition en nt Règles de Chargaff (1950!!) • Dans une molécule double brin A=T et G=C => attribué plus tard (1953) aux appariements Watson Crick dans le double hélice d'ADN • Au sein du même brin (et à l'échelle macroscopique) A=T et G=C !!! On ne sait toujours pas 2 Le format fasta est aussi le format des séquences pour les gènes, les protéines, etc. pourquoi même si la présence d'éléments inversés répétés contribuent à maintenir cet équilibre Le %GC Les génomes présentent des compositions en bases différentes (de 16 à 75% de GC chez les bactéries). Taux variable aussi chez les génomes eucaryotes. Quand le %GC d'un génome s'éloigne de la moyenne, on dit que sa composition est biaisée (génome GC riche ou AT riche) même si il n'y a pas vraiment de norme en la matière du fait des différences constatées. Le %GC sur la 3ième base du codon (%GC3) reflète le taux de GC du génome en l'absence de contrainte (évolution neutre) du fait du wooble (mutation silencieuse sur la 3ième base du codon). Le %GC3 est une caractéristique utilisée surtout chez les vertébrés (du fait de la faible densité de codant). On a pu remarqué que les génomes courts ont un plus faible pourcentage en GC. On a montré que les organismes ayant un mode de vie parasitique ont un taux de GC plus faible que ceux ayant un mode de vie libre (Rocha and Danchin, 2002). Plusieurs autres corrélations plus moins nettes ont été testées (lien avec la température de croissance, le stress oxydatif, etc.) Il faut noter que ce %GC reflète la composition globale du génome. En fait, celle-ci varie le long du génome et on peut parfois constater d'importantes variations locales. En général, les gènes sont plus riches en GC que le reste du génome. Mais ces variations locales peuvent aussi être liées à des séquences issues de transferts horizontaux et/ou des éléments mobiles. cf image de Mabs ci-après Accident dun GC% qui chute <=> prophage (en vert) ID=*, particulièrement regroupés à cet endroit Caractérisation des éléments d'un génome Annotation des génomes C'est établir le « catalogue » de tous les objets génétiques présents dans le génome. Prédire les gènes codants, les ARN non codants (ARNt, ARNr, etc.), les signaux régulateurs repérables, les éléments mobiles ou transférés, etc. L'annotation peut être syntaxique et fonctionnelle. Comment on le fait ? Les techniques sont différentes selon ce qu'on cherche à identifier. On exploite en fait la connaissance des éléments qu'on cherche à identifier pour trouver les signaux assez discriminants pour permettre une détection automatique à partir de la séquence brute. Par exemple, les tRNA sont repérés en recherchant des séquences susceptibles de s'apparier pour donner la structure secondaire tige/boucle caractéristique + anti-codon (tRNA-scan). Autre exemple, les ARNr étant très conservés en séquences, on les retrouve par similarité de séquence avec d'autres ARNr déjà connus. Cas particulier de la détection des gènes codants Un gène codant bactérien se caractérise par : • Un promoteur constitué d'1 boîte de Pribnow (TTGACa) vers -35, 1 boîte TATA (TatAAT) vers -10 et le site d'initiation de la transcription (A/G). On peut aussi repérér un spacer d'environ 17bp entre la région -35 et -10. Pribnow Ecoli (%) = T82 T84 G78 A65 C54 a45 TATA Ecoli(%) = T80 A95 T45 A60 a50 T96 NB : notion de consensus et de PSSM fera l'objet d'un prochain cours • Un CDS = Coding Sequence débutant par un codon START (très souvent le codon ATG) et se terminant par un codon STOP (TAA,TAG ou TGA) => ORF (Open Reading Frame) • le RBS (Ribosome Binding Site) ou séquence de Shine-Dalgarno environ 10 nt avant le start. Cette région s'apparie avec l'ARN 16s (aGGAGGu). • Un terminateur Rho dépendants ou pas (tiges-boucles riches en GC) => Autant de signaux qui peuvent permettre de détecter les gènes codant. Mais Problème de sensibilité/spécificité. Trouver tout (ne rien manquer mais sans trop de faux positifs). La recherche de signaux seule s'avère insuffisante. Rq : Pour les gènes eucaryotes, les signaux sont différents (TATA box, 5'UTR,3'UTR et Site PolyA, ilôts CpG des vertébrés, sites donneurs/accepteurs des jonctions introns exons). Autre information détectable : le contenu. En fait le contenu est principalement dans les ORFs (cf biais d'usage des codons). On a pu montré que la différence de composition entre un gène codant et son environnement est détectable si on observe la composition en hexanucléotides (série de 6 nt). On peut ainsi établir des matrices de transition qui reflètent la probabilité d'être ou pas codant (Chaînes de Markov). Ces modèles ont été améliorés en tenant compte de beaucoup plus d'états que codants/non codants en utilisant les HMM et en combinant l'analyse du contenu avec celle des signaux (RBS par exemple). Exemples de logiciels de prédiction : GenMark, Glimmer. Rq : chez les eucaryotes, la nature morcelée en introns/exons des gènes rend plus difficile la détection automatique des gènes (p.ex avec Genscan). L'annotation des gènes eucaryotes est souvent combinée avec l'alignement avec des ESTs (Expressed Sequence Tags) ou des données de RNAseq. Dans tous les cas, il est indispensable de vérifier les annotations automatiques en confrontant les prédictions à des données expérimentales. Cependant, la validation des prédictions par recherche de similarité dans les banques même si elle est intéressante repose sur une hypothèse conservative qui tend à la fois à propager les erreurs et à manquer certains changements (mutations). Aparté sur la notion de phase Pour uploads/Science et Technologie/ bi-cm1.pdf

  • 17
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager