Cours 4 BLAST ● ● ● idée lire un résultat de Blast la famille Blast Bioinformat
Cours 4 BLAST ● ● ● idée lire un résultat de Blast la famille Blast Bioinformatique L3 Microbiologie Responsable du module: Dr. BAKLI Mahfoud E-mail: mahfoud.bakli@gmail.com Page Facebook ; Domaine SNV : Biologie,Agronomie,Science Alimentaire,Ecologie www.facebook.com/ DomaineSNV "quelle est la similarité entre ces 2 séquences ? et donc: est-ce que ces deux séquences sont homologues ?" "existe-t-il des séquences homologues à la mienne parmi toutes les séquences connues ?" (ex: UniProt, ~ 12 millions de séquences, ~ 350 AA/seq) Smith & Waterman: 0.035 s x 12 millions = … 118 heures ~ 5 jours !! BLAST, ou l'art du raccourci Smith-Waterman 1 séquence contre tout UniProt: ~ 5 jours ~ 20 secondes BLAST 1 séquence contre tout UniProt: BLAST: comment vivre sans ? Google = fouiller l'Internet Requête Portée [d'après P. Hingamp] BLAST = fouiller les séquences biologiques Blast NCBI BLA ST NR SWISSPROT PDB Requête Portée [d'après P. Hingamp] BLAST @NCBI: facile !! 1. requête (votre séquence) 2. portée (à qui vous voulez la comparer) 3. c’est parti ! Les résultats de BLAST 1. récapitulatif de la requête 1. représentation graphique des résultats 3. résumé des résultats 4. les alignements Les résultats de BLAST 1. récapitulatif de la requête quelle séquence a été soumise ("query") ; identifiant, longueur, type quelle banque de donnée est interrogée ? quel programme est utilisé ? Les résultats de BLAST 2. représentation graphique des résultats ce trait représente la séquence soumise (long. 253 AA) chaque trait de couleur représente un alignement entre la séquence de départ et une séquence de la banque de donnée sélectionnée couleur → score longueur → taille de l'alignement = HSP ("high scoring pair") Les résultats de BLAST 3. résumé des résultats descriptif identifiant score chaque ligne du résumé correspond à un trait coloré dans la représentation graphique couverture E-value Les résultats de BLAST 4. les alignements query → la séquence soumise subject → la séquence trouvée dans la bdd alignement = outil QUANTITATIF - scores - Expect (ou E-value) - % identité -% positif - # de gaps Les paramètres cachés de BLAST nombre max. de séquences cibles seuil sur l'E-value taille de l'amorce choix de la matrice de substitution score des gaps pourquoi y a-t-il 2 paramètres ??? - Existence - Extension Avantage du score Scores et statistiques de BLAST ●on va fabriquer une séquence artificielle de 253 acides aminés (= 253 AA tirés au hasard parmi les 20) >random sequence 1 consisting of 253 residues. AGCALTLIQRYCQDCGSPEVQTGSNPYAAAHHDMGSFGVACGQDEDKGCRAGGQDQGDVP PMNWTQACDSTTHYWQMCQHPINTWDSFKWFMRHKCWRQFQNFHVFPMVGDICQPLEKHI NKGMYPKAYLSKVWHEFWRCAVYNMHDMRCFFAKTEDTQWGYWPDAKLIRKKLFTDNDEL WTGNNWNAEHFFSQCQGIQDRKPHNWSIHLLNLCCGAFRTQFHGSGCRDVDTSWGWWIYY LCWVRIQMNEGFE BLAST contre SwissProt est ce que cet alignement traduit une homologie entre les séquences ? NON !! Définition de l'e-value de BLAST l'E-value de BLAST E-value de X = on s'attendrait à trouver X alignements de score équivalent purement par chance contre une banque de données de taille équivalente s = 46 > Evalue = 4e-4 : je m'attends à trouver en moyenne 0.0004 alignements de score 46 purement par hasard (si je blaste 2500 séquences aléatoires, j'en obtiendrai ~ 1) s = 267 > Evalue = 1e-70: il faut que je blaste 1e70 séquences aléatoires avant de tomber au hasard sur un alignement de cette qualité ... Définition de l'e-value de BLAST 10-10 homologie certaine zone incertaine ("twilight zone") pas le signe d'une homologie 1 faux-positifs: on a un alignement, mais les séquences ne sont pas homologues - 41 SwissProt 530,000 séquences 149 millions d'AA nr-prot 12 millions de séquences BLAST BLAST ma séquence SwissProt 400,000 séquences 149 millions d'AA est ce que l'E-value sera plus grand, plus petit ou identique ? BLAST must-know ●BLAST= programme d'alignements locaux, permettant d'interroger une base de données de séquences à partir d'une séquence ("query") ●résultat: liste d'HSP (high scoring pairs = alignements) avec % identité, % positif, %gaps score brut, score en bits, E-value ●E-value = valeur statistique : combien d'HSP de même score aurions nous obtenu au hasard contre une base de données aléatoire de même taille ? ●E-value diminue lorsque le score augmente: E-val < 10-10: homologie très probable; ●algorithme heuristique: BLAST prend des raccourcis, mais trouve généralement la meilleure solution (=l'alignement de plus haut score) blastn blastp tblastn tblastx blastx psi-blast les séries à succès... La famille BLAST: vous avez une séquence ... ...que vous voulez comparer à une banque de données ... protéique nucléique nucléique protéique blastn blastp blastx Blastx ou l'art de comparer des acides aminés nucléotides >marine metagenome JCVI_SCAF_1101668109630 GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGAATTAACGGTC ACCGCGATGTTGGTGGTTACCGTGCATCGATGTACAATGCACTAGGCTTAGACAGTGTTCAGGCGTTAGT GGATTGTATGCAAGAATTAGAAAACACACACGCATGAAAGTATTAGCAAACGACGGAATTTCAGCTTCGG GAATCGCAGCGATAGAGGCTTCAGGGCACGAATTAATCACCACTAAAGTCGCTCAAGAGCAACTGGAAAG CTACATCAACGAACACCAGATTGATGTGGTTTTGGTGCGTTCAGCAACTACGGTGCGCAAGGAATTGATT GATGCATGTCCTTCAATAAAAGGCATCGGTCGCGGTGGCGTAGGTATGGATAATATCGATGTGGCGTATG Est ce que cette séquence d'ADN/ARN code pour une protéine ? Est ce que sa traduction ressemble à une protéine connue ? et des Blastx combien de traductions possibles d'un fragment d'ADN? E DE A HK TA FE AL VK AA KI NG K M R R T K R P L K R W L K R L K . T E R . G A Q N G L . S A G . S G . N K R N GAAGATGAGGCGCACAAAACGGCCTTTGAAGCGCTGGTTAAAGCGGCTAAAATAAACGGA 10 20 30 40 50 60 CTTCTACTCCGCGTGTTTTGCCGGAAACTTCGCGACCAATTTCGCCGATTTTATTTGCCT F IL R VF RG KF RQ NF RS FY VS L H P A C F P R Q L A P . L P . F L R F S S A C L V A K S A S T L A A L I F P I 3 cadres de lecture directs 3 cadres de lecture reverse 1 fragment d'ADN/ARN = 6 « protéines » Blastx 1 séquence d'ADN traduction dans les 6 cadres de lecture (= 6 « proteines ») Blast protéique (Blastp) de chacune des 6 contre une banque de donnée protéique la traduction dans le cadre +3 a une forte similarité locale avec ZP_02182738... … de même que la traduction dans le cadre +1 blastx ADN ARN 6 "proteines" Banque de données protéiques traduction dans les 6 cadres de lecture Est ce que mon fragment d'ADN code pour une protéine déjà connue ? Blastp tblastn protéine Banque de données protéiques Banque de données nucléique traduction dans les 6 cadres de lecture Est-ce que le génome de la levure code pour une protéine homologue de l'insuline humaine ? Blastp tblastx ADN ARN 6 "proteines" Banque de données protéiques Banque de données nucléique traduction dans les 6 cadres de lecture ( à vous d'inventer la question qui va avec ...) Blastp La famille BLAST: vous avez une séquence ... ...que vous voulez comparer à une banque de données ... protéique nucléique nucléique protéique blastn tblastx blastp psi-blast blastx tblastn uploads/Science et Technologie/ bioinformatique-cours4-blast.pdf
Documents similaires
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/a3wim1l8eesWxfXs7ntDjwgX4oB1GtirWVAPwr03VQhXU1qesNcquxzCISXIBp8pv8Tk4JuQtXCkbt9Y7hacX78B.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/bPVcDaYHlJ3wX6yVuEbxyXuE1gQRMXZi7HxXyeYeAEQmNoGh7x9ZJMvY5WduBEtjXuVzWZCwNWn3gTn4OBJY7DMz.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/DIzGqhkrcmV6ok8fjOpr7G51MvOYI6Z0fzbxNg20eWHF2QGsXXK7HaTAraJe6MAXUEyaHfi4l8jN9d5uVHL2rLL8.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/rNYuegYBPpQxorjrP9LB8VYoXskeJ68h9A73F2YYkfCQYQUnaYDj18mU9bTt93AX2TZRumQ7m5ehnsCNtclZfn2x.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/MUzyvo5X4BgzaGDYhJtplwW4QGw8UlmXURRL30PH7xov0HHtz3cf31i1B1Wr4fAwnbbMCPwrWfnrEP8jgZuxxAD7.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/L9LSyu3jlmJYbdNaKvz9uYliIajAnwrEvWvGdGSPyMOfkeZ23DSJTHA82b5NI6xJIF2ZtTD7aazIlZwda9Qby1ad.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/Otjfk8t6yJBuxfA414HeKMCtWgsxejvMMoNb7VG1K5Ak2jUoPbNF6LXFc3FID96nAe2BrDBmHViUT1gl90Jteq0k.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/XhRhiR2HLi1rFIUNK7fdBn3Q54slKJrpjgeMlajWFXxyUBMbjA2CiDidULfSy2qIsy2HroOJXjvggd12rrMOQGW2.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/AvGVInGemGZOk4HAndDSwmC0IlQeQdNnzJOf0FTapqcNIITt9hLQxSPXmfaZcyYQO4Cs995XJj9B2zt6WmXFycmO.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/CUyQ3lrrpNIyVXNo6GJoLZV4hztacUU03Ys4p6fF2tY5XEGVyViCTVzF15WunmogCuDbBrhXear7aQo1scecHPrw.png)
-
22
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Sep 22, 2021
- Catégorie Science & technolo...
- Langue French
- Taille du fichier 1.3629MB