Master Agroalimentaire Cours 2 Les bases de données bioinformatiques Specialisé

Master Agroalimentaire Cours 2 Les bases de données bioinformatiques Specialisés Prof Amal Maurady FSTT-UAE 2020-2021 Types de données bioinformatiques Données Génomiques :la génomique Elle étudie le fonctionnement d'un organisme, d'un organe, d'un cancer, etc. à l'échelle du génome, au lieu de se limiter à l'échelle d'un seul gène. Données Protéomiques :La protéomique désigne la science qui étudie les protéomes, c'est-à-dire l'ensemble des protéines d'une cellule, d'un organite, d'un tissu, d'un organe ou d'un organisme à un moment donné et sous des conditions données. Données Transcriptomiques : La transcriptomique est l'étude de l'ensemble des ARN messagers produits lors du processus de transcription d'un génome. Elle repose sur la quantification systématique de ces ARNm, ce qui permet d'avoir une indication relative du taux de transcription de différents gènes dans des conditions données. Plusieurs techniques permettent d'avoir accès à cette information, en particulier celle des puces à ADN, celle de la PCR quantitative ou encore celle du séquençage systématique d'ADN complémentaires. Données bioinformatiques Genomiques : La génomique est la science des génomes : elle étudie les séquences d'ADN des êtres vivants. Les SNP(Single Nucleotide Polymorphism) constituent la forme la plus abondante de variations génétiques dans le génome humain. Ils représentent plus de 90% de toutes les différences entre individus. C'est un type de polymorphisme de l'ADN dans lequel deux chromosomes diffèrent sur un segment donné par une seule paire de bases. variations de séquences des génomes: Modification de l’efficacité d’une enzyme, Modification de la ŕegulation /epissage Types de données génomiques  D'une manière générale, les données génomiques se divisent en quatre catégories : Séquence : séquence nucléotidique d'un chromosome, d'un contig, d'un transcrit ou d'un ensemble de ceux-ci. Ceux-ci sont généralement maintenus par des bases de données publiques, telles que UCSC, Ensembl et RefSeq. La séquence génomique d'un organisme donné est fréquemment disponible en plusieurs éditions, appelées builds ou assemblages. Annotations : Descriptions des caractéristiques - par exemple les gènes, les  Annotations : Descriptions des caractéristiques - par exemple les gènes, les transcrits, les SNP , les codons de départ - qui apparaissent dans les génomes ou les transcrits. Les annotations comprennent généralement les coordonnées (nom du chromosome, positions chromosomiques et brin chromosomique), ainsi que les propriétés (nom de gène, fonction, termes GO, etc.) d'une caractéristique donnée.  Données quantitatives : Tout type de valeur numérique associée à une position chromosomique. Par exemple, le degré de conservation phylogénétique entre un ensemble d'organismes, à chaque position du génome. Ou, la force du facteur de transcription se liant à une position chromosomique dans un ensemble de données ChIP-seq.  Lire les alignements : Enregistrement faisant correspondre une courte séquence d'ADN à une région de séquence identique ou similaire dans un génome. Dans une expérience de séquençage à haut débit, l'alignement de courtes lectures identifie les coordonnées génomiques à partir desquelles chaque lecture est probablement dérivée. Les alignements de lecture peuvent être produits en exécutant des données de séquençage par le biais de programmes d'alignement, tels que Bowtie, Tophat ou BWA.  reference : https://plastid.readthedocs.io/en/latest/concepts/data.html La génomique:On peut identifier 19 types de données (6 types de données brutes, 13 types de données élaborées). Les données génomiques sont de plus en plus abondantes et disposent le plus souvent de standards d’échange et de méta-données,pour les données brute on a:séquences lues ADN-ARN, génotypes SNP (Les SNP(Single Nucleotide Polymorphism) constituent la forme la plus abondante de variations génétiques dans le génome humain.C'est un type de polymorphisme de l'ADN),génotypes SSR Données d'expression (arrays, qPCR),profils protéiques (quantitatifs)profils protéiques (quantitatifs),.alors pour les données élaborées on a :séquences protéines,séquences alignées/assemblées,données d'expression RNAseq, polymorphismes SNP , polymorphismes SSR,variants structuraux ,patrons de méthylation,orthologues, paralogues, familles de gènes,cartes (génétiques, QTLs, physiques) données passeport populations/souches Ref : https://datapartage.inrae.fr/content/download/3401/34762/version/1/file/ Rapport_2014Data-omiques.pdf visualiser l'organisation intron / exon / région codante d'un gène et de son produit ARN sur une séquence de référence génomique Visualiser la position d'un pseudogène sur une séquence de référence génomique ( une pseudogène est un gène inactif au sein d'un génome, du fait d'altérations génétiques le rendant non fonctionnel et donc incapable de conduire à l'expression d'une protéine ) Visualiser l’emplacement du gène sur le chromosome Régions génomiques, transcriptions et produits caractère path  Types de données génomiques: Séquence: La succession des bases le long d’un brin d’ADN est la séquence de ce brin. On parle alors de séquence nucléotidique. On peut donc exprimer la taille d’une séquence en nombre de bases – kilobases (kb) pour milliers de bases, mégabases (Mb) pour millions de bases, gigabases (Gb) pour milliards de bases.  Cartographie génétiques: La cartographie génétique est la construction d’une carte soit localisée autour d’un gène, soit à base large portant sur le génome entier. Plus généralement, c’est la détermination de la position d’un locus (gène ou marqueur génétique) sur un chromosome en fonction du taux de recombinaison génétique. Son unité de distance est le centimorgan (cM).  Les chromosomes: Un chromosome est un élément microscopique constitué d'une molécule d'ADN et de protéines, les histones et les protéines non histones. Il porte les gènes, supports de l'information génétique, transmis des cellules mères aux cellules filles lors des divisions cellulaires.  Les assemblages:En bio-informatique, l'assemblage consiste à aligner et/ou fusionner des fragments d'ADN ou d'ARN issus d'une plus longue séquence afin de reconstruire la séquence originale. Il s'agit d'une étape d'analyse in silico qui succède au séquençage de l'ADN ou de l'ARN d'un organisme unique, d'une colonie de clones (bactériens par exemple), ou encore d'un mélange complexe d'organism Types de génomiques : fonctionelles et structurales -La génomique structurale, qui se charge du séquençage du génome entier ; au sens « organisation des génomes ») ; Les méthodes concernées sont donc le séquençage des génomes (obtenir les séquences complètes des génomes de différents organismes), l'identification des gènes, des séquences régulatrices, des séquences répétées, la comparaison de séquences, annotation des génomes (identifier les séquences informatives des génomes, codon d'initiation, codon stop....), assemblage des genes, chromosomes cartes (maps), nucleotides, structures 3D macromoléculaires.... -La génomique fonctionnelle, qui vise à déterminer la fonction et l'expression des gènes séquencés en caractérisant le transcriptome et le protéome, le phénotype et ces liens au locus(une position fixe (d'un gène ou d'un marqueur génétique) sur un chromosome), les marqueurs associés, les interactions, et liens vers des citations, des détails sur les variations, des cartes, des rapports d'expression, des homologues, le contenu du domaine protéique, des outils de regroupement et des requêtes d'expression différentielle, des troubles génétiques sélectionnés avec des discussions sur la ou les mutations sous- jacentes et les caractéristiques cliniques Proteomique et proteines La protéomique consiste à étudier l’ensemble des protéines d’un organisme, d’un fluide biologique, d’un tissu, d’une cellule ou même d’un compartiment cellulaire. Cet ensemble de protéines est nommé "protéome". Le protéome est une entité dynamique et complexe. Au sein de chaque cellule, le contenu de protéines se modifie en permanence en fonction des conditions intra ou extra cellulaires. De plus, par le biais de réarrangements, un même gène peut donner naissance à plusieurs protéines. la protéomique désigne la science qui étudie les protéomes, c'est-à-dire l'ensemble des protéines d'une cellule, d'un organite, d'un tissu, d'un organe ou d'un organisme à un moment donné et sous des conditions données.  Type de données transcriptomiques  La transcriptomique est l'étude de l'ensemble des ARN messagers produits lors du processus de transcription d'un génome. Elle repose sur la quantification systématique de ces ARNm, ce qui permet d'avoir une indication relative du taux de transcription de différents gènes dans des conditions données. Plusieurs techniques permettent d'avoir accès à cette information, en particulier celle des puces à ADN, celle de la PCR quantitative ou encore celle du séquençage systématique d'ADN complémentaires.  La transcriptomique est un outil utilisé en génétique moléculaire pour étudier et analyser le transcriptome, c'est-à-dire l'ensemble des ARN (ou molécules biologiques) messagers nés de la transcription du génome - ou matériel génétique. Cette étude permet notamment d'identifier les gènes actifs et ouvre des portes sur celle des maladies héréditaires en travaillant sur leurs causes. Il existe plusieurs techniques de transcriptomique dont le séquençage d'ARN et les puces à ADN utilisé en biotechno All Resources Bases de données L’information Chemicals & Bioassays Les différants produits chimiques et les bioessays Data & Software Les données et les logiciels de base de données de NCBI DNA & RNA -Les séquences génomiques -les séquences de nucléotides Domains & Structures -la modélisation moléculaire Genes & Expression -littérature biomédicale -Etude sur la génomique et la génétique -Génotypes et phénotypes et expression génétique Genetics & Medicine -littérature biomédicales et les sciences de la vie -Gènes et génotypes Genomes & Maps - la structure des génomes -la génomique ,la génétique et l a variation génomique Homology Les séquences protéiques Literature livres biomédicaux Proteins des enregistrements de séquences protéiques Sequence Analysis des outils pour l’analyse de la séquence de la grippe Taxonomy les noms et lignées phylogénétiques de plus de 160 000 organismes  Variation Les variations génomiques , génotypes et phénotypes NCBI Biosysteme (NCBI) : https://www.ncbi.nlm.nih.gov/biosystems/ Bases de donnée des réseaux d’interaction des proteins Pour une base plus spécialisé : KEGG uploads/Industriel/ cours2basesde-donnees-specialises.pdf

  • 11
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager