1 ANALYSE STATISTIQUE DE L'ADN MODELISATION PROBABILISTE PAR LES CHAINES DE MAR

1 ANALYSE STATISTIQUE DE L'ADN MODELISATION PROBABILISTE PAR LES CHAINES DE MARKOV PUIS SIMULATION ET DETECTION DE BIAIS Une nouvelle utilisation du logiciel ANAGENE (INRP) Guy RUMELHARD Résumé : L’analyse des séquences d’ADN comprenant plusieurs milliers ou plusieurs centaines de millions de nucléotides, librement accessibles dans les banques de données, ne relève pas, comme on a pu le croire, de la simple « lecture ». Les mathématiques jouent un rôle fondamental pour repérer les « plages » homogènes ou les « mots » ayant un rôle que le biologiste doit ensuite confirmer au laboratoire. Nous proposons ici une approche de la modélisation à l’aide des chaînes de Markov accessible aux élèves de lycées. L'analyse fonctionnelle indirecte de l'ADN a longtemps commencé par la recherche des protéines synthétisées (enzymes, hormones, constituants des membranes, hémoglobines, globulines,…), et des ARN. On détermine la ou les cellules qui les fabriquent, et on recherche alors l'ARN messager présent dans la cellule au moment de la synthèse. A partir de celui-ci il est possible de « remonter » à l'ADN du chromosome par l'intermédiaire d'un ADNc copié, mais chez les eucaryotes une grande partie de l’ADN n’est pas transcrit ou transcrit mais pas traduit. L'analyse structurale directe de l'ADN dont le rôle est inconnu est devenue indispensable depuis que l'analyse complète des séquences de l'ADN d'un organisme est possible. La suite des opérations s'est nécessairement renversée, sans rendre pour autant l'analyse fonctionnelle obsolète, mais en la complétant et en guidant la recherche des séquences fonctionnelles. En effet le chercheur se trouve devant plusieurs milliers (pour le moindre virus), plusieurs millions (pour les bactéries) et plusieurs centaines de millions de nucléotides (pour les eucaryotes) dont la signification lui échappe. De plus on commence à savoir que si chez les bactéries 95% de cet ADN correspond à des protéines, chez l'homme 95% de cet ADN n'a pas de signification actuellement connue. Par ailleurs les gènes sont constitués d'introns qui ne sont pas transcrits en m ARN, certains m ARN ne sont pas traduits en protéines, et une partie de l'ADN correspond à des virus intégrés. L’espoir de pouvoir « lire » directement l’ADN et de comprendre son rôle s’est évanoui. Cet espoir naïf correspondait à l’attitude naturaliste pour laquelle « comprendre c’est voir ». Pour aborder ces questions les chercheurs font appel, depuis 15 ans environ, à des modèles mathématiques mis au point récemment et qui donnent lieu actuellement à des thèses en mathématiques. Ils ont été mis en œuvre grâce à des ordinateurs puissants qui demandent parfois plusieurs heures de calcul. Cette analyse in silico n'est pas un pis aller temporaire. Les mathématiques jouent désormais un rôle créateur1 incontournable dans la recherche, dans l’ADN de « plages homogènes » qui correspondent à des « séquences fonctionnelles », et des « petits mots » de l'ADN ayant une fonction connue. On peut se demander si ce travail est définitivement inaccessible aux lycéens. Nous allons précisément tenter de décrire une approche de ces méthodes qui soit accessible à des élèves 1 Rumelhard Guy (2001) Le rôle créateur des mathématiques en sciences de la vie Biologie Géologie 4 p. 715- 729 2 de lycée. Il n'existe actuellement qu'un seul livre2 réellement opératoire mais d'un niveau élevé en mathématiques et quelques articles en français3 de difficulté variable. Une bibliographie considérable existe en anglais. Le cheminement du raisonnement est le suivant : - L’observation et l’analyse statistique de séquences d’ADN permet de déterminer quelques paramètres, telle la fréquence des lettres prises isolément, des successions de deux lettres, ou de trois lettres et plus, - On propose alors plusieurs modélisations probabilistes de cette séquence, - Puis on réalise une simulation à partir des divers modèles, - Enfin la confrontation à la séquence permet de déterminer d’éventuels biais, c'est-à- dire des écarts entre la simulation et la réalité On peut commencer par l'analyse mathématique de séquences d'ADN assez courtes sur lesquelles ont peut travailler « à la main » sur papier et dont la fonction est connue pour rechercher et comprendre l'intérêt des modélisations probabilistes (Chaînes de Markov, loi de Gauss ou de Poisson). Ce travail est accessible en classe au lycée. On comprendra ensuite comment analyser mathématiquement des séquences inconnues, en recherchant par exemple les chaînes de Markov cachées à l’aide de fenêtres glissantes et d’un algorithme EM, mais on ne peut pas le réaliser en classe sauf à utiliser un programme dont on ne comprend pas l’organisation. On peut par contre comprendre que ce travail mathématique prépare le travail du biologiste qui doit rechercher au laboratoire la fonction des séquences ou des mots distingués et repérés. Ces modèles mathématiques sont principalement au nombre de trois : - Chaînes de Markov, (CM) - Modèles de Markov cachés (HMM, hidden Markov models), - Algorithme EM (estimation, maximisation), qui se déplace par fenêtres glissantes, Recherche d'un modèle Il est devenu habituel de dire que l'ADN se présente comme un texte composé à l'aide de quatre lettres A,C,G,T, qui s'enchaînent sans interruption et qui est orienté avec un début et une fin. Prenons cette comparaison au sérieux et non pas comme une vague image. Cette analogie avec un texte en langue française nous servira de modèle pour comprendre l'organisation de l'ADN. Notons donc quelques observations et quelques procédés d’analyse 2 Robin Stéphane, Rodolphe François, Schbath Sophie (2003) ADN, mots et modèles. Paris : Belin collection Echelles. On trouvera des informations plus générales dans : Dardel F., Képès F. (2002) Bio informatique. Génomique et post-génomique. Paris : Les éditions de l'école polytechnique 3 Prum Bernard (2004) Mathématiques et biologie APMEP n° 440 p. 337-348 ; Prum Bernard (2001) La recherche automatique des gènes. La Recherche n°346 p. 84-87 ; Prum Bernard (2000) Une approche statistique de l’analyse des génomes. La Revue du Palais de la Découverte 276, 56-65 ; Prum Bernard (2002) Trouver un gène responsable du cancer. L’explosion des mathématiques p. 28-31 ; Prum Bernard (2000) Les chaînes de Markov dans l’analyse des génomes, Matapli 62, 24 ; Prum Bernard, Muri-Majoube Florence (2001) Une approche statistique de l’analyse des génomes. Gazette n°89 Morange Michel (2005) Avant propos. Dossier N°46. Pour la Science. Janvier-Mars ; Schbath S. (2003) A la recherche de mots de fréquence exceptionnelle dans les génomes Images des mathématiques CNRS vol 3 3 des lettres et des mots d'un texte écrit avec un alphabet comprenant voyelles et consonnes. Il faut noter que certaines langues ne comportent pas de voyelles à l’écrit du moins. 1. ANALYSE D'UN TEXTE COMPOSÉ DE LETTRES (VOYELLES ET CONSONNES) 1.1. Un obstacle à l’analyse d’un texte La description statistique et la modélisation probabiliste d'un texte écrit dans une langue peut sembler incongrue comme toute mathématisation des œuvres culturelles et des comportements humains, puisque l'essentiel réside dans la signification des mots et des phrases ou dans le plaisir esthétique que le texte procure. Dans un registre voisin, celui de la musique, et bien qu'il existe des musiques aléatoires au premier rang desquels se présente la campanologie, c'est à dire certaines façons traditionnelles de faire sonner des carillons constitués de nombreuses cloches, il semble totalement incongru de compter les types de notes, leur fréquence, leur enchaînement dans une sonate, une symphonie ou tout autre morceau d'un compositeur célèbre. Sur des textes écrits ce type d'analyse a cependant été réalisé de manière fructueuse, particulièrement depuis l'apparition des théories de la communication et de l'information4 au milieu du XX ème siècle et initialement dès 1902 par le mathématicien russe Andreï Markov. 1.2. Limites de l’analogie entre texte et ADN Soit un texte français (ou anglais, allemand), écrit avec les 26 lettres de l'alphabet. Mais en fait les mots sont séparés, et il existe divers signes de ponctuation, ainsi que des lettres accentuées (aigu, grave, circonflexe, tréma, cédilles, apostrophe). Il y a donc plus de 40 « lettres ». L’ADN n’est constitué que de quatre lettres sans séparations ni accentuation. De plus l’ADN est « lu » par groupes de trois lettres avec trois cadres différentes ayant chacun éventuellement une signification. 1.3. Premier modèle pour rendre compte du texte : la fréquence de chaque lettre est constante, mais varie selon les langues L'occurrence des lettres d'un texte peut sembler a priori quelconque5 et n'obéir à aucune régularité, en particulier pas d'un texte à l'autre, ni même d'un chapitre à l'autre dans un même texte. Il n’en est rien. On peut vérifier empiriquement que la fréquence de chaque lettre tend vers une valeur constante dans un texte suffisamment long et homogène (au moins 1 000 à 10 000 lettres). Cette valeur présente une certaine variance selon la taille du texte. Chaque texte devient un échantillon d’un texte idéal, sauf cas particuliers de textes volontairement écrit en ne faisant pas appel à toutes les lettres. On peut vérifier empiriquement que cette fréquence est différente selon les différentes langues. Les documents de cryptographie fournissent tous les résultats souhaités. On trouve par exemple pour les voyelles en français et en anglais les proportions relatives suivantes (pour 1) : 4 Shannon Claude, Weaver Warren (1949) The Mathematical Theory of Communication. uploads/Management/ adn-markov.pdf

  • 22
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Nov 10, 2021
  • Catégorie Management
  • Langue French
  • Taille du fichier 0.1181MB