EXPRESSIONS RÉGULIÈRES Table des matières fiche 0 : trouver et remplacer dans u

EXPRESSIONS RÉGULIÈRES Table des matières fiche 0 : trouver et remplacer dans une chaîne.......................................................3 introduction......................................................................................................................................3 1. Poser le problème..........................................................................................................3 2. Trouver............................................................................................................................3 2.1. ce que dit la documentation......................................................................................................3 2.2. un exemple...............................................................................................................................4 3. Remplacer.......................................................................................................................4 3.1. ce que dit la documentation......................................................................................................4 3.2. un exemple...............................................................................................................................4 4. Découper.........................................................................................................................5 4.1. ce que dit la documentation......................................................................................................5 4.2. exemples..................................................................................................................................5 fiche 1 : le module Python RE....................................................................................7 introduction......................................................................................................................................7 1. Matching et Searching...................................................................................................7 1.1. vocabulaire...............................................................................................................................7 1.2. poser le problème.....................................................................................................................7 1.3. compiler le patron.....................................................................................................................7 1.4. comparer et chercher................................................................................................................8 2. Expression régulière......................................................................................................9 2.1. remarques sur la section précédente.......................................................................................9 2.2. les jokers et marqueurs fondamentaux...................................................................................10 2.3. répétitions d'un caractère.......................................................................................................10 2.4. consommation........................................................................................................................11 2.5. gourmandise...........................................................................................................................11 2.5. échappement..........................................................................................................................12 3. Des méthodes à recherches multiples.......................................................................12 3.1. la méthode findall().................................................................................................................12 3.2. remplacer : la méthode sub()..................................................................................................14 3.3. la méthode split()....................................................................................................................15 fiche 2 : E.R. les fondamentaux...............................................................................16 introduction....................................................................................................................................16 1. Diversifier les jokers et marqueurs.............................................................................16 1.1. jeux de caractères définis ou classes.....................................................................................16 1.2. classes et marqueurs usuels prédéfinis..................................................................................16 2. Parenthésage...............................................................................................................17 2.1. analogie mathématique..........................................................................................................17 2.2. un exemple.............................................................................................................................17 E.R. en Python 3 EXPRESSIONS RÉGULIÈRES page 1 3. La double analyse lexicale..........................................................................................18 3.1. deux analyses en pipeline......................................................................................................18 3.2. l'échappement dans les chaînes en Python............................................................................18 3.3. l'échappement des expressions régulières.............................................................................20 4. Donner de l'air aux expressions régulières...............................................................20 4.1. la saisie multiligne des chaînes..............................................................................................21 4.2. le commentaire en ligne..........................................................................................................21 4.3. la directive VERBOSE............................................................................................................22 4.4. jouer sur l'implicite..................................................................................................................23 4.5. l'opérateur de chaîne r............................................................................................................23 5. Expression avec un ou logique..................................................................................24 5.1. le ou logique...........................................................................................................................24 5.2. un exemple sans parenthésage..............................................................................................24 5.2. exemples avec parenthésage.................................................................................................25 6. Les directives insérées dans les expressions...........................................................26 fiche 3 : les groupes..................................................................................................27 introduction....................................................................................................................................27 1. Les groupes..................................................................................................................27 1.1. groupement de sous-expressions régulières..........................................................................27 1.2. exemples avec search()..........................................................................................................27 1.3. exemples avec findall(). .........................................................................................................28 2. Numéroter et nommer les groupes.............................................................................29 2.1. règle de numérotation.............................................................................................................29 2.2. Nommer les groupes..............................................................................................................30 3. Capturer les groupes et utiliser la capture.................................................................30 3.1. capture des groupes...............................................................................................................30 3.2. exemple d'usage du numéro ..................................................................................................31 3.3. usage de la convention de nommage.....................................................................................32 3.4. la fonction de remplacement sub() avec capture....................................................................33 fiche 4 : lookahead et lookbehind............................................................................34 1. Lookahead....................................................................................................................34 1.1. lookahead positif ou négatif....................................................................................................34 1.2. lookahead postposé................................................................................................................34 1.3. lookahead préposé.................................................................................................................34 2. Lookbehind...................................................................................................................35 2.1. lookbehind positif ou négatif...................................................................................................35 2.2. lookbehind préposé................................................................................................................35 2.2. lookbehind postposé...............................................................................................................36 E.R. en Python 3 page 2 fiche 0 : trouver et remplacer dans une chaîne. introduction. Avant d'aborder le module des expressions régulières, on va examiner quelques méthodes relatives aux chaînes de caractères ou qui leur sont apparentées. 1. Poser le problème. Problème : On dispose d'un texte, c'est à dire pour Python d'une chaîne de caractères ; par ailleurs, on propose un motif, qui est lui aussi une chaîne de caractères. Le problème consiste à détecter la présence du motif dans le texte, et éventuellement de remplacer ce motif par un autre.. Le texte se présente sous forme d'une chaîne de caractères en mémoire vive (variable, chaîne littérale) ; on ne se pose pas de problème d'encodage (UNICODE) puisque l'on ne cherche pas à transformer la chaîne en tableau binaire. Attention cependant, si on dispose d'un fichier de texte, le problème de l'encodage se pose lors du chargement (voir la fiche sur les fichiers de texte en Python) ! Le motif est une chaîne sans problème particulier : les sauts de lignes sont codés \n, l'antislash est codé \\. L'antislash protège les quotes contenues dans la chaîne. Il n'y a pas d'autre utilisation de l'antislash. rappel : un antislash en fin de ligne annule la fin de ligne. Il permet par exemple, d'écrire une chaîne de caractères un peu longue sur plusieurs lignes physiques. 2. Trouver. 2.1. ce que dit la documentation. str.find(sub[, start[, end]]) retourne le premier indice de la chaîne où la sous-chaîne sub est trouvée ; si start et end sont précisés, le domaine de recherche est la sous-chaîne formée des caractères dont l'indice est entre les valeurs de start et de end (la tranche commence avec start et se termine avant end). La méthode retourne -1 en cas d'échec de la recherche. str.index(sub[, start[, end]]) comme find(), mais lève une exception ValueError si la sous-chaîne n'est pas trouvée. Cela permet de programmer les ruptures de séquences avec des exceptions. str.rfind(sub[, start[, end]]) comme find(), mais commence par la fin de la chaîne. str.rindex(sub[, start[, end]]) comme rfind() mais lève une exception ValueError si la sous-chaîne n'est pas trouvée. str.count(sub[, start[, end]]) retourne le nombre d'occurrences de la sous-chaîne sub dans la tranche [start,end] E.R. en Python 3 fiche 0 : trouver et remplacer dans une chaîne. page 3 2.2. un exemple. #!/usr/bin/python3 # rechercher dans une chaîne texte = "Un IDE ou \"environnement de développement\" est un logiciel \ constitué d'outils qui facilitent l'écriture et les tests dans un \ langage défini, voire plusieurs.\ \nCet IDE comporte en général un éditeur avec coloration syntaxique,\ un système de gestion de fichiers (sauvegarde/chargement),\ un compilateur, un exécuteur de programme, un système d'aide en ligne,\ des indicateurs de syntaxe etc. \ \nLe plus connu est peut être Éclipse." # première occurence du motif / numérotation qui commence à 0 motif = "IDE" resultat = texte.find(motif) print ("première occurence du motif :", resultat) # nombre d'occurrences du motif resultat= texte.count (motif) print ("nombre d'occurrences du motif :",resultat) # recherche d'un motif avec problème de casse motif = "éclipse" resultat = (texte.upper()).find(motif.upper()) print (motif, "est présent comme",texte[resultat:resultat+len(motif)]) résultat : >>> première occurrence du motif : 3 nombre d'occurrences du motif : 2 éclipse est présent comme Éclipse >>> 3. Remplacer. 3.1. ce que dit la documentation. str.replace(old, new[, count]) retourne une copie de la chaîne où toutes les occurrences de la sous-chaîne old sont remplacées par la chaîne new. Si la valeur count est précisée, seules les count premières occurrences sont remplacées. 3.2. un exemple. #!/usr/bin/python3 # remplacer dans une chaîne texte = "Un IDE ou \"environnement de développement\" est un logiciel \ E.R. en Python 3 fiche 0 : trouver et remplacer dans une chaîne. page 4 constitué d'outils qui facilitent l'écriture et les tests dans un \ langage défini, voire plusieurs.\ \nCet IDE comporte en général un éditeur avec coloration syntaxique,\ un système de gestion de fichiers (sauvegarde/chargement),\ un compilateur, un exécuteur de programme, un système d'aide en ligne,\ des indicateurs de syntaxe etc. \ \nLe plus connu est peut être Éclipse." # remplacement motif = "\n" resultat = texte.replace(motif, " ") print (resultat) résultat : >>> Un IDE ou "environnement de développement" est un logiciel constitué d'outils qui facilitent l'écriture et les tests dans un langage défini, voire plusieurs. Cet IDE comporte en général un éditeur avec coloration syntaxique,un système de gestion de fichiers (sauvegarde/chargement),un compilateur, un exécuteur de programme, un système d'aide en ligne,des indicateurs de syntaxe etc. Le plus connu est peut être Éclipse. >>> 4. Découper. 4.1. ce que dit la documentation. str.split([sep[, maxsplit]]) retourne une liste de mots de la chaîne, en utilisant sep comme délimiteur. Si maxsplit est donné, il y a au plus maxsplit coupures (et la liste a au plus maxsplit+1 éléments). En l'absence de séparateur spécifié, ou avec le séparateur None, l'espace est considéré comme séparateur. str.splitlines([keepends]) retourne une liste des lignes de la chaîne. En principe, le séparateur de ligne n'est pas gardé, sauf si keepend est posé à True. 4.2. exemples. #!/usr/bin/python3 # couper une chaîne texte = "123,,456," # split liste = texte.split (",") print ("texte :",texte, "\nliste :", liste,"\n\n") # splitline texte = "\nABC\nDEF\nGHI" liste = texte.splitlines() print ("texte :",texte, "\nliste :", liste,"\n\n") E.R. en Python 3 fiche 0 : trouver et remplacer dans une chaîne. page 5 # splitline avec keepend texte = "\nABC\nDEF\nGHI" liste = texte.splitlines(True) print ("texte :",texte, "\nliste :", liste,"\n\n") résultats : >>> texte : 123,,456, liste : ['123', '', '456', ''] texte : ABC DEF GHI liste : ['', 'ABC', 'DEF', 'GHI'] texte : ABC DEF GHI liste : ['\n', 'ABC\n', 'DEF\n', 'GHI'] >>> E.R. en Python 3 fiche 0 : trouver et remplacer dans une chaîne. page 6 fiche 1 : le module Python RE introduction Les «expressions régulières » en Python 3 peuvent être abordées à l'aide du module re : import re # module des expressions régulières Les fichiers du module re.py, re.pyc, re.pyo, respectivement le fichier source, le fichier compilé, le fichier optimisé se trouvent dans le répertoire des librairies Lib, à la racine. Il n'y a donc aucun problème particulier pour son utilisation. C'est là que la machine Python cherche les modules (après le répertoire actuel, évidemment). Dans les fiches qui suivent, on utilise l'importation sous la forme import ; il faut donc qualifier systématiquement les éléments constitutifs du module. En production, il se peut qu'il soit intéressant, pour éviter des lourdeurs de code, d'utiliser la forme from... import et de définir des alias. C'est évidemment tout à fait possible, mais ce n'est pas ici le lieu d'en discuter. 1. Matching et Searching. 1.1. vocabulaire. Pour la clarté de l'exposé, nous traduirons le verbe to match par correspondre à, et to search par rechercher et donc matching par correspondance et searching par recherche. Il ne faut pas chercher de signification "intuitive" à ces concepts qui ont dans chacun des langages comme C, Java ou Python un sens précis, mais malheureusement uploads/s3/ regex-python.pdf

  • 21
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager