L'ANALYSE DES TEXTES DE BREVETS Extraction de connaissances utiles à la "concep
L'ANALYSE DES TEXTES DE BREVETS Extraction de connaissances utiles à la "conception inventive" à partir de textes de brevets par Dildar KEREM-WU Mémoire préparé sous la direction de : M. François ROUSSELOT, Maître de Conférences, DE, Université de Strasbourg, Strasbourg Devant le Jury : − Madame Amalia TODIRASCU-COURTIER, Maître de conférences, Université de Strasbourg, Strasbourg − Monsieur Thierry GRASS, Maître de conférences, Université de Strasbourg, Strasbourg Présenté le : 14 Septembre 2009 1 MÉMOIRE DE FIN D’ÉTUDES présenté pour l’obtention du diplôme de Master en Linguistique et Informatique Discipline: UFR Lettres et Sciences Humaines Appliquées Spécialité: Linguistique et Informatique 2 Résumé : Ce travail s'inscrit dans le domaine de l'acquisition automatique ou semi-automatique des connaissances à partir des textes. Il s'agit d'une nouvelle approche qui repose sur le repérage des marqueurs linguistiques qui sont liés aux connaissances de la conception inventive appelée la TRIZ (Théorie de Résolution des Problèmes d'Invention). Pour aboutir à l'extraction des informations particulièrement pertinentes, nous explorerons un corpus de brevets en utilisant des techniques d'analyse linguistiques. Le travail consiste à analyser et à collecter les marqueurs linguistiques susceptibles d'être des candidats pour la localisation des notions présupposées de la TRIZ. Ensuite, un algorithme établi permet l'extraction automatique des connaissances à l'aide de ces marqueurs. La multiplicité des brevets ainsi que la diversité des domaines concernés entraînent que les textes de brevets constituent des ressources riches, mais difficiles à traiter. Nous montrons par cette étude qu'il est possible d'accéder au contenu des brevets et d'en extraire des informations souhaitées sans restriction de domaines. Mots-clés : l'Analyse des Textes de Brevets, l'Analyse Textuelle, la Fouille de Contenu, TALN (Traitement Automatique de la Langue Naturelle), l’Acquisition de Connaissances, l'Organisation de Connaissances, la TRIZ, l'Analyse de Contradictions, l'Extraction de Contradictions 3 Abstract : This research relates to automatic or semi-automatic acquisition of knowledge from texts. More specifically, we present a new approach that helps to locate the TRIZ-linked knowledge by using the linguistic markers. The extraction of precise information is realized by using the techniques of linguistic analysis. This work consists of analyzing and collecting the linguistic markers that are likely to locate the notions associated to the TRIZ. An algorithm will then be established to carry out the automatic extraction task. The resources in the patent text are rich, but the analysis would be a difficult task. This is due to the multiplicity of the patents as well as the diversity of the technical fields concerned. We try to show through this work that it is possible to analyze the contents of patents and extract desired information without restriction of technical fields. Keywords : Patent Analysis, Text Analysis, Text-mining, Natural Language Processing, Knowledge Acquisition, Knowledge Organization, the TRIZ, Analysis of Contradiction, Contradiction Extraction 4 REMERCIEMENTS Ma gratitude va tout d'abord à M. François ROUSSELOT, mon directeur de mémoire, pour ses conseils avisés, sa patience, sa disponibilité, ses encouragements et la confiance qu'il m'a accordée tout au long de ce travail. Je tiens à remercier tous les membres de jury qui ont accepté d’évaluer mon travail. Je remercie également toute l'équipe pédagogique de l'UFR Lettres & Sciences Humaines Appliquées, et les intervenants professionnels responsables de la formation de Master en Linguistique et Informatique. Je tiens en particulier à remercier Madame Marie- Paul JACQUES pour ses conseils et ses lumières dans mon domaine. Mes remerciements vont également à l'institut National des Sciences Appliquées de Strasbourg ainsi qu'au Laboratoire de Génie de la Conception pour avoir proposé ce thème de recherche doublé d'un stage qui m'a permis de réaliser ce travail. Je témoigne toute ma reconnaissance à : Alexis Bultey (LGéco), pour ses aides chaleureuses et professionnelles ; Denis Cavallucci (LGéco), pour ses conseils avisés au sujet de la TRIZ ; Kata Gabor (LGéco), pour le temps qu’elle m’a consacré tout au long de cette période en répondant à toutes mes interrogations ; Mes amies Anne-Marie, Derya, Julidie, pour le temps consacré à la relecture. Enfin, mes remerciements vont à ma famille qui est la source de toutes mes forces. Merci ! 5 LISTE DES ABRÉVIATIONS TAL : Traitement Automatique Des Langues TALN : Traitement Automatique Des Langues Naturelles TRIZ : L'acronyme russe signifie Théorie de Résolution des Problèmes d'Invention INSA : Institut National des Sciences Appliquées LGéco : Laboratoire de Génie de la Conception XML : Extensible Markup Language HTML : Hypertext Markup Language DTD : Document Type Definition TF : Term Frequency TF-IDF : Term Frequency and Inverse Document Frequency SAO : Subject-Action-Object Perl : Practical Extraction and Report Language et al. : et alii (Latin: et les autres) 6 Table des matières REMERCIEMENTS ................................................................................................................... 5 LISTE DES ABRÉVIATIONS .................................................................................................. 6 INTRODUCTION GENERALE .............................................................................................. 9 Contexte de l'étude ........................................................................................................... 11 Les problématiques abordées ........................................................................................... 14 La problématique liée à la conception inventive ....................................................... 14 La problématique liée à l'analyse des textes de brevets ............................................ 15 La structure du mémoire .................................................................................................. 18 PARTIE I - L'ÉTAT DES LIEUX ............................................................................................ 20 Chapitre 1. L'analyse des textes ........................................................................................... 21 1.1. Préambule ................................................................................................................. 21 1.2. Présentation des approches dans l'analyse des textes .............................................. 21 1.2.1.a. L'analyse statistique textuelle ............................................................................. 21 1.2.1.b. Problèmes méthodologiques ............................................................................... 22 1.2.2.a. L'analyse linguistique ......................................................................................... 23 1.2.2.b. Problèmes méthodologiques ............................................................................... 27 1.3. Bilan .......................................................................................................................... 28 Chapitre 2. L'analyse des textes de brevets ........................................................................... 29 2.1. Préambule ................................................................................................................. 29 2.2. Présentation des approches dans l'analyse des textes de brevets ............................. 30 2.2.1.a. La méthode quantitative ...................................................................................... 30 2.2.1.b. Problèmes méthodologiques ............................................................................... 32 2.2.2.a. La méthode qualitative ........................................................................................ 32 2.2.2.b. Problèmes méthodologiques ............................................................................... 34 2.3. Bilan .......................................................................................................................... 35 Chapitre 3. La TRIZ et l'analyse des textes de brevets associée à celle-ci .......................... 36 3.1. Préambule ................................................................................................................. 36 3.2. La TRIZ, une théorie de résolution des problèmes inventifs .................................... 36 3.3. L'étude comparative d'outils d'analyse associés à la TRIZ ...................................... 38 3.4. Problèmes méthodologiques ..................................................................................... 40 3.5. Bilan .......................................................................................................................... 41 PARTIE II – MÉTHODOLOGIE ............................................................................................. 44 Chapitre 4. Le corpus de référence ....................................................................................... 45 4.1. Préambule ................................................................................................................. 45 4.2. Construction du corpus ............................................................................................. 45 4.3. Le pré-traitement du corpus ...................................................................................... 47 4.4. Les caractéristiques du document en question .......................................................... 47 4.4.a. Les caractéristiques de la structure ........................................................................ 48 4.4.b. Les caractéristiques de textes ................................................................................. 48 4.5. Bilan .......................................................................................................................... 49 Chapitre 5. L'analyse préliminaire des textes ....................................................................... 50 5.1. Préambule ................................................................................................................. 50 5.3. Les notions recherchées exprimées dans les textes de brevets ................................ 50 5.2. Choix des outils ........................................................................................................ 53 5.4. Premières collections des marqueurs candidats ........................................................ 54 5.5. Bilan .......................................................................................................................... 59 7 Chapitre 6. L'analyse approfondie ........................................................................................ 60 6.1. Préambule ................................................................................................................. 60 6.2. Les procédés de l'analyse approfondie ..................................................................... 60 6.2.a. Les marqueurs verbaux ......................................................................................... 62 6.2.b. L'utilisation de verbes modaux .............................................................................. 66 6.2.c. Les verbes qui marquent la relation « partie_tout » ............................................... 67 6.2.d. Les marqueurs adverbiaux ................................................................................... 69 6.2.e. Les marqueurs adjectivaux .................................................................................... 71 6.2.f. Les marqueurs nominaux ....................................................................................... 74 6.2.g. Les marqueurs discursifs retenus ........................................................................... 76 6.2.h. Les autres marqueurs propres aux textes de brevets .............................................. 78 6.3. Bilan .......................................................................................................................... 82 Chapitre 7. L'annotation et l'extraction ................................................................................. 83 7.1. Préambule ................................................................................................................. 83 7.2. L'annotation et l'extraction ........................................................................................ 83 7.2.a. Les procédés d'annotation ...................................................................................... 84 7.2.b. L'extraction d'informations à l'aide de graphes ..................................................... 85 7.2.c. L'exportation des textes annotés ............................................................................ 88 7.3. Évaluation préliminaire ............................................................................................ 90 7.4. Les difficultés et les limites ..................................................................................... 93 7.5. Bilan .......................................................................................................................... 94 PERSPECTIVES ET CONCLUSION ...................................................................................... 94 BIBLIOGRAPHIE ................................................................................................................ 97 GLOSSAIRE ........................................................................................................................... 100 Annexe 1 Listes des marqueurs sélectionnés ......................................................................... 103 Annexe 2 Les graphes utilisés et leurs ordres définis dans le préférence d'outil NOOJ ........ 113 Annexe 3 Les scriptes Perl .................................................................................................... 115 Annexe 4 Les sources du corpus ........................................................................................... 117 Annexe 5 La disponibilité des brevets .................................................................................. 123 8 Tableaux et Figures Tableau 1 : Les résultats d'un calcul statistique TF, IDF et TF-IDF sur le corpus..................55 Tableau 2 : Les résultats d'évaluation.......................................................................................90 Figure 1: La résolution de problèmes selon la TRIZ................................................................12 Figure 2: Les réseaux de problèmes et solutions selon ZANNI et al........................................13 Figure 3: Une représentation de l'arbre syntaxique.................................................................24 Figure 4: Règle de <CoLocation> présentée dans JAVAVEILLE............................................26 Figure 5: Une illustration de relations des notions de la TRIZ ...............................................37 Figure 7: Un exemple d'application de l'outil PAT-Analyzer....................................................40 Figure 8 : Organigramme d'analyse et d'annotation................................................................43 Figure 9 : Un aperçu de segments répétés de terme « cause » dans LIKES...........................57 Figure 10: Aperçu des concordances triées de gauche et de droite dans Wordsmith Tools.....60 Figure 11 : Exemple de graphe ItisJJtothat.nog ......................................................................84 Figure 12 : Les résultats du graphe ItisJJtothat.nog Figure 13 : Le graphe générique pour retrouver les valeurs opposées Figure 14 : L'annotation du graphe générique 9 INTRODUCTION GENERALE Les brevets constituent une source d'informations abondantes où s'ancrent des connaissances technologiques et scientifiques. Celles-ci sont souvent utiles pour les concepteurs. Dans le cadre de la conception invective, le concepteur est fréquemment amené à effectuer des recherches dans les brevets. Cette tâche est fastidieuse et longue, et toute méthode visant à faciliter le travail est la bienvenue. À ce titre, des travaux portant sur l'analyse automatique ou semi-automatique des brevets sont nombreux et sont développés selon des voies différentes. Néanmoins, uploads/Philosophie/ memoire-m2-taln.pdf
Documents similaires










-
25
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Dec 22, 2021
- Catégorie Philosophy / Philo...
- Langue French
- Taille du fichier 0.8874MB