Université de Montréal Modélisation sémantique, syntaxique et lexicale de la pa

Université de Montréal Modélisation sémantique, syntaxique et lexicale de la paraphrase par Jasmina Milićević Département de linguistique et de traduction Faculté des arts et des sciences Thèse présentée à la Faculté des études supérieures en vue de l’obtention du grade de Ph.D. en linguistique Mars 2003 Montréal : Université de Montréal ©Jasmina Milićević 2003 Page d’identification du jury Université de Montréal Faculté des études supérieures Cette thèse intitulée Modélisation sémantique, syntaxique et lexicale de la paraphrase présentée par Jasmina Milićević a été évaluée par un jury composé des personnes suivantes : Richard Kittredge ___________________ président-rapporteur Igor Mel'čuk ___________________ directeur de recherche Alain Polguère __________ codirecteur Knud Lambrecht _________________ examinateur externe Yves-Charles Morin ______________ membre du jury Guy Laflèche ____________________________ représentant du doyen de la FES Thèse acceptée le -------------------------------------------- iii Résumé Cette thèse propose une théorisation du concept de paraphrase linguistique et une modélisation formelle de ce phénomène. La modélisation proposée consiste à construire un ensemble de règles, appelé système de paraphrasage, qui simule la capacité des locuteurs de produire des paraphrases. L'étude de la paraphrase se fait donc dans la direction de la synthèse linguistique (à partir du sens vers le texte). Le cadre théorique adopté est la Théorie linguistique Sens-Texte. La paraphrase est approchée à la fois dans son aspect statique, en tant que relation de (quasi-)synonymie entre phrases, et dans son aspect dynamique, en tant qu'opération permettant de produire des phrases (quasi-)synonymes. Le lien paraphrastique est considéré comme étant intuitif et essentiellement approximatif. La variation paraphrastique observée entre les phrases (quasi-)synonymes est liée aux variations des trois dimensions du sens — propositionnelle [= situationnelle], communicative et rhétorique. Selon le degré de leur proximité sémantique, les paraphrases sont divisées en paraphrases au sens large, pour lesquelles la condition suffisante est leur quasi-équivalence propositionnelle, et paraphrases au sens étroit, pour lesquelles on exige à la fois la (quasi-)équivalence propositionnelle et communica- tive/rhétorique. La paraphrase comme opération de production de paraphrases (= paraphrasage) est considérée de deux points de vue : 1) comme le paraphrasage virtuel, c'est-à-dire la synthèse multiple de phrases (quasi-) synonymes à partir d'une même représentation source, effectuée par les règles de correspondance, qui ne sont pas les règles de paraphrasage à proprement parler ; 2) comme le paraphrasage reformulatif, c'est-à-dire la production de paraphrases à partir d'une phrase donnée, effectuée par les règles de (quasi-)équivalence, spécifiquement conçues pour le paraphrasage. Seulement les règles de ce deuxième type sont considérées comme faisant partie d'un système de paraphrasage de type Sens- Texte. Les exigences imposées à un tel système sont discutées, notamment 1) une puissance paraphrastique suffisante (= complétude/large couverture des phénomènes linguistiques), 2) la capacité de traiter les paraphrases approximatives et 3) le caractère stratificationnel (= la capacité de produire des paraphrases à partir des niveaux de représentations différents). Les difficultés et les enjeux d'une étude de la paraphrase sont mis en évidence en illustrant, d'une part, la multiplicité des facteurs intervenant dans le paraphrasage et la richesse de moyens paraphrastiques [= moyens synonymiques], et, d'autre part, en discutant les applications des modèles de la paraphrase en linguistique informatique et en iv traitement automatique de la langue (génération et reformulation de texte, traduction automatique, etc.), ainsi qu'en enseignement de langues. Le fragment d'un système de paraphrasage de type Sens-Texte est présenté, cette présentation comprenant deux volets : 1) Un examen détaillé du système de paraphrasage existant, constitué de règles lexico-syntaxiques d'équivalence opérant au niveau syntaxique profond de représenta- tion des énoncés ; on donne une nouvelle classification de règles avec des explications et corrections, ainsi que quelques nouveaux sous-types de règles lexico-syntaxiques. 2) L'introduction d'un nouveau type de règles — règles sémantiques d'équivalence, opérant au niveau sémantique de représentation, nécessaires pour rendre compte de certaines paraphrases approximatives qui ne peuvent pas être traitées de façon suffisamment naturelle et élégante par les règles de paraphrasage existantes. La contribution principale de la thèse consiste en ce qu'elle : 1) offre une systématisation des connaissances sur la paraphrase dans le cadre de la Théorie Sens-Texte et un examen critique des outils formels que cette théorie offre pour la modélisation de ce phénomène ; 2) met en vedette le paraphrasage sémantique, plus puissant que le paraphrasage aux autres niveaux de représentation, qui, jusqu'à présent, n'a pas été étudié dans le cadre de la Théorie Sens-Texte ni dans aucun autre cadre théorique. Mots-clés Lexicologie formelle, linguistique théorique, paraphrase, paraphrasage, sémantique, structure communicative, syntaxe de dépendance, synthèse linguistique, théorie Sens- Texte. v Abstract The thesis looks into the concept of linguistic paraphrase and the ways in which it can be formally modeled. It proposes one such model, consisting of a set of rules, called paraprhasing rules, which simulate the capacity of speakers to produce paraphrases. Thus, paraphrase is studied from the viewpoint of linguistic synthesis (in the direction from meaning to text). The theoretical framework adopted is the Meaning-Text linguistic theory. Paraphrase is considered both in its static aspect, as the relation of (quasi-) synonymy between sentences, and in its dynamic aspect, as the operation that allows us to produce (quasi-)synonymous sentences. The paraphrastic link (between sentences) is deemed to be intuitive and essentially approximate. Paraphrastic variation observed between (quasi-)synonymous sentences is linked to the variation of the three dimensions of meaning—propositional [= situational], communicative and rhetorical. According to the degree of their semantic proximity, paraphrases are divided into paraphrases in the broad sense, for which the sufficient condition is propositional (quasi-)equivalence, and paraphrases in the narrow sense, for which both propositional and communicative/rhetorical (quasi-) equivalence is required. Paraphrase as operation, i.e., production of paraphrases, or, paraphrasing, is considered from two viewpoints : 1) as virtual paraphrasing, i.e., multiple synthesis of (quasi-)synonymous sentences from a single source-representation, carried out by correspondence rules, which are not paraphrasing rules proper, and 2) as reformulative paraphrasing, i.e., production of paraphrases starting from a given sentence, carried out by (quasi-)equivalence rules, which are specifically designed for paraphrasing. Only the rules of the latter type are considered a part of a Meaning-Text paraphrasing system. Requirements imposed upon such systems are discussed, namely 1) sufficient paraphrasing power (= completeness, large coverage of linguistic phenomena), 2) ability to treat approximate paraphrases, and 3) stratificational character (= ability to produce paraphrases starting from different representation levels). Difficulties and the interest of studying paraphrase/paraphrasing are highlighted; respectively, multiple factors intervening in paraphrasing/extremely rich paraphrastic [= synonymic] means characteristic of natural languages and possible applications of theoretical models of paraphrase in computational linguistics and Natural Language vi Processing (text generation and reformulation, machine translation, etc.), as well as in language teaching. A fragment of a Meaning-Text paraphrasing system is presented, the presentation focusing on: 1) An in-depth overview of the existing system, a set of lexico-syntactic equiva- lence rules operating on the deep-syntactic level of representation of utterances ; a new classification of rules is proposed, along with explanations/corrections, etc., and a number of new subtypes of lexico-syntactic rules is identified. 2) A new type of rules — semantic equivalence rules, operating on the semantic level of representation, necessary to account for certain approximate paraphrases that cannot be treated in a sufficiently natural and elegant way by the existing paraphrasing rules. Major contributions of the thesis consist in: 1) systematizing what is known about paraphrase in the Meaning-Text framework and critically examining the formal means this theory offers for paraphrase modeling; 2) introducing semantic paraphrasing, more powerful than paraphrasing on other levels of representation ; so far, this kind of paraphrasing has not been studied in the Meaning-Text framework, nor in any other. Keywords Communicative structure, dependency syntax, formal lexicology, linguistic synthesis, Meaning-Text Theory, paraphrase, paraphrasing, semantics, theoretical linguistics. vii Table des matières Résumé …………………………………………………………………………….....iii Abstract……………………………………………………………………………......v Table des matières ………………………………………………………………….....vii Liste des tableaux et figures …………………………………………………………...x Liste des abréviations et symboles ………………………………………………….....xi Conventions d'écriture …………….…………………………………………………..xiii Remerciements ………………………………………………………………………...xiv Introduction………………………………………………………………………....... 1 1. Problématique……………………………………………………………...... 1 2. Cadre théorique…………………………………………………………........4 3. Objectifs de la thèse ………………………………………………………….. 5 4. Organisation de la thèse ……………………………………………………....6 Partie I: Fondements théoriques ……………………………………………….......... 8 Chapitre 1: Paraphrase dans la théorie Sens-Texte …………………………...... 9 1 Généralités ………………………………………………………………... 9 1.1 Principes de base de l'approche de la paraphrase dans la théorie Sens-Texte...............................................9 1.2 Notions de base de la théorie Sens-Texte...............................15 2 Concept de paraphrase..............................................................36 2.1 Paraphrase comme relation...............................................36 2.1.1 (Quasi-)synonymie au sens large...........................39 2.1.2 (Quasi-)synonymie au sens étroit...........................43 2.2 Paraphrase comme opération.............................................48 2.2.1 Première méthode de production de paraphrases : paraphrasage virtuel...........................................48 2.2.2 Seconde méthode de production de paraphrases : paraphrasage reformulatif ................................... 55 2.2.2.1 Paraphrasage reformulatif sémantique.............57 2.2.2.2 Paraphrasage reformulatif syntaxique............. 61 3 Difficultés et enjeux de l'étude de la paraphrase..................................68 3.1 Complexité des faits de paraphrase.......................................68 3.1.1 Combinabilité des trois dimensions de sens................68 3.1.2 Typologie de la paraphrase.................................. 72 3.1.2.1 Type de connaissances mises en jeu : paraphrases linguistiques vs paraphrases cognitives ........................ .73 3.1.2.2 Dimensions de sens mises en jeu : paraphrases propositionnelles vs communicatives vs rhétoriques.................... 76 3.1.2.3 Type de moyens d'expression linguistiques mis en jeu ............................................ 77 3.1.2.4 Exactitude du lien paraphrastique : paraphrases exactes vs approximatives........... 78 3.1.2.5 Mode de production : paraphrases virtuelles vs reformulatives.......... 82 3.2 Utilisations uploads/Philosophie/ modelisation-semantique-syntaxique-et-lexicale-de-la-paraphrase-milicevic.pdf

  • 66
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager