FRANTEXT 1 Frantext : qu'est-ce donc ? Frantext est le nom d'une base de donnée
FRANTEXT 1 Frantext : qu'est-ce donc ? Frantext est le nom d'une base de données de textes français : textes littéraires et philosophiques, mais aussi scientifiques et techniques (environ 10%), développée et maintenue au sein de l'ATILF- CNRS (ex INaLF). Elle a été créée autour d'un noyau de mille textes, dans les années 70, afin de fournir des exemples pour le Trésor de la Langue Française. Une fois le dictionnaire terminé, elle a continué à évoluer : d'abord mise à disposition dans les années 80 sous forme d'un CD (" Discotext "), elle a été mise en ligne sur le web en 1998 par l'informaticien auteur de son moteur de recherches, Jacques Dendien. Elle est régulièrement enrichie et comporte aujourd'hui près de 4000 références. Elle est la seule à proposer des recherches sur des textes qui vont de 1180 à 2009, avec un fonds contemporain particulièrement riche (820 textes sont postérieurs à 1950). Elle se décline en plusieurs bases : Frantext général (totalité des textes, accès par abonnement) Frantext catégorisé (1200 textes étiquetés grammaticalement, accès par abonnement) Frantext agrégation (consultable par les agrégatifs après une demande d'abonnement individualisée) Frantext Normale Sup (consultable par les agrégatifs après une demande d'abonnement individualisée) Frantext Moyen Français Frantext Démonstration (une sélection de trente-cinq textes libres de droit, accès libre et gratuit). Les utilisateurs désireux de faire connaissance avec la base peuvent en tester les fonctionnalités sur Frantext Démonstration. Frantext : pour quel type de recherches ? Frantext est une base de données de taille moyenne, qui n'a pas l'ambition d'être exhaustive. Son ambition est de proposer un échantillon le plus pertinent possible de la langue française, et de sélectionner le corpus pour lui assurer une certaine représentativité : types de textes, siècles, genres différents. Ses utilisateurs sont des linguistes, des littéraires, des chercheurs en sciences humaines et sociales. Leur travail nécessite des ressources textuelles qui peuvent être localisées (un corpus d'auteur, une période chronologique, un genre) ou au contraire maximalement étendues. C'est pourquoi la base ne se fonde pas sur une hiérarchie académique des textes, mais sur ladiversité et à la représentativité des corpus offerts. On pourra trouver dans Frantext des textes littéraires classiques, mais aussi de la presse, des ouvrages scientifiques, des livres de cuisine, des traités de cynégétique, des manuels, des romans policiers, etc… , parmi lesquels l'utilisateur fait son choix. L'objectif est d'offrir un répertoire des différents états de la langue et de la création françaises. Puis-je lire ou télécharger des textes à partir de Frantext ? Oui, s'ils sont libres de droits. Sont considérés comme libres de droits des textes dont l'auteur est décédé depuis plus de soixante-dix, sauf exceptions (auteurs morts durant la Première Guerre mondiale). Dans certains cas (si l'édition a été refondue, enrichie, modernisée), le droit d'éditeur FRANTEXT 2 peut venir prendre le relais du droit d'auteur : ainsi, une édition des Pensées de Pascal (1662) qui aurait été refondue en 1994 par un éditeur scientifique peut être considérée comme un texte sous droits. La liste des textes téléchargeables est disponible sur le portail du Centre National de Ressources CNRTL (www.cnrtl.fr) Non, s'ils sont sous droits d'auteur ou d'éditeur. La base, en conformité avec la législation sur le droit d'auteur, ne propose en lecture que des extraits des œuvres (contextes de 350 signes maximum pour les textes sous droit). Pourquoi ne peut-on entrer dans Frantext sans abonnement ? Parce que la base respecte le droit d'auteur, et que les éditeurs ont souhaité limiter son accès à la communauté scientifique. L'abonnement et le mot de passe ouvrent la base aux chercheurs, enseignants, étudiants et institutions scientifiques. Il est à noter que 250 bibliothèques universitaires dans le monde, dont la BnF, sont abonnées et offrent gratuitement la ressource Frantext à tous leurs utilisateurs, quel que soit leur statut. Le programme de numérisation est encadré par une convention de partenariat entre le laboratoire ATILF et le Syndicat National de l'Édition. Quelle différence entre Frantext et Google Livres, Gallica ou Gutenberg ? Frantext propose des textes numérisés en mode texte ce qui assure des possibilités de recherche plus étendues (lemmes, expressions régulières, tri de vocabulaire, calcul de fréquences). L'essentiel du corpus de Gallica et de Google Livres est proposé en mode image ou en océrisation automatique. Les éditions sont choisies sur critères scientifiques, et assorties de références bibliographiques précises, qui permettent de localiser sans peine occurrences et citations, à la page près. Elles sont traitées sur la base d'un protocole, équipées de métadonnées (informations sur l'auteur, l'édition), et balisées en XML, ce qui assure leur exportabilité (pour les textes libres de droits) et une haute qualité de rendu par rapport à l'original (restitution des fins de paragraphes, des attributs typographiques). Quels critères sont pris en compte dans une proposition d'enrichissement ? Une proposition d'enrichissement peut-être justifiée par un projet scientifique précisnécessitant la possibilité d'une fouille informatisée. Voici quelques exemples de corpus qui ont rejoint la base Frantext sur projet de recherche : les romans de Raymond Queneau, le cycle duGrand incendie de Londres de Jacques Roubaud, 12 romans d'Alphonse Daudet, une série de journaux personnels du XXe siècle (Pozzi, Queneau, Groult, Havet, Huguenin), un ensemble de 100 textes autobiographiques postérieurs à 1950. Frantext, un outil sophistiqué Frantext est équipée d'un moteur de recherches sophistiqué, qui permet d'extraire : Des listes de vocabulaire triées, accompagnées de leur fréquence FRANTEXT 3 Extrait de la liste décroissante des fréquences de La Vie mode d'emploi (Perec). Des formes ou des lemmes, affichés en surbrillance dans leur contexte : Exemple d'emploi en contexte de l'expression mode d'emploi dans La vie mode d'emploi. Des expressions de choix : maison ( blanche | bleue ) (maison|palais)d'un(blanc(immaculé|sale)|bleu(d'azur|profond)) Des expressions optionnelles : un &q(0,2) homme Cette expression de séquence pourra trouver des contextes tels que un soit séparé de homme par zéro, un ou deux mots, donc des contextes tels que un homme, un grand homme, un très petit homme un &?(&?très grand) homme recherchera les contextes un homme ou un grand homme ou un très grand homme. homme ^très grand va chercher tous les contextes du genre homme XXX grand qui tels que XXX ne soit pas égal àtrès. Des grammaires : Ce sont des recherches combinées qui permettent de trouver des séries d'éléments. On peut ainsi chercher tous les nombres (chiffres arabes, romains, lettres), toutes les expressions possibles d'une date (21 septembre, août 1789), des listes de vocabulaire relatives à un thème, une isotopie… FRANTEXT 4 Des entités catégorisées (sur la base catégorisée uniquement) : un &e(g=A) jeune homme va chercher tous les toutes les expressions où un adjectif apparaît entre un et jeune homme : un beau jeune homme, un charmant jeune homme. &cparler (d'|de) &e(g=S) les uns parlèrent d'amaurose, ils parlèrent de trahison, son père lui parlait de ses cousins(Perec). Le moteur de recherches de Frantext est intégré à la base. Il est donc possible de faire ses requêtes directement, sans devoir recourir à l'exportation et au retraitement via d'autres outils de fouille lexicale. Un formulaire multicritères permet de surcroît un assemblage facile des corpus, qui peuvent être triés par auteur, date, genre, etc… On peut ainsi facilement rechercher la totalité des dates dans les textes autobiographiques écrits entre 1950 et 1980, ou le lexique de la guerre dans le théâtre français du XVIIe siècle. NB : les textes libres de droit, les corpus d'exemples des textes sous droits, les listes de vocabulaire peuvent être exportés et traités avec d'autres outils si l'utilisateur le souhaite. Comment entre-t-on un ouvrage dans Frantext ? Les ouvrages dont le laboratoire est propriétaire sont massicotés, ou photocopiés si le papier (Pléiade, Quarto) est trop fin. Les ouvrages empruntés, rares ou fragiles, eux, sont photocopiés d'office, ou scannés à plat. Les liasses sont entrées dans une numériseuse. Deux logiciels de numérisation différents sont mis en marche, et placent en surbrillance les points de discordance, ensuite corrigés à la main. Cette méthode assure un taux d'erreur inférieur à une erreur pour 13 000 caractères Une fois au format numérique, le texte est équipé d'un certain nombre de balises XML-TEI. Celles-ci, invisibles des utilisateurs, permettent de préserver les attributs typographiques du texte (gras, soulignement), d'isoler des informations, et assurent sa lisibilité ainsi que sa compatibilité avec d'autres plateformes ou d'autres outils de traitement éventuels. Ce fichier est ensuite installé (" monté ") dans la base, et est interrogeable par le moteur de recherche de Frantext. Combien de temps faut-il ? L'équipe en charge de la numérisation peut traiter une centaine d'ouvrages par an. Un nouveau montage (qui doit donner lieu, à chaque fois, à renégociation avec les éditeurs sur les titres entrants) est effectué tous les six mois. C'est pourquoi il faut compter de six mois à un an pour voir un ouvrage entrer dans la base, et parfois plus, si la liste des ouvrages en attente est importante. Ressources didactiques Didacticiels Plusieurs didacticiels ont été élaborés par des enseignants et chercheurs pour faciliter la prise en main et l'utilisation de Frantext. Vous trouverez ici des uploads/Science et Technologie/ fran-text.pdf
Documents similaires
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/YyrmPGyU3PaPT4iVgNVi8qzmtHqk5g39gC3GJN5jMLrQEoFbjOi1AWcEufRoDdRGboBqyHCfeLaXA9iNrl5LrCLz.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/rvO4fjR3cIqaWiiTorfC5SCQs5CFxw2MWSNESOS1twK4XWU89mXb9fdlddfIldC5zO0cgkHwqqgLn6aTmyJd3Ri4.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/OLpayRQf7qieBh1uijzhZuPb9pjZcBMosSJXDXtWSFLDa52GWlCu6juYi4ZccejCbVP41MWPV1AfeDL0bb538CXh.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/U2rgVmPFGuyM67nuz3bU6QuG2Bvhwch2iBQ9xK8326Bq3RCPAevXrqdLxplQNVTBnCC9dvFDrJRDYAbUFeG4xIv2.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/zLOBnsiNISfNmvDQGAMGgL6ctT0lksbU3fGLOZB9CYBpNJJtWAGGxNq7gQ0mYZxd5Udoy9URjwBdcD7nbgVR2h34.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/aPt8ZDISo2l9YASFI9K2PF8mZjvQruMZkYXiLgmXtjXLSOuLzT6zQAemCsCcXhuJo9WoAs79UUS7I8H4D5GAKZLe.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/jD62SbjchjpJFAkDMIOl81VkfVVcQwJIMViHkk4sGl35xrNVa1fgxZg3TD8hvKUimt8je5cNaiLv9MzRzky8glcv.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/qeNWaq4OES4uTGlSdv1jgKsr9fvAVJNsiBC0tMWYlMn2WlTSsdLWMK42U8VSRwQmKe1zrPdAuv6SzkuaqSyqVKp8.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/tCH6XOt3iCoDpHBFka4Xo3fPufrLBqkbE7mGp73pqTVPyTI2qYFqIJc9yF5uFZka8wNsE1e2f7i7PypS09tGtVtP.png)
![](https://b3c3.c12.e2-4.dev/disserty/uploads/preview/DSGDe0kDtEP8Qk4UREZmtjHLpis9oSgILrYDA7c0m700xYqTguTFgwM4lF9ZZIDAbQ9V0yBmYdjBWPYXUgoiiQys.png)
-
23
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Sep 22, 2021
- Catégorie Science & technolo...
- Langue French
- Taille du fichier 0.1505MB