Recherche d'Information Hello! ▧Intitulé du Master : Systèmes d'Informations ▧S
Recherche d'Information Hello! ▧Intitulé du Master : Systèmes d'Informations ▧Semestre : 3 ▧Intitulé de l’UE : UEF5(O/P) ▧Intitulé de la matière : Recherche d'Information ▧Crédits : 4 ▧Coefficients : 2 “ Ce cours a pour objectif l'étude des différents modèles ainsi que les différentes stratégies de la recherche d'information. . Contenu de la matière Chapitre 1 Les notions de bases de la recherche d’information Chapitre 2 Les modèles de recherche d’information Chapitre 3 Les Stratégies de recherche Chapitre 4 Evaluation des systèmes de recherche d’information Recherche d’information Vaste domaine de recherche qui est « concerné par la représentation, le stockage, l'organisation, et l'accès à des éléments d'information ». Chapitre 1 : Les notions de bases de la recherche d’information ▧La recherche d'information désigne la branche de l’informatique qui porte essentiellement sur l’acquisition, l’organisation, la recherche et le stockage d’information [Salton, 1968; Salton et McGill,….]. ▧Le but d’un Système de Recherche d’Information (SRI) est de retrouver des informations pertinentes vis-à-vis de besoins d’individus, exprimés sous forme de requêtes. Chapitre 1 : Les notions de bases de la recherche d’information 1. Système de recherche d’information Un système de recherche d’information est composé de: ▧Création de représentation de documents (Indexation) ; ▧Création de représentation de requêtes (Formulation de requête) ▧Comparaison des représentations des requêtes et des documents (Recherche Chapitre 1 : Les notions de bases de la recherche d’information 2. Concepts fondamentaux de la RI A. Document ▧ Le document constitue l’unité d’information qui peut répondre à un besoin d’un utilisateur. ▧ La notion de document peut être étendue à tout type de contenu de taille variable : une image, un texte, une partie de texte, une page Web, une vidéo, du son, etc. Chapitre 1 : Les notions de bases de la recherche d’information 2. Concepts fondamentaux de la RI B. Collection de documents ▧ La collection de documents (corpus) représente un ensemble de documents exploitable par un système de RI. Chapitre 1 : Les notions de bases de la recherche d’information 2. Concepts fondamentaux de la RI C. Requête ▧ La requête constitue la formulation du besoin en information d’un utilisateur. Ce besoin peut être exprimé sous plusieurs formes : par une liste de mots-clés, par une image, par une vidéo, etc. Chapitre 1 : Les notions de bases de la recherche d’information 3.Systéme de RI Un système de recherche d'information est un système qui permet de retrouver une information pertinente par rapport à une requête dans une grande collection de documents. recherche d'information structurée recherche d'information textuelle recherche d'information visuelle/sonore Chapitre 1 : Les notions de bases de la recherche d’information Système de recherche d’information Chapitre 1 : Les notions de bases de la recherche d’information 3.1. Information sur les documents Deux classes d’information Méta-Information (information à propos du document) Attributs : titre, auteur, date de création, etc. Structure (organisation du contenu) : structure logique, liens, etc. Contenu Contenu brut : le document initial Contenu sémantique : information « riche » extraite du contenu brut Chapitre 1 : Les notions de bases de la recherche d’information 3.1. Besoin d’information Le besoin d’information est une expression mentale d’un utilisateur La requête est une représentation possible du besoin Chapitre 1 : Les notions de bases de la recherche d’information 3.1. Besoin d’information P e r t i n e n c e Quelle pertinence ? • Relation (correspondance,…) entre un document et ….…. une requête ou….…. un besoin d’information ? Selon ….. l’utilisateur…ou …. le système ? Chapitre 1 : Les notions de bases de la recherche d’information 3.1. Besoin d’information Pertinence utilisateur vs. Pertinence système Pertinence utilisateur - Pertinence système subjective algorithmique Requête SRI Besoin Chapitre 1 : Les notions de bases de la recherche d’information La pertinence est difficile Pertinence est multidimensionnelle dépend de plusieurs paramètres : l’utilisateur, besoin d’information, situations des utilisateurs Pertinence est graduelle (multivaluée) Un document A peut être plus pertinent que B (ou A préféré à B) Pertinence est dynamique peut changer dans le temps, selon l’état de connaissance de l’utilisateur au moment de la recherche Chapitre 1 : Les notions de bases de la recherche d’information Pertinence ≈ similarité Elle est souvent traduite Vocabulaire similaire pertinent à la requête Similarité peut être mesurée . Comparaison (matching) de chaînes de caractères (ou de motifs) Même vocabulaire Même «sens» Chapitre 1 : Les notions de bases de la recherche d’information 4. Approche générale de la RI Vision simple de la RI textuelle : «Trouver les documents ayant les mêmes mots que la requête» La requête comme les documents sont des listes de mots clés Comparer les mots de chaque document à ceux de la requête Sélectionner les documents qui contiennent le plus de mots de la requête. Chapitre 1 : Les notions de bases de la recherche d’information Processus de RI Chapitre 1 : Les notions de bases de la recherche d’information 5. Problématiques de la RI Vision simple de la RI textuelle : Comment construire une représentation à partir de documents ? Qu’est ce qu’une «bonne» représentation ? Quelle organisation physique pour les index ? Chapitre 1 : Les notions de bases de la recherche d’information 5. Problématiques de la RI Représentation des besoins Comment exprimer le besoin (langage de requêtes) ? Comment représenter le besoin ? Mise en correspondance des représentations Chapitre 1 : Les notions de bases de la recherche d’information 6. RI : un domaine de recherche actif ! Proposer des solutions : modèles, techniques, outils pour répondre à ces problèmes Avec 2 soucis majeurs Quels supports théoriques ? Souvent basés sur des théories mathématiques : Probabilités, statistiques, ensembles, algèbre, logique floue, analyse de données, … Quel processus pour la validation ? Théorie, pratique et expérimentation Chapitre 1 : Les notions de bases de la recherche d’information 6. Indexation Méthodes d'indexation manuelle La forme la plus répandue d'indexation : le rôle de l'indexeur est d'attribuer au document à archiver un certain nombre de descripteurs : Mots-clés unitermes Descripteurs formés d'un seul mot. Par conjonction de plusieurs unitermes, on obtient des expressions composées. Chapitre 1 : Les notions de bases de la recherche d’information Méthodes d'indexation manuelle Descripteurs composés : Constitués d'expressions de deux ou trois termes. On peut utiliser des expressions de différents types : • nom-adjectif (ex: Droit social) • nom-complément du nom (ex: Histoire de la musique) • les termes possédant un trait d'union (ex: Libre-échange) • des termes avec un qualificatif (ex: Mercure (métal), Mercure (planète) ) Chapitre 1 : Les notions de bases de la recherche d’information 6. Méthodes d'indexation manuelle Descripteurs structurés Un descripteur structuré contient plusieurs informations sous une même entrée dite "vedette". On fait succéder les descripteurs dans l'ordre suivant : • tête de vedette, significative du sujet • sous-vedette de point de vue • sous-vedette de localisation géographique • sous-vedette de localisation chronologique • sous-vedette de forme (dictionnaire, bibliographie, congrès) Chapitre 1 : Les notions de bases de la recherche d’information Méthodes d'indexation manuelle Indices de classification La classification permet de situer un document dans un système de domaine de connaissances : Les classifications hiérarchiques : 5 Science 51 Mathématique 512 Algèbre 513 Arithmétique Chapitre 1 : Les notions de bases de la recherche d’information Méthodes d ’indexation automatique Indexation par des méthodes sémantiques: • relations sémantiques entre termes • représenter le document dans un langage de description tenant compte des relations sémantiques • extension de la notion de thesaurus Chapitre 1 : Les notions de bases de la recherche d’information Méthodes d ’indexation automatique Méthodes linguistiques • analyse plus ou moins profonde : plusieurs types de traitements • Avantage analyse fine des unités de sens du texte • Inconvénients nécessité d ’un dictionnaire complet fonctions d ’analyse linguistique lourdes et coûteuses Méthodes statistiques • basées sur le calcul de fréquences de termes Chapitre 1 : Les notions de bases de la recherche d’information Types d ’indexation automatique Indexation orientée document L’objectif est de résumer ou de présenter le contenu de chaque document. Indexation orientée requête Pour chaque document, refléter les requêtes pour lesquelles il est pertinent : l’indexation d’un document doit alors représenter les raisons pour lesquelles un utilisateur consulte ce document (i.e : confronter chaque document de la base à une liste de requêtes prédéfinies) Chapitre 1 : Les notions de bases de la recherche d’information Quelle indexation choisir ? L e s i n d e x a t i o n s p r o p o s é e s d a n s l e s s y s t è m e s d e r e c h e r c h e d ’ i n f o r m a t i o n s d o i v e n t ê t r e m i x t e s . E n e f f e t , l e s b e s o i n s d e s s y s t è m uploads/Science et Technologie/ diapo1-ri-pdf.pdf
Documents similaires










-
58
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Oct 03, 2022
- Catégorie Science & technolo...
- Langue French
- Taille du fichier 1.3615MB