Recherche d'Information Hello! ▧Intitulé du Master : Systèmes d'Informations ▧S

Recherche d'Information Hello! ▧Intitulé du Master : Systèmes d'Informations ▧Semestre : 3 ▧Intitulé de l’UE : UEF5(O/P) ▧Intitulé de la matière : Recherche d'Information ▧Crédits : 4 ▧Coefficients : 2 “ Ce cours a pour objectif l'étude des différents modèles ainsi que les différentes stratégies de la recherche d'information. . Contenu de la matière Chapitre 1 Les notions de bases de la recherche d’information Chapitre 2 Les modèles de recherche d’information Chapitre 3 Les Stratégies de recherche Chapitre 4 Evaluation des systèmes de recherche d’information Recherche d’information Vaste domaine de recherche qui est « concerné par la représentation, le stockage, l'organisation, et l'accès à des éléments d'information ». Chapitre 1 : Les notions de bases de la recherche d’information ▧La recherche d'information désigne la branche de l’informatique qui porte essentiellement sur l’acquisition, l’organisation, la recherche et le stockage d’information [Salton, 1968; Salton et McGill,….]. ▧Le but d’un Système de Recherche d’Information (SRI) est de retrouver des informations pertinentes vis-à-vis de besoins d’individus, exprimés sous forme de requêtes. Chapitre 1 : Les notions de bases de la recherche d’information 1. Système de recherche d’information Un système de recherche d’information est composé de: ▧Création de représentation de documents (Indexation) ; ▧Création de représentation de requêtes (Formulation de requête) ▧Comparaison des représentations des requêtes et des documents (Recherche Chapitre 1 : Les notions de bases de la recherche d’information 2. Concepts fondamentaux de la RI A. Document ▧ Le document constitue l’unité d’information qui peut répondre à un besoin d’un utilisateur. ▧ La notion de document peut être étendue à tout type de contenu de taille variable : une image, un texte, une partie de texte, une page Web, une vidéo, du son, etc. Chapitre 1 : Les notions de bases de la recherche d’information 2. Concepts fondamentaux de la RI B. Collection de documents ▧ La collection de documents (corpus) représente un ensemble de documents exploitable par un système de RI. Chapitre 1 : Les notions de bases de la recherche d’information 2. Concepts fondamentaux de la RI C. Requête ▧ La requête constitue la formulation du besoin en information d’un utilisateur. Ce besoin peut être exprimé sous plusieurs formes : par une liste de mots-clés, par une image, par une vidéo, etc. Chapitre 1 : Les notions de bases de la recherche d’information 3.Systéme de RI Un système de recherche d'information est un système qui permet de retrouver une information pertinente par rapport à une requête dans une grande collection de documents. recherche d'information structurée recherche d'information textuelle recherche d'information visuelle/sonore Chapitre 1 : Les notions de bases de la recherche d’information Système de recherche d’information Chapitre 1 : Les notions de bases de la recherche d’information 3.1. Information sur les documents Deux classes d’information Méta-Information (information à propos du document)  Attributs : titre, auteur, date de création, etc.  Structure (organisation du contenu) : structure logique, liens, etc. Contenu  Contenu brut : le document initial  Contenu sémantique : information « riche » extraite du contenu brut Chapitre 1 : Les notions de bases de la recherche d’information 3.1. Besoin d’information Le besoin d’information est une expression mentale d’un utilisateur  La requête est une représentation possible du besoin Chapitre 1 : Les notions de bases de la recherche d’information 3.1. Besoin d’information P e r t i n e n c e Quelle pertinence ? • Relation (correspondance,…) entre un document et ….…. une requête ou….…. un besoin d’information ? Selon ….. l’utilisateur…ou …. le système ? Chapitre 1 : Les notions de bases de la recherche d’information 3.1. Besoin d’information Pertinence utilisateur vs. Pertinence système Pertinence utilisateur - Pertinence système subjective algorithmique Requête SRI Besoin Chapitre 1 : Les notions de bases de la recherche d’information La pertinence est difficile Pertinence est multidimensionnelle  dépend de plusieurs paramètres : l’utilisateur, besoin d’information, situations des utilisateurs Pertinence est graduelle (multivaluée)  Un document A peut être plus pertinent que B (ou A préféré à B) Pertinence est dynamique  peut changer dans le temps, selon l’état de connaissance de l’utilisateur au moment de la recherche Chapitre 1 : Les notions de bases de la recherche d’information Pertinence ≈ similarité Elle est souvent traduite  Vocabulaire similaire pertinent à la requête Similarité peut être mesurée .  Comparaison (matching) de chaînes de caractères (ou de motifs)  Même vocabulaire  Même «sens» Chapitre 1 : Les notions de bases de la recherche d’information 4. Approche générale de la RI Vision simple de la RI textuelle : «Trouver les documents ayant les mêmes mots que la requête» La requête comme les documents sont des listes de mots clés Comparer les mots de chaque document à ceux de la requête  Sélectionner les documents qui contiennent le plus de mots de la requête. Chapitre 1 : Les notions de bases de la recherche d’information Processus de RI Chapitre 1 : Les notions de bases de la recherche d’information 5. Problématiques de la RI Vision simple de la RI textuelle : Comment construire une représentation à partir de documents ? Qu’est ce qu’une «bonne» représentation ? Quelle organisation physique pour les index ? Chapitre 1 : Les notions de bases de la recherche d’information 5. Problématiques de la RI Représentation des besoins Comment exprimer le besoin (langage de requêtes) ?  Comment représenter le besoin ? Mise en correspondance des représentations Chapitre 1 : Les notions de bases de la recherche d’information 6. RI : un domaine de recherche actif ! Proposer des solutions : modèles, techniques, outils pour répondre à ces problèmes Avec 2 soucis majeurs Quels supports théoriques ? Souvent basés sur des théories mathématiques : Probabilités, statistiques, ensembles, algèbre, logique floue, analyse de données, …  Quel processus pour la validation ? Théorie, pratique et expérimentation Chapitre 1 : Les notions de bases de la recherche d’information 6. Indexation Méthodes d'indexation manuelle La forme la plus répandue d'indexation : le rôle de l'indexeur est d'attribuer au document à archiver un certain nombre de descripteurs : Mots-clés unitermes Descripteurs formés d'un seul mot. Par conjonction de plusieurs unitermes, on obtient des expressions composées. Chapitre 1 : Les notions de bases de la recherche d’information Méthodes d'indexation manuelle Descripteurs composés : Constitués d'expressions de deux ou trois termes. On peut utiliser des expressions de différents types : • nom-adjectif (ex: Droit social) • nom-complément du nom (ex: Histoire de la musique) • les termes possédant un trait d'union (ex: Libre-échange) • des termes avec un qualificatif (ex: Mercure (métal), Mercure (planète) ) Chapitre 1 : Les notions de bases de la recherche d’information 6. Méthodes d'indexation manuelle Descripteurs structurés Un descripteur structuré contient plusieurs informations sous une même entrée dite "vedette". On fait succéder les descripteurs dans l'ordre suivant : • tête de vedette, significative du sujet • sous-vedette de point de vue • sous-vedette de localisation géographique • sous-vedette de localisation chronologique • sous-vedette de forme (dictionnaire, bibliographie, congrès) Chapitre 1 : Les notions de bases de la recherche d’information Méthodes d'indexation manuelle Indices de classification La classification permet de situer un document dans un système de domaine de connaissances : Les classifications hiérarchiques : 5 Science 51 Mathématique 512 Algèbre 513 Arithmétique Chapitre 1 : Les notions de bases de la recherche d’information Méthodes d ’indexation automatique Indexation par des méthodes sémantiques: • relations sémantiques entre termes • représenter le document dans un langage de description tenant compte des relations sémantiques • extension de la notion de thesaurus Chapitre 1 : Les notions de bases de la recherche d’information Méthodes d ’indexation automatique Méthodes linguistiques • analyse plus ou moins profonde : plusieurs types de traitements • Avantage analyse fine des unités de sens du texte • Inconvénients nécessité d ’un dictionnaire complet fonctions d ’analyse linguistique lourdes et coûteuses Méthodes statistiques • basées sur le calcul de fréquences de termes Chapitre 1 : Les notions de bases de la recherche d’information Types d ’indexation automatique Indexation orientée document L’objectif est de résumer ou de présenter le contenu de chaque document. Indexation orientée requête Pour chaque document, refléter les requêtes pour lesquelles il est pertinent : l’indexation d’un document doit alors représenter les raisons pour lesquelles un utilisateur consulte ce document (i.e : confronter chaque document de la base à une liste de requêtes prédéfinies) Chapitre 1 : Les notions de bases de la recherche d’information Quelle indexation choisir ? L e s i n d e x a t i o n s p r o p o s é e s d a n s l e s s y s t è m e s d e r e c h e r c h e d ’ i n f o r m a t i o n s d o i v e n t ê t r e m i x t e s . E n e f f e t , l e s b e s o i n s d e s s y s t è m uploads/Science et Technologie/ diapo1-ri-pdf.pdf

  • 58
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager