TECHNIQUE D’INDEXATION ET RECHERCHE MULTIMÉDIA Dorra Bensalem PLAN DU COURS cou
TECHNIQUE D’INDEXATION ET RECHERCHE MULTIMÉDIA Dorra Bensalem PLAN DU COURS cours technique d'indexation et recherche multimedia - Dorra Bensalem 2 3 PLAN DU COURS 1 Introduction : présentation du domaine 1. Problématique de la recherche d’information 2. Fonctions des systèmes de RI 3. Indexation, Interrogation 4. Notions de pertinence et de modèle de recherche d’informations 5. Problématique du multimédia 2 Evaluation des performances qualitatives des systèmes 1. Notions de rappel et de précision 2. Méthodes pratiques d’évaluation 3. Comparaison de système 3 Approches classiques en recherche d’informations 1. Les approches par interrogation : modèle Booléen et modèle Vectoriel 2. Application aux moteurs de recherche du web 3. Les approches par navigation : les modèles hypermédia 3 cours technique d'indexation et recherche multimedia - Dorra Bensalem INTRODUCTION : PRÉSENTATION DU DOMAINE 1. Problématique de la recherche d’information cours technique d'indexation et recherche multimedia - Dorra Bensalem 4 QU’EST CE QUE LA RI ? Recherche d’information (RI) : –Ensemble des méthodes et techniques pour l’acquisition, l’organisation, le stockage, la recherche et la sélection d’information pertinente pour un utilisateur cours technique d'indexation et recherche multimedia - Dorra Bensalem 5 cours technique d'indexation et recherche multimedia - Dorra Bensalem 6 Exemple de moteur de recherche 7 EXEMPLES DE SYSTÈMES DE RI . . M a i s p a s s e u l e m e n t Plusieurs domaines d’application • Internet (Web, Forum/Blog search, news) • Entreprises (entreprise search) • Bibliothèques numériques «digital library» • Domaine spécialisé (médecine, droit, littérature, chimie, mathématique, brevets, software, ...) • Nos propres PC (Yahoo! Desktop search) 8 PERSONNALISER CE MODÈLE 8 cours technique d'indexation et recherche multimedia - Dorra Bensalem INFORMATION EST PARTOUT L e p r o b l è m e . . . n’est pas tant la disponibilité de l’information •MAIS •sa sélection, son identification à => arriver à trouver au bon moment l’information utile cours technique d'indexation et recherche multimedia - Dorra Bensalem 9 10 INFORMATION EST PARTOUT … PROBLÈME … 10 Rechercher une information a un coût «On» passe (en moyenne) 35% de son temps à rechercher des informations Les managers y consacrent 17% de leur temps Les 1000 grandes entreprises (US) perdent jusqu’à $2.5 milliards par an en raison de leur incapacité à récupérer les bonnes informations Nécessité de développer des systèmes automatisés efficaces permettant Collecter, Organiser, Rechercher, Sélectionner (fonctions de système RI) cours technique d'indexation et recherche multimedia - Dorra Bensalem 11 CONTOURS DE LA RI DONNÉE-INFO-CONNAISSANCE 11 cours technique d'indexation et recherche multimedia - Dorra Bensalem 12 PROBLÉMATIQUE DE LA RI 12 Sélectionner dans une collection –les informations (items, documents, ..) –... pertinentes répondant aux – ... besoins en information des utilisateurs cours technique d'indexation et recherche multimedia - Dorra Bensalem CONCEPTS DE BASE DE LA RI I n f o r m a t i o n Formes –Texte, images, sons, vidéo, graphiques, etc. –Exemples texte : web pages, email, livres, journaux, publications, blog, Word™, Powerpoint™, PDF, forum postings, brevets, etc. Hétérogénéité –langage (multilingues) –media (multimédi : image ,video , son , text) cours technique d'indexation et recherche multimedia - Dorra Bensalem 13 CONCEPTS DE BASE DE LA RI B e s o i n e n i n f o r m a t i o n •Besoin en information est une expression mentale d’un utilisateur •Requête –Ensemble de mots-clés –>Une représentation possible du besoin en information cours technique d'indexation et recherche multimedia - Dorra Bensalem 14 15 PLAN DU COURS 1 Introduction : présentation du domaine 1. Problématique de la recherche d’information 2. Fonctions des systèmes de RI 3. Indexation, Interrogation 4. Notions de pertinence et de modèle de recherche d’informations 5. Problématique du multimédia 2 Evaluation des performances qualitatives des systèmes 1. Notions de rappel et de précision 2. Méthodes pratiques d’évaluation 3. Comparaison de système 3 Approches classiques en recherche d’informations 1. Les approches par interrogation : modèle Booléen et modèle Vectoriel 2. Application aux moteurs de recherche du web 3. Les approches par navigation : les modèles hypermédia 15 cours technique d'indexation et recherche multimedia - Dorra Bensalem 16 FONCTIONNEMENT DU SYSTÈME DE RECHERCHE D'INFORMATION 16 Pour répondre à une requête utilisateur, un SRI met en œuvre un certain nombre de processus pour réaliser la mise en correspondance entre le contenu des documents web d’une part, et celui de la requête utilisateur d’une autre part. Il est défini par ses modèles de représentation des documents et des requêtes utilisateur, et sa fonction de recherche pour la mise en correspondance entre les deux univers de représentations. Ce processus est composé de deux fonctions principales : Modèle de représentation Modèle de recherche ou correspondance requête-document cours technique d'indexation et recherche multimedia - Dorra Bensalem Le prétraitement des documents • extraire à partir des documents une représentation qui couvre au mieux leur contenu • Cette opération est connue aussi sous le nom de l'interprétation ou l’analyse du contenu • Elle consiste à l'extraction d'un ensemble de descripteurs les plus représentatifs du contenu, ces descripteurs sont appelés aussi par les entrées de l’index ou les termes d’indexation, utilisés pour l’indexation de ces documents L’interprétation des requêtes des utilisateurs • cette opération a pour rôle de représenter le besoin en information des utilisateurs. • il s’agit d’extraire les descripteurs les plus représentatifs du contenu de la requête en se basant sur une analyse qui peut couvrir une ou plusieurs dimensions (syntaxique, lexicale, sémantique, etc.). cours technique d'indexation et recherche multimedia - Dorra Bensalem 17 Modèle de représentation 18 MODÈLE DE RECHERCHE OU CORRESPONDANCE REQUÊTE- DOCUMENT 18 cours technique d'indexation et recherche multimedia - Dorra Bensalem 19 MODÈLE DE RECHERCHE OU CORRESPONDANCE REQUÊTE- DOCUMENT cours technique d'indexation et recherche multimedia - Dorra Bensalem 19 • le SRI effectue un appariement entre ces deux univers de représentation, en vue d'évaluer la pertinence des documents vis-à-vis de la requête. Le système décidera si un document est pertinent, et le sélectionnera pour le présenter à l’utilisateur, c'est ce que a été défini par la pertinence du système. Cet appariement peut-être exact tel est le cas avec les modèles booléens dans lequel les documents résultants ont tous la même pertinence et ne sont donc pas triés • Il peut être aussi approximatif dans lequel les documents résultants peuvent être ordonnés selon le degré de pertinence vis-à-vis la requête • À ce propos, on trouve les techniques de réinjection de pertinence, qui consistent à reformuler ou à enrichir les requêtes utilisateurs avec d'autres informations additionnelles en se basant sur le retour des utilisateurs, ce qui rend le processus itératif et aide à améliorer la pertinence des résultats • La recherche est considérée comme adaptative. Dans le but d’augmenter la performance de la recherche, le système devra réagir assez rapidement à son utilisateur 20 PLAN DU COURS 1 Introduction : présentation du domaine 1. Problématique de la recherche d’information 2. Fonctions des systèmes de RI 3. Indexation, Interrogation 4. Notions de pertinence et de modèle de recherche d’informations 5. Problématique du multimédia 2 Evaluation des performances qualitatives des systèmes 1. Notions de rappel et de précision 2. Méthodes pratiques d’évaluation 3. Comparaison de système 3 Approches classiques en recherche d’informations 1. Les approches par interrogation : modèle Booléen et modèle Vectoriel 2. Application aux moteurs de recherche du web 3. Les approches par navigation : les modèles hypermédia 20 cours technique d'indexation et recherche multimedia - Dorra Bensalem 21 INDEXATION ET INTERROGATION 21 L'indexation • Choix des termes – Généralités – Une propriété souhaitée d’un bon terme d’indexation est sa capacité à distinguer les documents d’une collection les uns des autres – Comment faire? cours technique d'indexation et recherche multimedia - Dorra Bensalem 22 INDEXATION ET INTERROGATION 22 L'indexation • Choix des termes – Occurrences – Objectif : trouver les mots qui représentent le mieux le contenu d'un document. – Hypothèse : un mot qui apparaît souvent dans un texte représente un concept important. – Première approche : • Choisir les mots représentants selon leur fréquence d'occurrence dans le corpus. • Définir un seuil SMIN sur la fréquence (si la fréquence d'occurrence d'un mot dépasse ce seuil, alors il est considéré important pour les document qui le contiennent) cours technique d'indexation et recherche multimedia - Dorra Bensalem 23 INDEXATION ET INTERROGATION 23 L'indexation • Choix des termes – Occurrences (2) – Cependant, quand on fait la statistique d'occurrence, on s'aperçoit que les mots les plus fréquents sont des mots fonctionnels (ou mots outils, mots vides). En français, les mots "de", "un", "les", etc. sont les plus fréquents. En anglais, ce sont "of", "the", etc. – Ce phénomène est connu sous le nom de loi de Zipf. cours technique d'indexation et recherche multimedia - Dorra Bensalem 24 INDEXATION ET INTERROGATION 24 L'indexation Choix des termes – Occurrences (3) • La loi de Zipf • Si on classe les mots dans l'ordre décroissant de leur fréquence, et on leur donne un numéro de rang (1, 2, …), alors: Rang * fréquence ≈ constante. • La distribution de mots suit la courbe : • L'idée peut uploads/Science et Technologie/ cours-technique-d-x27-indexation-et-recherche-multimedia.pdf
Documents similaires
-
11
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jui 10, 2021
- Catégorie Science & technolo...
- Langue French
- Taille du fichier 6.7647MB