25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Info
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 1/44 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique Slides: 88 Download presentation Recherche d’information Akli ABBAS abbasakli@gmail. com Département Informatique Université de Bouira prev next 25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 2/44 Plan du cours • Chapitre 1 : Les notions de bases de la recherche d’information • Chapitre 2 : Les modèles de recherche d’information • Chapitre 3 : Les Stratégies de recherche • Chapitre 4 : Evaluation des systèmes de recherche d’information Cours RI A. ABBAS 2 Chapitre : 1 Qu’est ce que la RI ? • Recherche d’information (RI) est une branche de l’informatique qui s’intéresse à l’acquisition, l’organisation, le stockage, la recherche et la sélection d’information «salton 1968» • Ensemble des méthodes et techniques pour l’acquisition, l’organisation, le stockage, la recherche et la sélection d’information pertinente pour un utilisateur Cours RI A. ABBAS 3 Chapitre : 1 Bref historique de la RI • 1940: Apparition des SRI, focalisation de la RI sur les applications dans des bibliothèques. • 1950: Apparition du modèle booléen et l’élaboration de petites expérimentations sur des petites collections de documents. • 1960 et 1970: Apparition du système SMART (G. Salton, 1971), développement d’une méthodologie d'évaluation de système et conception de corpus de test pour évaluer des systèmes différents. • 1980: Développement de l'intelligence arti¦cielle, ainsi on tentait d'intégrer des techniques de l'IA en RI (système expert). • 1990 et 1995: L ’apparition d’internet, la RI a été modi¦é et sa problématique plus élargie (traitement des documents multimédia). Cours RI A. ABBAS 4 Chapitre : 1 Domaine très visible Cours RI A. ABBAS 5 25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 3/44 Chapitre : 1 . . Mais pas seulement • Plusieurs domaines d’application – Internet (Web, Forum/Blog search, news) – Entreprises (entreprise search) – Bibliothèques numériques «digital library» – Domaine spécialisé (médecine, droit, littérature, chimie, mathématique, brevets, software, …) – Nos propres PC (Yahoo! Desktop search) Cours RI A. ABBAS 6 Chapitre : 1 Gros volumes d’information VD RFID Digital TV MP 3 players Digital cameras Camera phones, Vo. IP Medical imaging, Laptops, Data center applications, Games Satellite images, GPS, ATMs, Scanners Sensors, Digital radio, DLP theaters, Telematics Peer-to-peer, Email, Instant messaging, Videoconferencing, CAD/CAM, Toys, Industrial machines, Security systems, Appliances Cours RI A. ABBAS 7 Chapitre : 1 Origine Cours RI A. ABBAS 8 Chapitre : 1 Origine • L ’information (numérique) est disponible partout et avec un gros volumes. • Création des systèmes de recherche d’information. Cours RI A. ABBAS 9 25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 4/44 Dé¦nition Chapitre : 1 • Un Système de Recherche d’Information (SRI) est un programme (ensemble de programmes) informatique qui a pour but de sélectionner des informations pertinentes répondant à des besoins utilisateurs Cours RI A. ABBAS 10 Chapitre : 1 Donnée Vs. Information Vs. Connaissance Système de Recherche d’information Système de gestion de Base de données Données : Chaîne de caractères + valeurs associées à des objets, des personnes et des événements : (15) Select. . From … where Découverte de connaissance (information mining) Information : Signi¦cation (explication/ description) des données, données intelligible (compréhensible): (15° C - relevé à 18 h, sous abri, à Bouira) Connaissance : Information découverte, comprise et partagée par une communauté (étant donné qu’on est à Bouira 15°C en février c’est plutôt froid) Cours RI A. ABBAS 11 Chapitre : 1 Information • Formes –Texte –images, sons, vidéo, graphiques, etc. • Propriétés – Structure Non structuré OU semi structuré (XML) (HTML) – Hétérogénéité • langage (multilingues) • media (multimédia) • structures Cours RI A. ABBAS 12 Chapitre : 1 Dé¦nition d’un SRI • Un Système de Recherche d’Information (SRI) est un programme (ensemble de programmes) informatique qui a pour but de sélectionner des informations pertinentes répondant à des besoins utilisateurs Cours RI A. ABBAS 13 25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 5/44 Chapitre : 1 Pertinence ? La notion de pertinence peut être appréhendée à deux niveaux : ØNiveau utilisateur : la pertinence correspond à la satisfaction de l’utilisateur par apport à l’ensemble des documents restitués par le SRI. (pertinence subjective, cognitive) ØNiveau système : le système mesure un degré de pertinence, une valeur de similitude entre un document et une requête. (pertinence algorithmique, objective) Le but de tout SRI est de rapprocher la pertinence système de la pertinence utilisateur. Cours RI A. ABBAS 14 Processus de RI Chapitre : 1 documents Langage de requêtes Requête SRI Traitement Reformulation de la requête Liste de mots clé Traitement = Indexation Appariement/ Ranking Modèles de RI : Vectoriel, probabiliste, … Index (mots clés) Fichier inverse Visualisation Cours RI A. ABBAS 15 Chapitre : 1 Indexation ? § Indexation = représentation de l’information Def 1: Consiste à créer un ensemble de mots clés re§étant aux mieux le contenue sémantique du document, cette liste de mots clés sera plus facilement exploitable lors du processus de la RI Def 2 : Processus permettant de construire un ensemble d’éléments « clés » permettant de caractériser le contenu d’un document / retrouver ce document en réponse à une requête § Éléments clés – Information textuelle • mots simples : pomme • groupe de mots : pomme de terre – Image • Couleurs, formes Cours RI A. ABBAS 16 25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 6/44 Chapitre : 1 Indexation ? • Les approches d’indexation ü Manuelle (expert en indexation) ü Automatique (ordinateur) ü Semi- automatique (combinaison des deux) • Basée sur ü Un langage contrôlé (lexique/thesaurus/ontologie/réseau sémantique) ü Un langage libre (éléments pris directement des documents) Cours RI A. ABBAS 17 Chapitre : 1 Un langage contrôlé ? • Lexique Ø Liste de mots clés • Liste hiérarchique Ø de concepts Ø de notations (codes) • Thésaurus Ø Liste de mots clés + relation sémantiques entre les mots clés • Ontologie Ø Liste concepts + relations entre les concepts Cours RI A. ABBAS 18 Un langage contrôlé ? Chapitre : 1 • Liste hiérarchique (de concepts & de notations (codes)) A. Anatomy B. Organisms C. Diseases C 1. Bacterial infections C 2. Virus diseases C 21. arbovirus infection C 22. Encephalitis, Epidemic C 3. Parasitic diseases Cours RI A. ABBAS 19 Chapitre : 1 Un langage contrôlé ? • Thésaurus : Liste de mots clés + relation sémantiques entre les mots clés Cours RI A. ABBAS 20 25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 7/44 Chapitre : 1 Indexation manuelle ? Ø Choix des mots effectué par des indexeurs Ø Basée sur un vocabulaire contrôlé Ø Approche utilisée souvent dans les bibliothèques, les centres de documentation Ø Dépend du savoir faire de l’indexeur Cours RI A. ABBAS 21 Chapitre : 1 Indexation manuelle ? Avantage du vocabulaire contrôle Ø Permet la recherche par concepts (par sujets, par thèmes), plus intéressante que la recherche par mots simples Ø Permet la classi¦cation (regroupement) de documents (par sujets, par thème) Ø Fournit une terminologie standard pour indexer et recher les documents Cours RI A. ABBAS 22 Chapitre : 1 Indexation manuelle ? Inconvénients du vocabulaire contrôle Ø Indexation très coûteuse – Pour construire le vocabulaire – Pour affecter les concepts (termes) aux documents (imaginer cette opération sur le web) Ø Di¨cile à maintenir – La terminologie évolue, plusieurs termes sont rajoutés tous les jours Ø Processus humain donc subjectif – Des termes différents peuvent être affectés à un même document par des indexeurs différents Ø Les utilisateurs ne connaissent pas forcément le vocabulaire utilisé par les indexeurs Cours RI A. ABBAS 23 Chapitre : 1 Indexation Automatique ? C’est le SRI qui génère les indexes documents. Approches : v Statistique (distribution des mots) et/ou TALN (compréhension du texte) Approche courante est plutôt statistique avec des hypothèses simples : ØRedondance d’un mot marque son importance ØCooccurrence des mots marque le sujet d’un document 4 étapes : – Étape 1 : Extraction de mots simples – Étape 2 : Normalisation des mots extraits – Étape 3 : Statistique sur les occurrences – Étape 4: Construction du ¦chier inverse et pondération des mots Cours RI A. ABBAS 24 25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 8/44 Chapitre : 1 Indexation Automatique ? Etape 1 : Extraction des mots 1. Extraire les termes (tockenization) terme = suite de caractères séparés par (blanc ou signe de ponctuation, caractères spéciaux, …), Nombres q Ce sont les index utilisés lors de la recherche 2. Suppression des mots « vides » (stoplist / Commo Words removal) Mots trop fréquents mais pas utiles – Exemples : • Anglais : the, or, a, you, I, us, … • Français : le , la de , des, je, tu, … Cours RI A. ABBAS 25 Chapitre : 1 Indexation Automatique ? Etape 2 : Normalisation des mots extraits Ø «Lemmatisation» (radicalisation) / (stemming) – Processus morphologique permettant de regrouper les variantes d’un mot • Ex 1 : économie, économiquement, économiste, économ • Ex 2 uploads/Science et Technologie/akli-abbas.pdf
Documents similaires










-
41
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Mai 02, 2021
- Catégorie Science & technolo...
- Langue French
- Taille du fichier 5.5713MB