0%

Remerciez-le!

Remerciez @Admin pour avoir partagé cet document gratuitement, de la manière la plus simple, en partageant sur les réseaux sociaux.

Université de Batna Module : Recherche d’information textuelle Faculté des scie

Université de Batna Module : Recherche d’information textuelle Faculté des sciences Département d’informatique 2011/2012 -1/3- Durée : 1h30 Le 08/04/2012 Contrôle Contrôle Contrôle Contrôle final final final final Master I Master I Master I Master II I I I - - - - SRI SRI SRI SRI Questions de cours (5 pts) 1. Dans le processus d’indexation, le fichier inverse est une structure très utilisée. Quel est l’inconvénient majeur de cette structure ? (1 pt) 2. Quelle définition a proposé Tefko Saracevic pour la pertinence ? (1 pt) 3. Un terme qui apparaît dans tous les documents d’un corpus est-il discriminant ou pas ? (1 pt) 4. Un modèle de recherche d’information est vu comme un quadruplet. Définissez ce quadruplet en expliquant les quatre éléments ? (1 pt) 5. Quel est l’inconvénient du modèle LSI ? (1 pt) Exercice 01 (5 pts) Soit la requête booléenne suivante : R = t1 ∞ ∞ ∞ ∞-AND (t2 ∞ ∞ ∞ ∞-OR t3) 2-AND t4 et soit les poids des termes dans les documents comme suit: t1 t2 t3 t4 D1 0.90 0.80 0.09 0.01 D2 0.70 0.40 0.50 0 D3 0.60 0.90 0.80 0.90 D4 0 0.01 0.80 0.90 Trouvez les documents pertinents à R. Exercice 02 (10 pts) Le serveur vGlOSS fait deux suppositions dans le scénario avec grande- corrélation. Soit une collection de documents hébergée sur un serveur si et une question q contenant 3 termes "t1 t2 t3". Le nombre de documents de la collection contenants les termes de q est défini comme suit : fi1=2, fi2=4, et fi3=6. Les poids des 3 termes de q dans la collection sont : wi1=0.4, wi2=0.2, wi3=0.8 En se basant sur les suppositions du scénario avec grande-corrélation, calculez la similarité Estimate(0.3, q, si), et dites si le serveur si sera sélectionné comme pertinent. Bonne chance… Bonne chance… Bonne chance… Bonne chance… NB: Le corrigé type vous le trouverez sur le site : http://www.larbiguezouli.com -2/3- Correction du contrôle final Correction du contrôle final Correction du contrôle final Correction du contrôle final Master II Master II Master II Master II - - - - SRI SRI SRI SRI Questions de cours (5 pts) 1. Dans le processus d’indexation, le fichier inverse est une structure très utilisée. Quel est l’inconvénient majeur de cette structure ? (1 pt) Le fichier inverse exige un espace de stockage important (de 40% à 200% de la taille de la collection de documents) selon la complexité de l'indexation. 2. Quelle définition à proposé Tefko Saracevic pour la pertinence ? (1 pt) La pertinence est la A d'un B existant entre un C et un D jugé par un E. Tel que A : intervalle de la mesure B : aspect de la pertinence C : un document D : besoin d'information (requête) E : l'utilisateur 3. Un terme qui apparaît dans tous les documents d’un corpus est-il discriminant ou pas ? (1 pt) Un terme qui apparaît dans tous les documents n'est pas discriminant 4. Un modèle de recherche d’information est vu comme un quadruplet. Définissez ce quadruplet en expliquant les quatre éléments ? (1 pt) [D, Q, F, R(qi,dj)] tel que: D: est l’ensemble des représentations des documents du corpus; Q: est l’ensemble des représentations des requêtes de l’utilisateur; F: est le Framework de modélisation des représentations des documents (ensembles des opérations sur les représentations des documents); R(qi,dj): est la fonction de classement qui associe au couple (qi,dj) un réel représentant le degré de rapprochement entre qi et dj. 5. Quel est l’inconvénient du modèle LSI ? (1 pt) L’inconvénient est la perte d’information quand on ne garde que les k premiers vecteurs propres dans la matrice U. Exercice 01 (5 pts) Soit la requête booléenne suivante : R = t1 ∞ ∞ ∞ ∞-AND (t2 ∞ ∞ ∞ ∞-OR t3) 2-AND t4 Et soit les poids des termes dans les documents comme suit: t1 t2 t3 t4 D1 0.90 0.80 0.09 0.01 D2 0.70 0.40 0.50 0 D3 0.60 0.90 0.80 0.90 D4 0 0.01 0.80 0.90 Trouvez les documents pertinents à R. -3/3- t1 t2 t3 t4 t2 ∞ ∞ ∞ ∞-OR t3 t1 ∞ ∞ ∞ ∞-AND (t2 ∞ ∞ ∞ ∞-OR t3) R D1 0.90 0.80 0.09 0.01 0.80 0.80 0 D2 0.70 0.40 0.50 0 0.50 0.50 0 D3 0.60 0.90 0.80 0.90 0.90 0.60 0.60 D4 0 0.01 0.80 0.90 0.80 0 0 Donc le document D3 est le plus pertinent par rapport à R. Exercice 02 (10 pts) Le serveur vGlOSS fait deux suppositions dans le scénario avec grande- corrélation. Soit une collection de documents hébergée sur un serveur si et une question q contenant 3 termes "t1 t2 t3". Le nombre de documents de la collection contenants les termes de q est défini comme suit : fi1=2, fi2=4, et fi3=6. Les poids des 3 termes dans la collection sont : wi1=0.4, wi2=0.2, wi3=0.8 En se basant sur les suppositions du scénario avec grande-corrélation, calculez la similarité Estimate(0.3, q, si), et dites si le serveur si sera sélectionné comme pertinent. Selon la 1ère supposition, le poids d’un terme est distribué uniformément sur tous les documents qui le contiennent. Ce qui veut dire qu’un terme tj aura le poids (wij/fij) dans tous les documents du serveur si qui contiennent ce terme. Selon la 2ème supposition, les 2 documents avec le terme "t1" contiennent aussi les termes "t2" et "t3". . , , = − × .. = × .. = . + . + . ! " = . ! > 0. = . + . ! " = . ! < 0. Donc p=1 . , , = − × = × = . &"" Comme Estimate(0.3, q, si) = 0.766 > 0.3 donc le serveur est pertinent. uploads/s1/ controle-final-correction-2011-2012.pdf

Tags

Administrationdocuments comme termes contrôle final

Documents similaires

82
0
0

Licence et utilisation

Gratuit pour un usage personnel Attribution requise

Partager

Détails
Publié le Nov 27, 2022
Catégorie Administration
Langue French
Taille du fichier 0.0551MB

Nous utilisons des cookies

Ce site utilise des cookies pour améliorer votre expérience utilisateur.

Cookies de fonctionnement

Nous devons utiliser certains cookies pour pouvoir faire fonctionner certaines pages web. C'est la raison pour laquelle ils ne nécessitent pas votre consentement.

disserty_cookie_consent

1 an 1 mois 1 jour

Stockage des préférences de consentement aux cookies de l'utilisateur.
disserty_session

2 heures

Identification de la session de navigation de l'utilisateur.
XSRF-TOKEN

2 heures

Protection de l'utilisateur et notre site contre les attaques d'usurpation d'identité lors des requêtes.

Plus d'informations

Cookies analytiques

Nous utilisons ces cookies uniquement à des fins de recherche interne sur la manière dont nous pouvons améliorer le service que nous offrons à tous nos utilisateurs. Ces cookies permettent d'évaluer la manière dont vous interagissez avec notre site web.

_ga

2 ans 2 mois 2 jours

Cookie principal utilisé par Google Analytics, permettant de distinguer un visiteur d'un autre.
_ga_C6FBBSLVBT

2 ans 2 mois 2 jours

Utilisé par Google Analytics pour conserver l'état de la session.
_gid

1 jour

Utilisé par Google Analytics pour identifier un visiteur.
_gat

1 minute

Utilisé par Google Analytics pour limiter le taux de demande.

Plus d'informations