Université de Batna Module : Recherche d’information textuelle Faculté des scie

Université de Batna Module : Recherche d’information textuelle Faculté des sciences Département d’informatique 2011/2012 -1/3- Durée : 1h30 Le 08/04/2012 Contrôle Contrôle Contrôle Contrôle final final final final Master I Master I Master I Master II I I I - - - - SRI SRI SRI SRI Questions de cours (5 pts) 1. Dans le processus d’indexation, le fichier inverse est une structure très utilisée. Quel est l’inconvénient majeur de cette structure ? (1 pt) 2. Quelle définition a proposé Tefko Saracevic pour la pertinence ? (1 pt) 3. Un terme qui apparaît dans tous les documents d’un corpus est-il discriminant ou pas ? (1 pt) 4. Un modèle de recherche d’information est vu comme un quadruplet. Définissez ce quadruplet en expliquant les quatre éléments ? (1 pt) 5. Quel est l’inconvénient du modèle LSI ? (1 pt) Exercice 01 (5 pts) Soit la requête booléenne suivante : R = t1 ∞ ∞ ∞ ∞-AND (t2 ∞ ∞ ∞ ∞-OR t3) 2-AND t4 et soit les poids des termes dans les documents comme suit: t1 t2 t3 t4 D1 0.90 0.80 0.09 0.01 D2 0.70 0.40 0.50 0 D3 0.60 0.90 0.80 0.90 D4 0 0.01 0.80 0.90 Trouvez les documents pertinents à R. Exercice 02 (10 pts) Le serveur vGlOSS fait deux suppositions dans le scénario avec grande- corrélation. Soit une collection de documents hébergée sur un serveur si et une question q contenant 3 termes "t1 t2 t3". Le nombre de documents de la collection contenants les termes de q est défini comme suit : fi1=2, fi2=4, et fi3=6. Les poids des 3 termes de q dans la collection sont : wi1=0.4, wi2=0.2, wi3=0.8 En se basant sur les suppositions du scénario avec grande-corrélation, calculez la similarité Estimate(0.3, q, si), et dites si le serveur si sera sélectionné comme pertinent. Bonne chance… Bonne chance… Bonne chance… Bonne chance… NB: Le corrigé type vous le trouverez sur le site : http://www.larbiguezouli.com -2/3- Correction du contrôle final Correction du contrôle final Correction du contrôle final Correction du contrôle final Master II Master II Master II Master II - - - - SRI SRI SRI SRI Questions de cours (5 pts) 1. Dans le processus d’indexation, le fichier inverse est une structure très utilisée. Quel est l’inconvénient majeur de cette structure ? (1 pt) Le fichier inverse exige un espace de stockage important (de 40% à 200% de la taille de la collection de documents) selon la complexité de l'indexation. 2. Quelle définition à proposé Tefko Saracevic pour la pertinence ? (1 pt) La pertinence est la A d'un B existant entre un C et un D jugé par un E. Tel que A : intervalle de la mesure B : aspect de la pertinence C : un document D : besoin d'information (requête) E : l'utilisateur 3. Un terme qui apparaît dans tous les documents d’un corpus est-il discriminant ou pas ? (1 pt) Un terme qui apparaît dans tous les documents n'est pas discriminant 4. Un modèle de recherche d’information est vu comme un quadruplet. Définissez ce quadruplet en expliquant les quatre éléments ? (1 pt) [D, Q, F, R(qi,dj)] tel que: D: est l’ensemble des représentations des documents du corpus; Q: est l’ensemble des représentations des requêtes de l’utilisateur; F: est le Framework de modélisation des représentations des documents (ensembles des opérations sur les représentations des documents); R(qi,dj): est la fonction de classement qui associe au couple (qi,dj) un réel représentant le degré de rapprochement entre qi et dj. 5. Quel est l’inconvénient du modèle LSI ? (1 pt) L’inconvénient est la perte d’information quand on ne garde que les k premiers vecteurs propres dans la matrice U. Exercice 01 (5 pts) Soit la requête booléenne suivante : R = t1 ∞ ∞ ∞ ∞-AND (t2 ∞ ∞ ∞ ∞-OR t3) 2-AND t4 Et soit les poids des termes dans les documents comme suit: t1 t2 t3 t4 D1 0.90 0.80 0.09 0.01 D2 0.70 0.40 0.50 0 D3 0.60 0.90 0.80 0.90 D4 0 0.01 0.80 0.90 Trouvez les documents pertinents à R. -3/3- t1 t2 t3 t4 t2 ∞ ∞ ∞ ∞-OR t3 t1 ∞ ∞ ∞ ∞-AND (t2 ∞ ∞ ∞ ∞-OR t3) R D1 0.90 0.80 0.09 0.01 0.80 0.80 0 D2 0.70 0.40 0.50 0 0.50 0.50 0 D3 0.60 0.90 0.80 0.90 0.90 0.60 0.60 D4 0 0.01 0.80 0.90 0.80 0 0 Donc le document D3 est le plus pertinent par rapport à R. Exercice 02 (10 pts) Le serveur vGlOSS fait deux suppositions dans le scénario avec grande- corrélation. Soit une collection de documents hébergée sur un serveur si et une question q contenant 3 termes "t1 t2 t3". Le nombre de documents de la collection contenants les termes de q est défini comme suit : fi1=2, fi2=4, et fi3=6. Les poids des 3 termes dans la collection sont : wi1=0.4, wi2=0.2, wi3=0.8 En se basant sur les suppositions du scénario avec grande-corrélation, calculez la similarité Estimate(0.3, q, si), et dites si le serveur si sera sélectionné comme pertinent. Selon la 1ère supposition, le poids d’un terme est distribué uniformément sur tous les documents qui le contiennent. Ce qui veut dire qu’un terme tj aura le poids (wij/fij) dans tous les documents du serveur si qui contiennent ce terme. Selon la 2ème supposition, les 2 documents avec le terme "t1" contiennent aussi les termes "t2" et "t3".  . , ,  =   − ×  ..  =   ×   ..  = . + . + . ! " = . ! > 0.  = . + . ! " = . ! < 0. Donc p=1  . , ,  =  −  ×  =  ×  = . &"" Comme Estimate(0.3, q, si) = 0.766 > 0.3 donc le serveur est pertinent. uploads/s1/ controle-final-correction-2011-2012.pdf

  • 28
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Nov 27, 2022
  • Catégorie Administration
  • Langue French
  • Taille du fichier 0.0551MB