Chap3 pond stats Chap Indexation Techniques de pondération et Statistiques sur le texte Cours RI M Boughanem Pondération des mots ? ? Comment caractériser les termes importants dans un document ? ? ? ? Pondération des termes ? ? Idée sous jacente ?? ? Les

Chap Indexation Techniques de pondération et Statistiques sur le texte Cours RI M Boughanem Pondération des mots ? ? Comment caractériser les termes importants dans un document ? ? ? ? Pondération des termes ? ? Idée sous jacente ?? ? Les termes importants doivent avoir un poids fort Cours RI M Boughanem Approches de pondération ? ? Plusieurs approches ?? ? Tf IDF approche plus répandue ?? ? Pourvoir discriminatoire d ? un terme ?? ? Modèle poisson ?? ? Clumping model ?? ? Modèle de Langage ? ? Dépend aussi du modèle de RI Cours RI M Boughanem tf idf ? ? tf Idée sous jacente plus un terme est fréquent dans un document plus il est important dans la description de ce document ?? ? Exemple de tf ?? ? ?? Okapi tf ? K introduit pour tenir compte de la longueur des documents tf K tf Robertson tf t f f r e q t d k ?? b b d l a v g d l f r e q t d Cours RI M Boughanem t f f r e q t d l o g f r e q t d f r e q t d m a x ?? t ' ?? d t ' d f r e q t d f r e q t ' d ?? t ' ?? d ? ' Taille longueur du document tf idf ?? ? IDF Inverse Document Frequency la frequence du terme dans la collection i d f t l o g Nn t l o g N ?? n t n t avec N le nombre de documents de la collection n t le nombre de documents contenant le terme t Cours RI M Boughanem Tf Idf Cours RI M Boughanem w t d t f i d f l o g f r e q t d l o g Nn t l o g f r e q t ' d l o g N n t ' ?? t ' ?? d ? f r e q t d k ?? b b d l a v g d l f r e q t d l o g N ?? n t n t '''' '''' ?? ? Quelques formules répandues en RI Facteur de normalisation Tf Idf ?? ? Exploitation en RI ? ? Retour transp calcul score d ? un document ? ? Soit une requête q t t et document d t t tn ? ? Calculer le score de document vis-à-vis de la requête Faire la somme pondérée des termes de la requête apparaissant dans le document Cours RI M Boughanem s c o r e q d w t d t ?? q ? Ce point sera détaillé dans le chapitre Modèles de RI Quelques Statistiques sur le texte ? ? La fréquence d ? apparition d ? un terme dans une collection est un bon indicateur de l ? importance

  • 29
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Aucune attribution requise
Partager
  • Détails
  • Publié le Sep 05, 2021
  • Catégorie Administration
  • Langue French
  • Taille du fichier 406.1kB