Text et Web Mining: Extraction d'information structurée à partir de textes et d
Text et Web Mining: Extraction d'information structurée à partir de textes et de pages web Algorithmes de clustering et de catégorisation Préparé Par : Boudjebbour.K Introduction – Text mining Le text mining est l’ensemble des : techniques et méthodes ... destinées au traitement automatique ... de données textuelles en langage naturel ... disponibles sous forme informatique, en assez grande quantité ... en vue d’en dégager et structurer le contenu, les thèmes ... dans une perspective d’analyse rapide (non littéraire !), de découverte d’informations cachées, ou de prise automatique de décision. Introduction – Text mining T ext Mining = Lexicométrie + Data Mining Comme en Data Mining, on trouve en T ext Mining : des algorithmes descriptifs recherche des thèmes abordés dans un ensemble (corpus) de documents, sans connaître à l’avance ces thèmes des algorithmes prédictifs recherche des règles permettant d’affecter automatiquement un document à un thème, parmi plusieurs thèmes prédéfinis Data Mining / KDD (ECD) Structured Data Multimedia Free Text Hypertext HomeLoan ( Loanee: Frank Rizzo Lender: MWF Agency: Lake View Amount: $200,000 Term: 15 years ) Frank Rizzo bought his home from Lake View Real Estate in 1992. He paid $200,000 under a15-year loan from MW Financial. <a href>Frank Rizzo </a> Bought <a hef>this home</a> from <a href>Lake View Real Estate</a> In <b>1992</b>. <p>... Loans($200K,[map],...) Introduction – Text mining Conditions sur les textes analysés Format informatique : c’est une autre problématique que la lecture automatique de l’écriture manuscrite Nombre minimum de textes Compréhensibilité et cohérence minimale Pas trop de thèmes différents abordés dans un même texte Le moins possible de sous-entendus, d’ironie... Sources de textes utilisées Enquêtes d’opinion Baromètres de satisfaction clientèle Lettres de réclamation Transcriptions des entretiens téléphoniques Messageries électroniques Comptes-rendus d’entretiens commerciaux Revues de presse - Dépêches AFP, Reuters... Documentation - Rapports d’experts Veille technologique (exemple : brevets déposes) Veille stratégique et économique Internet - Bases de données en ligne CV Utilisateurs du text mining • Analystes financiers • Économistes • Professionnels du marketing • Services de satisfaction clientèle • Recruteurs • Décideurs Utilisations du text mining Analyse rapide • rapports sur l’image de l’entreprise, l’état de la concurrence • génération automatique de baromètres de satisfaction • indexation automatique de documents Découverte d’informations cachées (« techniques descriptives ») • nouveaux domaines de recherche (brevets déposés) • ajout des informations aux bases de données marketing • adaptation du discours marketing à chaque type de client Prise de décision (« techniques prédictives ») • routage automatique de courriers, d’information • filtrage de courriels : spams – non spams • filtrage de « news » Définition du Web Mining • Web Mining = Data Mining appliqué aux données de navigation sur le web • Objectifs du Web Mining (Web Usage Mining) : 1) Optimiser la navigation dans un site, afin de maximiser le confort des internautes, d’augmenter le nb de pages consultées et l’impact des liens et des bannières publicitaires ⇒ Analyses globales 2) Déceler les centres d’intérêt, et donc les attentes, des internautes venant sur le site de l’entreprise ⇒ Analyses individuelles 3) Mieux connaître les clients qui se connectent nominativement à un site, en croisant leurs données de navigation avec leurs données personnelles détenues par l’entreprise ⇒ Analyses nominatives • Web Content Mining : Recherche d’informations sur le web et « crawling » des pages web par les moteurs de recherche 1) Analyses globales Statistique descriptive • « 70 % des internautes ont consulté 3 pages ou moins » • « 40 % des internautes accèdent au site sans passer par la page d’accueil » Détection des règles d’associations • « 20 % des internautes visitant la page A visitent la page B dans la même session » • établir la matrice de transition entre les pages du site • on tient compte de l’ordre des items (≠ tickets de caisse) T ypologies d’internautes • selon les sites de provenance, les pages d’entrée, le nombre de pages consultées, le temps passé sur les pages, les fichiers téléchargés, les pages de sortie, etc. Le fichier « log » Source de données pour les analyses globales : le fichier « log » est un fichier texte enregistré sur le serveur du site web dans lequel une ligne est écrite à chaque demande de l’internaute (changement de page, téléchargement d’un fichier…) Format du fichier log Common Log Format (CLF) • adresse IP de l’internaute, date et heure (avec décalage GMT) de la requête, type de requête, URL demandée, protocole HTTP, code retour du serveur, taille (en bits) de l’envoi • ex : 130.5.48.74 [22/May/2002:12:16:57 -0100] "GET /content/index.htm HTTP/1.1" 200 1243 Extended Log Format (XLF) • contient en plus la page d’origine (« referrer »), le navigateur et le système d’exploitation (« user agent ») • ex : 130.5.48.74 [22/May/2002:12:16:57 -0100] "GET /content/news.htm HTTP/1.1" 200 4504 "/content/index.htm" "Mozilla/4.0 " " Windows XP SP2 ") Explications sur le fichier log T ype de requêtes • get : télécharger un objet • put / delete : stocker / détruire un élément sur le serveur • head : variante de get (parfois utilisée par les robots) Code retour • 200 / 2xx : requête satisfaite totalement/partiellemen • 3xx : redirection • 401 / 404 : accès refusé / URL non trouvée • 4xx / 5xx : autres erreurs / erreurs du serveur Adresse IP • NB : souvent non permanente – attribuée dynamiquement par le fournisseur d’accès au moment de la connexion • Difficulté quand l’internaute passe par un réseau d’entreprise Mise en forme du fichier log Les fichiers log sont très gros (> plusieurs centaines de Mo / jour) ⇒ il faut les nettoyer Suppression des lignes correspondant à des : • pages visitées par moins de 5 adresses IP • fichiers d’images (gif, jpeg…) ou de scripts, n’apportant rien à l’analyse • accès de robots, d’agents ou de testeurs de liens • adresses IP aberrantes Une visite = un ensemble de requêtes provenant de la même adresse IP, du même « user agent », séparées les unes des autres par un laps de temps maximum (généralement fixé à 30 minutes, ce qui signifie que si une requête suit la précédente de plus de 30 minutes, elle débute une nouvelle visite) Données extraites du fichier log Identifiant (adresse IP) Date de la visite Heure de début et de fin de la visite • heures de travail, soirée et nuit, week-end et jours fériés T ype de navigateur (IE, Firefox, Netscape, Opera…) Système d’exploitation (Windows, Linux, Mac…) Pays du visiteur (voir les sites www.ip2location.com et www.dnsstuff.com/info/geolocation.htm) • Pages visitées • Nombre de pages visitées • T emps moyen passé sur chaque page • Nombre de clics moyen Données extraites du fichier log Pour une adresse IP, on peut agréger les données : • dates de première et dernière visite • nombre de visites • durées totale et moyenne des visites Ces données permettent d’en déduire une typologie de visiteurs Logiciels d’analyse des fichiers log (pour faire du reporting et produire des tableaux de bord) : • commerciaux : Webtrends • gratuits : Analog, Awstats et Webanalyzer Exemple avec Webanalyzer 2) Analyses individuelles Pour passer des analyses globales aux analyses 1:1 • Ex : 35 % des internautes qui consultent la fiche d’un roman de Boileau-Narcejac consultent la fiche d’un film de Hitchcock dans les 2 mois Utilisation des cookies : • fichiers textes créés sur le disque dur de l’internaute lors de la connexion sur le site Web • contiennent un identifiant propre à l’ordinateur connecté, le nb de pages consultées, les pages d’entrée, de sortie, les sites de provenance, les fichiers téléchargés, des informations nominatives demandées par le site… • en temps réel ou à la prochaine connexion : transmission du cookie au site Web qui peut proposer des pages personnalisées à l’internaute en fonction de ses centres d’intérêts Avantages et inconvénients des cookies Avantages • mise à jour automatique • mise à jour instantanée Inconvénients • refus ou suppression possible du cookie par l’internaute • blocage possible par un pare-feu • identification d’un ordinateur et non d’une personne 3) Analyses nominatives L’internaute est un client connu de l’entreprise Le site web requiert une identification personnelle • ex : sites bancaires en ligne • indexation non possible par les moteurs de recherche Intégration possible dans les bases de données marketing des informations sur la navigation du client Possibilité de construire une typologie des clients Les pages consultées et les demandes de simulation effectuées fournissent des indices probants sur l’intérêt du client pour tel ou tel produit un indice de fréquentation Clustering et catégorisation en text mining, Les Matrices termes- documents Les matrices termes-documents et documents termes résument les mots que l'on retrouve dans divers document d'un corpus. Les matrices de fréquences Matrices documents-termes (Angl. Document T erm Matrix, DTM) Chaque ligne d'une matrice DT représente un document, chaque colonne un terme (mot) Les Matrices termes- documents Matrice termes-documents (Angl.T erm Document Matrix, TDM) Chaque ligne d'une matrice TD représente un terme (mot), chaque colonne un document Alternativement, certaines techniques requièrent des matrices uploads/Litterature/cours-text-web-mining.pdf
Documents similaires










-
26
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Mar 28, 2022
- Catégorie Literature / Litté...
- Langue French
- Taille du fichier 0.9334MB