Une introduction aux techniques d’extraction de l’information du web L'extracti
Une introduction aux techniques d’extraction de l’information du web L'extraction de données est un terme très large qui consiste à récupérer des données à partir de n'importe quelle source: sites Web, bases de données ou même des sources physiques comme des journaux, des livres et des rapports. L'extraction de données Web est alors synonyme de web scraping. Le Scrapping : Le web scraping est une technique d'extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte. Les applications du scraping sont nombreuses comme la réutilisation de contenus, la surveillance des prix… Le but du scraping est de transformer des informations non structurées présentes dans des pages web en données structurées facilement exploitables. Le Crawler : Un robot d'indexation est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources, afin de permettre à un moteur de recherche de les indexer. Le crawling consiste à parcourir et indexer le Web afin d’en établir la cartographie. Comparaison entre scraping et crawling Le crawler découvre lui-même les sites parcourus et les pages web téléchargées. Le scraper travaille sur un site ou ensemble de sites connus par avance. Le scraper pourra alors être un logiciel paramétré de façon à récupérer les données souhaitées sur le site en question ou bien un programme développé spécifiquement pour cette tâche et donc parfaitement adapté au site. Comparaison entre le scraping et le crawling Scraping Crawling - Consiste à extraire des données provenant de diverses sources, y compris web - Se réfère à téléchargement des pages du web - Peut être fait à toute échelle - La plupart du temps fait à grande échelle - La déduplication n'est pas nécessaire - La déduplication est une partie essentielle - Besoin d'un Crawl agent et un parseur - Besoin seulement d'un Crawl agent Le Parseur : Il permet de parcourir le contenu d'un texte ou d'un fichier en l'analysant pour vérifier sa syntaxe ou en extraire des éléments. Le Flux RSS : RSS signifie ‘Really Simple Syndication’ : publication vraiment simple - Un flux RSS est un format de fichier particulier dont le contenu est produit automatiquement en fonction des mises à jour d'un site web. Ce contenu est laissé au libre choix du producteur du flux, mais généralement se compose des titres des mises à jour de pages ou d'articles, des liens hypertextes correspondants, et de descriptions, en quelques lignes, de ces mises à jour. Agrégateur de flux : Un agrégateur de flux permet d'organiser les données collectées de manière efficace, en offrant la possibilité de récupérer rapidement les flux RSS des sites surveillés (récupération à partir de l'url, d'un bookmarklet...), de paramétrer précisément l'organisation des flux… Modes de collecte : Selon le mode de collecte de l’information, l’extraction des données reposent sur la méthode du push d’information et/ou du pull d’information : Méthode du push d’information : l’utilisateur cherche l’information ; Méthode du pull d’information : l’information parvient automatiquement à l’utilisateur. Plan de rédaction provisoire : Scrapeur Techniques utilisées Fonctions de base Fonctions avancées Algorithmes Performances Crawler Techniques utilisées Fonctions de base Fonctions avancées Algorithmes Performances Parseur Techniques utilisées Fonctions de base Fonctions avancées Performances Algorithmes Paramétrage Alertes Flux RSS Google Alertes Tweeter Alertes Paramétrage Performances Aggrégateur de flux Flux RSS Types de flux Paramétrage Performances Dashboard Techniques utilisées Fonctions de base Fonctions avancées Performances Paramétrage, filtres Une ouverture sur les outils d’analyse de Data-mining et de Text-mining Outils opensource APIs disponibles Algorithmes uploads/Management/ une-introduction-aux-techniques-de-scraping.pdf
Documents similaires










-
43
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Dec 02, 2022
- Catégorie Management
- Langue French
- Taille du fichier 0.0664MB