Une introduction aux techniques de scraping
Une introduction aux techniques d ? extraction de l ? information du web L'extraction de données est un terme très large qui consiste à récupérer des données à partir de n'importe quelle source sites Web bases de données ou même des sources physiques comme des journaux des livres et des rapports L'extraction de données Web est alors synonyme de web scraping Le Scrapping Le web scraping est une technique d'extraction du contenu de sites Web via un script ou un programme dans le but de le transformer pour permettre son utilisation dans un autre contexte Les applications du scraping sont nombreuses comme la réutilisation de contenus la surveillance des prix ? Le but du scraping est de transformer des informations non structurées présentes dans des pages web en données structurées facilement exploitables Le Crawler Un robot d'indexation est un logiciel qui explore automatiquement le Web Il est généralement conçu pour collecter les ressources a ?n de permettre à un moteur de recherche de les indexer Le crawling consiste à parcourir et indexer le Web a ?n d ? en établir la cartographie Comparaison entre scraping et crawling Le crawler découvre lui-même les sites parcourus et les pages web téléchargées Le scraper travaille sur un site ou ensemble de sites connus par avance Le scraper pourra alors être un logiciel paramétré de façon à récupérer les données souhaitées sur le site en question ou bien un programme développé spéci ?quement pour cette t? che et donc parfaitement adapté au site Comparaison entre le scraping et le crawling Scraping Crawling Consiste à extraire des données provenant - Se réfère à téléchargement des pages du web de diverses sources y compris web Peut être fait à toute échelle La plupart du temps fait à grande échelle La déduplication n'est pas nécessaire La déduplication est une partie essentielle Besoin d'un Crawl agent et un parseur Besoin seulement d'un Crawl agent Le Parseur Il permet de parcourir le contenu d'un texte ou d'un ?chier en l'analysant pour véri ?er sa syntaxe ou en extraire des éléments Le Flux RSS RSS signi ?e ? Really Simple Syndication ? publication vraiment simple - Un ux RSS est un format de ?chier particulier dont le contenu est produit automatiquement en fonction des mises à jour d'un site web Ce contenu est laissé au libre choix du producteur du ux mais généralement se compose des titres des mises à jour de pages ou d'articles des liens hypertextes correspondants et de descriptions en quelques lignes de ces mises à jour Agrégateur de ux Un agrégateur de ux permet d'organiser les données collectées de manière e ?cace en o ?rant la possibilité de récupérer rapidement les ux RSS des sites surveillés récupération à partir de l'url d'un bookmarklet de paramétrer précisément l'organisation des ux ? CModes de collecte Selon le mode de collecte de l ? information l ? extraction des données reposent sur la méthode du push d ? information et ou du pull ? ? ? ? ? ?
Documents similaires










-
29
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Aucune attribution requise- Détails
- Publié le Fev 15, 2022
- Catégorie Management
- Langue French
- Taille du fichier 31.3kB