Remerciez-le!

Remerciez @Admin pour avoir partagé cet document gratuitement, de la manière la plus simple, en partageant sur les réseaux sociaux.

COLLECTER PLUS DE DONNÉES SUR LE WEB MODERNE 2e édition www.allite Ryan Mitchel

COLLECTER PLUS DE DONNÉES SUR LE WEB MODERNE 2e édition www.allite Ryan Mitchell Web Scraping avec Python Machine Translated by Google www.allitebooks.com Machine Translated by Google www.allitebooks.com DEUXIÈME ÉDITION Pékin Boston Farnham Sébastopol Tokyo Web Scraping avec Python Ryan Mitchell Collecter plus de données à partir du Web moderne Machine Translated by Google Historique des révisions pour la deuxième édition Web Scraping avec Python par Ryan Mitchell Éditeur : Allyson MacDonald Deuxième édition Copyright © 2018 Ryan Mitchell. Tous les droits sont réservés. Bien que l'éditeur et l'auteur aient déployé des efforts de bonne foi pour s'assurer que les informations et les instructions contenues dans cet ouvrage sont exactes, l'éditeur et l'auteur déclinent toute responsabilité pour les erreurs ou omissions, y compris, sans s'y limiter, la responsabilité pour les dommages résultant de l'utilisation ou s'appuyer sur ce travail. L'utilisation des informations et des instructions contenues dans cet ouvrage se fait à vos risques et périls. Si des exemples de code ou d'autres technologies que ce travail contient ou décrit sont soumis à des licences open source ou aux droits de propriété intellectuelle d'autrui, il est de votre responsabilité de vous assurer que votre utilisation est conforme à ces licences et/ou droits. www.allitebooks.com Les livres O'Reilly peuvent être achetés à des fins éducatives, commerciales ou promotionnelles. Des éditions en ligne sont également disponibles pour la plupart des titres (http://oreilly.com/safari). Pour plus d'informations, contactez notre service commercial corporatif/institutionnel : 8009989938 ou corporate@oreilly.com. Illustrateur : Rebecca Demarest Avril 2018 : Rédactrice : Sharon Wilkey 20180320 : Première version [LSI] Rédacteur en chef : Justin Billing Indexeur : Judith McConville Voir http://oreilly.com/catalog/errata.csp?isbn=9781491985571 pour les détails de la version. Le logo O'Reilly est une marque déposée d'O'Reilly Media, Inc. Web Scraping with Python, l'image de couverture et l'habillage commercial associé sont des marques déposées d'O'Reilly Media, Inc. Correctrice : Christina Edwards Publié par O'Reilly Media, Inc., 1005 Gravenstein Highway North, Sebastopol, CA 95472. Imprimé aux ÉtatsUnis d'Amérique. Concepteur de la couverture : Karen Montgomery 9781491985571 Architecte d' intérieur : David Futato Machine Translated by Google www.allitebooks.com Table des matières iii ix 1. Votre premier grattoir Web. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 2. Analyse HTML avancée. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Vous n'avez pas toujours besoin d'un marteau Une autre portion de BeautifulSoup Préface. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. Modèles d'exploration Web. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3. Rédaction de robots d'exploration Web. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 33 30 Explorer Internet 42 Courir BeautifulSoup Naviguer dans les arbres 8 Expressions régulières et BeautifulSoup Planification et définition d'objets 6 6 15 18 dix Accéder aux attributs Une introduction à BeautifulSoup find() et find_all() avec BeautifulSoup 21 25 Traverser un seul domaine 37 Traiter avec différentes mises en page de sites Web Collecte de données sur l'ensemble d'un site 53 Autres beaux objets de soupe 29 40 Installer BeautifulSoup Connexion fiable et gestion des exceptions Expressions régulières 31 Expressions lambda Explorer un site entier 50 De liaison 16 20 Partie I. Construire des grattoirs Machine Translated by Google Deuxieme PARTIE. Grattage avancé 6. Stockage des données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 8. Nettoyer vos données sales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 iv | Table des matières 67 91 Création d'éléments 58 80 Écrire un grattoir simple 76 Intégration avec Python 100 109 83 86 61 Le pipeline d'articles Fichiers multimédias "Six degrés" dans MySQL Encodage de documents 5. Scrapy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Installer Scrapy Initialiser un nouveau Spider Structuration des robots d'exploration Davantage de ressources MySQL 89 108 CSV Lecture de fichiers CSV PDF Microsoft Word et .docx 115 Quelques commandes de base Explorer des sites via des liens 68 69 74 94 97 Encodage de texte et Internet mondial 121 113 113 77 80 Techniques de bases de données et bonnes pratiques 103 Réflexion sur les modèles de robot d'exploration Web Spidering avec des règles 7. Lecture de documents. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 107 117 Email 58 Sortie d'éléments 64 65 Texte Journalisation avec Scrapy Stockage des données au format CSV 88 Explorer plusieurs types de pages Nettoyage en code 70 Explorer des sites via la recherche Installer MySQL Machine Translated by Google 11. Gratter JavaScript. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 Une brève introduction à JavaScript Bibliothèques JavaScript communes 166 149 126 152 143 10. Parcourir les formulaires et les connexions. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 Python Requests Library Soumission d'un formulaire de base Boutons radio, cases à cocher et autres entrées Soumission de fichiers et d'images Gestion des connexions et des cookies HTTP Basic Access Authentification Autres problèmes de formulaire 163 173 175 177 Gestion des redirections 132 Boîte à outils de langage naturel 155 156 Exécuter JavaScript en Python avec Selenium Une brève introduction aux API 139 Normalisation des données Analyse statistique avec NLTK 158 165 En savoir plus sur les réponses API API non documentées 179 162 OuvrirAffiner 142 Ressources supplémentaires 171 171 178 Trouver des API non documentées Recherche et documentation automatiques des API 181 151 Ajax et HTML dynamique 184 Combinaison d'API avec d'autres sources de données 124 145 Méthodes HTTP et API Documentation des API non documentées 154 126 Six degrés de Wikipédia : conclusion Pilotes Web Selenium supplémentaires 187 135 Analyse JSON Installation et configuration 157 Une note finale sur JavaScript 9. Lecture et écriture des langues naturelles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 Résumé des modèles de Markov de données 182 184 Analyse lexicographique avec NLTK 142 Nettoyage après coup 12. Explorer les API. . uploads/S4/ web-scraping-fr.pdf