Le b.a.-ba du web scraping

•Télécharger en tant que PPTX, PDF•

3 j'aime•1,701 vues

Alexandre Gindre

Ma présentation sur le b.a.-ba du web scraping pour les Human Talks

Technologie

1
Le b.a.-ba du web scraping
Alexandre Gindre
@alexgindre ou agi@octo.com

2
« Le web scraping est une technique d'extraction du contenu de sites
Web, via un script ou un programme, dans le but de le transformer pour
permettre son utilisation dans un autre contexte » (Wikipedia)
Une différenciation est faite entre le web scraping et le web crawling
Web crawling : récupérer toutes les informations d’un site
Ex: Google
Web scraping : récupérer un sous-ensemble des informations d’un site
Ex: comparateur de prix
Définition
http://stackoverflow.com/questions/4327392/what-is-the-difference-between-web-crawling-and-web-scraping

3
Ma vision d’architecture
WWW
Site cible
Proxy Scraper
Stockage
Retraitement
des données

4
On se réfère au droit d’auteur et au droit sur les bases de données
C’est encore assez flou !
Quelques jurisprudences sur le sujet
Ex: Ryanair contre OPODO
Il faut prendre en compte la charte d’utilisation/mentions légales du site
Ex: societe.com
Ne pas mettre en danger le bon fonctionnement du site visé
Faire attention à ne pas partir dans un DDOS !
Que dit la loi ?

5
De nombreux business sur le web scraping
Comparateur de
prix
Informations sur
des contacts
Analyse sociale Base de recherche

6
Des technologies variées
pjscrapeGrab
Selenium with Python
Beautiful Soup Wombat

8
Le navigateur masque la mauvaise structuration du HTML
Problème au niveau du parsing de la page
Les libs/outils peuvent automatiquement corriger le problème comme le browser
Le serveur du site bloque les user-agents non standard
Les outils comme Scrapy donne le user-agent Scrapy
Redéfinition du user-agent pour passer
Accepter les conséquences…
Le serveur du site bloque par l’IP
Utilisation d’un proxy pour changer l’IP de provenance des requêtes
Prévoir un pool d’IP
Service : hidemyass
A la main : TOR
Toutes les informations ne sont pas récupérées
Paramétrer au mieux le temps de passage du scraper
Mettre en place un système de watcher
Toutes les 5 mins ?
Eviter les doublons
Passer par des hash sur les données
Problèmes rencontrés (1/2)

9
Changement de la structure de la page cible
Mise à niveau à la main pour l’instant …
Les id et les class sont changeants
Xpath sur les tags html pour les changement d’id ou de class CSS
Reprise d’erreur sur le scraper
Gérer dans les outils comme Scrapy ou CasperJS
Sinon gestion à la main …
Problèmes rencontrés (2/2)

Recommandé

Développer pour tous les navigateursMicrosoft

Un navigateur, comment ça marche Mouhamadou Moustapha CAMARA

Ruby et MongoDB dans la pratique, MongoFRNovelys

[JDLL 2018] Templer, Git, Bootstrap, PHP : des outils libres pour concevoir l...Clément OUDOT

Utilisation de node.js avec mongoDB13p

Zenika MongoDB Tour - REX AmadeusFrançois Fornaciari

Stratégie et veille : Extraire et trier des données en ligneErwan Tanguy

Cours 1/3 "Architecture Web"Adyax

Recommandé

Développer pour tous les navigateursMicrosoft

Un navigateur, comment ça marche Mouhamadou Moustapha CAMARA

Ruby et MongoDB dans la pratique, MongoFRNovelys

[JDLL 2018] Templer, Git, Bootstrap, PHP : des outils libres pour concevoir l...Clément OUDOT

Utilisation de node.js avec mongoDB13p

Zenika MongoDB Tour - REX AmadeusFrançois Fornaciari

Stratégie et veille : Extraire et trier des données en ligneErwan Tanguy

Cours 1/3 "Architecture Web"Adyax

Optimisez la vitesse de chargement de votre siteWebxFrance

Un site web rapide ? haricot

WEB SCRAPING.pdfAnass Nabil

trucs_PFT_WEB_SCRAP_190411.pdfHodaMzo

SAPIENS2009 - Module 4BChristophe RUDELLE

La mise en cache et ses secretsAymeric Bouillat

Amélioration des performances eCommerce - Webinaire par aYalineaYaline

Une introduction à JavascriptJean Michel

Introduction aux RIA (Rich Internet Applications)Tugdual Grall

Développement Webmastertic

$Cours Université de Metz: Internte, noms de domaines, droit d\'auteur et droi...$ $Cours Université de Metz: Internte, noms de domaines, droit d\'auteur et droi...$

Cours Université de Metz: Internte, noms de domaines, droit d\'auteur et droi...Prof. Jacques Folon (Ph.D)

Core Web Vitals : Comprendre, Mesurer, OptimiseriProspect France

HTML5... La révolution maintenant!CARA_Lyon

Développement Webmastertic

Kiwiparty 2011 - Optimisation des sites internetDevclic

Comment Rue Du Commerce est devenu le site e-commerce le plus rapide de France ?Fasterize

Techniques accélération des pages web #kiwipartyJean-Pierre Vincent

Création des sites web pour débutantKorteby Farouk

La casa de SEO : les questions à se poser pour le casse SEO parfaitAymeric Bouillat

Contenu connexe

Similaire à Le b.a.-ba du web scraping

Optimisez la vitesse de chargement de votre siteWebxFrance

Un site web rapide ? haricot

WEB SCRAPING.pdfAnass Nabil

trucs_PFT_WEB_SCRAP_190411.pdfHodaMzo

SAPIENS2009 - Module 4BChristophe RUDELLE

La mise en cache et ses secretsAymeric Bouillat

Amélioration des performances eCommerce - Webinaire par aYalineaYaline

Une introduction à JavascriptJean Michel

Introduction aux RIA (Rich Internet Applications)Tugdual Grall

Développement Webmastertic

$Cours Université de Metz: Internte, noms de domaines, droit d\'auteur et droi...$ $Cours Université de Metz: Internte, noms de domaines, droit d\'auteur et droi...$

Cours Université de Metz: Internte, noms de domaines, droit d\'auteur et droi...Prof. Jacques Folon (Ph.D)

Core Web Vitals : Comprendre, Mesurer, OptimiseriProspect France

HTML5... La révolution maintenant!CARA_Lyon

Développement Webmastertic

Kiwiparty 2011 - Optimisation des sites internetDevclic

Comment Rue Du Commerce est devenu le site e-commerce le plus rapide de France ?Fasterize

Techniques accélération des pages web #kiwipartyJean-Pierre Vincent

Création des sites web pour débutantKorteby Farouk

La casa de SEO : les questions à se poser pour le casse SEO parfaitAymeric Bouillat

Similaire à Le b.a.-ba du web scraping (20)

Optimisez la vitesse de chargement de votre site

Un site web rapide ?

WEB SCRAPING.pdf

trucs_PFT_WEB_SCRAP_190411.pdf

SAPIENS2009 - Module 4B

La mise en cache et ses secrets

Amélioration des performances eCommerce - Webinaire par aYaline

Une introduction à Javascript

Introduction aux RIA (Rich Internet Applications)

Développement Web

$Cours Université de Metz: Internte, noms de domaines, droit d\'auteur et droi...$ $Cours Université de Metz: Internte, noms de domaines, droit d\'auteur et droi...$

Cours Université de Metz: Internte, noms de domaines, droit d\'auteur et droi...

Core Web Vitals : Comprendre, Mesurer, Optimiser

HTML5... La révolution maintenant!

Développement Web

Kiwiparty 2011 - Optimisation des sites internet

Comment Rue Du Commerce est devenu le site e-commerce le plus rapide de France ?

Techniques accélération des pages web #kiwiparty

Création des sites web pour débutant

La casa de SEO : les questions à se poser pour le casse SEO parfait

Le b.a.-ba du web scraping

1. 1 Le b.a.-ba du web scraping Alexandre Gindre @alexgindre ou agi@octo.com

2. 2 « Le web scraping est une technique d'extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte » (Wikipedia) Une différenciation est faite entre le web scraping et le web crawling Web crawling : récupérer toutes les informations d’un site Ex: Google Web scraping : récupérer un sous-ensemble des informations d’un site Ex: comparateur de prix Définition http://stackoverflow.com/questions/4327392/what-is-the-difference-between-web-crawling-and-web-scraping

3. 3 Ma vision d’architecture WWW Site cible Proxy Scraper Stockage Retraitement des données

4. 4 On se réfère au droit d’auteur et au droit sur les bases de données C’est encore assez flou ! Quelques jurisprudences sur le sujet Ex: Ryanair contre OPODO Il faut prendre en compte la charte d’utilisation/mentions légales du site Ex: societe.com Ne pas mettre en danger le bon fonctionnement du site visé Faire attention à ne pas partir dans un DDOS ! Que dit la loi ?

5. 5 De nombreux business sur le web scraping Comparateur de prix Informations sur des contacts Analyse sociale Base de recherche

6. 6 Des technologies variées pjscrapeGrab Selenium with Python Beautiful Soup Wombat

7. 7 Exemple WWW Polipo HTML PDF XLS DOC

8. 8 Le navigateur masque la mauvaise structuration du HTML Problème au niveau du parsing de la page Les libs/outils peuvent automatiquement corriger le problème comme le browser Le serveur du site bloque les user-agents non standard Les outils comme Scrapy donne le user-agent Scrapy Redéfinition du user-agent pour passer Accepter les conséquences… Le serveur du site bloque par l’IP Utilisation d’un proxy pour changer l’IP de provenance des requêtes Prévoir un pool d’IP Service : hidemyass A la main : TOR Toutes les informations ne sont pas récupérées Paramétrer au mieux le temps de passage du scraper Mettre en place un système de watcher Toutes les 5 mins ? Eviter les doublons Passer par des hash sur les données Problèmes rencontrés (1/2)

9. 9 Changement de la structure de la page cible Mise à niveau à la main pour l’instant … Les id et les class sont changeants Xpath sur les tags html pour les changement d’id ou de class CSS Reprise d’erreur sur le scraper Gérer dans les outils comme Scrapy ou CasperJS Sinon gestion à la main … Problèmes rencontrés (2/2)

10. 10 Questions ? Conclusion