Capturando Dados UFC com Scrapy

Capturando
a
Web
com
Scrapy

Gabriel
Freitas

O
que
é
um
web
crawler?

O
que
é
um
web
crawler?

• 
“Web
crawler
é
um
programa
de
computador

que
navega
pela
World
Wide
Web
de
uma

forma
metódica
e
automaAzada”hEp://
pt.wikipedia.org/wiki/Web_crawler

Estrutura
básica
de
um
web
crawler

Estrutura
básica
de
um
web
crawler

•  Construção
de
requisições
HTTP

Estrutura
básica
de
um
web
crawler

•  Construção
de
requisições
HTTP

• 
Tratamento
da
resposta

– Composição
de
objetos

– Composição
de
novas
requisições

Estrutura
básica
de
um
web
crawler

•  Construção
de
requisições
HTTP

• 
Tratamento
da
resposta

– Composição
de
objetos

– Composição
de
novas
requisições

•  Persistência
de
dados

Crawleando
em
Python

•  Tecnologias
comuns:

Crawleando
em
Python

•  Tecnologias
comuns:

– urllib,
hEplib2,
requests

Crawleando
em
Python

•  Tecnologias
comuns:

– urllib,
hEplib2,
requests

– beauAfulsoup
ou
lxml

Crawleando
em
Python

•  Tecnologias
comuns:

– urllib,
hEplib2,
requests

– beauAfulsoup
ou
lxml

– json,
mysql,
xml,
csv,
sqlite,
etc.

Mas
qual
o
problema?

Mas
qual
o
problema?

• 
Ter
que
resolver
tudo
na
mão:

– Se
Aver
autenAcação?

– Trabalhar
com
sessão,
cookie...

– HTML
mal
formatado

– Requisições
Simultâneas

– Aumento
de
pontos
de
falha

– Etc..

Instalando…

•  $
pip
install
Scrapy

Criando
o
projeto

•  $
scrapy
startproject
<nome
projeto>

Localizando
os
dados

•  hEp://www.ufc.com/ﬁghter

hEp://www.ufc.com/ﬁghter/ronda-‐
Rousey

Deﬁnindo
os
itens

•  Itens
são
os
campos
que
você
irá
pegar

IdenAﬁcando
os
Xpaths

Testando
Xpaths

•  $
scrapy
shell

hEp://www.ufc.com/ﬁghter/ronda-‐Rousey

– $
sel.xpath('//div[@id="ﬁghter-‐breadcrumb"]/
span/h1/text()').extract()

– [u'Ronda
Rousey']

Gerando
o
Spider

•  $
scrapy
genspider
ufc
hEp://ufc.com

Gerando
o
Spider

•  $
scrapy
genspider
ufc
hEp://ufc.com

•  Tipos
de
Spiders:

– basic

– crawl

– csvfeed

– xmlfeed

Deﬁnindo
Xpaths
no
Spider

Executando
o
crawler

•  $
scrapy
crawl
ufc

Exportando
os
resultados

•  Em
json

– $
scrapy
crawl
ufc
-‐o
lutadores.json
-‐t
json

•  Em
csv

– $

scrapy
crawl
ufc
-‐o
lutadores.csv
-‐t
csv

•  Em
xml

– $
scrapy
crawl
ufc
-‐o
lutadores.xml
-‐t
xml

Obrigado!

•  Contatos

– gabrielfreitas07@gmail.com

– r.com/gabrielfreitas07

Referências

•  Nataliel
Vasconcelos
–
Python
Beach

•  hEp://pypix.com/python/build-‐website-‐crawler-‐based-‐
upon-‐scrapy/

•  hEp://www.slideshare.net/previa/
scrapyfordummies-‐15277988

•  hEp://www.slideshare.net/TheVirendraRajput/web-‐
scraping-‐in-‐python

•  hEp://www.slideshare.net/obdit/data-‐philly-‐scrapy

•  hEp://trumae.blogspot.com.br/2014/01/scrapy-‐bem-‐
facinho.html

Capturando Dados UFC com Scrapy

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Capturando Dados UFC com Scrapy

Ähnlich wie Capturando Dados UFC com Scrapy (20)

Capturando Dados UFC com Scrapy