O documento descreve como usar a biblioteca Scrapy em Python para criar um web crawler. Ele explica o que é um web crawler, sua estrutura básica e como Scrapy resolve problemas comuns como autenticação, sessões, requisições simultâneas e persistência de dados. Em seguida, guia o leitor passo a passo na criação de um crawler para extrair informações de lutadores do site UFC.com.
3. O
que
é
um
web
crawler?
•
“Web
crawler
é
um
programa
de
computador
que
navega
pela
World
Wide
Web
de
uma
forma
metódica
e
automaAzada”hEp://
pt.wikipedia.org/wiki/Web_crawler
8. Estrutura
básica
de
um
web
crawler
• Construção
de
requisições
HTTP
•
Tratamento
da
resposta
– Composição
de
objetos
– Composição
de
novas
requisições
9. Estrutura
básica
de
um
web
crawler
• Construção
de
requisições
HTTP
•
Tratamento
da
resposta
– Composição
de
objetos
– Composição
de
novas
requisições
• Persistência
de
dados
15. Mas
qual
o
problema?
•
Ter
que
resolver
tudo
na
mão:
– Se
Aver
autenAcação?
– Trabalhar
com
sessão,
cookie...
– HTML
mal
formatado
– Requisições
Simultâneas
– Aumento
de
pontos
de
falha
– Etc..