1) O documento discute técnicas de web scraping utilizando a linguagem R, apresentando bibliotecas e funções para extração de dados estruturados de páginas da web.
2) São apresentados quatro exemplos práticos de web scraping, incluindo tabelas de campeonato brasileiro, preços de produtos em sites de compras, dados de séries populares no IMDB e cotações de ações da Petrobrás.
3) Na conclusão, o leitor é desafiado a elaborar programas de web scraping para coletar dados de car
2. Web Scraping com R
® Extraindo dados padronizados a partir de páginas
da internet: Web Scraping.
® Estudos de casos de Web Scraping utilizando
bibliotecas da linguagem R.
“Um artista ao olhar para uma rosa vê toda
a sua beleza estética, um cientista, além de
admirá-la, vê os dados que constituem toda
informação daquele universo.”
Richard Feynman, Físico Americano.
4. Web Scraping com R Clientes
Servidor
Transferências
Solicitações
Comandos
Textos e Mídias
Conteúdo
HTML
Formato
CSS
Ação
JS
FRONT
END
Ação
PHP
BACK
END
▪ Python
▪ Pearl
▪ Ruby
▪ Linux
▪ Apache
▪ MySQL
Internet
HTTP
5. Web Scraping com R
Estruturas HTML Hyper Text Markup Language
Linguagem de marcação de hipertextos
Marcação
HTTP
6. Web Scraping com R
➢ O que é Web Scraping?
✓ Raspagem da WEB.
✓ Garimpando a internet.
✓ Coletando dados na rede.
Pergunta:
Como funciona um buscador de imagens?
Resposta:
Um algoritmo que coleta imagens utilizando
a etiqueta <img>.
Conclusão:
Assim como em uma pesquisa de preços, em
WEB Scraping foque nas etiquetas!
Traduções
7. Web Scraping com R
Estruturas HTML Etiquetas Relevantes:
TAG Estrutura HTML TAG Estrutura HTML
<script> Interatividade <tr>, <td>, <th> Tabelas
<ol>, <ul>, <li> Listas <form> Formulários
<dir>, <dt> Diretórios <title> Títulos
<menu> Menu para navegar <p> Parágrafos
<adress> Informações autorais <a> Links externos
<img> Imagens <style> Estilos CSS
<frame>, <iframe> Referências externas <input> Entrada de informação
8. Web Scraping com R
Estruturas CSS Folhas de Estilos em Cascata:
❑ Para importar a estrutura CSS utilize a TAG: <link>
9. Web Scraping com R
PARA ANALISAR O CÓDIGO
FONTE DE UMA PÁGINA, NO
CHROME, DIGITE:
Ctrl + U
Para outros
navegadores:
11. Web Scraping com R
http://material.curso-r.com/scrape/
https://www.selenium.dev/
✓ As Bibliotecas
12. Web Scraping com R
✓ Mais Bibliotecas
❑ selectr – biblioteca leve e personalizável que converte estruturas JS em dados coletáveis.
❑ tydeverse – conjunto de pacotes em R especializados em ciências de dados.
❑ stringr – biblioteca especializada na manipulação de textos e caracteres.
❑ rebus – biblioteca para codificar textos prolixos (muito detalhados) em expressões regulares.
❑ dplyr – biblioteca elaborada para manipular textos considerando regras gramaticais.
❑ lubridate – biblioteca que contém funções especializadas em manipulação de datas.
❑ xts – conjunto de pacotes especializados no tratamento de séries de dados.
❑ infer – pacote especializado em inferência estatística a partir de expressões gramaticais.
❑ ggplot2 – pacote para plotar gráficos muito avançado.
13. Web Scraping com R
✓ Funções de rvest
1.read_html() – coleta o conteúdo HTML de um site.
2.html_nodes() – identifica wrappers (invólucro </>) HTML.
3.html_nodes(“.class”) – identifica uma classe de CSS.
4.html_nodes(“#id”) – identifica uma ID de CSS.
5.html_attrs() – identifica atributos, usado no debug.
6.html_table() – converte tabelas em data frames.
7.html_text() – retira as tags do HTML, extraindo apenas o texto.
23. Web Scraping com R
➢ Para casa: Repita este Web Scraping para uma página com muitos tablets.
No Magazine Luiza mesmo.
24. Web Scraping com R
Exemplo 3 ➢ Coletando dados no IMDB – Melhores Séries
Etapas
✓ Vá até o
site IMDB
✓ Clique no
Menu
✓ Selecione
Most Popular
TV Shows
✓ Sorteie por
IMDB Rating
25. Web Scraping com R
Instale
1
2
3
1) Ative o gadget, 2) Selecione o título e 3) Copie a estrutura HTML.
26. Web Scraping com R
✓ Resultado:
➢ Para casa: Troque “td” pelo termo copiado no slide passado.
27. Web Scraping com R
Exemplo 4 ➢ Cotações das Ações da Petrobrás
http://www.b3.com.br/
28. Web Scraping com R
A tabela não está no site primário, ela está em uma URL
secundária, conforme indicado neste código HTML
▪ http://www2.bmf.com.br/pages/portal/bmfbovespa/lumis/lum-ajustes-do-pregao-ptBR.asp
31. Web Scraping com
R
Elabore um programa que coleta os
preços dos carros no site Webmotors.
Elabore um programa que coleta os
dados do site da Amazon, para
smartphones.
Descubra como extrair os dados dos
resultados dos nossos exemplos.
Na próxima aula vamos conhecer
bancos de dados NoSQL.