SlideShare ist ein Scribd-Unternehmen logo
1 von 61
Downloaden Sie, um offline zu lesen
A DISRUPTIVE
TECHNOLOGY...
FIRST JOB IN A STARTUP
FIRST WEEK
JUST TELL ME WHAT TO DO,
AND I WILL DO IT!
20 Informações Diferentes
De contato do diretor a Ranking do site no Alexa
+ de 100 consultorias e consultores
PRIMEIRA SEMANA
DE TRABALHO
BEM SUCEDIDA
SQN… Isso tudo poderia ter sido feito
em
1 manhã
PRIMEIRA SEMANA
DE TRABALHO
BEM SUCEDIDA?
Thiago Gouveia Rocha
run (
webScraping();
return sucess;
);
Agenda
1. Conceito
a. WebScraping
b. WebCrawling
c. Vantagens
d. Pedras no caminho
2. Tipos de Ferramentas
3. Scrapping + Growth
4. Exercício
webScraping??
webScraping??
CONCEITO
EXTRAIR GRANDES VOLUMES
DE DADOS DE WEBSITES, E
SALVAR DE FORMA
ESTRUTURADA EM UM ARQUIVO
LOCAL OU EM UM BANCO DE
E WEB CRAWLING? NÃO É A MESMA
COISA?
WEB
CRAWLER
passeia pelos
links de um
site
objetivo
de
INDEXAÇ
ÃO
escaneia o
site de
maneira
MAS PRA FAZER ISSO, TEM QUE SER UM
PROGRAMADOR DE ELITE. NÃO É TÃO
SIMPLES!EU NÃO SEI PROGRAMAR. NÃO VOU SABER
FAZER
CRIAR UM ROBÔ? ISSO É COISA DE
2 PRINCIPAIS PILARES DE
SCRAPING
VISITAR A URL QUE CONTENHA OS
DADOS QUE VOCÊ DESEJA!
ENTENDER COMO OS PARÂMETROS
ESTÃO ORGANIZADOS NA URL
#1 FAZER AS REQUISIÇÕES HTTP
CORRETAS
INSPECIONAR A PÁGINA A SER
SCRAPEADA
ENCONTRAR PADRÃO DAS TAGS QUE
ENGLOBAM A INFO DESEJADA
#2 ANÁLISE DO HTML
AUMENTO DE
PRODUTIVIDADE
AUTOMATIZAÇ
ÃO DE
TAREFAS
QUASE TODO WEBSITE
PODE SER SCRAPEADO
ENRIQUECIME
NTO DE
DADOS
OBTENÇÃO DE
INFO COM FINS
DE MKT
...
SÓ DEPENDE DA SUA IMAGINAÇÃO
NO NOSSO CONTEXTO
UTILIZAR TÉCNICAS DE SCRAPING NO B.I.
PEDRAS NO CAMINHO
● Código HTML mal formado ou informação não estruturada
● CAPTCHAS - Sistemas de autenticação feitos para barrar acessos
automatizadO
● Bloqueio, por parte dos administradores dos sites, de acessos em
massa aos dados.
● BLOQUEIO de IP (manual ou seguindo algum critério anti-scraping)
● Serviços anti-bots
● Pequenas variações propositais de HTML e CSS
● Google e twitter (não permitem)
MAS ISSO É LEGAL?
Na teoria qualquer dado público na WEB
pode ser capturado.. porém cuidado:
2014 processou um grupo de
pessoas que usava bots e perfis
falsos para scrapear informações
de outros membros!
DUAS PERGUNTAS PARA SE FAZER
● Os termos de uso do site proíbem a raspagem de
dados?
● Estamos Scrapeando algum material com copyright
para uso comercial?
2. Tipos de Ferramentas
#1 Crawlers
2. Tipos de Ferramentas
#2 Scrapers
Point and click webscraper.io
2. Tipos de Ferramentas
#2 Scrapers
App
2. Tipos de Ferramentas
#2 Scrapers
Code interface
2. Tipos de Ferramentas
#3 DaaS
2. Tipos de Ferramentas
#4 Outros Serviços
#3
E PARA O
TIME DE
GROWTH?
#1 Estudo HubSpot
Descobertas
#1 Publicações longas tem
melhor rankeamento e
atraem mais tráfego orgânico
Descobertas
#2 CTAs de publicações
longas tem conversão pouco
eficiente
Ferramenta: TLDR
#2 OkDork
OkDork
● Analisou a performance do seu próprio blog
Insights
#1 Publicações no Sábado
tende a perfomar melhor
Insights
#2 Publicações começando
com "Why" ou "How"
performam acima da média
Insights
#3 Títulos contendo
números performam 10x
melhor que títulos sem
números
#3 Matthew Barby - Search Engine
Land
Matthew Barby - Search Engine Land
Objetivo: Fazer que um post
performe bem no BuzzFeed
Scrapeando os dados via SEO Tools
Scrapeando os dados via SEO Tools
Resultado: Post gerou mais
de 100k de views e levou
muito tráfego para o seu blog
Matthew Barby - Search Engine Land
Dúvidas
1) Google Flights
2) Trip Advisor
E o que mais podemos
fazer?
Obrigado
pela Atenção!

Weitere ähnliche Inhalte

Ähnlich wie Como webscraping pode ajudar no Marketing?

Cases de SEO: SEO Camp 2009 / Willie Taminato
Cases de SEO: SEO Camp 2009 / Willie TaminatoCases de SEO: SEO Camp 2009 / Willie Taminato
Cases de SEO: SEO Camp 2009 / Willie TaminatoWillie Taminato
 
HTML E WEB - COMO FUNCIONA E TUTORIAL
HTML E WEB - COMO FUNCIONA E TUTORIALHTML E WEB - COMO FUNCIONA E TUTORIAL
HTML E WEB - COMO FUNCIONA E TUTORIALRenato Melo
 
Oficina IV: Marketing de Busca: como alavancar sua marca na internet - Ciclo ...
Oficina IV: Marketing de Busca: como alavancar sua marca na internet - Ciclo ...Oficina IV: Marketing de Busca: como alavancar sua marca na internet - Ciclo ...
Oficina IV: Marketing de Busca: como alavancar sua marca na internet - Ciclo ...Pedro Cordier
 
Guia pratico [completo] de SEO
Guia pratico [completo] de SEOGuia pratico [completo] de SEO
Guia pratico [completo] de SEOBruno Cabrera
 
Rápido ou Ágil? (AgileBrazil 2010)
Rápido ou Ágil? (AgileBrazil 2010)Rápido ou Ágil? (AgileBrazil 2010)
Rápido ou Ágil? (AgileBrazil 2010)Giovanni Bassi
 
SEO FAQ, UaiSEO 2010 - Frank Marcel
SEO FAQ, UaiSEO 2010 - Frank MarcelSEO FAQ, UaiSEO 2010 - Frank Marcel
SEO FAQ, UaiSEO 2010 - Frank Marcelfrankmarcel
 
O que vi na QCon 2012 São Paulo
O que vi na QCon 2012 São PauloO que vi na QCon 2012 São Paulo
O que vi na QCon 2012 São PauloIsmael
 
Aprenda a ser um webmaster
Aprenda a ser um webmasterAprenda a ser um webmaster
Aprenda a ser um webmasterJeferson Souza
 
Scraping for fun and glory annotated
Scraping for fun and glory annotatedScraping for fun and glory annotated
Scraping for fun and glory annotateditalomaia
 
Google analytics-para-search-e-social-campus-party
Google analytics-para-search-e-social-campus-partyGoogle analytics-para-search-e-social-campus-party
Google analytics-para-search-e-social-campus-partyfrankmarcel
 
Como criar um site inteligente e que ajuda sua empresa a vender?
 Como criar um site inteligente e que ajuda sua empresa a vender? Como criar um site inteligente e que ajuda sua empresa a vender?
Como criar um site inteligente e que ajuda sua empresa a vender?Silvio César de Oliveira
 
Quick Wins pra sua carreira decolar 🚀
Quick Wins pra sua carreira decolar 🚀Quick Wins pra sua carreira decolar 🚀
Quick Wins pra sua carreira decolar 🚀Paolo Almeida
 
Raspagem de Dados com Python
Raspagem de Dados com PythonRaspagem de Dados com Python
Raspagem de Dados com PythonThiago Curvelo
 
HTML5 - William Dias - Davi Reine - XVII SACOMP
HTML5 - William Dias - Davi Reine - XVII SACOMPHTML5 - William Dias - Davi Reine - XVII SACOMP
HTML5 - William Dias - Davi Reine - XVII SACOMPWilliam Dias
 
SEO para e-Commerce
SEO para e-CommerceSEO para e-Commerce
SEO para e-CommerceIan Castro
 
11 ESTRATÉGIAS PARA AUMENTAR OS RESULTADOS ATRAVÉS DO MARKETING DIGITAL.pdf
11 ESTRATÉGIAS PARA AUMENTAR OS RESULTADOS ATRAVÉS DO MARKETING DIGITAL.pdf11 ESTRATÉGIAS PARA AUMENTAR OS RESULTADOS ATRAVÉS DO MARKETING DIGITAL.pdf
11 ESTRATÉGIAS PARA AUMENTAR OS RESULTADOS ATRAVÉS DO MARKETING DIGITAL.pdfCliaSousa39
 
Mindset Growth - O poder do produto que gera 5 mil leads mensais - Bruno Cout...
Mindset Growth - O poder do produto que gera 5 mil leads mensais - Bruno Cout...Mindset Growth - O poder do produto que gera 5 mil leads mensais - Bruno Cout...
Mindset Growth - O poder do produto que gera 5 mil leads mensais - Bruno Cout...Product Camp Brasil
 

Ähnlich wie Como webscraping pode ajudar no Marketing? (20)

Cases de SEO: SEO Camp 2009 / Willie Taminato
Cases de SEO: SEO Camp 2009 / Willie TaminatoCases de SEO: SEO Camp 2009 / Willie Taminato
Cases de SEO: SEO Camp 2009 / Willie Taminato
 
HTML E WEB - COMO FUNCIONA E TUTORIAL
HTML E WEB - COMO FUNCIONA E TUTORIALHTML E WEB - COMO FUNCIONA E TUTORIAL
HTML E WEB - COMO FUNCIONA E TUTORIAL
 
Oficina IV: Marketing de Busca: como alavancar sua marca na internet - Ciclo ...
Oficina IV: Marketing de Busca: como alavancar sua marca na internet - Ciclo ...Oficina IV: Marketing de Busca: como alavancar sua marca na internet - Ciclo ...
Oficina IV: Marketing de Busca: como alavancar sua marca na internet - Ciclo ...
 
Guia pratico [completo] de SEO
Guia pratico [completo] de SEOGuia pratico [completo] de SEO
Guia pratico [completo] de SEO
 
Rápido ou Ágil? (AgileBrazil 2010)
Rápido ou Ágil? (AgileBrazil 2010)Rápido ou Ágil? (AgileBrazil 2010)
Rápido ou Ágil? (AgileBrazil 2010)
 
SEO FAQ, UaiSEO 2010 - Frank Marcel
SEO FAQ, UaiSEO 2010 - Frank MarcelSEO FAQ, UaiSEO 2010 - Frank Marcel
SEO FAQ, UaiSEO 2010 - Frank Marcel
 
O Desenvolvedor Web
O Desenvolvedor WebO Desenvolvedor Web
O Desenvolvedor Web
 
O que vi na QCon 2012 São Paulo
O que vi na QCon 2012 São PauloO que vi na QCon 2012 São Paulo
O que vi na QCon 2012 São Paulo
 
Aprenda a ser um webmaster
Aprenda a ser um webmasterAprenda a ser um webmaster
Aprenda a ser um webmaster
 
Scraping for fun and glory annotated
Scraping for fun and glory annotatedScraping for fun and glory annotated
Scraping for fun and glory annotated
 
Google analytics-para-search-e-social-campus-party
Google analytics-para-search-e-social-campus-partyGoogle analytics-para-search-e-social-campus-party
Google analytics-para-search-e-social-campus-party
 
Como criar um site inteligente e que ajuda sua empresa a vender?
 Como criar um site inteligente e que ajuda sua empresa a vender? Como criar um site inteligente e que ajuda sua empresa a vender?
Como criar um site inteligente e que ajuda sua empresa a vender?
 
Quick Wins pra sua carreira decolar 🚀
Quick Wins pra sua carreira decolar 🚀Quick Wins pra sua carreira decolar 🚀
Quick Wins pra sua carreira decolar 🚀
 
Raspagem de Dados com Python
Raspagem de Dados com PythonRaspagem de Dados com Python
Raspagem de Dados com Python
 
HTML5 - William Dias - Davi Reine - XVII SACOMP
HTML5 - William Dias - Davi Reine - XVII SACOMPHTML5 - William Dias - Davi Reine - XVII SACOMP
HTML5 - William Dias - Davi Reine - XVII SACOMP
 
Web do Futuro
Web do FuturoWeb do Futuro
Web do Futuro
 
SEO para e-Commerce
SEO para e-CommerceSEO para e-Commerce
SEO para e-Commerce
 
11 ESTRATÉGIAS PARA AUMENTAR OS RESULTADOS ATRAVÉS DO MARKETING DIGITAL.pdf
11 ESTRATÉGIAS PARA AUMENTAR OS RESULTADOS ATRAVÉS DO MARKETING DIGITAL.pdf11 ESTRATÉGIAS PARA AUMENTAR OS RESULTADOS ATRAVÉS DO MARKETING DIGITAL.pdf
11 ESTRATÉGIAS PARA AUMENTAR OS RESULTADOS ATRAVÉS DO MARKETING DIGITAL.pdf
 
Planejamento e Desenvolvimento de Web Sites
Planejamento e Desenvolvimento de Web SitesPlanejamento e Desenvolvimento de Web Sites
Planejamento e Desenvolvimento de Web Sites
 
Mindset Growth - O poder do produto que gera 5 mil leads mensais - Bruno Cout...
Mindset Growth - O poder do produto que gera 5 mil leads mensais - Bruno Cout...Mindset Growth - O poder do produto que gera 5 mil leads mensais - Bruno Cout...
Mindset Growth - O poder do produto que gera 5 mil leads mensais - Bruno Cout...
 

Como webscraping pode ajudar no Marketing?

Hinweis der Redaktion

  1. INTRODUCTION -> Storytelling ou pergunta geral. Acredito que todo mundo aqui já tenha tido que extrair informações de sites pra jogar em uma planilha. Meros mortais (como eu) teriam ido direto no CTRL C CTRL, para cada informação que precisavam. Pesquisa de mercado para conseguir informações de consultorias de RH em uma região específica. Trabalho feito em 5 dias, se soubesse scrapear, poderia ter sido feito em 2 horas Fazer link também com algo que será apresentado pelo Thiago. (ex: O mesmo vale para..) A maioria das páginas que contenham um conteúdo com uma mínima estruturação, podem ser scrapeado. Without web scraping, the Internet as you know it really wouldn’t exist. That’s because Google and other major search engines rely upon a sophisticated web scraper to pull the content that will get included in their index.
  2. INTRODUCTION -> Storytelling ou pergunta geral. Acredito que todo mundo aqui já tenha tido que extrair informações de sites pra jogar em uma planilha. Meros mortais (como eu) teriam ido direto no CTRL C CTRL, para cada informação que precisavam. Pesquisa de mercado para conseguir informações de consultorias de RH em uma região específica. Trabalho feito em 5 dias, se soubesse scrapear, poderia ter sido feito em 2 horas Fazer link também com algo que será apresentado pelo Thiago. (ex: O mesmo vale para..) A maioria das páginas que contenham um conteúdo com uma mínima estruturação, podem ser scrapeado. Without web scraping, the Internet as you know it really wouldn’t exist. That’s because Google and other major search engines rely upon a sophisticated web scraper to pull the content that will get included in their index.
  3. É uma técnica aplicada para extrair grandes volumes de dados de websites, e salvá-los de forma estruturada em um arquivo local no seu computador, ou em um banco de dados, preservando a estrutura da informação. Para que isso aconteça, é usado um utilitário de captura (ferramenta/software) ou código que fará a busca e análise da informação que você precisa dentro de um website. O objetivo da maioria desses métodos é obter acesso a dados legíveis por máquinas. São dados criados para serem processados por computadores, em vez de serem apresentados a um ser humano. A estrutura desses dados está relacionada à informação que eles representam e não na maneira como são eventualmente exibidos.
  4. Crawling would be essentially what Google, Yahoo, MSN, etc. do, looking for ANY information. Scraping is generally targeted at certain websites, for specfic data, e.g. for price comparison, so are coded quite differently. Usually a scraper will be bespoke to the websites it is supposed to be scraping, and would be doing things a (good) crawler wouldn't do, i.e.: Have no regard for robots.txt Identify itself as a browser Submit forms with data Execute Javascript (if required to act like a user)
  5. Conceitos Básicos por trás do Scrapping O nome Web Scraping é sempre relacionado a robôs (bots) automatizados e terminologias de programação, código, e web, parece coisa de desenvolvedores fodas, programadores de elite, e que pessoas normais nunca conseguiriam fazer.. Então, para simplificar um pouco, é legal entender o que um Scraping realmente faz. O Scraping se baseia em duas "tecnologias web" básicas que vocês lidam todo dia: Fazer os as requisições HTTP corretas, o que nada mais é do que visitar uma URL que contenha os dados que você quer extrair e entender como a informação está organizada na URL, encontrando os paramêntros que mudam dependendo da navegação e das queries. The majority of the HTTP request's information is stored in the URL -- things like the domain, path and query arguments. There are some other important bits of information as well -- like the request method and headers -- but those are easy to send as well." Análise do HTML (ou outra linguagem de resposta. Que é fácil de realizar inspecionando a página que contém o dado desejado. Basta achar o padrão das TAGS HTML que englobam a informação que você precisa.
  6. Conceitos Básicos por trás do Scrapping O nome Web Scraping é sempre relacionado a robôs (bots) automatizados e terminologias de programação, código, e web, parece coisa de desenvolvedores fodas, programadores de elite, e que pessoas normais nunca conseguiriam fazer.. Então, para simplificar um pouco, é legal entender o que um Scraping realmente faz. O Scraping se baseia em duas "tecnologias web" básicas que vocês lidam todo dia: Fazer os as requisições HTTP corretas, o que nada mais é do que visitar uma URL que contenha os dados que você quer extrair e entender como a informação está organizada na URL, encontrando os paramêntros que mudam dependendo da navegação e das queries. The majority of the HTTP request's information is stored in the URL -- things like the domain, path and query arguments. There are some other important bits of information as well -- like the request method and headers -- but those are easy to send as well." Análise do HTML (ou outra linguagem de resposta. Que é fácil de realizar inspecionando a página que contém o dado desejado. Basta achar o padrão das TAGS HTML que englobam a informação que você precisa.
  7. Conceitos Básicos por trás do Scrapping O nome Web Scraping é sempre relacionado a robôs (bots) automatizados e terminologias de programação, código, e web, parece coisa de desenvolvedores fodas, programadores de elite, e que pessoas normais nunca conseguiriam fazer.. Então, para simplificar um pouco, é legal entender o que um Scraping realmente faz. O Scraping se baseia em duas "tecnologias web" básicas que vocês lidam todo dia: Fazer os as requisições HTTP corretas, o que nada mais é do que visitar uma URL que contenha os dados que você quer extrair e entender como a informação está organizada na URL, encontrando os paramêntros que mudam dependendo da navegação e das queries. The majority of the HTTP request's information is stored in the URL -- things like the domain, path and query arguments. There are some other important bits of information as well -- like the request method and headers -- but those are easy to send as well." Análise do HTML (ou outra linguagem de resposta. Que é fácil de realizar inspecionando a página que contém o dado desejado. Basta achar o padrão das TAGS HTML que englobam a informação que você precisa.
  8. Conceitos Básicos por trás do Scrapping O nome Web Scraping é sempre relacionado a robôs (bots) automatizados e terminologias de programação, código, e web, parece coisa de desenvolvedores fodas, programadores de elite, e que pessoas normais nunca conseguiriam fazer.. Então, para simplificar um pouco, é legal entender o que um Scraping realmente faz. O Scraping se baseia em duas "tecnologias web" básicas que vocês lidam todo dia: Fazer os as requisições HTTP corretas, o que nada mais é do que visitar uma URL que contenha os dados que você quer extrair e entender como a informação está organizada na URL, encontrando os paramêntros que mudam dependendo da navegação e das queries. The majority of the HTTP request's information is stored in the URL -- things like the domain, path and query arguments. There are some other important bits of information as well -- like the request method and headers -- but those are easy to send as well." Análise do HTML (ou outra linguagem de resposta. Que é fácil de realizar inspecionando a página que contém o dado desejado. Basta achar o padrão das TAGS HTML que englobam a informação que você precisa.
  9. Conceitos Básicos por trás do Scrapping O nome Web Scraping é sempre relacionado a robôs (bots) automatizados e terminologias de programação, código, e web, parece coisa de desenvolvedores fodas, programadores de elite, e que pessoas normais nunca conseguiriam fazer.. Então, para simplificar um pouco, é legal entender o que um Scraping realmente faz. O Scraping se baseia em duas "tecnologias web" básicas que vocês lidam todo dia: Fazer os as requisições HTTP corretas, o que nada mais é do que visitar uma URL que contenha os dados que você quer extrair e entender como a informação está organizada na URL, encontrando os paramêntros que mudam dependendo da navegação e das queries. The majority of the HTTP request's information is stored in the URL -- things like the domain, path and query arguments. There are some other important bits of information as well -- like the request method and headers -- but those are easy to send as well." Análise do HTML (ou outra linguagem de resposta. Que é fácil de realizar inspecionando a página que contém o dado desejado. Basta achar o padrão das TAGS HTML que englobam a informação que você precisa.
  10. Contact Scraping: Obtendo acesso de emails e outras informações que podem ser usadas com fins de Marketing. Cruzamento de informações Enriquecimento dos mais variados dados Atualização dos dados em tempo real Automatização de tarefas Aumento de produtividade Possibilidade de fazer em praticamente qualquer site, para informações públicas
  11. É uma técnica aplicada para extrair grandes volumes de dados de websites, e salvá-los de forma estruturada em um arquivo local no seu computador, ou em um banco de dados, preservando a estrutura da informação. Para que isso aconteça, é usado um utilitário de captura (ferramenta/software) ou código que fará a busca e análise da informação que você precisa dentro de um website. O objetivo da maioria desses métodos é obter acesso a dados legíveis por máquinas. São dados criados para serem processados por computadores, em vez de serem apresentados a um ser humano. A estrutura desses dados está relacionada à informação que eles representam e não na maneira como são eventualmente exibidos.
  12. Blocking an IP address either manually or based on criteria such as Geolocation and DNSRBL. This will also block all browsing from that address. Disabling any web service API that the website's system might expose. Bots sometimes declare who they are (using user agent strings) and can be blocked on that basis (using robots.txt); 'googlebot' is an example. Other bots make no distinction between themselves and a human using a browser. Bots can be blocked by excess traffic monitoring. Bots can sometimes be blocked with tools to verify that it is a real person accessing the site, like a CAPTCHA. Bots are sometimes coded to explicitly break specific CAPTCHA patterns or may employ third-party services that utilize human labor to read and respond in real-time to CAPTCHA challenges. Commercial anti-bot services: Companies offer anti-bot and anti-scraping services for websites. A few web application firewalls have limited bot detection capabilities as well. Locating bots with a honeypot or other method to identify the IP addresses of automated crawlers. Obfuscation using CSS sprites to display such data as phone numbers or email addresses, at the cost of accessibility to screen reader users. Because bots rely on consistency in the front-end code of a target website, adding small variations to the HTML/CSS surrounding important data and navigation elements would require more human involvement in the initial set up of a bot and if done effectively may render the target website too difficult to scrape due to the diminished ability to automate the scraping process.