Como webscraping pode ajudar no Marketing?

•

0 gefällt mir•559 views

Thiago Rocha

Marketing

FIRST JOB IN A STARTUP
FIRST WEEK
JUST TELL ME WHAT TO DO,
AND I WILL DO IT!

20 Informações Diferentes
De contato do diretor a Ranking do site no Alexa
+ de 100 consultorias e consultores

PRIMEIRA SEMANA
DE TRABALHO
BEM SUCEDIDA

SQN… Isso tudo poderia ter sido feito
em
1 manhã
PRIMEIRA SEMANA
DE TRABALHO
BEM SUCEDIDA?

Thiago Gouveia Rocha
run (
webScraping();
return sucess;
);

Agenda
1. Conceito
a. WebScraping
b. WebCrawling
c. Vantagens
d. Pedras no caminho
2. Tipos de Ferramentas
3. Scrapping + Growth
4. Exercício

CONCEITO
EXTRAIR GRANDES VOLUMES
DE DADOS DE WEBSITES, E
SALVAR DE FORMA
ESTRUTURADA EM UM ARQUIVO
LOCAL OU EM UM BANCO DE

E WEB CRAWLING? NÃO É A MESMA
COISA?
WEB
CRAWLER
passeia pelos
links de um
site
objetivo
de
INDEXAÇ
ÃO
escaneia o
site de
maneira

MAS PRA FAZER ISSO, TEM QUE SER UM
PROGRAMADOR DE ELITE. NÃO É TÃO
SIMPLES!EU NÃO SEI PROGRAMAR. NÃO VOU SABER
FAZER
CRIAR UM ROBÔ? ISSO É COISA DE

VISITAR A URL QUE CONTENHA OS
DADOS QUE VOCÊ DESEJA!
ENTENDER COMO OS PARÂMETROS
ESTÃO ORGANIZADOS NA URL
#1 FAZER AS REQUISIÇÕES HTTP
CORRETAS

INSPECIONAR A PÁGINA A SER
SCRAPEADA
ENCONTRAR PADRÃO DAS TAGS QUE
ENGLOBAM A INFO DESEJADA
#2 ANÁLISE DO HTML

AUMENTO DE
PRODUTIVIDADE
AUTOMATIZAÇ
ÃO DE
TAREFAS
QUASE TODO WEBSITE
PODE SER SCRAPEADO
ENRIQUECIME
NTO DE
DADOS
OBTENÇÃO DE
INFO COM FINS
DE MKT
...

NO NOSSO CONTEXTO
UTILIZAR TÉCNICAS DE SCRAPING NO B.I.

PEDRAS NO CAMINHO
● Código HTML mal formado ou informação não estruturada
● CAPTCHAS - Sistemas de autenticação feitos para barrar acessos
automatizadO
● Bloqueio, por parte dos administradores dos sites, de acessos em
massa aos dados.
● BLOQUEIO de IP (manual ou seguindo algum critério anti-scraping)
● Serviços anti-bots
● Pequenas variações propositais de HTML e CSS
● Google e twitter (não permitem)

MAS ISSO É LEGAL?
Na teoria qualquer dado público na WEB
pode ser capturado.. porém cuidado:
2014 processou um grupo de
pessoas que usava bots e perfis
falsos para scrapear informações
de outros membros!

DUAS PERGUNTAS PARA SE FAZER
● Os termos de uso do site proíbem a raspagem de
dados?
● Estamos Scrapeando algum material com copyright
para uso comercial?

2. Tipos de Ferramentas
#2 Scrapers
Point and click webscraper.io

2. Tipos de Ferramentas
#2 Scrapers
Code interface

2. Tipos de Ferramentas
#4 Outros Serviços

Descobertas
#1 Publicações longas tem
melhor rankeamento e
atraem mais tráfego orgânico

Descobertas
#2 CTAs de publicações
longas tem conversão pouco
eficiente

OkDork
● Analisou a performance do seu próprio blog

Insights
#1 Publicações no Sábado
tende a perfomar melhor

Insights
#2 Publicações começando
com "Why" ou "How"
performam acima da média

Insights
#3 Títulos contendo
números performam 10x
melhor que títulos sem
números

Matthew Barby - Search Engine Land
Objetivo: Fazer que um post
performe bem no BuzzFeed

Resultado: Post gerou mais
de 100k de views e levou
muito tráfego para o seu blog
Matthew Barby - Search Engine Land

Weitere ähnliche Inhalte

Ähnlich wie Como webscraping pode ajudar no Marketing?

Cases de SEO: SEO Camp 2009 / Willie TaminatoWillie Taminato

HTML E WEB - COMO FUNCIONA E TUTORIALRenato Melo

Oficina IV: Marketing de Busca: como alavancar sua marca na internet - Ciclo ...Pedro Cordier

Guia pratico [completo] de SEOBruno Cabrera

Rápido ou Ágil? (AgileBrazil 2010)Giovanni Bassi

SEO FAQ, UaiSEO 2010 - Frank Marcelfrankmarcel

O Desenvolvedor WebRafael Carneiro

O que vi na QCon 2012 São PauloIsmael

Aprenda a ser um webmasterJeferson Souza

Scraping for fun and glory annotateditalomaia

Google analytics-para-search-e-social-campus-partyfrankmarcel

Como criar um site inteligente e que ajuda sua empresa a vender?Silvio César de Oliveira

Quick Wins pra sua carreira decolar 🚀Paolo Almeida

Raspagem de Dados com PythonThiago Curvelo

HTML5 - William Dias - Davi Reine - XVII SACOMPWilliam Dias

Web do FuturoFuture Press, E-Press, Presentations,

SEO para e-CommerceIan Castro

11 ESTRATÉGIAS PARA AUMENTAR OS RESULTADOS ATRAVÉS DO MARKETING DIGITAL.pdfCliaSousa39

Planejamento e Desenvolvimento de Web SitesRenato Bongiorno Bonfanti

Mindset Growth - O poder do produto que gera 5 mil leads mensais - Bruno Cout...Product Camp Brasil

Ähnlich wie Como webscraping pode ajudar no Marketing? (20)

Cases de SEO: SEO Camp 2009 / Willie Taminato

HTML E WEB - COMO FUNCIONA E TUTORIAL

Oficina IV: Marketing de Busca: como alavancar sua marca na internet - Ciclo ...

Guia pratico [completo] de SEO

Rápido ou Ágil? (AgileBrazil 2010)

SEO FAQ, UaiSEO 2010 - Frank Marcel

O Desenvolvedor Web

O que vi na QCon 2012 São Paulo

Aprenda a ser um webmaster

Scraping for fun and glory annotated

Google analytics-para-search-e-social-campus-party

Como criar um site inteligente e que ajuda sua empresa a vender?

Quick Wins pra sua carreira decolar 🚀

Raspagem de Dados com Python

HTML5 - William Dias - Davi Reine - XVII SACOMP

Web do Futuro

SEO para e-Commerce

11 ESTRATÉGIAS PARA AUMENTAR OS RESULTADOS ATRAVÉS DO MARKETING DIGITAL.pdf

Planejamento e Desenvolvimento de Web Sites

Mindset Growth - O poder do produto que gera 5 mil leads mensais - Bruno Cout...

Como webscraping pode ajudar no Marketing?

1. A DISRUPTIVE TECHNOLOGY...

3. FIRST JOB IN A STARTUP FIRST WEEK JUST TELL ME WHAT TO DO, AND I WILL DO IT!

6. 20 Informações Diferentes De contato do diretor a Ranking do site no Alexa + de 100 consultorias e consultores

8. PRIMEIRA SEMANA DE TRABALHO BEM SUCEDIDA

9. SQN… Isso tudo poderia ter sido feito em 1 manhã PRIMEIRA SEMANA DE TRABALHO BEM SUCEDIDA?

10.

11. Thiago Gouveia Rocha run ( webScraping(); return sucess; );

12. Agenda 1. Conceito a. WebScraping b. WebCrawling c. Vantagens d. Pedras no caminho 2. Tipos de Ferramentas 3. Scrapping + Growth 4. Exercício

13. webScraping??

14. webScraping??

15. CONCEITO EXTRAIR GRANDES VOLUMES DE DADOS DE WEBSITES, E SALVAR DE FORMA ESTRUTURADA EM UM ARQUIVO LOCAL OU EM UM BANCO DE

16. E WEB CRAWLING? NÃO É A MESMA COISA? WEB CRAWLER passeia pelos links de um site objetivo de INDEXAÇ ÃO escaneia o site de maneira

17. MAS PRA FAZER ISSO, TEM QUE SER UM PROGRAMADOR DE ELITE. NÃO É TÃO SIMPLES!EU NÃO SEI PROGRAMAR. NÃO VOU SABER FAZER CRIAR UM ROBÔ? ISSO É COISA DE

18.

19. 2 PRINCIPAIS PILARES DE SCRAPING

20. VISITAR A URL QUE CONTENHA OS DADOS QUE VOCÊ DESEJA! ENTENDER COMO OS PARÂMETROS ESTÃO ORGANIZADOS NA URL #1 FAZER AS REQUISIÇÕES HTTP CORRETAS

21. INSPECIONAR A PÁGINA A SER SCRAPEADA ENCONTRAR PADRÃO DAS TAGS QUE ENGLOBAM A INFO DESEJADA #2 ANÁLISE DO HTML

22. AUMENTO DE PRODUTIVIDADE AUTOMATIZAÇ ÃO DE TAREFAS QUASE TODO WEBSITE PODE SER SCRAPEADO ENRIQUECIME NTO DE DADOS OBTENÇÃO DE INFO COM FINS DE MKT ...

23. SÓ DEPENDE DA SUA IMAGINAÇÃO

24. NO NOSSO CONTEXTO UTILIZAR TÉCNICAS DE SCRAPING NO B.I.

25. PEDRAS NO CAMINHO ● Código HTML mal formado ou informação não estruturada ● CAPTCHAS - Sistemas de autenticação feitos para barrar acessos automatizadO ● Bloqueio, por parte dos administradores dos sites, de acessos em massa aos dados. ● BLOQUEIO de IP (manual ou seguindo algum critério anti-scraping) ● Serviços anti-bots ● Pequenas variações propositais de HTML e CSS ● Google e twitter (não permitem)

26.

27. MAS ISSO É LEGAL? Na teoria qualquer dado público na WEB pode ser capturado.. porém cuidado: 2014 processou um grupo de pessoas que usava bots e perfis falsos para scrapear informações de outros membros!

28. DUAS PERGUNTAS PARA SE FAZER ● Os termos de uso do site proíbem a raspagem de dados? ● Estamos Scrapeando algum material com copyright para uso comercial?

29.

30. 2. Tipos de Ferramentas #1 Crawlers

31. 2. Tipos de Ferramentas #2 Scrapers Point and click webscraper.io

32. 2. Tipos de Ferramentas #2 Scrapers App

33. 2. Tipos de Ferramentas #2 Scrapers Code interface

34. 2. Tipos de Ferramentas #3 DaaS

35. 2. Tipos de Ferramentas #4 Outros Serviços

36. #3 E PARA O TIME DE GROWTH?

37. #1 Estudo HubSpot

38.

39.

40. Descobertas #1 Publicações longas tem melhor rankeamento e atraem mais tráfego orgânico

41.

42. Descobertas #2 CTAs de publicações longas tem conversão pouco eficiente

43. Ferramenta: TLDR

44. #2 OkDork

45. OkDork ● Analisou a performance do seu próprio blog

46. Insights #1 Publicações no Sábado tende a perfomar melhor

47. Insights #2 Publicações começando com "Why" ou "How" performam acima da média

48. Insights #3 Títulos contendo números performam 10x melhor que títulos sem números

49. #3 Matthew Barby - Search Engine Land

50. Matthew Barby - Search Engine Land Objetivo: Fazer que um post performe bem no BuzzFeed

51. Scrapeando os dados via SEO Tools

52.

53. Scrapeando os dados via SEO Tools

54.

55. Resultado: Post gerou mais de 100k de views e levou muito tráfego para o seu blog Matthew Barby - Search Engine Land

56. Dúvidas

57.

58. 1) Google Flights

59. 2) Trip Advisor

60. E o que mais podemos fazer?

61. Obrigado pela Atenção!

Hinweis der Redaktion

INTRODUCTION -> Storytelling ou pergunta geral. Acredito que todo mundo aqui já tenha tido que extrair informações de sites pra jogar em uma planilha. Meros mortais (como eu) teriam ido direto no CTRL C CTRL, para cada informação que precisavam. Pesquisa de mercado para conseguir informações de consultorias de RH em uma região específica. Trabalho feito em 5 dias, se soubesse scrapear, poderia ter sido feito em 2 horas Fazer link também com algo que será apresentado pelo Thiago. (ex: O mesmo vale para..) A maioria das páginas que contenham um conteúdo com uma mínima estruturação, podem ser scrapeado. Without web scraping, the Internet as you know it really wouldn’t exist. That’s because Google and other major search engines rely upon a sophisticated web scraper to pull the content that will get included in their index.
INTRODUCTION -> Storytelling ou pergunta geral. Acredito que todo mundo aqui já tenha tido que extrair informações de sites pra jogar em uma planilha. Meros mortais (como eu) teriam ido direto no CTRL C CTRL, para cada informação que precisavam. Pesquisa de mercado para conseguir informações de consultorias de RH em uma região específica. Trabalho feito em 5 dias, se soubesse scrapear, poderia ter sido feito em 2 horas Fazer link também com algo que será apresentado pelo Thiago. (ex: O mesmo vale para..) A maioria das páginas que contenham um conteúdo com uma mínima estruturação, podem ser scrapeado. Without web scraping, the Internet as you know it really wouldn’t exist. That’s because Google and other major search engines rely upon a sophisticated web scraper to pull the content that will get included in their index.
É uma técnica aplicada para extrair grandes volumes de dados de websites, e salvá-los de forma estruturada em um arquivo local no seu computador, ou em um banco de dados, preservando a estrutura da informação. Para que isso aconteça, é usado um utilitário de captura (ferramenta/software) ou código que fará a busca e análise da informação que você precisa dentro de um website. O objetivo da maioria desses métodos é obter acesso a dados legíveis por máquinas. São dados criados para serem processados por computadores, em vez de serem apresentados a um ser humano. A estrutura desses dados está relacionada à informação que eles representam e não na maneira como são eventualmente exibidos.
Crawling would be essentially what Google, Yahoo, MSN, etc. do, looking for ANY information. Scraping is generally targeted at certain websites, for specfic data, e.g. for price comparison, so are coded quite differently. Usually a scraper will be bespoke to the websites it is supposed to be scraping, and would be doing things a (good) crawler wouldn't do, i.e.: Have no regard for robots.txt Identify itself as a browser Submit forms with data Execute Javascript (if required to act like a user)
Conceitos Básicos por trás do Scrapping O nome Web Scraping é sempre relacionado a robôs (bots) automatizados e terminologias de programação, código, e web, parece coisa de desenvolvedores fodas, programadores de elite, e que pessoas normais nunca conseguiriam fazer.. Então, para simplificar um pouco, é legal entender o que um Scraping realmente faz. O Scraping se baseia em duas "tecnologias web" básicas que vocês lidam todo dia: Fazer os as requisições HTTP corretas, o que nada mais é do que visitar uma URL que contenha os dados que você quer extrair e entender como a informação está organizada na URL, encontrando os paramêntros que mudam dependendo da navegação e das queries. The majority of the HTTP request's information is stored in the URL -- things like the domain, path and query arguments. There are some other important bits of information as well -- like the request method and headers -- but those are easy to send as well." Análise do HTML (ou outra linguagem de resposta. Que é fácil de realizar inspecionando a página que contém o dado desejado. Basta achar o padrão das TAGS HTML que englobam a informação que você precisa.
Conceitos Básicos por trás do Scrapping O nome Web Scraping é sempre relacionado a robôs (bots) automatizados e terminologias de programação, código, e web, parece coisa de desenvolvedores fodas, programadores de elite, e que pessoas normais nunca conseguiriam fazer.. Então, para simplificar um pouco, é legal entender o que um Scraping realmente faz. O Scraping se baseia em duas "tecnologias web" básicas que vocês lidam todo dia: Fazer os as requisições HTTP corretas, o que nada mais é do que visitar uma URL que contenha os dados que você quer extrair e entender como a informação está organizada na URL, encontrando os paramêntros que mudam dependendo da navegação e das queries. The majority of the HTTP request's information is stored in the URL -- things like the domain, path and query arguments. There are some other important bits of information as well -- like the request method and headers -- but those are easy to send as well." Análise do HTML (ou outra linguagem de resposta. Que é fácil de realizar inspecionando a página que contém o dado desejado. Basta achar o padrão das TAGS HTML que englobam a informação que você precisa.
Conceitos Básicos por trás do Scrapping O nome Web Scraping é sempre relacionado a robôs (bots) automatizados e terminologias de programação, código, e web, parece coisa de desenvolvedores fodas, programadores de elite, e que pessoas normais nunca conseguiriam fazer.. Então, para simplificar um pouco, é legal entender o que um Scraping realmente faz. O Scraping se baseia em duas "tecnologias web" básicas que vocês lidam todo dia: Fazer os as requisições HTTP corretas, o que nada mais é do que visitar uma URL que contenha os dados que você quer extrair e entender como a informação está organizada na URL, encontrando os paramêntros que mudam dependendo da navegação e das queries. The majority of the HTTP request's information is stored in the URL -- things like the domain, path and query arguments. There are some other important bits of information as well -- like the request method and headers -- but those are easy to send as well." Análise do HTML (ou outra linguagem de resposta. Que é fácil de realizar inspecionando a página que contém o dado desejado. Basta achar o padrão das TAGS HTML que englobam a informação que você precisa.
Conceitos Básicos por trás do Scrapping O nome Web Scraping é sempre relacionado a robôs (bots) automatizados e terminologias de programação, código, e web, parece coisa de desenvolvedores fodas, programadores de elite, e que pessoas normais nunca conseguiriam fazer.. Então, para simplificar um pouco, é legal entender o que um Scraping realmente faz. O Scraping se baseia em duas "tecnologias web" básicas que vocês lidam todo dia: Fazer os as requisições HTTP corretas, o que nada mais é do que visitar uma URL que contenha os dados que você quer extrair e entender como a informação está organizada na URL, encontrando os paramêntros que mudam dependendo da navegação e das queries. The majority of the HTTP request's information is stored in the URL -- things like the domain, path and query arguments. There are some other important bits of information as well -- like the request method and headers -- but those are easy to send as well." Análise do HTML (ou outra linguagem de resposta. Que é fácil de realizar inspecionando a página que contém o dado desejado. Basta achar o padrão das TAGS HTML que englobam a informação que você precisa.
Conceitos Básicos por trás do Scrapping O nome Web Scraping é sempre relacionado a robôs (bots) automatizados e terminologias de programação, código, e web, parece coisa de desenvolvedores fodas, programadores de elite, e que pessoas normais nunca conseguiriam fazer.. Então, para simplificar um pouco, é legal entender o que um Scraping realmente faz. O Scraping se baseia em duas "tecnologias web" básicas que vocês lidam todo dia: Fazer os as requisições HTTP corretas, o que nada mais é do que visitar uma URL que contenha os dados que você quer extrair e entender como a informação está organizada na URL, encontrando os paramêntros que mudam dependendo da navegação e das queries. The majority of the HTTP request's information is stored in the URL -- things like the domain, path and query arguments. There are some other important bits of information as well -- like the request method and headers -- but those are easy to send as well." Análise do HTML (ou outra linguagem de resposta. Que é fácil de realizar inspecionando a página que contém o dado desejado. Basta achar o padrão das TAGS HTML que englobam a informação que você precisa.
Contact Scraping: Obtendo acesso de emails e outras informações que podem ser usadas com fins de Marketing. Cruzamento de informações Enriquecimento dos mais variados dados Atualização dos dados em tempo real Automatização de tarefas Aumento de produtividade Possibilidade de fazer em praticamente qualquer site, para informações públicas
É uma técnica aplicada para extrair grandes volumes de dados de websites, e salvá-los de forma estruturada em um arquivo local no seu computador, ou em um banco de dados, preservando a estrutura da informação. Para que isso aconteça, é usado um utilitário de captura (ferramenta/software) ou código que fará a busca e análise da informação que você precisa dentro de um website. O objetivo da maioria desses métodos é obter acesso a dados legíveis por máquinas. São dados criados para serem processados por computadores, em vez de serem apresentados a um ser humano. A estrutura desses dados está relacionada à informação que eles representam e não na maneira como são eventualmente exibidos.
Blocking an IP address either manually or based on criteria such as Geolocation and DNSRBL. This will also block all browsing from that address. Disabling any web service API that the website's system might expose. Bots sometimes declare who they are (using user agent strings) and can be blocked on that basis (using robots.txt); 'googlebot' is an example. Other bots make no distinction between themselves and a human using a browser. Bots can be blocked by excess traffic monitoring. Bots can sometimes be blocked with tools to verify that it is a real person accessing the site, like a CAPTCHA. Bots are sometimes coded to explicitly break specific CAPTCHA patterns or may employ third-party services that utilize human labor to read and respond in real-time to CAPTCHA challenges. Commercial anti-bot services: Companies offer anti-bot and anti-scraping services for websites. A few web application firewalls have limited bot detection capabilities as well. Locating bots with a honeypot or other method to identify the IP addresses of automated crawlers. Obfuscation using CSS sprites to display such data as phone numbers or email addresses, at the cost of accessibility to screen reader users. Because bots rely on consistency in the front-end code of a target website, adding small variations to the HTML/CSS surrounding important data and navigation elements would require more human involvement in the initial set up of a bot and if done effectively may render the target website too difficult to scrape due to the diminished ability to automate the scraping process.

Como webscraping pode ajudar no Marketing?

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Como webscraping pode ajudar no Marketing?

Ähnlich wie Como webscraping pode ajudar no Marketing? (20)

Como webscraping pode ajudar no Marketing?

Hinweis der Redaktion