Ferramentas open source para análise de dados desde aquisição até deployment

FernandoMeyer
@fmeyer
Utilizando ferramentas open
source para reorganizar seus
dados em informações concretas
Friday, August 30, 13

No
caminho
dos
dados.
‣ Aquisição
‣ Armazenamento
‣ Vizualização
‣ Análise
‣ Deployment

Aquisição

De seus próprios servidores:
‣ Logs de Acesso
‣ Logs de Busca
‣ Vizualizações de Páginas.
‣ Histórico de Compra
‣ Favoritos
Aquisição

Facebook Scribe
Aquisição

Aquisição
Alternativas ao Scribe
‣ FluentD
‣ Apache Flume + continuo
‣ Apache Chukwa

De seu usuário (client-side):
‣ Browser Fingerprint
‣ Referal
‣ Cursor/Interação
‣ Buscas/filtros/parâmetros
‣ Saídas
Aquisição

Pixel Server (JS)
Aquisição
<img
src="http://tr.pig.com/pixel?
id=X&h={base64encoded(data)}"
width="1"

height="1"
/>
user=byok9ruqi3qcy6dy
new_to_site=1
page_session=nhktmamsobk4ejro
scroll_height=455
inner_height=454
interval=45
idle=1
timestamp=1377850220820

Pré-existente em alguma API
‣ Facebook Likes*
‣ Tweets
‣ Foursquare
‣ Google Analytics
Aquisição
* Facebook tende a dificultar as coisas de tempos em tempos. Então temos que tomar cuidado com features cruciais
dependentes do facebook.

Web crawling
‣ Comentários em sites/portais
‣ Blogs com conteúdo relevante
‣ Outros serviços onde pessoas
expressam opiniões mas não
existem APIs
Aquisição

#
cat
~/dev/ds/crawler.py
def
crawler(queue):

url
=
queue.pop()

fd
=
urlib.urlopen(url)

content
=
fd.read()

links
=
parse_links(content)

for
link
in
links:

queue.put(link)

crawler(queue)
Aquisição
Um crawler minimalista

Crawlers Completos
‣ Apache Nutch
‣ Crawler4j
‣ Scrapy (python)
‣ Anemone (ruby)
Aquisição

Seja ético ao usar dados
crawleados. Muitos sites não
permitem essa prática, se fizer isso
que seja para estudar um modelo,
nunca para redistribuir os dados
de outra empresa.
Aquisição

A próxima menina dos olhos
quando falamos em análise de
dados são dados vindos do mundo
físico. SCADA systems existem a
décadas em Usinas, Petroliferas ...
Aquisição

Hardware
‣ Sensores
‣ Câmeras
‣ Arduinos/RaspbPy
Aquisição

Datasets pré-existentes
‣ WineDatabase
‣ Freebase
‣ LinkedData
‣ Google Concept DS
Aquisição

Armazenamento

Storage não é tão barato quando
falamos de BigData
‣ RAW [ d - 30 ]
‣ N dimensões [ d - 365* 1/N ]
‣ Backup
‣ Backup do Backup
Armazenamento

Seu BD principal NUNCA deve ser
utilizado para guardar
informações de agregadores,
pixeltrackers ou crawlers.
Armazenamento

Sua arquitetura de
armazenamento de informações
nunca deve impactar o usuário
enquanto interage com o site.
Armazenamento

Armazenamento
Disponibilidade
Consistencia Particionamento

Engines
Onde cada uma se
encaixa
Examples
WideColumn sparsely distributed multi-
dimensional data
BigTable, Cassandra,
HBase, Hipertable
Document
KeyValue com dados
estruturados
MongoDB, CouchDB,
Terrastore, Lucene
Key Value/Tuple Hash Table
Memcached, Redis,Voldemort,
Couchbase, LevelDB
Graph DB Graph Node4j
Multivalue/RDF
Conceptual description or
modeling
Virtuoso
DB
Toolset

Cassandra, Redis e Neo4j modelam
aproximadamente 90% dos
problemas
Armazenamento

Análise

Agora que os dados existem,
temos que transformá-los em algo
palpavel.
Análise

Análise
Aplicações
‣ Segmentação
‣ Análise de comportamento
‣ Engine de Recomendação
‣ Detecção de fraude
‣ NLP

Análise
Identifique seu problema
‣ Categorização
‣ Classificação
‣ Filtragem Colaborativa

Análise
Leve uma amostra de seus dados
para a prototipação
‣ RStudio
‣ Matlab
‣ IPython com scipy e numpy
‣ Julia*

Análise
Leve uma amostra de seus dados
para a prototipação
awk
'NR
%
2
==
0'
filename
|
head
-‐n
1000

Análise
RStudio

Análise
Julia

Análise
Julia Benchmarks

Análise
Escolha o melhor método
‣ Aprend. Supervisionado
‣ Aprend. Não Supervisionado

Análise
Aprendizado Supervisionado -
Classifica informações a partir de
um modelo de treino
‣ SVM
‣ Regressão Linear
‣ Kernels
‣ Random Forest (decision tree)

Análise
Aprendizado Não Supervisionado -
Agrupa informações ou Reduz
dimensões de uma fonte de dados.
‣ Redes Neurais
‣ Max de Expectativas (distrib)
‣ K-means (centroides)
‣ DBSCAN (densidade)
‣ Graph Based Models

Análise
Machine learning - 3D plot de uma
distribuição

Análise
Time series

Análise
NLP
João comprou 300 ações da OGX
em Agosto de 2013

Análise
NLP
<ENAMEX TYPE="PERSON">João</ENAMEX>comprou
<NUMEX TYPE="QUANTITY">300</NUMEX>ações
da <ENAMEX TYPE="ORGANIZATION">OGX</ENAMEX>
em <TIMEX TYPE="DATE">Agosto de 2013</TIMEX>.

Análise
NLP
‣ Apache OpenNLP
‣ Stanford CoreNLP
‣ Python NLTK

Análise
NLP
Dificuldades: Corpus em PT-BR são
raros e evoluem a passos lentos.
Alternativa: Crawling

Trabalhar com processamento de
linguagem natural em português
não é tão simples quanto parece.
Portanto uma simples análise de
sentimento pode custar meses de
trabalho.
Análise

Best Case: Matéria do Estadão
Worst Case: Twitter
Análise

Análise
Não subestime a matemática.
‣ Probabilidade
‣ Estatística
‣ Algebra Linear
‣ Matemática Discreta

Visualização

O que você gostaria de mostrar?
‣ Comparação
‣ Distribuição
‣ Composição
‣ Relação
Visualização

Deployment

Quando você tiver a primeira
versão do seu modelo, está na hora
de colocá-lo em produção.
Deployment

Transformar o código do protótipo
em codigo de produção às vezes
envolve trocar de linguagem/
contexto/plataforma
Deployment

Env
‣ Linux - max open files, sockets
‣ Hadoop - max M/R jobs
‣ Solr - merge factor, memoria
‣ Teste de carga
Deployment

Monitore tudo
‣ Conversão
‣ Usuários que estão sob
influencia do algoritmo
‣ Cache
Deployment

N versões de um mesmo
algoritmo podem coexistir e
competir pela melhor resposta/
conversão
Deployment

Avaliação
Mean Absolute Error
Root Mean Squared Error (RMSE)
Deployment

Ferramentas Onde aplicar
Hadoop
Framework para processar uma grande
quantidade de dados
Mahout Machine Learning
Twitter Storm
Processamento distribuido e tolerante a
falhas
Toolset
Deployment

Mahout - Hadoop: funcionam
muito bem para batch data. Não
aplicáveis para processamento em
tempo real.
Deployment

Storm - Processamento em Tempo
real
‣ Spout
‣ Bolt
‣ Mágica
Deployment

Spout (Data Source)
public
class
DataSpout
extends
BaseRichSpout
{

public
void
open

public
void
nextTuple()

public
void
ack(Object
id)

public
void
fail(Object
id)

public
void
declareOutputFields(OutputFieldsDeclarer
d)
}
Deployment

Bolt (Processing Unit)

public
static
class
WordCount
extends
BaseBasicBolt
{

public
void
execute(Tuple
tuple,
BasicOutputCollector
collector)

public
void
declareOutputFields(OutputFieldsDeclarer
declarer)
}
Deployment

Topologia
Deployment

Dicas
e
considerações
‣ Comunicação
‣ Demonstre sua hipotese/Teoria
‣ Tente várias abordagens
‣ Converse com outras pessoas sobre
seus dados/técnicas
‣ Veja como problemas similares foram
modelados ( kaggle.com)

FernandoMeyer
@fmeyer
The end!

Ferramentas open source para análise de dados desde aquisição até deployment

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Ferramentas open source para análise de dados desde aquisição até deployment

Ähnlich wie Ferramentas open source para análise de dados desde aquisição até deployment (20)

Ferramentas open source para análise de dados desde aquisição até deployment