SlideShare ist ein Scribd-Unternehmen logo
1 von 42
Downloaden Sie, um offline zu lesen
®2012 dp6 - todos os direitos reservados®2012 dp6 - todos os direitos reservados
Text	
  Mining	
  
Técnicas,	
  Algoritmos	
  e	
  outras	
  nerdices	
  
Apresentação	
  
•  Leonardo	
  Naressi	
  
–  CIO	
  da	
  dp6	
  
–  Presidente	
  do	
  Comitê	
  de	
  Digital	
  
Analy9cs	
  da	
  IAB	
  Brasil	
  
–  Professor	
  na	
  ESPM	
  São	
  Paulo	
  
–  @LeoNaressi	
  
–  Linkedin.com/in/LeoNaressi	
  
–  facebook.com/LeoNaressi	
  
–  Leo@dp6.com.br	
  
®2012 dp6 - todos os direitos reservados
O que fazer com Text Mining?
Categorização /
Classificação
Matriz de
Conceitos
Linkagem de
conceitos
Extração de
entidades
Análise de
Sentimentos
Sumarização
Identificação
de autoria
®2012 dp6 - todos os direitos reservados
Coloquem seus óculos...
®2012 dp6 - todos os direitos reservados
OK! Ready!
®2012 dp6 - todos os direitos reservados
Algoritmos mais utilizados
k-Means Naive Bayes
Árvores de
decisão
Singular Value
Decomposition
(SVD)
Support Vector
Machines
(SVM)
TF-IDF
Semântica
latente
®2012 dp6 - todos os direitos reservados
Onde podemos fazer isso?
®2012 dp6 - todos os direitos reservados
R
"   A ferramenta estatística mais famosa do mundo
" http://www.r-project.org
®2012 dp6 - todos os direitos reservados
Weka
"  Ferramenta Open-Source de Modelagem e Mineração
" www.cs.waikato.ac.nz/ml/weka/
®2012 dp6 - todos os direitos reservados
Orange
"  Ferramenta Open-Source de Data Mining
" http://orange.biolab.si
®2012 dp6 - todos os direitos reservados
Google Prediction
"   A caixa preta de análise preditiva do Google
" https://developers.google.com/prediction/
®2012 dp6 - todos os direitos reservados
O que podemos fazer com Google Prediction?
®2012 dp6 - todos os direitos reservados
Cai como uma luva para nossas análises de
conteúdo nas redes sociais!
®2012 dp6 - todos os direitos reservados
Vamos ver como se faz?
®2012 dp6 - todos os direitos reservados
Coloquem seus óculos...
®2012 dp6 - todos os direitos reservados
OK! Ready!
®2012 dp6 - todos os direitos reservados
Uma nuvem de palavras “simples” em R
®2012 dp6 - todos os direitos reservados
Análise de Frequência e Associações em R
®2012 dp6 - todos os direitos reservados
Matriz de Conceitos em R
®2012 dp6 - todos os direitos reservados
Text Mining no SAS Enterprise Miner
®2012 dp6 - todos os direitos reservados
Classificação / Categorização automática com
Google Prediction
®2012 dp6 - todos os direitos reservados
O que queremos fazer?
Coleta de dados
de redes sociais
Amostragem
aleatória
Classificação
humana da
amostra
Criação de Modelo
Preditivo
Treinamento do
modelo com os
dados
classificados
Validação da
performance do
Modelo
Análise preditiva
baseada no
modelo
®2012 dp6 - todos os direitos reservados
Coleta de dados através de monitoramento de
redes sociais
®2012 dp6 - todos os direitos reservados
Amostragem aleatória usando Data Analysis
Toolpak do Excel
®2012 dp6 - todos os direitos reservados
Classificação Humana da amostra
®2012 dp6 - todos os direitos reservados
Criação do modelo preditivo
®2012 dp6 - todos os direitos reservados
Ixi...
®2012 dp6 - todos os direitos reservados
E agora quem poderá me ajudar?
®2012 dp6 - todos os direitos reservados
Não priemos cânico!
http://dp6.bi/google-prediction
®2012 dp6 - todos os direitos reservados
Treinamento do modelo preditivo usando Google
Prediction
®2012 dp6 - todos os direitos reservados
Ixi...
®2012 dp6 - todos os direitos reservados
Para facilitar existe uma integração entre Google
Prediction e Google Spreadsheets J
http://dp6.bi/prediction-planilha
®2012 dp6 - todos os direitos reservados
De novo: Treinamento do modelo preditivo usando
Google Prediction
®2012 dp6 - todos os direitos reservados
Vamos analisar o aprendizado da máquina...
{
"trainingComplete": "2013-09-23T14:48:05.007Z",
"kind": "prediction#training",
"id": "fastfood_tag1",
"created": "2013-09-23T14:13:18.321Z",
"modelInfo": {
"numberLabels": "18",
"numberInstances": "1260",
"classificationAccuracy": "0.62",
"modelType": "classification"
},
"trainingStatus": "DONE"
}
Meu Modelo
Precisão
alcançada
®2012 dp6 - todos os direitos reservados
E o que fazemos com isso agora?
®2012 dp6 - todos os direitos reservados
Realizamos a classificação preditiva automágica!
®2012 dp6 - todos os direitos reservados
Vamos escrever posts aleatórios e checar o que a
bola de cristal nos diz...
®2012 dp6 - todos os direitos reservados
®2012 dp6 - todos os direitos reservados
Confiram comigo no replay...
{
"outputLabel": "Saúde",
"outputMulti": [{ "score": "0.000179", "label": "Atendimento"},
{ "score": "0.006472", "label": "Atribuição Prod."},
{ "score": "0.000018", "label": "Atribuição prod."},
{ "score": "0.002146", "label": "BigMac"},
{ "score": "0.000010", "label": "Bob's"},
{ "score": "0.001280", "label": "Burguer King"},
{ "score": "0.003126", "label": "Campanha"},
{ "score": "0.343566", "label": "Comparativo"},
{ "score": "0.015228", "label": "Consumo"},
{ "score": "0.018360", "label": "Desejo"},
{ "score": "0.002519", "label": "Funcionário"},
{ "score": "0.012200", "label": "Institucional"},
{ "score": "0.000385", "label": "Lovebrand"},
{ "score": "0.000010", "label": "Mc Donalds"},
{ "score": "0.000009", "label": "Outros Lanches"},
{ "score": "0.002906", "label": "PDV"},
{ "score": "0.591548", "label": "Saúde"},
{ "score": "0.000039", "label": "Whooper"
}],
"kind": "prediction#output",
"id": "fastfood_tag1"
}
Maior
probabilidade
estatística
®2012 dp6 - todos os direitos reservados
Leiam!
"   Mineração de Dados da Web
Social
" http://dp6.bi/mining-social
®2012 dp6 - todos os direitos reservados
Não tenham medo!
Obrigado!	
  
•  Leonardo	
  Naressi	
  
–  CIO	
  da	
  dp6	
  
–  Presidente	
  do	
  Comitê	
  de	
  Digital	
  
Analy9cs	
  da	
  IAB	
  Brasil	
  
–  Professor	
  na	
  ESPM	
  São	
  Paulo	
  
–  @LeoNaressi	
  
–  Linkedin.com/in/LeoNaressi	
  
–  facebook.com/LeoNaressi	
  
–  Leo@dp6.com.br	
  

Weitere ähnliche Inhalte

Andere mochten auch

Metrics2012 | Audiencia não é influência
Metrics2012 | Audiencia não é influênciaMetrics2012 | Audiencia não é influência
Metrics2012 | Audiencia não é influênciaMedia Education
 
Aplicação de text mining
Aplicação de text miningAplicação de text mining
Aplicação de text miningJosias Oliveira
 
Métricas Sociais e o Mundo Multiplataforma
Métricas Sociais e o Mundo MultiplataformaMétricas Sociais e o Mundo Multiplataforma
Métricas Sociais e o Mundo MultiplataformaLuana Baio
 
Presentación Guadalajara #Tecnopoliticay15M
Presentación Guadalajara #Tecnopoliticay15MPresentación Guadalajara #Tecnopoliticay15M
Presentación Guadalajara #Tecnopoliticay15MJavier Toret Medina
 
Social Intelligence - Estudo sobre engajamento do público durante transmissão...
Social Intelligence - Estudo sobre engajamento do público durante transmissão...Social Intelligence - Estudo sobre engajamento do público durante transmissão...
Social Intelligence - Estudo sobre engajamento do público durante transmissão...dp6
 
Text Analytics Presentation
Text Analytics PresentationText Analytics Presentation
Text Analytics PresentationSkylar Ritchie
 
OUTDATED Text Mining 1/5: Introduction
OUTDATED Text Mining 1/5: IntroductionOUTDATED Text Mining 1/5: Introduction
OUTDATED Text Mining 1/5: IntroductionFlorian Leitner
 
O que é DevOps? Introdução à abordagem pela IBM
O que é DevOps? Introdução à abordagem pela IBMO que é DevOps? Introdução à abordagem pela IBM
O que é DevOps? Introdução à abordagem pela IBMFelipe Freire
 
Data visualization - Beatriz Blanco - SENAC
Data visualization  - Beatriz Blanco - SENACData visualization  - Beatriz Blanco - SENAC
Data visualization - Beatriz Blanco - SENACMedia Education
 
5 text mining la ultima palabra yesenia glez pearson
5 text mining la ultima palabra yesenia glez pearson5 text mining la ultima palabra yesenia glez pearson
5 text mining la ultima palabra yesenia glez pearsonEvelyn Femat
 
Apresentação sobre Linguística computacional e recuperação da informação no E...
Apresentação sobre Linguística computacional e recuperação da informação no E...Apresentação sobre Linguística computacional e recuperação da informação no E...
Apresentação sobre Linguística computacional e recuperação da informação no E...NGPTI - UFG
 
IBM SPSS Overview Text Analytics Brief
IBM SPSS Overview Text Analytics BriefIBM SPSS Overview Text Analytics Brief
IBM SPSS Overview Text Analytics BriefIan Balina
 
Extração de informações de texto e cálculo de similaridade usando Apache Lucene
Extração de informações de texto e cálculo de similaridade usando Apache LuceneExtração de informações de texto e cálculo de similaridade usando Apache Lucene
Extração de informações de texto e cálculo de similaridade usando Apache LuceneAndré Luis Schwerz
 
Relatório Black Friday 2016 - Polis Consulting
Relatório Black Friday 2016 - Polis ConsultingRelatório Black Friday 2016 - Polis Consulting
Relatório Black Friday 2016 - Polis ConsultingMedia Education
 
Transformando dados em planejamento - Vinicius Ghise
Transformando dados em planejamento - Vinicius GhiseTransformando dados em planejamento - Vinicius Ghise
Transformando dados em planejamento - Vinicius GhiseMedia Education
 
Text Mining para BI e Finalização do Dashboard no Tableau
Text Mining para BI e Finalização do Dashboard no TableauText Mining para BI e Finalização do Dashboard no Tableau
Text Mining para BI e Finalização do Dashboard no TableauLeandro Guerra
 

Andere mochten auch (20)

Metrics2012 | Audiencia não é influência
Metrics2012 | Audiencia não é influênciaMetrics2012 | Audiencia não é influência
Metrics2012 | Audiencia não é influência
 
Campus Party2010
Campus Party2010Campus Party2010
Campus Party2010
 
Aplicação de text mining
Aplicação de text miningAplicação de text mining
Aplicação de text mining
 
Métricas Sociais e o Mundo Multiplataforma
Métricas Sociais e o Mundo MultiplataformaMétricas Sociais e o Mundo Multiplataforma
Métricas Sociais e o Mundo Multiplataforma
 
Presentación Guadalajara #Tecnopoliticay15M
Presentación Guadalajara #Tecnopoliticay15MPresentación Guadalajara #Tecnopoliticay15M
Presentación Guadalajara #Tecnopoliticay15M
 
Social Intelligence - Estudo sobre engajamento do público durante transmissão...
Social Intelligence - Estudo sobre engajamento do público durante transmissão...Social Intelligence - Estudo sobre engajamento do público durante transmissão...
Social Intelligence - Estudo sobre engajamento do público durante transmissão...
 
Text Analytics Presentation
Text Analytics PresentationText Analytics Presentation
Text Analytics Presentation
 
OUTDATED Text Mining 1/5: Introduction
OUTDATED Text Mining 1/5: IntroductionOUTDATED Text Mining 1/5: Introduction
OUTDATED Text Mining 1/5: Introduction
 
O que é DevOps? Introdução à abordagem pela IBM
O que é DevOps? Introdução à abordagem pela IBMO que é DevOps? Introdução à abordagem pela IBM
O que é DevOps? Introdução à abordagem pela IBM
 
Data visualization - Beatriz Blanco - SENAC
Data visualization  - Beatriz Blanco - SENACData visualization  - Beatriz Blanco - SENAC
Data visualization - Beatriz Blanco - SENAC
 
5 text mining la ultima palabra yesenia glez pearson
5 text mining la ultima palabra yesenia glez pearson5 text mining la ultima palabra yesenia glez pearson
5 text mining la ultima palabra yesenia glez pearson
 
Apresentação sobre Linguística computacional e recuperação da informação no E...
Apresentação sobre Linguística computacional e recuperação da informação no E...Apresentação sobre Linguística computacional e recuperação da informação no E...
Apresentação sobre Linguística computacional e recuperação da informação no E...
 
Dashboards em real time
Dashboards em real timeDashboards em real time
Dashboards em real time
 
IBM SPSS Overview Text Analytics Brief
IBM SPSS Overview Text Analytics BriefIBM SPSS Overview Text Analytics Brief
IBM SPSS Overview Text Analytics Brief
 
Extração de informações de texto e cálculo de similaridade usando Apache Lucene
Extração de informações de texto e cálculo de similaridade usando Apache LuceneExtração de informações de texto e cálculo de similaridade usando Apache Lucene
Extração de informações de texto e cálculo de similaridade usando Apache Lucene
 
Relatório Black Friday 2016 - Polis Consulting
Relatório Black Friday 2016 - Polis ConsultingRelatório Black Friday 2016 - Polis Consulting
Relatório Black Friday 2016 - Polis Consulting
 
Transformando dados em planejamento - Vinicius Ghise
Transformando dados em planejamento - Vinicius GhiseTransformando dados em planejamento - Vinicius Ghise
Transformando dados em planejamento - Vinicius Ghise
 
Relatório Utilização da Ferramenta Weka
Relatório Utilização da Ferramenta WekaRelatório Utilização da Ferramenta Weka
Relatório Utilização da Ferramenta Weka
 
Text Mining para BI e Finalização do Dashboard no Tableau
Text Mining para BI e Finalização do Dashboard no TableauText Mining para BI e Finalização do Dashboard no Tableau
Text Mining para BI e Finalização do Dashboard no Tableau
 
Fondevila, UPF, Universitat de Girona y Universitat Ramon Llull, Joaquín Marq...
Fondevila, UPF, Universitat de Girona y Universitat Ramon Llull, Joaquín Marq...Fondevila, UPF, Universitat de Girona y Universitat Ramon Llull, Joaquín Marq...
Fondevila, UPF, Universitat de Girona y Universitat Ramon Llull, Joaquín Marq...
 

Ähnlich wie Text Mining Técnicas

Como fazer-os-recrutadores-implorarem-para-te-contratar
Como fazer-os-recrutadores-implorarem-para-te-contratarComo fazer-os-recrutadores-implorarem-para-te-contratar
Como fazer-os-recrutadores-implorarem-para-te-contratarKleber Carvalho
 
I nd t_ecosystem_wp7_silverlight_básico
I nd t_ecosystem_wp7_silverlight_básicoI nd t_ecosystem_wp7_silverlight_básico
I nd t_ecosystem_wp7_silverlight_básicoSergio Cavalcante
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 9 - Introdução ao Pow...
Mini-Curso: Introdução à Big Data e Data Science - Aula 9 - Introdução ao Pow...Mini-Curso: Introdução à Big Data e Data Science - Aula 9 - Introdução ao Pow...
Mini-Curso: Introdução à Big Data e Data Science - Aula 9 - Introdução ao Pow...Diego Nogare
 
Reunião01 Pass Chapter - MCITPSC
Reunião01 Pass Chapter - MCITPSCReunião01 Pass Chapter - MCITPSC
Reunião01 Pass Chapter - MCITPSCRodrigo Dornel
 
Reunião #1 – 2015 – Overview
Reunião #1 – 2015 – OverviewReunião #1 – 2015 – Overview
Reunião #1 – 2015 – OverviewRodrigo Dornel
 
ABC da Aprendizagem de Máquinas
ABC da Aprendizagem de MáquinasABC da Aprendizagem de Máquinas
ABC da Aprendizagem de MáquinasDiego Nogare
 
Integrando Azure Machine Learning na prática
Integrando Azure Machine Learning na práticaIntegrando Azure Machine Learning na prática
Integrando Azure Machine Learning na práticaDiego Nogare
 
Como funciona um banco de dados? (Prudente TechDay 2010)
Como funciona um banco de dados? (Prudente TechDay 2010)Como funciona um banco de dados? (Prudente TechDay 2010)
Como funciona um banco de dados? (Prudente TechDay 2010)Fabrício Catae
 
Machine learning java ce conference 2012 - fortaleza ce
Machine learning java ce conference 2012 - fortaleza ceMachine learning java ce conference 2012 - fortaleza ce
Machine learning java ce conference 2012 - fortaleza ceLuca Bastos
 
Aula PPC Intensivo Digitalks
Aula PPC Intensivo DigitalksAula PPC Intensivo Digitalks
Aula PPC Intensivo DigitalksGerson Ribeiro
 
Organizando a casa. o front end do jeitinho que a mamãe gosta
Organizando a casa. o front end do jeitinho que a mamãe gostaOrganizando a casa. o front end do jeitinho que a mamãe gosta
Organizando a casa. o front end do jeitinho que a mamãe gostaJohnathan Cardoso
 
AMD, BDD, e o Javali
AMD, BDD, e o JavaliAMD, BDD, e o Javali
AMD, BDD, e o JavaliRafael Lyra
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...Diego Nogare
 
Criando modelos preditivos com Azure Machine Learning
Criando modelos preditivos com Azure Machine LearningCriando modelos preditivos com Azure Machine Learning
Criando modelos preditivos com Azure Machine LearningDiego Nogare
 
Design for change: Fatores que influenciam na longevidade de um Software PHP
Design for change: Fatores que influenciam na longevidade de um Software PHPDesign for change: Fatores que influenciam na longevidade de um Software PHP
Design for change: Fatores que influenciam na longevidade de um Software PHPPablo Dall'Oglio
 
ORM - TDC Porto Alegre 2014 Trilha .NET
ORM - TDC Porto Alegre 2014 Trilha .NETORM - TDC Porto Alegre 2014 Trilha .NET
ORM - TDC Porto Alegre 2014 Trilha .NETJorge Maia
 

Ähnlich wie Text Mining Técnicas (20)

Como fazer-os-recrutadores-implorarem-para-te-contratar
Como fazer-os-recrutadores-implorarem-para-te-contratarComo fazer-os-recrutadores-implorarem-para-te-contratar
Como fazer-os-recrutadores-implorarem-para-te-contratar
 
I nd t_ecosystem_wp7_silverlight_básico
I nd t_ecosystem_wp7_silverlight_básicoI nd t_ecosystem_wp7_silverlight_básico
I nd t_ecosystem_wp7_silverlight_básico
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 9 - Introdução ao Pow...
Mini-Curso: Introdução à Big Data e Data Science - Aula 9 - Introdução ao Pow...Mini-Curso: Introdução à Big Data e Data Science - Aula 9 - Introdução ao Pow...
Mini-Curso: Introdução à Big Data e Data Science - Aula 9 - Introdução ao Pow...
 
Reunião01 Pass Chapter - MCITPSC
Reunião01 Pass Chapter - MCITPSCReunião01 Pass Chapter - MCITPSC
Reunião01 Pass Chapter - MCITPSC
 
Reunião #1 – 2015 – Overview
Reunião #1 – 2015 – OverviewReunião #1 – 2015 – Overview
Reunião #1 – 2015 – Overview
 
ABC da Aprendizagem de Máquinas
ABC da Aprendizagem de MáquinasABC da Aprendizagem de Máquinas
ABC da Aprendizagem de Máquinas
 
Integrando Azure Machine Learning na prática
Integrando Azure Machine Learning na práticaIntegrando Azure Machine Learning na prática
Integrando Azure Machine Learning na prática
 
Como funciona um banco de dados? (Prudente TechDay 2010)
Como funciona um banco de dados? (Prudente TechDay 2010)Como funciona um banco de dados? (Prudente TechDay 2010)
Como funciona um banco de dados? (Prudente TechDay 2010)
 
Diversas Ferramentas de dados
Diversas Ferramentas de dadosDiversas Ferramentas de dados
Diversas Ferramentas de dados
 
Machine learning java ce conference 2012 - fortaleza ce
Machine learning java ce conference 2012 - fortaleza ceMachine learning java ce conference 2012 - fortaleza ce
Machine learning java ce conference 2012 - fortaleza ce
 
Oficina Pentaho
Oficina PentahoOficina Pentaho
Oficina Pentaho
 
CVitae- Sergio Della Nina
CVitae- Sergio Della Nina CVitae- Sergio Della Nina
CVitae- Sergio Della Nina
 
Aula PPC Intensivo Digitalks
Aula PPC Intensivo DigitalksAula PPC Intensivo Digitalks
Aula PPC Intensivo Digitalks
 
Organizando a casa. o front end do jeitinho que a mamãe gosta
Organizando a casa. o front end do jeitinho que a mamãe gostaOrganizando a casa. o front end do jeitinho que a mamãe gosta
Organizando a casa. o front end do jeitinho que a mamãe gosta
 
Ementa curso de dados
Ementa curso de dadosEmenta curso de dados
Ementa curso de dados
 
AMD, BDD, e o Javali
AMD, BDD, e o JavaliAMD, BDD, e o Javali
AMD, BDD, e o Javali
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...
Mini-Curso: Introdução à Big Data e Data Science - Aula 10 - Introdução ao HD...
 
Criando modelos preditivos com Azure Machine Learning
Criando modelos preditivos com Azure Machine LearningCriando modelos preditivos com Azure Machine Learning
Criando modelos preditivos com Azure Machine Learning
 
Design for change: Fatores que influenciam na longevidade de um Software PHP
Design for change: Fatores que influenciam na longevidade de um Software PHPDesign for change: Fatores que influenciam na longevidade de um Software PHP
Design for change: Fatores que influenciam na longevidade de um Software PHP
 
ORM - TDC Porto Alegre 2014 Trilha .NET
ORM - TDC Porto Alegre 2014 Trilha .NETORM - TDC Porto Alegre 2014 Trilha .NET
ORM - TDC Porto Alegre 2014 Trilha .NET
 

Mehr von dp6

Estudo Black Friday 2013
Estudo Black Friday 2013 Estudo Black Friday 2013
Estudo Black Friday 2013 dp6
 
Monitoramento do amistoso entre Brasil e África do Sul
Monitoramento do amistoso entre Brasil e África do SulMonitoramento do amistoso entre Brasil e África do Sul
Monitoramento do amistoso entre Brasil e África do Suldp6
 
Black Friday nas redes sociais
Black Friday nas redes sociaisBlack Friday nas redes sociais
Black Friday nas redes sociaisdp6
 
Text Analytics
Text AnalyticsText Analytics
Text Analyticsdp6
 
Digital Week ESPM 2013 - Métricas online
Digital Week ESPM 2013 - Métricas onlineDigital Week ESPM 2013 - Métricas online
Digital Week ESPM 2013 - Métricas onlinedp6
 
Data Visualization: Teoria, Técnicas e Práticas
Data Visualization: Teoria, Técnicas e PráticasData Visualization: Teoria, Técnicas e Práticas
Data Visualization: Teoria, Técnicas e Práticasdp6
 
Search marketing-optimization-na-pratica-intercon-2012-metricas
Search marketing-optimization-na-pratica-intercon-2012-metricasSearch marketing-optimization-na-pratica-intercon-2012-metricas
Search marketing-optimization-na-pratica-intercon-2012-metricasdp6
 
InterCon 2012: Social Mining para Métricas
InterCon 2012: Social Mining para MétricasInterCon 2012: Social Mining para Métricas
InterCon 2012: Social Mining para Métricasdp6
 
Como outras áreas do conhecimento podem contribuir com Social Media?
Como outras áreas do conhecimento podem contribuir com Social Media?Como outras áreas do conhecimento podem contribuir com Social Media?
Como outras áreas do conhecimento podem contribuir com Social Media?dp6
 
Garage Proxxima 2012 / dp6 - Data-driven Marketing
Garage Proxxima 2012 / dp6 - Data-driven MarketingGarage Proxxima 2012 / dp6 - Data-driven Marketing
Garage Proxxima 2012 / dp6 - Data-driven Marketingdp6
 
Web Analytics no TcheSEO 2011
Web Analytics no TcheSEO 2011Web Analytics no TcheSEO 2011
Web Analytics no TcheSEO 2011dp6
 
Os preferidos do Oscar 2011 nas redes sociais
Os preferidos do Oscar 2011 nas redes sociaisOs preferidos do Oscar 2011 nas redes sociais
Os preferidos do Oscar 2011 nas redes sociaisdp6
 
Following Paul - O show de Paul McCartney no Brasil visto pelo Twitter
Following Paul - O show de Paul McCartney no Brasil visto pelo TwitterFollowing Paul - O show de Paul McCartney no Brasil visto pelo Twitter
Following Paul - O show de Paul McCartney no Brasil visto pelo Twitterdp6
 
Apresentaof5 tiagoturini-090928125456-phpapp01
Apresentaof5 tiagoturini-090928125456-phpapp01Apresentaof5 tiagoturini-090928125456-phpapp01
Apresentaof5 tiagoturini-090928125456-phpapp01dp6
 

Mehr von dp6 (14)

Estudo Black Friday 2013
Estudo Black Friday 2013 Estudo Black Friday 2013
Estudo Black Friday 2013
 
Monitoramento do amistoso entre Brasil e África do Sul
Monitoramento do amistoso entre Brasil e África do SulMonitoramento do amistoso entre Brasil e África do Sul
Monitoramento do amistoso entre Brasil e África do Sul
 
Black Friday nas redes sociais
Black Friday nas redes sociaisBlack Friday nas redes sociais
Black Friday nas redes sociais
 
Text Analytics
Text AnalyticsText Analytics
Text Analytics
 
Digital Week ESPM 2013 - Métricas online
Digital Week ESPM 2013 - Métricas onlineDigital Week ESPM 2013 - Métricas online
Digital Week ESPM 2013 - Métricas online
 
Data Visualization: Teoria, Técnicas e Práticas
Data Visualization: Teoria, Técnicas e PráticasData Visualization: Teoria, Técnicas e Práticas
Data Visualization: Teoria, Técnicas e Práticas
 
Search marketing-optimization-na-pratica-intercon-2012-metricas
Search marketing-optimization-na-pratica-intercon-2012-metricasSearch marketing-optimization-na-pratica-intercon-2012-metricas
Search marketing-optimization-na-pratica-intercon-2012-metricas
 
InterCon 2012: Social Mining para Métricas
InterCon 2012: Social Mining para MétricasInterCon 2012: Social Mining para Métricas
InterCon 2012: Social Mining para Métricas
 
Como outras áreas do conhecimento podem contribuir com Social Media?
Como outras áreas do conhecimento podem contribuir com Social Media?Como outras áreas do conhecimento podem contribuir com Social Media?
Como outras áreas do conhecimento podem contribuir com Social Media?
 
Garage Proxxima 2012 / dp6 - Data-driven Marketing
Garage Proxxima 2012 / dp6 - Data-driven MarketingGarage Proxxima 2012 / dp6 - Data-driven Marketing
Garage Proxxima 2012 / dp6 - Data-driven Marketing
 
Web Analytics no TcheSEO 2011
Web Analytics no TcheSEO 2011Web Analytics no TcheSEO 2011
Web Analytics no TcheSEO 2011
 
Os preferidos do Oscar 2011 nas redes sociais
Os preferidos do Oscar 2011 nas redes sociaisOs preferidos do Oscar 2011 nas redes sociais
Os preferidos do Oscar 2011 nas redes sociais
 
Following Paul - O show de Paul McCartney no Brasil visto pelo Twitter
Following Paul - O show de Paul McCartney no Brasil visto pelo TwitterFollowing Paul - O show de Paul McCartney no Brasil visto pelo Twitter
Following Paul - O show de Paul McCartney no Brasil visto pelo Twitter
 
Apresentaof5 tiagoturini-090928125456-phpapp01
Apresentaof5 tiagoturini-090928125456-phpapp01Apresentaof5 tiagoturini-090928125456-phpapp01
Apresentaof5 tiagoturini-090928125456-phpapp01
 

Text Mining Técnicas

  • 1. ®2012 dp6 - todos os direitos reservados®2012 dp6 - todos os direitos reservados Text  Mining   Técnicas,  Algoritmos  e  outras  nerdices  
  • 2. Apresentação   •  Leonardo  Naressi   –  CIO  da  dp6   –  Presidente  do  Comitê  de  Digital   Analy9cs  da  IAB  Brasil   –  Professor  na  ESPM  São  Paulo   –  @LeoNaressi   –  Linkedin.com/in/LeoNaressi   –  facebook.com/LeoNaressi   –  Leo@dp6.com.br  
  • 3. ®2012 dp6 - todos os direitos reservados O que fazer com Text Mining? Categorização / Classificação Matriz de Conceitos Linkagem de conceitos Extração de entidades Análise de Sentimentos Sumarização Identificação de autoria
  • 4. ®2012 dp6 - todos os direitos reservados Coloquem seus óculos...
  • 5. ®2012 dp6 - todos os direitos reservados OK! Ready!
  • 6. ®2012 dp6 - todos os direitos reservados Algoritmos mais utilizados k-Means Naive Bayes Árvores de decisão Singular Value Decomposition (SVD) Support Vector Machines (SVM) TF-IDF Semântica latente
  • 7. ®2012 dp6 - todos os direitos reservados Onde podemos fazer isso?
  • 8. ®2012 dp6 - todos os direitos reservados R "   A ferramenta estatística mais famosa do mundo " http://www.r-project.org
  • 9. ®2012 dp6 - todos os direitos reservados Weka "  Ferramenta Open-Source de Modelagem e Mineração " www.cs.waikato.ac.nz/ml/weka/
  • 10. ®2012 dp6 - todos os direitos reservados Orange "  Ferramenta Open-Source de Data Mining " http://orange.biolab.si
  • 11. ®2012 dp6 - todos os direitos reservados Google Prediction "   A caixa preta de análise preditiva do Google " https://developers.google.com/prediction/
  • 12. ®2012 dp6 - todos os direitos reservados O que podemos fazer com Google Prediction?
  • 13. ®2012 dp6 - todos os direitos reservados Cai como uma luva para nossas análises de conteúdo nas redes sociais!
  • 14. ®2012 dp6 - todos os direitos reservados Vamos ver como se faz?
  • 15. ®2012 dp6 - todos os direitos reservados Coloquem seus óculos...
  • 16. ®2012 dp6 - todos os direitos reservados OK! Ready!
  • 17. ®2012 dp6 - todos os direitos reservados Uma nuvem de palavras “simples” em R
  • 18. ®2012 dp6 - todos os direitos reservados Análise de Frequência e Associações em R
  • 19. ®2012 dp6 - todos os direitos reservados Matriz de Conceitos em R
  • 20. ®2012 dp6 - todos os direitos reservados Text Mining no SAS Enterprise Miner
  • 21. ®2012 dp6 - todos os direitos reservados Classificação / Categorização automática com Google Prediction
  • 22. ®2012 dp6 - todos os direitos reservados O que queremos fazer? Coleta de dados de redes sociais Amostragem aleatória Classificação humana da amostra Criação de Modelo Preditivo Treinamento do modelo com os dados classificados Validação da performance do Modelo Análise preditiva baseada no modelo
  • 23. ®2012 dp6 - todos os direitos reservados Coleta de dados através de monitoramento de redes sociais
  • 24. ®2012 dp6 - todos os direitos reservados Amostragem aleatória usando Data Analysis Toolpak do Excel
  • 25. ®2012 dp6 - todos os direitos reservados Classificação Humana da amostra
  • 26. ®2012 dp6 - todos os direitos reservados Criação do modelo preditivo
  • 27. ®2012 dp6 - todos os direitos reservados Ixi...
  • 28. ®2012 dp6 - todos os direitos reservados E agora quem poderá me ajudar?
  • 29. ®2012 dp6 - todos os direitos reservados Não priemos cânico! http://dp6.bi/google-prediction
  • 30. ®2012 dp6 - todos os direitos reservados Treinamento do modelo preditivo usando Google Prediction
  • 31. ®2012 dp6 - todos os direitos reservados Ixi...
  • 32. ®2012 dp6 - todos os direitos reservados Para facilitar existe uma integração entre Google Prediction e Google Spreadsheets J http://dp6.bi/prediction-planilha
  • 33. ®2012 dp6 - todos os direitos reservados De novo: Treinamento do modelo preditivo usando Google Prediction
  • 34. ®2012 dp6 - todos os direitos reservados Vamos analisar o aprendizado da máquina... { "trainingComplete": "2013-09-23T14:48:05.007Z", "kind": "prediction#training", "id": "fastfood_tag1", "created": "2013-09-23T14:13:18.321Z", "modelInfo": { "numberLabels": "18", "numberInstances": "1260", "classificationAccuracy": "0.62", "modelType": "classification" }, "trainingStatus": "DONE" } Meu Modelo Precisão alcançada
  • 35. ®2012 dp6 - todos os direitos reservados E o que fazemos com isso agora?
  • 36. ®2012 dp6 - todos os direitos reservados Realizamos a classificação preditiva automágica!
  • 37. ®2012 dp6 - todos os direitos reservados Vamos escrever posts aleatórios e checar o que a bola de cristal nos diz...
  • 38. ®2012 dp6 - todos os direitos reservados
  • 39. ®2012 dp6 - todos os direitos reservados Confiram comigo no replay... { "outputLabel": "Saúde", "outputMulti": [{ "score": "0.000179", "label": "Atendimento"}, { "score": "0.006472", "label": "Atribuição Prod."}, { "score": "0.000018", "label": "Atribuição prod."}, { "score": "0.002146", "label": "BigMac"}, { "score": "0.000010", "label": "Bob's"}, { "score": "0.001280", "label": "Burguer King"}, { "score": "0.003126", "label": "Campanha"}, { "score": "0.343566", "label": "Comparativo"}, { "score": "0.015228", "label": "Consumo"}, { "score": "0.018360", "label": "Desejo"}, { "score": "0.002519", "label": "Funcionário"}, { "score": "0.012200", "label": "Institucional"}, { "score": "0.000385", "label": "Lovebrand"}, { "score": "0.000010", "label": "Mc Donalds"}, { "score": "0.000009", "label": "Outros Lanches"}, { "score": "0.002906", "label": "PDV"}, { "score": "0.591548", "label": "Saúde"}, { "score": "0.000039", "label": "Whooper" }], "kind": "prediction#output", "id": "fastfood_tag1" } Maior probabilidade estatística
  • 40. ®2012 dp6 - todos os direitos reservados Leiam! "   Mineração de Dados da Web Social " http://dp6.bi/mining-social
  • 41. ®2012 dp6 - todos os direitos reservados Não tenham medo!
  • 42. Obrigado!   •  Leonardo  Naressi   –  CIO  da  dp6   –  Presidente  do  Comitê  de  Digital   Analy9cs  da  IAB  Brasil   –  Professor  na  ESPM  São  Paulo   –  @LeoNaressi   –  Linkedin.com/in/LeoNaressi   –  facebook.com/LeoNaressi   –  Leo@dp6.com.br