Virtualização de dados para Advanced Analytics e Machine Learning
BI Suite Pentaho
1. Oficina de Pentaho
Wesley Seidel Carvalho
wesley.seidel@gmail.com
www.ime.usp.br/~wesleys
2. O que é BI?
● São muitos os conceitos.
● Vamos falar da idéia:
● A idéia é que um sistema de BI possua, dentre
outras as seguintes características [Caiçara
Júnior]:
● Fornecer informações relevantes para auxiliar na
tomada de decisão;
● Disponíveis a qualquer momento;
● Fácil utilização.
3. BI possui muitos nomes:
● Para empresários:
● busca de mercado;
● Inteligência competitiva;
● Para outros:
● relatório;
● análises;
● análise do negócio;
● suporte a decisão.
5. Ué? Mas eu não consigo gerar esses dados e
análises direto de um sistema transacional?
6. Sim, só que...
● As organizações geralmente possuem:
● Mais de um sistema;
● Sistemas armazenam em fontes distintas;
– MySql, SQL Server, Texto, XML ...
● Existencia de planilhas;
● Diferença entre representações de um mesma
informação;
– M/F, 0/1, H/M ...
● Etc...
8. Opssss... Bem... Que tal:
● Sistemas de apoio à decisão (SAD)
ou
● Sistemas OLAP (On-Line Analytical
Processing);
9. O que é OLAP ?
● Sistema de informação utilizado para viabilizar
a análise da empresa e auxiliar na tomada de
decisão. [Segundo Machado (2004)]
10. OLTP vs OLAP
OLTP OLAP
Origem dos Dados operacionais Dados consolidados
dados Vários Sistemas OLTP's
Propósito dos Controlar e executar tarefas Auxiliar o planejamento, resolução
dados fundamentais do negócio de problemas e suporte a decisão
Organização Entidade Relacionamento; Modelagem Multi-dimensional;
dos dados Normalizado De-normalizado
Idade dos Presente Histórico, Atual e Projetado
dados
Velocidade de Geralmente muito rápido; Depende da quantidade de dados;
processamento cargas podem levar horas
Consultas Relativamente simples; Mais complexas;
Retorna “poucos” registros; Envolvem agregações;
...
11. Mais sobre OLAP:
● Sistemas OLAP oferecem:
● Diferentes perspectivas, n-dimensões;
– visão multidimensional das informações
● De forma rápida;
● Consistente;
● Normalmente na forma de CUBOS OLAP's.
15. CUBOS OLAP's
● Cada face representa um
aspecto do assunto que se
deseja analisar
● ( Dimensão );
● Cada célula é representada
por uma medida;
● (Campo da tabela de Fatos );
● É possível observar várias
visões do dado que está
sendo apresentado.
17. Composição de um CUBO
● Fatos ou Tabela Fato:
● Eventos que nos interessam avaliar;
● Dimensões:
● São os elementos que compõe um fato;
– Ex:
● Produtos, períodos ( dia, mês, trimestre, ano ... ), segmento de clientes,
fornecedores, ...;
● Hierarquias da dimensão:
– Período: Ano → Mês → Dia
– Localização: País → Estados → Cidades → Bairros
18. Composição de um CUBO
● Métricas:
● São os valores que estamos interessados em
medir.
– Ex:
● Qnt de produtos vendidos;
● Lucro obtido (R$);
● Quantidade de votos;
19. Representação lógica de um CUBO:
● Baseada no modelo relacional;
● Esquemas:
● Estrela (star schema)
– A Tabela Fato no centro e as Dimensões ao seu redor;
● Floco de Neve (snowflake)
– Parecido o esquema estrela, porém normaliza as
hierarquias das dimensões;
24. Operações Básica de um sistema
OLAP:
● Dril-Down:
● Nível mais detalhados;
● Dril-Up ou Roll-up:
● Nível mais agregados;
● Slice:
● Redução de escopo e mantendo a mesma perspectiva;
● Dice:
● Mudança de perspectiva;
● Pivoting:
● Alterar eixos de visualização.
25. E o Datawarehouse? O que é ?
● Um conjunto de dados para apoio a decisão e
possui as características [Inmon]:
● -Orientado a assuntos
– Ao invés de aplicações;
● -Integrado
– Adaptação e padronização dos dados vindos de diferentes
sistemas;
● -Não volátil:
– Sem atualizações, e sim carga inicial ou incremental e
modo de acesso apenas leitura ;
● -Variável em relação ao tempo.
26. ETL
● É a etapa do processo de construção de um
DW que consiste em:
● Extract:
● Dados dos OLTP's
● Transformation:
● Limpeza e Transformação ( padronização )
● Load:
● “Alimentar” o DW.
30. A Pentaho BI Suite.
● Pentaho BI Suite é uma plataforma Open
Source para desenvolvimento de Soluções em
Business Intelligence.
● Mantida pela Empresa Pentaho ela é suportada
por comunidades de usuários e
desenvolvedores ao redor do mundo
31. A Pentaho BI Suite.
● Composta por diversas ferramentas:
● Para analistas e Gestores:
● Para a equipe de desenvolvimento do projeto de BI
33. Servidor BI
Responsável pelo gerenciamento dos indicadores,
compartilhamento entre os usuários, controle de
acesso, origem dos dados, entre outras coisas.
49. Referências
● INMON. W. H., Como construir um Data warehouse (tradução da
segunda edição), editora campus, 1997.
● KIMBALL, R.; ROSS, M. The Data Warehouse Toolkit: O guia completo
para modelagem dimensional.
● LIMA, Thalles da Silva, CARVALHO, Wesley Seidel, Montando um cubo
Olap com o MS Analisys Services, 2007.
● SOUZA, Caio Moreno, Integração de ferramentas de código aberto (java,
pentaho e android) e mapas, aplicada a projetos de inteligência de
negócios, 2010 (Monografia).
● BOBSIN, Juliana Bitello, Uma solução bi utilizando ferramentas open
source, 2010 (Monografia).
● CARNIEL, Anderson, BJIN OLAP: Uma ferramenta OLAP baseada no
índice bitmap de junção, 2012 (TCC).
● Suíte Pentaho. <http://www.pentaho.com>.