Apache Tajo: Sistema de armazenamento e consultas distribuídas para Hadoop
1. Universidade Federal de Alagoas (UFAL)
Instituto de Computação (IC)
Apache Tajo
Michel de S. Miranda E-mail: micheldsmiranda@gmail.com
10/06/2014
2. Roteiro …
oO que é o Apache Tajo;
oQuem Utiliza;
oInstalação;
oLinguagem de Manipulação de Dados;
oApresentação e;
oDemonstração em uma Base de Dados.
2
3. Apache Tajo ...
•É um sistema de armazenamento de dados relacional e distribuídos para Hadoop;
•Projetado permite a consultas de baixa latência e escaláveis;
•Agregação on-line;
•ETL (extract-processo de transformar-carga) em conjuntos de dados armazenados no HDFS (Hadoop Distributed File System) e outras fontes de dados.
3
5. Apache Tajo ...
•Características: Rápido e Eficiente:
Totalmente distribuído em mecanismo de processamento de consulta SQL;
Otimização de consulta avançada e;
Análise interativa em conjunto de dados razoável.
5
6. Apache Tajo ...
•Características: Escalável
A tolerância a falhas e programação dinâmica para consultas de longa duração e;
Possui algoritmos para conjuntos de dados maior do que a memória principal.
6
7. Apache Tajo ...
•Características: Compatível
Conformidade com os padrões (ANSI / ISO SQL);
Suporte de acesso Hive MetaStore;
Suporte de driver JDBC e;
Vários formatos de arquivo de apoio, tais como CSV, rcfile, RowFile, SequenceFile e Parquet.
7
9. Apache Tajo ...
•História....
Começou em 2010 no Laboratório de Banco de Dados da Universidade da Coreia;
Entrou no Apache Incubator em Março de 2013 e;
Apache Tajo está em uso em Gruter, Universidade da Coreia, e SK Telecom.
9
10. Apache Tajo ...
•História....
Software Apache Tajo é distribuído sobre a licença Apache v2.0;
O software encontra-se na Apache Tajo™. 0.8.0
10
12. Apache Tajo ...
•Aplicações
oPodemos aplicar o Tajo para analisar grandes conjuntos de dados em tempo real.
Controle de trafego aéreo;
Telecomunicações;
Sistemas Financeiros;
Entre outros.
12
19. Apache Tajo ...
•Apresentação
•Criando tabela e inserindo os dados do arquivo “data.csv”
19
20. Apache Tajo ...
•Apresentação
•Apresentado os atributo da tabela “ d ”
20
21. Apache Tajo ...
•Apresentação
•Realizando uma consulta SQL
21
22. Apache Tajo ...
•Demonstração em uma Base da Dados
oDados Abertos do Brasil
oUnidade Básica de Saúde
oAtualizada em 04/2013
oA base possui 37691 linhas
oDisponível em: ABD
22
23.
24. Referências
•Apache Tajo. Disponível em:<http://tajo.apache.org/>. Acessado em 06 de Junho de 2014.
•The Apache Software Foundation Announces Apache™ Tajo™ as a Top-Level Project. Disponível em: <http://citrix.ulitzer.com/no de/3036803>. Acessado em 06 de Junho de 2014.
•Máquina Virtual Linux com o Apache Tajo instalado e configurado para uso. Disponível em:<https://www.dropbox.com/s/ 10i401f54vxrfrb/micheldefault140214158885393776.rar>.