2. Extreme OLAP Engine for Big Data
ApacheKylin
Open Source Distributed Analytics Engine from eBay
Provides SQL Interface and Multi-Dimensional Analysis(OLADP)
3. BigDataAnalytics의비즈니스요구사항
• 수십억 ROW의 데이터를 짧은 Latency를 갖는 Query 실행
• ANSI SQL 지원
• Full OLAP 기능
• BI Tool 등과 긴밀한 통합
• High Concurrency
• Distributed, Scale Out Architecture
9. StarSchema란무엇인가?
• Star Schema = Join Schema
• Data Warehouse 스키마 중에서 가장 단순한 종류의
스키마
• 한 개의 Fact 테이블과 Primary Key 및 각 Dimension
과 추가 Fact로 이루어진 스키마
• 별모양의 스키마라고 해서 붙여진 이름이며 이해하기
쉬운 장점이 있음
• Star Schema는 RDBMS를 활용하여 다차원 데이터베
이스(MDDB)를 활용할 수 있게 됨
• Fact 테이블 제3 정규형, 차원 테이블은 역정규화된
제2 정규형 (차원 테이블은 정규화시 분석이 어려움)
SELECT
sum (f_sales.units_sold)
FROM
f_sales, d_customer, d_time, d_store, d_product
WHERE
f_sales.customer_id = d_customer.customer_id AND
f_sales.date_id = d_time.date_id AND
f_sales.store_id = d_store.store_id AND
f_sales.product_id = d_product.product_id AND
d_time.year_id = 1997 AND
d_product.category_id = 'tv'
GROUP BY
d_product.brand, d_store.country_iso_id
12. ApacheKylin의주요기능
• Extremely Fast OLAP at Scale
• ANSI SQL Interface on Hadoop
• Interactive Query Capability
• MOLAP Cube
• Seamless Integration with BI Tools
13. ApacheKylin의HadoopComponent활용
• Apache Hive
• Input Source
• Pre-join star schema during cube building
• Hadoop MapReduce
• Pre-aggregation metrics during cube building
• Hadoop HDFS
• Store intermediated files during cube building
• Apache HBase
• Store data cube
• Serve query on data cube
• Coprocessor is used for query processing
14. ApacheKylin이빠른이유
• 미리 구성해 둔 Cube – 쿼리의 결과를 미리 다 계산을 해 두었기 때문에
• 분산 아키텍처 기반의 인프라를 사용하기 때문에
• Hive Table을 스캔하거나, MapReduce을 실행하지 않기 때문에
• 압축 및 인코딩을 지원하기 때문에
• 데이터를 캐슁하기 때문에