SlideShare ist ein Scribd-Unternehmen logo
1 von 28
Downloaden Sie, um offline zu lesen
Extreme OLAP Engine for Big Data
빅데이터본부 | 빅데이터컨설팅팀
Extreme OLAP Engine for Big Data
ApacheKylin
Open Source Distributed Analytics Engine from eBay
Provides SQL Interface and Multi-Dimensional Analysis(OLADP)
BigDataAnalytics의비즈니스요구사항
• 수십억 ROW의 데이터를 짧은 Latency를 갖는 Query 실행
• ANSI SQL 지원
• Full OLAP 기능
• BI Tool 등과 긴밀한 통합
• High Concurrency
• Distributed, Scale Out Architecture
BigDataAnalytics에있어서기술적도전
• 많은 양의 거대한 데이터를 스캐닝
• 많은 양의 거대한 데이터를 JOIN
• Runtime Aggregation의 과도한 비용
• 배치 처리
OLAPCube
OLAPCube
• Cube는 가능한 모든 조합을 구성하는 개념
• 따라서 구성하는데 소요되는 시간, 공간은 데이터가 커질수록 그 비용이 급격하게 증가됨
OLAPCube
• 4개의 컬럼의 테이블로 Cube를 구성할 때 총 5개의 Cuboid가 구성
1.(9/15, milk, Urbana, Dairy_land) - <time, item, location, supplier>
2.(9/15, milk, Urbana, *) - <time, item, location>
3.(*, milk, Urbana, *) - <item, location>
4.(*, milk, Chicago, *) - <item, location>
5.(*, milk, *, *) - <item>
RDBMS의데이터를Key-ValueStore로표현
Hadoop MapReduce로
계산값을 분산/병렬 계산
StarSchema란무엇인가?
• Star Schema = Join Schema
• Data Warehouse 스키마 중에서 가장 단순한 종류의
스키마
• 한 개의 Fact 테이블과 Primary Key 및 각 Dimension
과 추가 Fact로 이루어진 스키마
• 별모양의 스키마라고 해서 붙여진 이름이며 이해하기
쉬운 장점이 있음
• Star Schema는 RDBMS를 활용하여 다차원 데이터베
이스(MDDB)를 활용할 수 있게 됨
• Fact 테이블  제3 정규형, 차원 테이블은 역정규화된
제2 정규형 (차원 테이블은 정규화시 분석이 어려움)
SELECT
sum (f_sales.units_sold)
FROM
f_sales, d_customer, d_time, d_store, d_product
WHERE
f_sales.customer_id = d_customer.customer_id AND
f_sales.date_id = d_time.date_id AND
f_sales.store_id = d_store.store_id AND
f_sales.product_id = d_product.product_id AND
d_time.year_id = 1997 AND
d_product.category_id = 'tv'
GROUP BY
d_product.brand, d_store.country_iso_id
OLAPCube의정의
ApacheKylin의아키텍처
• Star Schema 식별  테이블에서 Cube 생성  ODBC, JDBC, RESTful API 등을 이용해 ANSI-SQL 질의
ApacheKylin의주요기능
• Extremely Fast OLAP at Scale
• ANSI SQL Interface on Hadoop
• Interactive Query Capability
• MOLAP Cube
• Seamless Integration with BI Tools
ApacheKylin의HadoopComponent활용
• Apache Hive
• Input Source
• Pre-join star schema during cube building
• Hadoop MapReduce
• Pre-aggregation metrics during cube building
• Hadoop HDFS
• Store intermediated files during cube building
• Apache HBase
• Store data cube
• Serve query on data cube
• Coprocessor is used for query processing
ApacheKylin이빠른이유
• 미리 구성해 둔 Cube – 쿼리의 결과를 미리 다 계산을 해 두었기 때문에
• 분산 아키텍처 기반의 인프라를 사용하기 때문에
• Hive Table을 스캔하거나, MapReduce을 실행하지 않기 때문에
• 압축 및 인코딩을 지원하기 때문에
• 데이터를 캐슁하기 때문에
Cube메타데이터
• Dimension
• Measure
• Sum
• Count
• Max
• Min
• Average
• Distinct Count …
Cube생성 프로세스
• 원천 소스는 Hive Table  분석 대상 데이터는 HDFS에 파일로 저장, Hive 테이블로 구성되어야 함
• Hive Query와 MapReduce로 n-Cuboid를 생성
Cube생성 프로세스
• N-Cuboid를 MapReduce를 통해 *-1 Cuboid로 구성
• Apache HBase에 결과 데이터를 저장
Kylin으로Cube생성하기(1)–Model생성
Kylin으로Cube생성하기(2)–Cube생성
Kylin으로Cube생성하기(3)–Cube빌드
Kylin으로Cube생성하기(4)–Cube모니터링
KylinODBCDriver
• Kylin ODBC Driver를 통해 다양한 분석 및 시각화 도구 연동 가능
Kylin과MicrosoftExcel연동
• ODBC Driver를 통해서 Excel에서 Kylin에 연동
Kylin과MicrosoftPowerBI연동
• ODBC Driver를 통해서 Power BI에서 Kylin에 연동
Kylin과Tableau연동
• ODBC Driver를 통해서 Tableau에서 Kylin에 연동
KylinJDBCDriver
• Kylin JDBC Driver를 통해 다양한 분석 및 시각화 도구 연동 가능
ApacheKylin사용시지속적으로고려해야하는점
• Cube 설계 최적화
• Cube 생성 최적화
• Cube를 increment하게 일별로 지속적으로 생성하는 과정 중요
감사합니다
빅데이터본부 | FEA

Weitere ähnliche Inhalte

Was ist angesagt?

Cloud DW technology trends and considerations for enterprises to apply snowflake
Cloud DW technology trends and considerations for enterprises to apply snowflakeCloud DW technology trends and considerations for enterprises to apply snowflake
Cloud DW technology trends and considerations for enterprises to apply snowflake
SANG WON PARK
 
Understanding Presto - Presto meetup @ Tokyo #1
Understanding Presto - Presto meetup @ Tokyo #1Understanding Presto - Presto meetup @ Tokyo #1
Understanding Presto - Presto meetup @ Tokyo #1
Sadayuki Furuhashi
 

Was ist angesagt? (20)

Big Data MDX with Mondrian and Apache Kylin
Big Data MDX with Mondrian and Apache KylinBig Data MDX with Mondrian and Apache Kylin
Big Data MDX with Mondrian and Apache Kylin
 
Building robust CDC pipeline with Apache Hudi and Debezium
Building robust CDC pipeline with Apache Hudi and DebeziumBuilding robust CDC pipeline with Apache Hudi and Debezium
Building robust CDC pipeline with Apache Hudi and Debezium
 
Cloud DW technology trends and considerations for enterprises to apply snowflake
Cloud DW technology trends and considerations for enterprises to apply snowflakeCloud DW technology trends and considerations for enterprises to apply snowflake
Cloud DW technology trends and considerations for enterprises to apply snowflake
 
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
 
A Thorough Comparison of Delta Lake, Iceberg and Hudi
A Thorough Comparison of Delta Lake, Iceberg and HudiA Thorough Comparison of Delta Lake, Iceberg and Hudi
A Thorough Comparison of Delta Lake, Iceberg and Hudi
 
Ozone and HDFS's Evolution
Ozone and HDFS's EvolutionOzone and HDFS's Evolution
Ozone and HDFS's Evolution
 
Apache Kylin on HBase: Extreme OLAP engine for big data
Apache Kylin on HBase: Extreme OLAP engine for big dataApache Kylin on HBase: Extreme OLAP engine for big data
Apache Kylin on HBase: Extreme OLAP engine for big data
 
Druid deep dive
Druid deep diveDruid deep dive
Druid deep dive
 
Redis + Kafka = Performance at Scale | Julien Ruaux, Redis Labs
Redis + Kafka = Performance at Scale | Julien Ruaux, Redis LabsRedis + Kafka = Performance at Scale | Julien Ruaux, Redis Labs
Redis + Kafka = Performance at Scale | Julien Ruaux, Redis Labs
 
From cache to in-memory data grid. Introduction to Hazelcast.
From cache to in-memory data grid. Introduction to Hazelcast.From cache to in-memory data grid. Introduction to Hazelcast.
From cache to in-memory data grid. Introduction to Hazelcast.
 
Apache Tez: Accelerating Hadoop Query Processing
Apache Tez: Accelerating Hadoop Query Processing Apache Tez: Accelerating Hadoop Query Processing
Apache Tez: Accelerating Hadoop Query Processing
 
Building an open data platform with apache iceberg
Building an open data platform with apache icebergBuilding an open data platform with apache iceberg
Building an open data platform with apache iceberg
 
Understanding InfluxDB’s New Storage Engine
Understanding InfluxDB’s New Storage EngineUnderstanding InfluxDB’s New Storage Engine
Understanding InfluxDB’s New Storage Engine
 
Using Apache Hive with High Performance
Using Apache Hive with High PerformanceUsing Apache Hive with High Performance
Using Apache Hive with High Performance
 
Vectorized Query Execution in Apache Spark at Facebook
Vectorized Query Execution in Apache Spark at FacebookVectorized Query Execution in Apache Spark at Facebook
Vectorized Query Execution in Apache Spark at Facebook
 
Understanding Presto - Presto meetup @ Tokyo #1
Understanding Presto - Presto meetup @ Tokyo #1Understanding Presto - Presto meetup @ Tokyo #1
Understanding Presto - Presto meetup @ Tokyo #1
 
Apache Druid 101
Apache Druid 101Apache Druid 101
Apache Druid 101
 
Getting Started with Databricks SQL Analytics
Getting Started with Databricks SQL AnalyticsGetting Started with Databricks SQL Analytics
Getting Started with Databricks SQL Analytics
 
ORC File - Optimizing Your Big Data
ORC File - Optimizing Your Big DataORC File - Optimizing Your Big Data
ORC File - Optimizing Your Big Data
 
Hadoop Backup and Disaster Recovery
Hadoop Backup and Disaster RecoveryHadoop Backup and Disaster Recovery
Hadoop Backup and Disaster Recovery
 

Ähnlich wie Apache Kylin

[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
Sang Don Kim
 
OCE - Cno 2014 private sector oriented open paas oce
OCE - Cno 2014 private sector oriented open paas   oceOCE - Cno 2014 private sector oriented open paas   oce
OCE - Cno 2014 private sector oriented open paas oce
uEngine Solutions
 
The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)
The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)
The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)
SANG WON PARK
 
AWS CLOUD 2017 - EC2 X1 인스턴스 기반 SAP HANA 서비스 운영 업무 최적화 (이진욱 테크니컬 트레이너)
AWS CLOUD 2017 - EC2 X1 인스턴스 기반 SAP HANA 서비스 운영 업무 최적화 (이진욱 테크니컬 트레이너)AWS CLOUD 2017 - EC2 X1 인스턴스 기반 SAP HANA 서비스 운영 업무 최적화 (이진욱 테크니컬 트레이너)
AWS CLOUD 2017 - EC2 X1 인스턴스 기반 SAP HANA 서비스 운영 업무 최적화 (이진욱 테크니컬 트레이너)
Amazon Web Services Korea
 

Ähnlich wie Apache Kylin (20)

[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
 
AWS BigData 전략과 관련 AWS 서비스 이해하기
AWS BigData 전략과 관련 AWS 서비스 이해하기AWS BigData 전략과 관련 AWS 서비스 이해하기
AWS BigData 전략과 관련 AWS 서비스 이해하기
 
OCE - Cno 2014 private sector oriented open paas oce
OCE - Cno 2014 private sector oriented open paas   oceOCE - Cno 2014 private sector oriented open paas   oce
OCE - Cno 2014 private sector oriented open paas oce
 
AWS Cloud 환경으로​ DB Migration 전략 수립하기
AWS Cloud 환경으로​ DB Migration 전략 수립하기AWS Cloud 환경으로​ DB Migration 전략 수립하기
AWS Cloud 환경으로​ DB Migration 전략 수립하기
 
오픈스택 기반 클라우드 서비스 구축 방안 및 사례
오픈스택 기반 클라우드 서비스 구축 방안 및 사례오픈스택 기반 클라우드 서비스 구축 방안 및 사례
오픈스택 기반 클라우드 서비스 구축 방안 및 사례
 
DataWorks Summit 2017
DataWorks Summit 2017DataWorks Summit 2017
DataWorks Summit 2017
 
CouchDB - Introduction - Korean
CouchDB - Introduction - KoreanCouchDB - Introduction - Korean
CouchDB - Introduction - Korean
 
The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)
The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)
The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)
 
아마존 클라우드와 함께한 1개월, 쿠키런 사례중심 (KGC 2013)
아마존 클라우드와 함께한 1개월, 쿠키런 사례중심 (KGC 2013)아마존 클라우드와 함께한 1개월, 쿠키런 사례중심 (KGC 2013)
아마존 클라우드와 함께한 1개월, 쿠키런 사례중심 (KGC 2013)
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
 
Aws serverless services
Aws serverless servicesAws serverless services
Aws serverless services
 
KGC 2013 DevSisters
KGC 2013 DevSistersKGC 2013 DevSisters
KGC 2013 DevSisters
 
쿠키런 1년, 서버개발 분투기
쿠키런 1년, 서버개발 분투기쿠키런 1년, 서버개발 분투기
쿠키런 1년, 서버개발 분투기
 
[OpenInfra Days Korea 2018] (Track 1) From OpenStack to cloud native
[OpenInfra Days Korea 2018] (Track 1) From OpenStack to cloud native[OpenInfra Days Korea 2018] (Track 1) From OpenStack to cloud native
[OpenInfra Days Korea 2018] (Track 1) From OpenStack to cloud native
 
AWS CLOUD 2017 - EC2 X1 인스턴스 기반 SAP HANA 서비스 운영 업무 최적화 (이진욱 테크니컬 트레이너)
AWS CLOUD 2017 - EC2 X1 인스턴스 기반 SAP HANA 서비스 운영 업무 최적화 (이진욱 테크니컬 트레이너)AWS CLOUD 2017 - EC2 X1 인스턴스 기반 SAP HANA 서비스 운영 업무 최적화 (이진욱 테크니컬 트레이너)
AWS CLOUD 2017 - EC2 X1 인스턴스 기반 SAP HANA 서비스 운영 업무 최적화 (이진욱 테크니컬 트레이너)
 
Azure를 이용한 Join 없는 글로벌 분산 시스템 설계하기
Azure를 이용한 Join 없는 글로벌 분산 시스템 설계하기Azure를 이용한 Join 없는 글로벌 분산 시스템 설계하기
Azure를 이용한 Join 없는 글로벌 분산 시스템 설계하기
 
20190214 Startup의 한정된 자원(인력, 자금)에서 AWS를 효율적으로 사ᄋ...
20190214 Startup의 한정된 자원(인력, 자금)에서 AWS를 효율적으로 사ᄋ...20190214 Startup의 한정된 자원(인력, 자금)에서 AWS를 효율적으로 사ᄋ...
20190214 Startup의 한정된 자원(인력, 자금)에서 AWS를 효율적으로 사ᄋ...
 
Real-time Big Data Analytics Practice with Unstructured Data
Real-time Big Data Analytics Practice with Unstructured DataReal-time Big Data Analytics Practice with Unstructured Data
Real-time Big Data Analytics Practice with Unstructured Data
 
Apache spark 소개 및 실습
Apache spark 소개 및 실습Apache spark 소개 및 실습
Apache spark 소개 및 실습
 
Apache Zeppelin으로 데이터 분석하기
Apache Zeppelin으로 데이터 분석하기Apache Zeppelin으로 데이터 분석하기
Apache Zeppelin으로 데이터 분석하기
 

Mehr von BYOUNG GON KIM

제14회 JCO Presentation - Build Your Big Data Platform
제14회 JCO Presentation - Build Your Big Data Platform제14회 JCO Presentation - Build Your Big Data Platform
제14회 JCO Presentation - Build Your Big Data Platform
BYOUNG GON KIM
 

Mehr von BYOUNG GON KIM (9)

Flamingo (FEA) Spark Designer
Flamingo (FEA) Spark DesignerFlamingo (FEA) Spark Designer
Flamingo (FEA) Spark Designer
 
Flamingo 1.2 릴리즈의 지원 기능 정리
Flamingo 1.2 릴리즈의 지원 기능 정리Flamingo 1.2 릴리즈의 지원 기능 정리
Flamingo 1.2 릴리즈의 지원 기능 정리
 
(주)클라우다인 & Flamingo 소개서
(주)클라우다인 & Flamingo 소개서(주)클라우다인 & Flamingo 소개서
(주)클라우다인 & Flamingo 소개서
 
OpenSource Big Data Platform - Flamingo Project
OpenSource Big Data Platform - Flamingo ProjectOpenSource Big Data Platform - Flamingo Project
OpenSource Big Data Platform - Flamingo Project
 
OpenSource Big Data Platform - Flamingo 소개와 활용
OpenSource Big Data Platform - Flamingo 소개와 활용OpenSource Big Data Platform - Flamingo 소개와 활용
OpenSource Big Data Platform - Flamingo 소개와 활용
 
OpenSource Big Data Platform - Flamingo v7
OpenSource Big Data Platform - Flamingo v7OpenSource Big Data Platform - Flamingo v7
OpenSource Big Data Platform - Flamingo v7
 
제14회 JCO Presentation - Build Your Big Data Platform
제14회 JCO Presentation - Build Your Big Data Platform제14회 JCO Presentation - Build Your Big Data Platform
제14회 JCO Presentation - Build Your Big Data Platform
 
Flamingo project v4
Flamingo project v4Flamingo project v4
Flamingo project v4
 
OpenSource Big Data Platform : Flamingo Project
OpenSource Big Data Platform : Flamingo ProjectOpenSource Big Data Platform : Flamingo Project
OpenSource Big Data Platform : Flamingo Project
 

Apache Kylin