SlideShare ist ein Scribd-Unternehmen logo
1 von 13
PERFORMANCE BENCHMARK:
Comparisons of speed and cost efficiency

Amazon Redshift ベンチマーク
Hadoop + Hive と比較
10 倍の速度・コストパフォー
マンス
Amazon Redshift では、 1.2TB のデータへのクエ
リの処理に対し、処理時間が 155 秒
Hadoop + Hive では、 1.2TB のデータへのクエリの
処理に対し、処理時間が 1491 秒
Amazon Redshift : 10 倍の処理速度
Amazon Redshift の運用コストは 30 分に一回の頻
度でクエリを処理する場合、一日あたり $20
Hadoop + Hive の運用コストは 30 分に一回の頻度
でクエリを処理する場合、一日あたり $210
  Amazon Redshift : 10 倍のコストパフォーマ
ンス
Amazon Redshift は、クラウドビッグデータの新
しいデータウェアハウス。 Redshift の登場までは
、テラバイトを超える処理には、 Hadoop を用い
る必要があった。
今回、 Redshift と Hadoop(Amazon Elastic
MapReduce) を比較のため、インターネット広告
代理店のシステムのデータを想定し、ベンチマー
クを実施。
• 想定データサイズ: 100GB to ~50TB
• クエリの頻度: 1 時間あたり 1 回以上
• 素早いレスポンスが求められる
前提条件 – データセット
検証対象のクエリとして、 Join してレポートを作成するクエリを想定し、
以下の 5 つのテーブルを利用
Imp_log
1) 300GB / 300M record
2) 1.2TB / 1.2B record
date
publisher_id
ad_campaign_id
country
attr1-4

datetime
integer
integer
varchar(30)
varchar(255)

click_log
1) 1.4GB / 1.5M record
2) 5.6GB / 6M record
date
publisher_id
ad_campaign_id
bid_price
country
attr1-4

datetime
integer
integer
real
varchar(30)
varchar(255)

ad_campaign
100MB / 100k record
publisher
10MB / 10k record
advertiser
10MB / 10k record

1) 1 ヶ月間のログ
2) 4 ヶ月間のログ
ファイルフォーマットは TSV とし , gzip 圧縮
1. クエリの処理速度
Redshift と Hadoop に対し、同じサーバコストで検証した比較結
果 (Hadoop: c1.xlarge vs Redshift: dw.hs1.xlarge)

1491sec

672sec
155sec
38sec

* クエリの詳細は Appendix に記載

•• Redshift は 1.2TB
Redshift は 1.2TB
に対するクエリの
に対するクエリの
処理時間は 155 秒
処理時間は 155 秒
•• Hadoop は 1.2TB
Hadoop は 1.2TB
に対するクエリの
に対するクエリの
処理時間は 1491
処理時間は 1491
秒
秒
•• Redshift は、この
Redshift は、この
クエリの処理に対
クエリの処理に対
し、 Hadoop に比
し、 Hadoop に比
べ 10 倍の処理速度
べ 10 倍の処理速度
2. 運用コスト

Redshift と Hadoop に対し、同じクエリ、同じ実行時間でかか
る運用コストの比較結果
•• 30 分に一回の頻度
30 分に一回の頻度
でクエリを実行する
でクエリを実行する
場合、 Redshift の
場合、 Redshift の
コストは 1 月あたり
コストは 1 月あたり
$20
$20
•• 30 分に一回の頻度
30 分に一回の頻度
でクエリを実行する
でクエリを実行する
場合、 Hadoop のコ
場合、 Hadoop のコ
ストは 1 月あたり
ストは 1 月あたり
$210
$210
•• Redshift は Hadoop
Redshift は Hadoop
に比べて 10 倍のコ
に比べて 10 倍のコ
ストパフォーマンス
ストパフォーマンス

* クエリの詳細は Appendix に記載
検証結果 – Redshift
データサイズ

インスタンス
タイプ

インスタンス数

試行回

処理時間

1

164 秒
149 秒

3

158 秒
156 秒

5

1

30 秒

4

dw.hs1.xlarge

30 秒

2
1.2TB

31 秒

1

1

3

5

dw.hs1.xlarge

43 秒

4

300GB

150 秒

一日あたりの費用

58 秒

2

平均処理時間

* クエリの詳細は Appendix に記載

38 秒

$20.40

155 秒

$20.40
検証結果 - Hadoop
データサイズ

インスタンスタイプ

インスタンス数

c1.xlarge
c1.medium

1h 23m

一日あたりの費用
2s

$0.80

10

37m 48s

$0.89

c1.xlarge

10

11m 12s

$1.06

m1.xlarge

1

6h 43m 24s

$3.22

c1.medium

4

5h 14m

0s

$3.04

c1.xlarge

10

37m

7s

$3.58

c1.xlarge

300GB

1

処理時間

20

24m 51s

$4.64

1.2TB

* The query used can be referenced in our Appendix
考察
• Redshift の選択基準
– 1TB 以上のデータで 1 時間に 1 回以上の頻
度でクエリを処理する必要がある場合
– 実行結果が迅速 (10 分以内 ) に必要な場合

• Hadoop (EMR) の選択基準
– ペタバイト級のデータを保持
– クエリの実行頻度が 1 日に 1 回、 1 週間に 1
回程度
– Hadoop 技術に既に投資している場合
appendix – サンプルクエリ
広告キャンペーンのパフォーマンスレポート(インプレッション、クリック数
、広告費用、 CTR 、 CPC 、および CPM )を作成するクエリを想定
select
ac.ad_campaign_id as ad_campaign_id,
adv.advertiser_id as advertiser_id,
cs.spending as spending,
ims.imp_total as imp_total,
cs.click_total as click_total,
click_total/imp_total as CTR,
spending/click_total as CPC,
spending/(imp_total/1000) as CPM
from
ad_campaigns ac
join
advertisers adv
on (ac.advertiser_id = adv.advertiser_id)

join
(select
il.ad_campaign_id,
count(*) as imp_total
from
imp_logs il
group by
il.ad_campaign_id
) ims on (ims.ad_campaign_id =
ac.ad_campaign_id)
join
(select
cl.ad_campaign_id,
sum(cl.bid_price) as spending,
count(*) as click_total
from
click_logs cl
group by
cl.ad_campaign_id
) cs on (cs.ad_campaign_id = ac.ad_campaign_id);
APPENDIX – Redshift TIPS
• Redshift は合計 (sum) 、平均 (average) 、最大
(max) 、最小 (min) など計算結果を集計する処理
が得意  ( カラム型データベースのため )
• 大容量データのインポートに長い時間を要する
– 今回のベンチマークでは 1.2TB の一括ロードに 17 時
間
– 継続したインポートが必要

• Redshift は CSV, TSV のようなセパレータタイプ
のみ対応
– JSON は現時点ではサポート対象外

• Redshift はプリミティブなデータ型のみ対応
– 11 types, INT, DOUBLE, BOOLEAN, VARCHAR, DATE..
(2013 年 2 月 17 日現
在)
APPENDIX – Additional Information
• 今回のベンチマークに利用したリソース
は全て github に公開
– https://github.com/hapyrus/redshift-benchmark
– データセットは S3 上に公開
お問い合わせ先 - FlyData
• Hadoop + Hive and Redshift サービスを
提供
• FlyData for Redshift
– 自社のデータで、 Redshift を Day 1 から利用
開始可能
– リアルタイムに近い間隔で Redshift にデータ
転送
– オートスケーリング、データの統合管理で高
可用性を実現

• Redshift の導入コンサルも提供
お問い合わせは info@flydata.com
へ!

Weitere ähnliche Inhalte

Was ist angesagt?

Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan
Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan
Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan Koichi Fujikawa
 
AWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザAWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザNoritaka Sekiyama
 
DeNAのQCTマネジメント IaaS利用のベストプラクティス [AWS Summit Tokyo 2019]
DeNAのQCTマネジメント IaaS利用のベストプラクティス [AWS Summit Tokyo 2019]DeNAのQCTマネジメント IaaS利用のベストプラクティス [AWS Summit Tokyo 2019]
DeNAのQCTマネジメント IaaS利用のベストプラクティス [AWS Summit Tokyo 2019]DeNA
 
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)Takeshi Mikami
 
20201008 AWS独自設計推論チップInferentiaとInf1インスタンス
20201008 AWS独自設計推論チップInferentiaとInf1インスタンス20201008 AWS独自設計推論チップInferentiaとInf1インスタンス
20201008 AWS独自設計推論チップInferentiaとInf1インスタンスHiroshi Tokoyo
 
S3 整合性モデルと Hadoop/Spark の話
S3 整合性モデルと Hadoop/Spark の話S3 整合性モデルと Hadoop/Spark の話
S3 整合性モデルと Hadoop/Spark の話Noritaka Sekiyama
 
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13wスケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13wCloudera Japan
 
AWS Redshift Analyzeの必要性とvacuumの落とし穴
AWS Redshift Analyzeの必要性とvacuumの落とし穴AWS Redshift Analyzeの必要性とvacuumの落とし穴
AWS Redshift Analyzeの必要性とvacuumの落とし穴Moto Fukao
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)NTT DATA OSS Professional Services
 
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントCloudera Japan
 
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)Amazon Web Services Japan
 
Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-Yuki Gonda
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Ken SASAKI
 
ただいまHadoop勉強中
ただいまHadoop勉強中ただいまHadoop勉強中
ただいまHadoop勉強中Satoshi Noto
 
AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05
AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05
AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05都元ダイスケ Miyamoto
 
webエンジニアのためのはじめてのredis
webエンジニアのためのはじめてのrediswebエンジニアのためのはじめてのredis
webエンジニアのためのはじめてのredisnasa9084
 
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...NTT DATA Technology & Innovation
 
ゲームアーキテクチャパターン (Aurora Serverless / DynamoDB)
ゲームアーキテクチャパターン (Aurora Serverless / DynamoDB)ゲームアーキテクチャパターン (Aurora Serverless / DynamoDB)
ゲームアーキテクチャパターン (Aurora Serverless / DynamoDB)Amazon Web Services Japan
 

Was ist angesagt? (20)

Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan
Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan
Amazon Redshiftの開発者がこれだけは知っておきたい10のTIPS / 第18回 AWS User Group - Japan
 
AWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザAWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザ
 
NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例NetflixにおけるPresto/Spark活用事例
NetflixにおけるPresto/Spark活用事例
 
DeNAのQCTマネジメント IaaS利用のベストプラクティス [AWS Summit Tokyo 2019]
DeNAのQCTマネジメント IaaS利用のベストプラクティス [AWS Summit Tokyo 2019]DeNAのQCTマネジメント IaaS利用のベストプラクティス [AWS Summit Tokyo 2019]
DeNAのQCTマネジメント IaaS利用のベストプラクティス [AWS Summit Tokyo 2019]
 
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
 
20201008 AWS独自設計推論チップInferentiaとInf1インスタンス
20201008 AWS独自設計推論チップInferentiaとInf1インスタンス20201008 AWS独自設計推論チップInferentiaとInf1インスタンス
20201008 AWS独自設計推論チップInferentiaとInf1インスタンス
 
S3 整合性モデルと Hadoop/Spark の話
S3 整合性モデルと Hadoop/Spark の話S3 整合性モデルと Hadoop/Spark の話
S3 整合性モデルと Hadoop/Spark の話
 
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13wスケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
 
AWS Redshift Analyzeの必要性とvacuumの落とし穴
AWS Redshift Analyzeの必要性とvacuumの落とし穴AWS Redshift Analyzeの必要性とvacuumの落とし穴
AWS Redshift Analyzeの必要性とvacuumの落とし穴
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
 
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
 
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
 
Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
 
ただいまHadoop勉強中
ただいまHadoop勉強中ただいまHadoop勉強中
ただいまHadoop勉強中
 
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知るMapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
 
AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05
AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05
AWSにおけるバッチ処理の ベストプラクティス - Developers.IO Meetup 05
 
webエンジニアのためのはじめてのredis
webエンジニアのためのはじめてのrediswebエンジニアのためのはじめてのredis
webエンジニアのためのはじめてのredis
 
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
 
ゲームアーキテクチャパターン (Aurora Serverless / DynamoDB)
ゲームアーキテクチャパターン (Aurora Serverless / DynamoDB)ゲームアーキテクチャパターン (Aurora Serverless / DynamoDB)
ゲームアーキテクチャパターン (Aurora Serverless / DynamoDB)
 

Andere mochten auch

AWS Black Belt Techシリーズ Amazon Redshift
AWS Black Belt Techシリーズ  Amazon RedshiftAWS Black Belt Techシリーズ  Amazon Redshift
AWS Black Belt Techシリーズ Amazon RedshiftAmazon Web Services Japan
 
Presto - Hadoop Conference Japan 2014
Presto - Hadoop Conference Japan 2014Presto - Hadoop Conference Japan 2014
Presto - Hadoop Conference Japan 2014Sadayuki Furuhashi
 
AWS Black Belt Tech シリーズ 2015 - Amazon Elastic MapReduce
AWS Black Belt Tech シリーズ 2015 - Amazon Elastic MapReduceAWS Black Belt Tech シリーズ 2015 - Amazon Elastic MapReduce
AWS Black Belt Tech シリーズ 2015 - Amazon Elastic MapReduceAmazon Web Services Japan
 
これでBigQueryをドヤ顔で語れる!BigQueryの基本
これでBigQueryをドヤ顔で語れる!BigQueryの基本これでBigQueryをドヤ顔で語れる!BigQueryの基本
これでBigQueryをドヤ顔で語れる!BigQueryの基本Tomohiro Shinden
 
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニング
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニングAWS Casual 02: ふつうのRedshiftパフォーマンスチューニング
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニングMinero Aoki
 
Google BigQueryについて 紹介と推測
Google BigQueryについて 紹介と推測Google BigQueryについて 紹介と推測
Google BigQueryについて 紹介と推測Ryuji Tamagawa
 
6 月 18 日 Next - Google が描く、MapReduce を超えたビッグデータの世界
6 月 18 日 Next -  Google が描く、MapReduce を超えたビッグデータの世界6 月 18 日 Next -  Google が描く、MapReduce を超えたビッグデータの世界
6 月 18 日 Next - Google が描く、MapReduce を超えたビッグデータの世界Google Cloud Platform - Japan
 
6 月 18 日 Next - MonitoringとLogging で アプリともっと深く向き合う
6 月 18 日 Next - MonitoringとLogging で アプリともっと深く向き合う6 月 18 日 Next - MonitoringとLogging で アプリともっと深く向き合う
6 月 18 日 Next - MonitoringとLogging で アプリともっと深く向き合うGoogle Cloud Platform - Japan
 
db-tech-showcase-sapporo-b24-20150911p
db-tech-showcase-sapporo-b24-20150911pdb-tech-showcase-sapporo-b24-20150911p
db-tech-showcase-sapporo-b24-20150911pSatoru Ishikawa
 
Logをs3とredshiftに格納する仕組み
Logをs3とredshiftに格納する仕組みLogをs3とredshiftに格納する仕組み
Logをs3とredshiftに格納する仕組みKen Morishita
 
6 月 18 日 Next - Engines 入門: Cloud Platform でのコンピューティング
6 月 18 日 Next - Engines 入門: Cloud Platform でのコンピューティング6 月 18 日 Next - Engines 入門: Cloud Platform でのコンピューティング
6 月 18 日 Next - Engines 入門: Cloud Platform でのコンピューティングGoogle Cloud Platform - Japan
 
Landscape of Norikra features
Landscape of Norikra featuresLandscape of Norikra features
Landscape of Norikra featuresSATOSHI TAGOMORI
 
Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?Satoshi Noto
 
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)Takahiro Inoue
 
6 月 18 日 Next - Kubernetes のコンテナ技術ですべてをシンプルに
6 月 18 日 Next - Kubernetes のコンテナ技術ですべてをシンプルに6 月 18 日 Next - Kubernetes のコンテナ技術ですべてをシンプルに
6 月 18 日 Next - Kubernetes のコンテナ技術ですべてをシンプルにGoogle Cloud Platform - Japan
 
6 月 18 日 Next - 意外と簡単、AI を使ったリアルタイム モバイルゲーム開発
6 月 18 日 Next - 意外と簡単、AI を使ったリアルタイム モバイルゲーム開発6 月 18 日 Next - 意外と簡単、AI を使ったリアルタイム モバイルゲーム開発
6 月 18 日 Next - 意外と簡単、AI を使ったリアルタイム モバイルゲーム開発Google Cloud Platform - Japan
 
Googleアナリティクスプレミアム+Big Queryで実践する、カスタマージャーニーセミナー 第二部
Googleアナリティクスプレミアム+Big Queryで実践する、カスタマージャーニーセミナー 第二部Googleアナリティクスプレミアム+Big Queryで実践する、カスタマージャーニーセミナー 第二部
Googleアナリティクスプレミアム+Big Queryで実践する、カスタマージャーニーセミナー 第二部Sumio Ebisawa
 
CEDEC 2015: Google スケールで実現する!ゲーム&分析基盤
CEDEC 2015: Google スケールで実現する!ゲーム&分析基盤CEDEC 2015: Google スケールで実現する!ゲーム&分析基盤
CEDEC 2015: Google スケールで実現する!ゲーム&分析基盤Google Cloud Platform - Japan
 

Andere mochten auch (20)

AWS Black Belt Techシリーズ Amazon Redshift
AWS Black Belt Techシリーズ  Amazon RedshiftAWS Black Belt Techシリーズ  Amazon Redshift
AWS Black Belt Techシリーズ Amazon Redshift
 
Presto - Hadoop Conference Japan 2014
Presto - Hadoop Conference Japan 2014Presto - Hadoop Conference Japan 2014
Presto - Hadoop Conference Japan 2014
 
AWS Black Belt Tech シリーズ 2015 - Amazon Elastic MapReduce
AWS Black Belt Tech シリーズ 2015 - Amazon Elastic MapReduceAWS Black Belt Tech シリーズ 2015 - Amazon Elastic MapReduce
AWS Black Belt Tech シリーズ 2015 - Amazon Elastic MapReduce
 
これでBigQueryをドヤ顔で語れる!BigQueryの基本
これでBigQueryをドヤ顔で語れる!BigQueryの基本これでBigQueryをドヤ顔で語れる!BigQueryの基本
これでBigQueryをドヤ顔で語れる!BigQueryの基本
 
2015/04/01 AWS Blackbelt EC2
2015/04/01 AWS Blackbelt EC22015/04/01 AWS Blackbelt EC2
2015/04/01 AWS Blackbelt EC2
 
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニング
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニングAWS Casual 02: ふつうのRedshiftパフォーマンスチューニング
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニング
 
6 月 18 日 Next - Cloud Networking
6 月 18 日 Next - Cloud Networking6 月 18 日 Next - Cloud Networking
6 月 18 日 Next - Cloud Networking
 
Google BigQueryについて 紹介と推測
Google BigQueryについて 紹介と推測Google BigQueryについて 紹介と推測
Google BigQueryについて 紹介と推測
 
6 月 18 日 Next - Google が描く、MapReduce を超えたビッグデータの世界
6 月 18 日 Next -  Google が描く、MapReduce を超えたビッグデータの世界6 月 18 日 Next -  Google が描く、MapReduce を超えたビッグデータの世界
6 月 18 日 Next - Google が描く、MapReduce を超えたビッグデータの世界
 
6 月 18 日 Next - MonitoringとLogging で アプリともっと深く向き合う
6 月 18 日 Next - MonitoringとLogging で アプリともっと深く向き合う6 月 18 日 Next - MonitoringとLogging で アプリともっと深く向き合う
6 月 18 日 Next - MonitoringとLogging で アプリともっと深く向き合う
 
db-tech-showcase-sapporo-b24-20150911p
db-tech-showcase-sapporo-b24-20150911pdb-tech-showcase-sapporo-b24-20150911p
db-tech-showcase-sapporo-b24-20150911p
 
Logをs3とredshiftに格納する仕組み
Logをs3とredshiftに格納する仕組みLogをs3とredshiftに格納する仕組み
Logをs3とredshiftに格納する仕組み
 
6 月 18 日 Next - Engines 入門: Cloud Platform でのコンピューティング
6 月 18 日 Next - Engines 入門: Cloud Platform でのコンピューティング6 月 18 日 Next - Engines 入門: Cloud Platform でのコンピューティング
6 月 18 日 Next - Engines 入門: Cloud Platform でのコンピューティング
 
Landscape of Norikra features
Landscape of Norikra featuresLandscape of Norikra features
Landscape of Norikra features
 
Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?
 
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
 
6 月 18 日 Next - Kubernetes のコンテナ技術ですべてをシンプルに
6 月 18 日 Next - Kubernetes のコンテナ技術ですべてをシンプルに6 月 18 日 Next - Kubernetes のコンテナ技術ですべてをシンプルに
6 月 18 日 Next - Kubernetes のコンテナ技術ですべてをシンプルに
 
6 月 18 日 Next - 意外と簡単、AI を使ったリアルタイム モバイルゲーム開発
6 月 18 日 Next - 意外と簡単、AI を使ったリアルタイム モバイルゲーム開発6 月 18 日 Next - 意外と簡単、AI を使ったリアルタイム モバイルゲーム開発
6 月 18 日 Next - 意外と簡単、AI を使ったリアルタイム モバイルゲーム開発
 
Googleアナリティクスプレミアム+Big Queryで実践する、カスタマージャーニーセミナー 第二部
Googleアナリティクスプレミアム+Big Queryで実践する、カスタマージャーニーセミナー 第二部Googleアナリティクスプレミアム+Big Queryで実践する、カスタマージャーニーセミナー 第二部
Googleアナリティクスプレミアム+Big Queryで実践する、カスタマージャーニーセミナー 第二部
 
CEDEC 2015: Google スケールで実現する!ゲーム&分析基盤
CEDEC 2015: Google スケールで実現する!ゲーム&分析基盤CEDEC 2015: Google スケールで実現する!ゲーム&分析基盤
CEDEC 2015: Google スケールで実現する!ゲーム&分析基盤
 

Ähnlich wie Amazon Redshift ベンチマーク Hadoop + Hiveと比較

Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallAmazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallShinpei Ohtani
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16Yifeng Jiang
 
Sparkパフォーマンス検証
Sparkパフォーマンス検証Sparkパフォーマンス検証
Sparkパフォーマンス検証BrainPad Inc.
 
2012/6/10 Webのパフォーマンスを考える @ 【第三回】初心者向けホームページ勉強会
2012/6/10 Webのパフォーマンスを考える @ 【第三回】初心者向けホームページ勉強会2012/6/10 Webのパフォーマンスを考える @ 【第三回】初心者向けホームページ勉強会
2012/6/10 Webのパフォーマンスを考える @ 【第三回】初心者向けホームページ勉強会tama200x Kobayashi
 
【IVS CTO Night & Day】Serverless & Mobile Updates
【IVS CTO Night & Day】Serverless & Mobile Updates【IVS CTO Night & Day】Serverless & Mobile Updates
【IVS CTO Night & Day】Serverless & Mobile UpdatesAmazon Web Services Japan
 
Pydata Amazon Kinesisのご紹介
Pydata Amazon Kinesisのご紹介Pydata Amazon Kinesisのご紹介
Pydata Amazon Kinesisのご紹介Toshiaki Enami
 
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)NTT DATA Technology & Innovation
 
ゲームのインフラをAwsで実戦tips全て見せます
ゲームのインフラをAwsで実戦tips全て見せますゲームのインフラをAwsで実戦tips全て見せます
ゲームのインフラをAwsで実戦tips全て見せますinfinite_loop
 
[Cyber HPC Symposium 2019] Microsoft Azureによる、クラウド時代のハイパフォーマンスコンピューティング High...
[Cyber HPC Symposium 2019]  Microsoft Azureによる、クラウド時代のハイパフォーマンスコンピューティング High...[Cyber HPC Symposium 2019]  Microsoft Azureによる、クラウド時代のハイパフォーマンスコンピューティング High...
[Cyber HPC Symposium 2019] Microsoft Azureによる、クラウド時代のハイパフォーマンスコンピューティング High...Shuichi Gojuki
 
Gangliaはじめました
GangliaはじめましたGangliaはじめました
Gangliaはじめましたyuzorock
 
お金をかけないDBチューニング
お金をかけないDBチューニングお金をかけないDBチューニング
お金をかけないDBチューニングKazuya Sato
 
製造業における「データ活用」事例 -センサー・データと既存データを統合し、品質管理・顧客満足度を向上
製造業における「データ活用」事例 -センサー・データと既存データを統合し、品質管理・顧客満足度を向上製造業における「データ活用」事例 -センサー・データと既存データを統合し、品質管理・顧客満足度を向上
製造業における「データ活用」事例 -センサー・データと既存データを統合し、品質管理・顧客満足度を向上日本テラデータ株式会社
 
Azure Stack HCI - パフォーマンス履歴 と Azure Monitor
Azure Stack HCI - パフォーマンス履歴 と Azure MonitorAzure Stack HCI - パフォーマンス履歴 と Azure Monitor
Azure Stack HCI - パフォーマンス履歴 と Azure MonitorHiroshi Matsumoto
 
Windows Azure の中でも動いている InfiniBand って何?
Windows Azure の中でも動いている InfiniBand って何?Windows Azure の中でも動いている InfiniBand って何?
Windows Azure の中でも動いている InfiniBand って何?Sunao Tomita
 
クラウドTCOの真実
クラウドTCOの真実クラウドTCOの真実
クラウドTCOの真実SORACOM, INC
 
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
AWS Black Belt Online Seminar 2017 Amazon DynamoDB AWS Black Belt Online Seminar 2017 Amazon DynamoDB
AWS Black Belt Online Seminar 2017 Amazon DynamoDB Amazon Web Services Japan
 
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデートAmazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデートAmazon Web Services Japan
 
Evolution of Impala #hcj2014
Evolution of Impala #hcj2014Evolution of Impala #hcj2014
Evolution of Impala #hcj2014Cloudera Japan
 

Ähnlich wie Amazon Redshift ベンチマーク Hadoop + Hiveと比較 (20)

Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallAmazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
 
Sparkパフォーマンス検証
Sparkパフォーマンス検証Sparkパフォーマンス検証
Sparkパフォーマンス検証
 
2012/6/10 Webのパフォーマンスを考える @ 【第三回】初心者向けホームページ勉強会
2012/6/10 Webのパフォーマンスを考える @ 【第三回】初心者向けホームページ勉強会2012/6/10 Webのパフォーマンスを考える @ 【第三回】初心者向けホームページ勉強会
2012/6/10 Webのパフォーマンスを考える @ 【第三回】初心者向けホームページ勉強会
 
【IVS CTO Night & Day】Serverless & Mobile Updates
【IVS CTO Night & Day】Serverless & Mobile Updates【IVS CTO Night & Day】Serverless & Mobile Updates
【IVS CTO Night & Day】Serverless & Mobile Updates
 
Pydata Amazon Kinesisのご紹介
Pydata Amazon Kinesisのご紹介Pydata Amazon Kinesisのご紹介
Pydata Amazon Kinesisのご紹介
 
Pydata Amazon Kinesisのご紹介
Pydata Amazon Kinesisのご紹介Pydata Amazon Kinesisのご紹介
Pydata Amazon Kinesisのご紹介
 
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)
押さえておきたい、PostgreSQL 13 の新機能!! (PostgreSQL Conference Japan 2020講演資料)
 
ゲームのインフラをAwsで実戦tips全て見せます
ゲームのインフラをAwsで実戦tips全て見せますゲームのインフラをAwsで実戦tips全て見せます
ゲームのインフラをAwsで実戦tips全て見せます
 
[Cyber HPC Symposium 2019] Microsoft Azureによる、クラウド時代のハイパフォーマンスコンピューティング High...
[Cyber HPC Symposium 2019]  Microsoft Azureによる、クラウド時代のハイパフォーマンスコンピューティング High...[Cyber HPC Symposium 2019]  Microsoft Azureによる、クラウド時代のハイパフォーマンスコンピューティング High...
[Cyber HPC Symposium 2019] Microsoft Azureによる、クラウド時代のハイパフォーマンスコンピューティング High...
 
Gangliaはじめました
GangliaはじめましたGangliaはじめました
Gangliaはじめました
 
お金をかけないDBチューニング
お金をかけないDBチューニングお金をかけないDBチューニング
お金をかけないDBチューニング
 
製造業における「データ活用」事例 -センサー・データと既存データを統合し、品質管理・顧客満足度を向上
製造業における「データ活用」事例 -センサー・データと既存データを統合し、品質管理・顧客満足度を向上製造業における「データ活用」事例 -センサー・データと既存データを統合し、品質管理・顧客満足度を向上
製造業における「データ活用」事例 -センサー・データと既存データを統合し、品質管理・顧客満足度を向上
 
Azure Stack HCI - パフォーマンス履歴 と Azure Monitor
Azure Stack HCI - パフォーマンス履歴 と Azure MonitorAzure Stack HCI - パフォーマンス履歴 と Azure Monitor
Azure Stack HCI - パフォーマンス履歴 と Azure Monitor
 
Windows Azure の中でも動いている InfiniBand って何?
Windows Azure の中でも動いている InfiniBand って何?Windows Azure の中でも動いている InfiniBand って何?
Windows Azure の中でも動いている InfiniBand って何?
 
クラウドTCOの真実
クラウドTCOの真実クラウドTCOの真実
クラウドTCOの真実
 
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
AWS Black Belt Online Seminar 2017 Amazon DynamoDB AWS Black Belt Online Seminar 2017 Amazon DynamoDB
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
 
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデートAmazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
 
Fluentd meetup #2
Fluentd meetup #2Fluentd meetup #2
Fluentd meetup #2
 
Evolution of Impala #hcj2014
Evolution of Impala #hcj2014Evolution of Impala #hcj2014
Evolution of Impala #hcj2014
 

Mehr von FlyData Inc.

What is Change Data Capture (CDC) and Why is it Important?
What is Change Data Capture (CDC) and Why is it Important?What is Change Data Capture (CDC) and Why is it Important?
What is Change Data Capture (CDC) and Why is it Important?FlyData Inc.
 
What's So Unique About a Columnar Database?
What's So Unique About a Columnar Database?What's So Unique About a Columnar Database?
What's So Unique About a Columnar Database?FlyData Inc.
 
Three Things to Consider When Making Investments in Your Big Data Infrastructure
Three Things to Consider When Making Investments in Your Big Data InfrastructureThree Things to Consider When Making Investments in Your Big Data Infrastructure
Three Things to Consider When Making Investments in Your Big Data InfrastructureFlyData Inc.
 
Cognitive Biases in Data Science
Cognitive Biases in Data ScienceCognitive Biases in Data Science
Cognitive Biases in Data ScienceFlyData Inc.
 
How to Extract Data from Amazon Redshift
How to Extract Data from Amazon RedshiftHow to Extract Data from Amazon Redshift
How to Extract Data from Amazon RedshiftFlyData Inc.
 
Amazon Redshift - Create an Amazon Redshift Cluster
Amazon Redshift - Create an Amazon Redshift ClusterAmazon Redshift - Create an Amazon Redshift Cluster
Amazon Redshift - Create an Amazon Redshift ClusterFlyData Inc.
 
The Internet of Things
The Internet of ThingsThe Internet of Things
The Internet of ThingsFlyData Inc.
 
Create an Amazon Redshift Cluster with FlyData!
Create an Amazon Redshift Cluster with FlyData!Create an Amazon Redshift Cluster with FlyData!
Create an Amazon Redshift Cluster with FlyData!FlyData Inc.
 
Near Real-Time Data Analysis With FlyData
Near Real-Time Data Analysis With FlyData Near Real-Time Data Analysis With FlyData
Near Real-Time Data Analysis With FlyData FlyData Inc.
 
FlyData Autoload: 事例集
FlyData Autoload: 事例集FlyData Autoload: 事例集
FlyData Autoload: 事例集FlyData Inc.
 
Scalability of Amazon Redshift Data Loading and Query Speed
Scalability of Amazon Redshift Data Loading and Query SpeedScalability of Amazon Redshift Data Loading and Query Speed
Scalability of Amazon Redshift Data Loading and Query SpeedFlyData Inc.
 

Mehr von FlyData Inc. (11)

What is Change Data Capture (CDC) and Why is it Important?
What is Change Data Capture (CDC) and Why is it Important?What is Change Data Capture (CDC) and Why is it Important?
What is Change Data Capture (CDC) and Why is it Important?
 
What's So Unique About a Columnar Database?
What's So Unique About a Columnar Database?What's So Unique About a Columnar Database?
What's So Unique About a Columnar Database?
 
Three Things to Consider When Making Investments in Your Big Data Infrastructure
Three Things to Consider When Making Investments in Your Big Data InfrastructureThree Things to Consider When Making Investments in Your Big Data Infrastructure
Three Things to Consider When Making Investments in Your Big Data Infrastructure
 
Cognitive Biases in Data Science
Cognitive Biases in Data ScienceCognitive Biases in Data Science
Cognitive Biases in Data Science
 
How to Extract Data from Amazon Redshift
How to Extract Data from Amazon RedshiftHow to Extract Data from Amazon Redshift
How to Extract Data from Amazon Redshift
 
Amazon Redshift - Create an Amazon Redshift Cluster
Amazon Redshift - Create an Amazon Redshift ClusterAmazon Redshift - Create an Amazon Redshift Cluster
Amazon Redshift - Create an Amazon Redshift Cluster
 
The Internet of Things
The Internet of ThingsThe Internet of Things
The Internet of Things
 
Create an Amazon Redshift Cluster with FlyData!
Create an Amazon Redshift Cluster with FlyData!Create an Amazon Redshift Cluster with FlyData!
Create an Amazon Redshift Cluster with FlyData!
 
Near Real-Time Data Analysis With FlyData
Near Real-Time Data Analysis With FlyData Near Real-Time Data Analysis With FlyData
Near Real-Time Data Analysis With FlyData
 
FlyData Autoload: 事例集
FlyData Autoload: 事例集FlyData Autoload: 事例集
FlyData Autoload: 事例集
 
Scalability of Amazon Redshift Data Loading and Query Speed
Scalability of Amazon Redshift Data Loading and Query SpeedScalability of Amazon Redshift Data Loading and Query Speed
Scalability of Amazon Redshift Data Loading and Query Speed
 

Amazon Redshift ベンチマーク Hadoop + Hiveと比較

  • 1. PERFORMANCE BENCHMARK: Comparisons of speed and cost efficiency Amazon Redshift ベンチマーク Hadoop + Hive と比較 10 倍の速度・コストパフォー マンス
  • 2. Amazon Redshift では、 1.2TB のデータへのクエ リの処理に対し、処理時間が 155 秒 Hadoop + Hive では、 1.2TB のデータへのクエリの 処理に対し、処理時間が 1491 秒 Amazon Redshift : 10 倍の処理速度 Amazon Redshift の運用コストは 30 分に一回の頻 度でクエリを処理する場合、一日あたり $20 Hadoop + Hive の運用コストは 30 分に一回の頻度 でクエリを処理する場合、一日あたり $210   Amazon Redshift : 10 倍のコストパフォーマ ンス
  • 3. Amazon Redshift は、クラウドビッグデータの新 しいデータウェアハウス。 Redshift の登場までは 、テラバイトを超える処理には、 Hadoop を用い る必要があった。 今回、 Redshift と Hadoop(Amazon Elastic MapReduce) を比較のため、インターネット広告 代理店のシステムのデータを想定し、ベンチマー クを実施。 • 想定データサイズ: 100GB to ~50TB • クエリの頻度: 1 時間あたり 1 回以上 • 素早いレスポンスが求められる
  • 4. 前提条件 – データセット 検証対象のクエリとして、 Join してレポートを作成するクエリを想定し、 以下の 5 つのテーブルを利用 Imp_log 1) 300GB / 300M record 2) 1.2TB / 1.2B record date publisher_id ad_campaign_id country attr1-4 datetime integer integer varchar(30) varchar(255) click_log 1) 1.4GB / 1.5M record 2) 5.6GB / 6M record date publisher_id ad_campaign_id bid_price country attr1-4 datetime integer integer real varchar(30) varchar(255) ad_campaign 100MB / 100k record publisher 10MB / 10k record advertiser 10MB / 10k record 1) 1 ヶ月間のログ 2) 4 ヶ月間のログ ファイルフォーマットは TSV とし , gzip 圧縮
  • 5. 1. クエリの処理速度 Redshift と Hadoop に対し、同じサーバコストで検証した比較結 果 (Hadoop: c1.xlarge vs Redshift: dw.hs1.xlarge) 1491sec 672sec 155sec 38sec * クエリの詳細は Appendix に記載 •• Redshift は 1.2TB Redshift は 1.2TB に対するクエリの に対するクエリの 処理時間は 155 秒 処理時間は 155 秒 •• Hadoop は 1.2TB Hadoop は 1.2TB に対するクエリの に対するクエリの 処理時間は 1491 処理時間は 1491 秒 秒 •• Redshift は、この Redshift は、この クエリの処理に対 クエリの処理に対 し、 Hadoop に比 し、 Hadoop に比 べ 10 倍の処理速度 べ 10 倍の処理速度
  • 6. 2. 運用コスト Redshift と Hadoop に対し、同じクエリ、同じ実行時間でかか る運用コストの比較結果 •• 30 分に一回の頻度 30 分に一回の頻度 でクエリを実行する でクエリを実行する 場合、 Redshift の 場合、 Redshift の コストは 1 月あたり コストは 1 月あたり $20 $20 •• 30 分に一回の頻度 30 分に一回の頻度 でクエリを実行する でクエリを実行する 場合、 Hadoop のコ 場合、 Hadoop のコ ストは 1 月あたり ストは 1 月あたり $210 $210 •• Redshift は Hadoop Redshift は Hadoop に比べて 10 倍のコ に比べて 10 倍のコ ストパフォーマンス ストパフォーマンス * クエリの詳細は Appendix に記載
  • 7. 検証結果 – Redshift データサイズ インスタンス タイプ インスタンス数 試行回 処理時間 1 164 秒 149 秒 3 158 秒 156 秒 5 1 30 秒 4 dw.hs1.xlarge 30 秒 2 1.2TB 31 秒 1 1 3 5 dw.hs1.xlarge 43 秒 4 300GB 150 秒 一日あたりの費用 58 秒 2 平均処理時間 * クエリの詳細は Appendix に記載 38 秒 $20.40 155 秒 $20.40
  • 8. 検証結果 - Hadoop データサイズ インスタンスタイプ インスタンス数 c1.xlarge c1.medium 1h 23m 一日あたりの費用 2s $0.80 10 37m 48s $0.89 c1.xlarge 10 11m 12s $1.06 m1.xlarge 1 6h 43m 24s $3.22 c1.medium 4 5h 14m 0s $3.04 c1.xlarge 10 37m 7s $3.58 c1.xlarge 300GB 1 処理時間 20 24m 51s $4.64 1.2TB * The query used can be referenced in our Appendix
  • 9. 考察 • Redshift の選択基準 – 1TB 以上のデータで 1 時間に 1 回以上の頻 度でクエリを処理する必要がある場合 – 実行結果が迅速 (10 分以内 ) に必要な場合 • Hadoop (EMR) の選択基準 – ペタバイト級のデータを保持 – クエリの実行頻度が 1 日に 1 回、 1 週間に 1 回程度 – Hadoop 技術に既に投資している場合
  • 10. appendix – サンプルクエリ 広告キャンペーンのパフォーマンスレポート(インプレッション、クリック数 、広告費用、 CTR 、 CPC 、および CPM )を作成するクエリを想定 select ac.ad_campaign_id as ad_campaign_id, adv.advertiser_id as advertiser_id, cs.spending as spending, ims.imp_total as imp_total, cs.click_total as click_total, click_total/imp_total as CTR, spending/click_total as CPC, spending/(imp_total/1000) as CPM from ad_campaigns ac join advertisers adv on (ac.advertiser_id = adv.advertiser_id) join (select il.ad_campaign_id, count(*) as imp_total from imp_logs il group by il.ad_campaign_id ) ims on (ims.ad_campaign_id = ac.ad_campaign_id) join (select cl.ad_campaign_id, sum(cl.bid_price) as spending, count(*) as click_total from click_logs cl group by cl.ad_campaign_id ) cs on (cs.ad_campaign_id = ac.ad_campaign_id);
  • 11. APPENDIX – Redshift TIPS • Redshift は合計 (sum) 、平均 (average) 、最大 (max) 、最小 (min) など計算結果を集計する処理 が得意  ( カラム型データベースのため ) • 大容量データのインポートに長い時間を要する – 今回のベンチマークでは 1.2TB の一括ロードに 17 時 間 – 継続したインポートが必要 • Redshift は CSV, TSV のようなセパレータタイプ のみ対応 – JSON は現時点ではサポート対象外 • Redshift はプリミティブなデータ型のみ対応 – 11 types, INT, DOUBLE, BOOLEAN, VARCHAR, DATE.. (2013 年 2 月 17 日現 在)
  • 12. APPENDIX – Additional Information • 今回のベンチマークに利用したリソース は全て github に公開 – https://github.com/hapyrus/redshift-benchmark – データセットは S3 上に公開
  • 13. お問い合わせ先 - FlyData • Hadoop + Hive and Redshift サービスを 提供 • FlyData for Redshift – 自社のデータで、 Redshift を Day 1 から利用 開始可能 – リアルタイムに近い間隔で Redshift にデータ 転送 – オートスケーリング、データの統合管理で高 可用性を実現 • Redshift の導入コンサルも提供 お問い合わせは info@flydata.com へ!