Submit Search
Upload
Cloudera impalaの性能評価(Hiveとの比較)
•
17 likes
•
6,547 views
Yukinori Suda
Follow
Hadoop MapReduceの処理速度より1桁速いと聞いて、早速自前のクラスタ環境で評価しました。
Read less
Read more
Technology
Report
Share
Report
Share
1 of 17
Download now
Download to read offline
Recommended
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Sho Shimauchi
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Cloudera Japan
Evolution of Impala #hcj2014
Evolution of Impala #hcj2014
Cloudera Japan
HBaseを用いたグラフDB「Hornet」の設計と運用
HBaseを用いたグラフDB「Hornet」の設計と運用
Toshihiro Suzuki
HBase at Ameba
HBase at Ameba
Toshihiro Suzuki
Tez on EMRを試してみた
Tez on EMRを試してみた
Satoshi Noto
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
Cloudera Japan
Impala 2.0 Update 日本語版 #impalajp
Impala 2.0 Update 日本語版 #impalajp
Cloudera Japan
Recommended
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Sho Shimauchi
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Cloudera Japan
Evolution of Impala #hcj2014
Evolution of Impala #hcj2014
Cloudera Japan
HBaseを用いたグラフDB「Hornet」の設計と運用
HBaseを用いたグラフDB「Hornet」の設計と運用
Toshihiro Suzuki
HBase at Ameba
HBase at Ameba
Toshihiro Suzuki
Tez on EMRを試してみた
Tez on EMRを試してみた
Satoshi Noto
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
スケーラブルなシステムのためのHBaseスキーマ設計 #hcj13w
Cloudera Japan
Impala 2.0 Update 日本語版 #impalajp
Impala 2.0 Update 日本語版 #impalajp
Cloudera Japan
HiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取り
Yukinori Suda
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
Hiveを高速化するLLAP
Hiveを高速化するLLAP
Yahoo!デベロッパーネットワーク
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話
Yukinori Suda
5分でわかる Apache HBase 最新版 #hcj2014
5分でわかる Apache HBase 最新版 #hcj2014
Cloudera Japan
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
Hadoop / Spark Conference Japan
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
Michio Katano
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakalt
Toshihiro Suzuki
なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013
Cloudera Japan
CDH5最新情報 #cwt2013
CDH5最新情報 #cwt2013
Cloudera Japan
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
Hadoop / Spark Conference Japan
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
Koji Shinkubo
Impalaチューニングポイントベストプラクティス
Impalaチューニングポイントベストプラクティス
Yahoo!デベロッパーネットワーク
Hive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみた
Recruit Technologies
Sparkパフォーマンス検証
Sparkパフォーマンス検証
BrainPad Inc.
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Cloudera Japan
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Nagato Kasaki
HDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
Cloudera Japan
刊行記念セミナー「HBase徹底入門」
刊行記念セミナー「HBase徹底入門」
cyberagent
Web技術勉強会 第31回
Web技術勉強会 第31回
龍一 田中
Hadoop splittable-lzo-compression
Hadoop splittable-lzo-compression
Daiki Sato
More Related Content
What's hot
HiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取り
Yukinori Suda
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
Hiveを高速化するLLAP
Hiveを高速化するLLAP
Yahoo!デベロッパーネットワーク
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話
Yukinori Suda
5分でわかる Apache HBase 最新版 #hcj2014
5分でわかる Apache HBase 最新版 #hcj2014
Cloudera Japan
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
Hadoop / Spark Conference Japan
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
Michio Katano
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakalt
Toshihiro Suzuki
なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013
Cloudera Japan
CDH5最新情報 #cwt2013
CDH5最新情報 #cwt2013
Cloudera Japan
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
Hadoop / Spark Conference Japan
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
Koji Shinkubo
Impalaチューニングポイントベストプラクティス
Impalaチューニングポイントベストプラクティス
Yahoo!デベロッパーネットワーク
Hive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみた
Recruit Technologies
Sparkパフォーマンス検証
Sparkパフォーマンス検証
BrainPad Inc.
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Cloudera Japan
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Nagato Kasaki
HDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
Cloudera Japan
刊行記念セミナー「HBase徹底入門」
刊行記念セミナー「HBase徹底入門」
cyberagent
What's hot
(20)
HiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取り
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Hiveを高速化するLLAP
Hiveを高速化するLLAP
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話
5分でわかる Apache HBase 最新版 #hcj2014
5分でわかる Apache HBase 最新版 #hcj2014
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakalt
なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013
CDH5最新情報 #cwt2013
CDH5最新情報 #cwt2013
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
Impalaチューニングポイントベストプラクティス
Impalaチューニングポイントベストプラクティス
Hive on Spark の設計指針を読んでみた
Hive on Spark の設計指針を読んでみた
Sparkパフォーマンス検証
Sparkパフォーマンス検証
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016
HDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
刊行記念セミナー「HBase徹底入門」
刊行記念セミナー「HBase徹底入門」
Similar to Cloudera impalaの性能評価(Hiveとの比較)
Web技術勉強会 第31回
Web技術勉強会 第31回
龍一 田中
Hadoop splittable-lzo-compression
Hadoop splittable-lzo-compression
Daiki Sato
HAクラスタで PostgreSQLレプリケーション構成の 高可用化
HAクラスタで PostgreSQLレプリケーション構成の 高可用化
Takatoshi Matsuo
Hadoop事始め
Hadoop事始め
You&I
Apache geode at-s1p
Apache geode at-s1p
Masaki Yamakawa
Cake Matsuri Nanapi
Cake Matsuri Nanapi
Shuichi Wada
Cloudera Impala Seminar Jan. 8 2013
Cloudera Impala Seminar Jan. 8 2013
Cloudera Japan
VLDB2011勉強会 Research Session 18: MapReduce and Hadoop
VLDB2011勉強会 Research Session 18: MapReduce and Hadoop
Hiroaki Shiokawa
NodeFest2014 - Transpiler
NodeFest2014 - Transpiler
Martin Heidegger
ゲームのインフラをAwsで実戦tips全て見せます
ゲームのインフラをAwsで実戦tips全て見せます
infinite_loop
Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要
日本ヒューレット・パッカード株式会社
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
Katsushi Yamashita
関西オープンソース 2008 30days Albumの裏側
関西オープンソース 2008 30days Albumの裏側
Gosuke Miyashita
Flumeを活用したAmebaにおける大規模ログ収集システム
Flumeを活用したAmebaにおける大規模ログ収集システム
Satoshi Iijima
Html5勉強会資料 2012821
Html5勉強会資料 2012821
Cohei Aoki
20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw
Kohei KaiGai
Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜
x1 ichi
PHPとシグナル、その裏側
PHPとシグナル、その裏側
do_aki
Jvm operation casual talks
Jvm operation casual talks
oranie Narut
Web技術勉強会 第33回
Web技術勉強会 第33回
龍一 田中
Similar to Cloudera impalaの性能評価(Hiveとの比較)
(20)
Web技術勉強会 第31回
Web技術勉強会 第31回
Hadoop splittable-lzo-compression
Hadoop splittable-lzo-compression
HAクラスタで PostgreSQLレプリケーション構成の 高可用化
HAクラスタで PostgreSQLレプリケーション構成の 高可用化
Hadoop事始め
Hadoop事始め
Apache geode at-s1p
Apache geode at-s1p
Cake Matsuri Nanapi
Cake Matsuri Nanapi
Cloudera Impala Seminar Jan. 8 2013
Cloudera Impala Seminar Jan. 8 2013
VLDB2011勉強会 Research Session 18: MapReduce and Hadoop
VLDB2011勉強会 Research Session 18: MapReduce and Hadoop
NodeFest2014 - Transpiler
NodeFest2014 - Transpiler
ゲームのインフラをAwsで実戦tips全て見せます
ゲームのインフラをAwsで実戦tips全て見せます
Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
関西オープンソース 2008 30days Albumの裏側
関西オープンソース 2008 30days Albumの裏側
Flumeを活用したAmebaにおける大規模ログ収集システム
Flumeを活用したAmebaにおける大規模ログ収集システム
Html5勉強会資料 2012821
Html5勉強会資料 2012821
20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw
Sparkを用いたビッグデータ解析 〜 前編 〜
Sparkを用いたビッグデータ解析 〜 前編 〜
PHPとシグナル、その裏側
PHPとシグナル、その裏側
Jvm operation casual talks
Jvm operation casual talks
Web技術勉強会 第33回
Web技術勉強会 第33回
More from Yukinori Suda
Hadoop operation chaper 4
Hadoop operation chaper 4
Yukinori Suda
Hadoopエコシステムを駆使したこれからのWebアクセス解析サービス
Hadoopエコシステムを駆使したこれからのWebアクセス解析サービス
Yukinori Suda
自宅でHive愛を育む方法 〜Raspberry Pi編〜
自宅でHive愛を育む方法 〜Raspberry Pi編〜
Yukinori Suda
⾃宅で Hive 愛を育むための⼿順(Raspberry Pi 編)
⾃宅で Hive 愛を育むための⼿順(Raspberry Pi 編)
Yukinori Suda
Evaluation of cloudera impala 1.1
Evaluation of cloudera impala 1.1
Yukinori Suda
Performance Evaluation of Cloudera Impala GA
Performance Evaluation of Cloudera Impala GA
Yukinori Suda
Performance evaluation of cloudera impala 0.6 beta with comparison to Hive
Performance evaluation of cloudera impala 0.6 beta with comparison to Hive
Yukinori Suda
Performance evaluation of cloudera impala (with Comparison to Hive)
Performance evaluation of cloudera impala (with Comparison to Hive)
Yukinori Suda
More from Yukinori Suda
(8)
Hadoop operation chaper 4
Hadoop operation chaper 4
Hadoopエコシステムを駆使したこれからのWebアクセス解析サービス
Hadoopエコシステムを駆使したこれからのWebアクセス解析サービス
自宅でHive愛を育む方法 〜Raspberry Pi編〜
自宅でHive愛を育む方法 〜Raspberry Pi編〜
⾃宅で Hive 愛を育むための⼿順(Raspberry Pi 編)
⾃宅で Hive 愛を育むための⼿順(Raspberry Pi 編)
Evaluation of cloudera impala 1.1
Evaluation of cloudera impala 1.1
Performance Evaluation of Cloudera Impala GA
Performance Evaluation of Cloudera Impala GA
Performance evaluation of cloudera impala 0.6 beta with comparison to Hive
Performance evaluation of cloudera impala 0.6 beta with comparison to Hive
Performance evaluation of cloudera impala (with Comparison to Hive)
Performance evaluation of cloudera impala (with Comparison to Hive)
Recently uploaded
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
Recently uploaded
(8)
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Cloudera impalaの性能評価(Hiveとの比較)
1.
Cloudera impalaの性能評価
(Hiveとの比較) 2012年11月2日 株式会社セラン R&D戦略室 須田幸憲 @sudabon
2.
はじめに — 「impalaがHadoop MapReduceのHiveより1桁速い」(※)と聞
いて、普段業務にて使用しているHiveより本当に速いのかを検 証した — 普段の業務では… — CDH3でHadoopクラスタを構築 — WebのアクセスログをSnappyで圧縮してRCFileでHDFSに保存 — Map処理出力とReduce処理出力も共にSnappyで圧縮 — Thriftサービス経由でPHPからHiveでクエリを実行 ※出典 Cloudera Impala:Apache Hadoopで実現する、リアルのためのリア ルタイムクエリ
3.
impala(v0.1.1)の概要 — Cloudera社が開発したGoogle Dremelのオープンソース版 —
リアルタイムなアドホッククエリをHadoop上で実行できる — HDFSあるいはHBaseに保存されているデータが対象 — HiveQLと互換のクエリ言語をサポート — ストレージエンジンとしてはTextFileとSequenceFileのみ — SequenceFileはSnappy、Gzip、Bzip2で圧縮可能 — MapReduceではなく、専用の分散クエリエンジンを使用
4.
評価環境 —
Cloudera Manager Free Edition 4.1.0 ・HDFS NameNode ・HDFS SecondaryNameNode DataNode ・MapReduce ・MapReduce JobTracker TaskTracker ・impala ・impala impalad impalad Impala-state-store マスター1台 スレーブ4台
5.
サーバの仕様 — CPU
— 合計2コアのIntel Xeon 1.6GHz(HTあり) — メモリ — 4GB — ディスク — SASドライブ(rpmは不明) — OS — CentOS 6.2
6.
評価方法 — クエリの応答時間比較 —
Hiveシェルとimpalaシェルでそれぞれ5回実行した平均値 — クエリで処理するデータ — 約6,500万行のWebのアクセスログ(8ヶ月分) — 日付でパーティショニング — カラム数は14個
7.
評価内容 — 使用したクエリ —
SELECT count(*) FROM table_name — パラメータ — ストレージフォーマット形式 — TextFile、SequenceFile、RCFile(Hiveのみ) — 保存ファイルの圧縮形式 — Gzip、Snappy — MapReduce処理出力データの圧縮形式 — Gzip、Snappy
8.
対象データ — 任意の1日分のファイルサイズ ファイル圧縮
TextFile SequnceFile RCFile 非圧縮 37.88 MB 40.69 MB 36.01 MB (100 %) (107.4 %) (95.1 %) Gzip 2.47 MB 3.07 MB 2.84 MB (6.5 %) (8.1 %) (7.5 %) Snappy 6.72 MB 7.49 MB 6.00 MB (17.7 %) (19.8 %) (15.8 %)
9.
評価結果(MR + Hive) —
単位は秒 ファイル圧縮 MR出力圧縮 TextFile SequenceFile RCFile 非圧縮 非圧縮 135.913 157.042 126.626 (100 %) (116 %) (93.2 %) Gzip Gzip 238.876 169.675 計測不可 (176 %) (125 %) Snappy Snappy 239.201 65.055 57.173 (176 %) (47.9 %) (42.1 %) ターゲットタイムは 57.173 秒
10.
評価結果(impala) — 単位は秒
ファイル圧縮 TextFile SequenceFile 非圧縮 73.422 88.422 (54.0 %) (65.1 %) Gzip 計測なし 8.284 (6.1 %) Snappy 計測なし 15.099 (11.1 %) — 最速平均値はGzipの場合で 8.284 秒 — ちなみにGzipの最速実測値は 7.232 秒
11.
まとめ — 「impalaはHiveより1桁速く処理できる」は正しかった snappyで圧縮されたRCFileをHiveで処理すると約57秒
gzipで圧縮されたSequenceFileをimpalaで処理すると約8秒 — 補足 — 仕様の詳細についてはリリースノートをご参照ください Cloudera Impala 1.0 Beta Release Notes
12.
追加評価
13.
評価内容 — 使用したクエリ —
SELECT count(*) FROM table_name WHERE column = ‘xxxx’ — パラメータ — ストレージフォーマット形式 — Hive ⇒ RCFile — impala ⇒ SequenceFile — 保存ファイルの圧縮形式 — Hive ⇒ Gzip — impala ⇒ Gzip、Snappy — MapReduce処理出力データの圧縮形式(Hiveのみ) — Snappy
14.
評価結果 — Hive(単位は秒)
ファイル圧縮 MR出力圧縮 RCFile Snappy Snappy 60.574 (100 %) — impala(単位は秒) ファイル圧縮 SequenceFile Gzip 22.960 (26.4 %) Snappy 14.679 (23.2 %) — 文字列一致検索の処理時間も 約23% に短縮
15.
まとめ — 全数カウントだけでなく、文字列一致検索でも処理時間が 約1/4に短縮された
snappyで圧縮されたRCFileをHiveで処理すると約61秒 snappyで圧縮されたSequenceFileをimpalaで処理すると約15秒 — ただし、全数カウントの場合はgzipで圧縮された SequenceFileの場合が最速であったが、文字列一致検 索の場合はgzipよりもsnappyで圧縮されたSequnceFile の方が速かった
16.
フィードバック — 記載内容に不備等がございましたら、下記連絡先までご連 絡いただけますと、幸甚です。 —
質問等もお気軽にご連絡ください。可能な範囲で返信いた します。 — 連絡先 — メール: sudabon at gmail dot com — Twitter: @sudabon
17.
変更履歴 — 2012年11月2日 初版 —
2012年11月5日 追加評価を追記
Download now