Apache Sparkやってみたところ

Apache Sparkやってみたところ
1

Sparkとは
• BigDataを高速に分散処理を行うフレームワーク
Apache Spark
Spark SQL
Spark
Streaming
MLlib 
(machine
learning)
GraphX 
(Graph)
3

データ操作
• RDD
• 並行して操作することが可能な要素の耐障害性のあ
るコレクション
• DataFrame
• 1.6から追加された機能でRやPython等のDataFrameと
同等の操作が可能
• SQL
• Hive SQLプラスαのDSL記述で操作可能
4

SQL
• SELECT
• GROUP BY
• ORDER BY
• 数学関数
• 文字関数
• Window関数
• JOIN
• UNION
• サブクエリ
• etc…
https://spark.apache.org/docs/latest/sql-programming-
guide.html#supported-hive-features
5

データソース
• Hadoop
• s3
• RDBMS
• ElasticSearch
• etc..
Hadoop以外はConnectorを利用する必要がある
6

Spark MLlib
• 機械学習ライブラリ
• MLlib : RDDベース(メンテナンスモードに入ったよう
で機能追加は今後は行っていかない)
• ML : DataFrameベース(今後こちらが主流になってい
く)
8

Spark MLlib APIできること
• 基本的な統計
• 分類と回帰
• 協調フィルタリング
• クラスタリング
• 次元削除
• 特徴量抽出及び変形
• 頻出パターンマイニング
• 評価マトリックス
• PMML モデル抽出
https://spark.apache.org/docs/latest/ml-guide.html
9

EMRとは
• Amazon EMR は、AWS でビッグデータフレームワーク
(Apache Hadoop や Apache Spark など) の実行を簡素
化して、大量のデータを処理および分析するマネージ
ド型クラスタープラットフォーム
• S3を始め、AWS上のサービスの連携がデフォルトでつい
てくる
• 1度構築したクラスタは再利用可能(CLIもアウトプット
可能)
11

EMR Command Runner
• EMRクラスタのインスタンス内に`command-runner.jar`
が置かれ、これを利用してステップを追加していく
• spark-submit : Sparkアプリケーションの実行
• s3-dist-cp : 大量のデータをS3からHDFSに分散コピー
する
http://docs.aws.amazon.com/ja_jp/emr/latest/
ReleaseGuide/emr-commandrunner.html
12

WebUI
• WebUIでは以下のような項目が確認できるので、パフォー
マンスネックになっている箇所の特定などに利用する
と良さそう
• スケジューラのステージおよびタスクのリスト
• RDDサイズおよびメモリの使用量の概要
• 環境情報
• 実行中のexecutorの情報
14

キャッシュ
• キャッシュ無し4h以上 -> キャッシュ利用 1h程度に短
縮
• DataFrame
• SQL
15
df.cache() # キャッシュ利用
df.is_cached # キャッシュ確認
df.unpersist() # キャッシュ廃棄
spark.sql("CACHE [LAZY] TABLE [db_name.]table_name") # キャッシュ利用
spark.sql("UNCACHE TABLE [db_name.]table_name") # キャッシュ廃棄

データロード
• s3直接ロード -> s3-dist-cpを利用し、一度クラスタ
内HDFSに移してロード 20min程度短縮
• srcPattern : s3のフィルタリング
• groupBy : 複数のファイルを結合
• targetSize : groupByにもとづいて作成するファイル
のサイズ
ReleaseGuide/UsingEMR_s3distcp.html
16

Sparkの設定
• spark.executor.meory、spark.executor.cores、
spark.dynamicAllocation.enabledについてはEMR側でデ
フォルトで設定されるので、EMRに任せておいて良さそう
ReleaseGuide/emr-spark-configure.html
• SQL周りの設定では以下の項目の調整で数分短縮の効果あ
り
• spark.rdd.compress
• spark.sql.shuffle.partitions
• spark.sql.inMemoryColumnarStorage.batchSize
• spark.sql.broadcastTimeout
• spark.sql.files.openCostInBytes
17

参考文献
• Apache Spark SQLリファレンス 
http://x1.inkenkun.com/archives/1114
• Apache Spark MLlibのレコメンドアルゴリズムを使う 
http://kazz.hateblo.jp/entry/2016/02/09/114756
• Apache Spark を使ったシステム構築のための Tips 
https://blog.albert2005.co.jp/2016/06/16/apache-spark-
%E3%82%92%E4%BD%BF%E3%81%A3%E3%81%9F%E3%82%B7%E3%82%B9%E
3%83%86%E3%83%A0%E6%A7%8B%E7%AF%89%E3%81%AE%E3%81%9F%E3%
82%81%E3%81%AE-tips/
• Apache Sparkを使って、メモリ使用量が大きいバッチ処理をス
ケールアウト 
http://lab.adn-mobasia.net/?p=4777
18

Apache Sparkやってみたところ

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Apache Sparkやってみたところ

Ähnlich wie Apache Sparkやってみたところ (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (9)

Apache Sparkやってみたところ