Hadoop/Spark を使うなら Bigtop を使い熟そう！～並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介～（Open Source Conference 2021 Online/Fukuoka 発表資料）

© 2021 NTT DATA Corporation
Open Source Conference 2021 Online/Fukuoka
Hadoop/Sparkを使うなら"Bigtop"を使い熟そう！
～並列分散処理基盤のいま、からBigtopの最近の取り組みまで一挙ご紹介～
2021年11月20日
株式会社NTTデータ

© 2021 NTT DATA Corporation 2
自己紹介
菅野未来
Kanno、Miki
NTTデータ技術革新統括本部システム技術本部
デジタル技術部インテグレーション技術担当
・入社以来、公共系大規模システムのミッションクリティカル案件に基盤技術者として従事
・2019年度から基盤やOSSの専門チームへ社内公募で異動
経歴
現在の業務
・OSS(Bigtop)に関する技術開発
・基盤技術/知識を軸とした案件技術支援・OSSサポート

アジェンダ
1. 並列分散処理とは
2. 大規模並列分散処理基盤を構成する要素
3. 大規模並列分散処理基盤を使いこなすために
4. Apache Bigtopのご紹介
5. NTTデータのBigtopソリューションのご紹介
6. おわりに

アジェンダ
6. おわりに

並列分散処理とは(1/2)
並列分散処理とは
– データを複数台のサーバに分散して蓄積および並列処理するための手法
– 大量のデータ（ビッグデータ）を現実的な時間（数分～数時間）で処理するために用いる
並列分散処理を用いないで（=単体のサーバで）大量のデータを処理しようとすると
– データを抱えきれない
– データを現実的な時間で処理できない
オープンソースの世界では、大規模並列分散処理フレームワークとしてApache Hadoopが誕生

並列分散処理とは(2/2)
初期のHadoopの適用領域は以下のようなイメージ
しかし、最近では・・・
秒
分
時間
日
処
理
の
レ
イ
テ
ン
シ
バッチ処理
リアルタイム処理
データサイズ
少ない多い
オンライン処理
汎用検索
ＧＢ（ギガバイト）ＴＢ（テラバイト）ＰＢ（ペタバイト）
ＴＢ（テラバイト）
オンバッチ処理
純バッチ処理
RDBMSの適用領域
Hadoopの適用領域

大規模並列分散処理の現状
ソフトウェアの進化とともにユースケースも増えてきている
また、Hadoopの成功を受けて、多くのプロダクトが登場した
→複雑で理解しづらくなっている
このほかにも書ききれなかったものがたくさん…

本日の前半のおはなし
本日の前半では、そんな大規模並列分散処理の “イマドキ” についてお伝えします
どんな
組み合わせで
使えばいいのか
どう
使えばいいのか
上手に
利用するには
数あるプロダクトの中でも
代表的なものを例にご紹介
複数データセンタで
利用するには

アジェンダ
6. おわりに

大規模並列分散処理で行われる処理方式
• バッチ処理
• ストリーム処理
保存
データ
生成元
処理データ
利用先
データを貯めてまとめて処理
データ
生成元
データ
利用先
処理
受信
データを受け取ってすぐに処理

バッチ処理:
ビッグデータ活用黎明期からの活用スタイル
まとまった大規模なデータを効率よく処理
• データ生成元の例
– システムのDB
– ファイルサーバ
• 活用例
– 長期的なデータを対象とした分析
– 旧来システムのバッチ処理高速化、オフロード
保存
データ
生成元
処理データ
利用先

ストリーム処理:
近年利用が進んでいる活用スタイル
細かく数の多いデータをリアルタイムに処理
• データ生成元の例
– モバイルアプリ、Webアプリ（アプリケーションのログ）
– IoT機器（センサーログ）
• 活用例
– ユーザー行動のリアルタイムな把握、リアルタイムなマーケティング
– 機器の異常検知
データ
生成元
データ
利用先
処理
受信

どちらの方式が優れているということではなく、目的に応じて適材適所で用いる
バッチ処理:
ストリーム処理:
保存
データ
生成元
処理データ
利用先
データ
生成元
データ
利用先
処理
受信

イマドキの大規模並列分散処理基盤
バッチ処理、ストリーム処理の両方に必要な機能を満たせる
大規模並列分散処理基盤
データ
生成元
データ
利用先
：データの流れ
収集保存処理

データ
生成元
データ
利用先
収集保存処理
バッチ処理

データ
生成元
データ
利用先
収集保存処理
ストリーム処理

データ
生成元
データ
利用先
収集保存処理
バッチ処理

Apache Hadoop: すべてはここからはじまった
• 大規模データのための並列分散処理フレームワーク
• 複数台の汎用サーバを使い、全体で大きな問題を解かせる
Hadoopとは
• 大規模なデータの保存と処理を並列分散処理に適した方法で行う
Hadoopが果たしてくれる役割
• 現実的なコストで並列分散処理を行えるようになった
Hadoopの登場で実現したこと

Hadoopが登場した後の大規模並列処理基盤の全体像
大規模データの保存と処理が行えるようになった
データ
生成元
データ
利用先
データを
保存
して
そのデータを
処理
する

Hadoopのコンセプトと弱点
コンセプトは複数台のサーバのディスクを効率よく利用すること
ただしHadoop MapReduceはその仕組み上、繰り返しの多い処理・複雑な処理が苦手
– １つのMapReduceジョブ（処理単位）で実現できることは単純
⇒複雑な処理を実装するには、MapReduceジョブの組み合わせで実現
– MapReduceジョブの都度ディスクの読み書きが発生
・・・
複数台のサーバで
処理を分担する
ディスクの性能を
最大限に発揮させ、
スループットを最大化
ディスクの読み書きはコンピュータ処理で
最も時間のかかる操作の1つ

Apache Spark: 複雑な処理も高速に
• 大規模データのための並列分散処理フレームワーク
• 複数台の汎用サーバを使い、全体で大きな問題を解かせる
Sparkとは
• メモリ/CPU/ディスクなどのリソースを効率的に利用
• SQLによる記述、機械学習、ストリーム処理
などの並列分散処理で頻出の処理のライブラリを内包
Sparkの特徴
• 複雑な処理も高速に処理することができる
• 豊富なライブラリや高級APIが付属し、複雑な処理も容易に実装できる
Sparkの登場で実現したこと

Sparkを加えた大規模並列分散処理基盤の全体像
大規模データの複雑な処理を行えるようになった
データ
生成元
データ
利用先
複雑な処理
でも
高速に処理
する

Hadoopの課題はまだ存在した
Hadoopにデータを入れること
これまでは個別に対応してきたが、コストが高い
この部分
前項の
スライド

Fluentd/Embulk: どこからどこへでもデータを転送
• データ収集基盤ミドルウェア
Fluentd/Embulkとは
• データの入出力側がプラグイン式になっており、簡単な開発で
あらゆるデータ入出力に対応できる
Fluentd/Embulkの特徴
• 生成元から容易にデータを集めてくることができる
Fluentd/Embulkの登場によって実現されること
向き
バッチ処理
向き

Fluentd、 Embulkを加えた大規模並列分散処理基盤の全体像
データの収集が容易に行えるようになり、一連のバッチ処理が可能に
データ
生成元
データ
利用先
データ生成元からの
データ収集
を行う
データ生成元からの
データ収集
を行う

バッチ処理の流れを行えるようになった
データ
生成元
データ
利用先
データ収集保存と処理
複雑な処理
バッチ処理

一方で、ストリーム処理は…？
データ
生成元
データ
利用先
データ収集処理

ストリーム処理を実現するために足りないもの
ここまでのソフトウェアでデータのリアルタイムな収集と処理は行える
後は収集されたデータを受け取り、一時的に保存するものが必要
– 要するにストリーム処理の収集と処理の間を取り持ってくれる存在が不可欠
収集処理
この役割のものがいないと
などの状況でデータを失ってしまうなど処理が正常に行えない可能性も
一度にたくさんのデータが送られるデータの送り元が大量にある

Apache Kafka: 逐一送られてくるデータを受け取り保存する
• スケーラブルで高速な分散メッセージングシステム
Kafkaとは
• サーバ複数台で並列に処理できる(スケーラブル)
• ディスクへの記録などデータを失いにくい仕組みを備える
Kafkaの特徴
• 逐一送られてくるデータを高速に受け取ることができる
Kafkaの登場によって実現されること

Kafkaを加えた大規模並列分散処理基盤の全体像
Fluentd、 Kafka、 Sparkの流れでストリーム処理が行えるようになった
データ
生成元
データ
利用先
随時送られているデータの
受信と保存
を行う

ストリーム処理の流れも行えるようになった
データ
生成元
データ
利用先
データ収集
処理
データ受信と
保存

こうしてイマドキの並列分散処理基盤の構成になった
データ
生成元
データ
利用先
：データの流れストリーム処理
バッチ処理

登場した各ソフトウェアの役割のまとめ
大規模なデータの保存と処理(バッチ処理)を行う
大規模なデータの複雑な処理も高速に行う
[繰り返しの多い処理、機械学習、SQLによる記述、グラフ処理]
さまざまなデータソースからデータを収集する
随時送られてくるデータの受信と保存を行う
ストリーム処理も可能

アジェンダ
6. おわりに

大規模並列分散処理を使いこなすために
• 従来のシステムや基盤とは異なる考え方の部分もある
• この分野の勘所を押さえたうえで利用/検討することが重要
• 大規模並列分散処理を利用するに当たり、押さえておくべき基本的なポイントを3つ紹介します
データ量/処理量が多いところで利用する
性能はサーバ台数で調整する
それぞれのプロダクトが得意な領域で利用する

Hadoop/Sparkはデータ量や処理量が多いことが前提
– そのように設計されている
– データ量/処理量の少ないところで利用するとかえって遅くなることも
データ量/処理量によってRDBMSの利用も検討する
– 経験上、RDBMSで処理できるデータ量や処理量はRDBMSで
– それを超える量はHadoop/Sparkで
RDBMS
Hadoop/Spark

HadoopやSparkはスケールアウトという仕組みを備えている
– 必要に応じてサーバ台数を増減させ、全体性能を調整していく
スケールアップの方式に比べて拡張が容易
– スケールアップでは性能不足になった場合、サーバの交換などを行う必要がある
– スケールアウトでは性能不足時にサーバの追加で対応できる

Hadoop/Sparkは多くの処理に汎用的に使えるわけではない
– 用途を限定する代わりに高い性能を発揮するように設計されている
– 合致しない使い方ではかえって遅くなることもありうる
– RDBMSの代替ではないので適切な個所で利用する
やりたいことは事前に明確にしておく
– HadoopやSparkなどの得意な処理であるかどうかを確認する
– 処理内容や対象データの変更は基盤の設計に影響を与える場合も

【再掲】大規模並列分散処理を使いこなすための勘所
大規模並列分散処理を利用する際に押さえておくべきポイントを紹介

アジェンダ
6. おわりに

Apache Bigtop とは何か
• 公式サイト (https://bigtop.apache.org/) より
• "Bigtop is an Apache Foundation project for Infrastructure Engineers and
Data Scientists looking for comprehensive packaging, testing, and
configuration of the leading open source big data components."
• 『Bigtop は、先進的なビッグデータ関連 OSS のパッケージングやテスト、設定を探している、インフラ
エンジニアやデータサイエンティストのための Apache ソフトウェア財団のプロジェクトです。』
• 「Hadoop・Spark を中心としたデータ基盤を容易に構築するための OSS」であり、
「オープンに開発されている、無償で利用可能なHadoop・Sparkディストリビューション」
です。

Bigtop の歴史
2020
2019
2018
2017
2016
2015 2021/10/23
2012
2011
Cloudera社からApacheソフトウェア財団に、incubatorプロジェクトとして寄贈される
Apache incubator プロジェクトからトップレベルプロジェクトに昇格

Bigtop 3.0が提供するソフトウェアスタックと、サポートする動作環境
コンポーネントバージョン説明
Alluxio 2.4.1 ストレージ仮想化
Ambari 2.7.5 クラスタ構築・管理
Elasticsearch 5.6.14 全文検索エンジン
Flink 1.11.3 ストリーム処理系
Greenplum DB 5.28.5 MPP
Hadoop 3.2.2 分散ファイルシステム・並列分散処理基盤
HBase 2.2.6 分散KVS
Hive 3.1.2 Hadoop用クエリ処理系
Kafka 2.4.1 分散メッセージングシステム
Kibana 5.4.1 検索フロントエンド・データ可視化
Livy 0.7.1 Spark用RESTゲートウェイ
Logstash 5.4.1 ログ転送
Oozie 5.2.1 ジョブスケジューラ
Phoenix 5.1.0 HBase用クエリ処理系
Solr 8.7.0 全文検索エンジン
Spark 3.0.1 並列分散処理エンジン・ストリーム処理系
コンポーネントバージョン説明
Sqoop 1.4.7 バルクローダ
Tez 0.10.0 並列分散処理エンジン
YCSB 0.17.0 ベンチマークツール
Zeppelin 0.9.0 ノートブック
Zookeeper 3.4.14 分散ロックマネージャ
ディストリビューション x86_64 aarch64 ppc64le
CentOS 7, 8 〇〇〇
Fedora 33 〇〇〇
Debian 9, 10 〇〇
〇
(10のみ)
Ubuntu 18.04, 20.04 〇〇〇

Bigtop 3.0の開発におけるNTTデータの貢献
JIRA issue 解決数
NTT DATA ARM State Street Wikimedia Others
85
12
2 2
5
0
5
10
15
80
85

BigtopによるHadoop/Sparkの導入(CentOS 7の例)
https://dlcdn.apache.org/bigtop/bigtop-3.0.0/repos/ から、
CentOS 7用のリポジトリ定義ファイルをダウンロードし、インストール

$ sudo curl -sL https://dlcdn.apache.org/bigtop/bigtop-3.0.0/repos/centos-7/bigtop.repo -o
/etc/yum.repos.d/bigtop.repo # CentOS 7用のリポジトリ定義をダウンロードし、インストール
$ sudo yum update
$ sudo yum install -y java-1.8.0-openjdk-devel hadoop-hdfs-namenode hadoop-hdfs-secondarynamenode
hadoop-hdfs-datanode # HDFS関連パッケージをインストール
$ sudo vi /etc/hadoop/conf/core-site.xml
$ sudo vi /etc/hadoop/conf/hdfs-site.xml # 赤字を追加
$ sudo -u hdfs hdfs namenode –format # HDFS用の領域を初期化
$ sudo systemctl start hadoop-hdfs-namenode # HDFS関連のサービス群を起動
$ sudo systemctl start hadoop-hdfs-datanode
$ sudo systemctl start hadoop-hdfs-secondarynamenode
<configuration>
<property name="fs.defaultFS" value="hdfs://localhost:9000" />
</configuration>
<configuration>
<property name="dfs.replication" value="1" />
</configuration>
以下の手順でHDFSをインストールし、疑似分散モードで実行可能

$ sudo yum install -y hadoop-yarn-resourcemanager hadoop-yarn-nodemanager spark-core spark-yarn-shuffle
$ sudo systemctl start hadoop-yarn-resourcemanager
$ sudo systemctl start hadoop-yarn-nodemanager
$ sudo -u hdfs hdfs dfs -chmod go+w /
$ spark-submit --class org.apache.spark.examples.SparkPi --master yarn ¥
/usr/lib/spark/examples/jars/spark-examples.jar 1000
...
2021-10-24 14:36:31,974 INFO scheduler.DAGScheduler: Job 0 finished: reduce at SparkPi.scala:38, took
23.204865 s
Pi is roughly 3.1415052714150526
以下の手順でYARNとSparkを追加し、サンプルアプリケーションを実行

Bigtop のその他の機能
• Puppet manifest によるデプロイの自動化
• Smoke test によるクラスタ構築後の動作確認
• Docker provisioner によるローカルマシン上のコンテナへのクラスタ構築など
• 詳しく知りたい方は、2021/8に開催された、オープンデベロッパーズカンファレンス
2021 Online (https://event.ospn.jp/odc2021-online/) の資料や動画
をご覧ください。
• https://www.slideshare.net/nttdata-tech/bigtop-hadoop-odc-2021-online-nttdata/
• https://www.youtube.com/watch?v=nkq78qJ6wl0

アジェンダ
6. おわりに

52
データ活用基盤を提案から活用まで進められていくうえで、
さまざまな課題や不安をお聞きします。
バッチ処理の高速化を行いたいけど、
どうすればよいのだろうか
Question
Hadoop/Spark等で構成したいけど、
データ活用基盤の運用ノウハウがない
Question
短期間で高品質な基盤を構築をしたいけど、
実際できるのだろうか
Question
オンプレやプライベートクラウドで
データ活用したいけど導入方法がわからない
Question
OSS使いたいけど、サポートも対応される
ディストリビューションないだろうか
Question
Bigtopを用いての数十台から千台のデータ
活用基盤の設計構築の手法がわからない
Question
データ活用基盤の提案から活用までの課題・不安

53
Bigtopソリューションの取り組みのご紹介
現在、分散処理技術 Hadoopの検証や
実案件を通してNTTデータが得た Hadoop クラスタ設計～
初期構築～運用に関する資材・ノウハウをソリューションとして整理中です。
過去の案件実績をもとに、ほとんどのデータ活用ワークロードをカバーできる
実用かつシンプルな構成を提供
可用性、冗長化、バックアップ、運用等の設計・テスト、運用等、
これまでの経験で得たノウハウを盛りこみ
高品質・短期間のHadoopクラスタ構築(Bigtop)向けに
Ansible資材を開発中
具体的には

54
Bigtopソリューションのご紹介
Bigtopソリューションサービスでは、データ活用をご検討の方、
既存のバッチ処理の長時間化等にお困りの方に対し、
コンサルティングからPoC、システム構築、運用設計、導入後のサポートまで
幅広く提供いたします。
Bigtopソリューションサービスメニュー
企画設計～試験移行運用
コンサルティングサービス構築サービスサポートサービス
評価支援サービス
教育サービス
OSSのBigtopだけでは、実際のシステムでどのように使っていけばよいかわからないといった
疑問や課題をBigtopソリューションで解決できます
近日サービス
提供予定！
データ活用全般のコンサルやBigtop適用時に
どう進めるかについてもコンサルいたします

55
Bigtopソリューションの特長
特長1
特長3
特長2
• Hadoop/Sparkなどを組み合わせた
データ活用基盤全体のトータル技術支援
• お客様に迅速かつ高品質なデータ基盤をご提供
• 並列分散処理に長けた技術者が高度な大量データ処理を
安定運用
これまでのNTTデータの豊富な経験を活かし、
お客様がHadoop/Spark適用を検討している段階から、
データ活用基盤の検討・推進・適用・活用までお手伝いします。
十数～数千台の設計・構築経験を生かして、専門技術者がHadoopシステムの基盤設計構築を支援しま
す。Hadoopノウハウを集約したシステム基盤のひな形モデルを整備中で、
Hadoop特有の考え方、環境自動構築、特殊なノウハウが必要な運用についてもカバーしています。
Bigtop、Hadoop開発コミュニティでも活躍する技術者（コミッタ・PMCメンバ）が、
豊富な知見をもってソースコードレベルでトラブル解決し、安定運用させます。

アジェンダ
6. おわりに

● NTTデータのサーバ構築・運用の実績から得られた知見・ノウハウをもとに展開するサービスです。
● 各プロダクトのソースコード解析まで可能な専門技術チームが、個別の事象だけではなく、多数のシステムから
年間数百件の問い合わせに対応し蓄積した独自ノウハウと、コミュニティの動向を踏まえた上での最適な解決策を
ご提供します。
お客様
NTTデータ
トラブル！仕様調査
トラブル
対応依頼
技術
問合せ
解決！
回答
開発コミュニティ
(Hadoop/Spark/Kafkaなど)
フィード
バック
メリット
トラブル発生時の費用軽減
調査品質の向上、時間の短縮
トラブル発生の抑止
アセスメント、技術情報提供
安心して長く使える基盤
パッチ情報提供、コミュニティへの反映
専門
技術者チーム
Hadoop/Spark/Kafkaサポートサービス
専門技術者チームが導入後もサポートし、システムに安心・信頼を提供し続けます
Hadoop/Spark/Kafkaサポートチーム

チームの紹介
Hadoop/Spark/Kafkaに関するケーパビリティ
コンサルティング、アーキテクチャデザイン、構築、運用を手掛けています
These books were written by our team members.
【出版物の例】
実績
10年以上の分散処理に関する技術支援、開発、サポートサービスの提供
100件以上のユースケース
（最大1000台ノード規模のHadoopクラスタの実績）
幅広い業界への適用
（オートモーティブ、金融、テレコム、法人、etc）
15年以上、OSSの専門家として活動しています

YouTubeチャンネル “NTT DATA Tech”
技術取り組み、活用情報を中心にお届けします
https://www.youtube.com/NTTDATATech

We‘re Hiring!(1/2)
https://nttdata.jposting.net/u/job.phtml?job_code=666
一緒に働く仲間を募集しています！
データ活用プロフェッショナル
(OSSエンジニア)＜384＞
こんな方を募集しています！
 NTTデータが関わる様々な案件で技術力を発揮し社会に
貢献したい方
 自らの専門性も高めながら専門家集団で働きたい方
 OSSのコミュニティ活動で世界と繋がっていきたい方、etc.
若手が中心の
活発な職場です
※2021年11月現在
(IoT基盤エンジニア)＜497＞
※上記写真2枚はコロナ禍前に撮影したものです。

We‘re Hiring!(2/2)
(DataOpsエンジニア）＜498＞
JDK/JVMの高難度技術課題の解決と技術開発を担う
Javaスペシャリスト<368>
データベースミドルウェア
(PostgreSQL)の高度化・機能
拡充を実現する開発者<394>
※2021年11月現在
一緒に働く仲間を募集しています！

資料中の以下の製品名およびロゴはApache Software Foundationの登録商標です。
– Apache Hadoop
– Apache Zookeeper
– Apache Spark
– Apache Hive
– Apache Kafka
– Apache HBase
– Apache Storm
– Apache Sqoop
– Apache Drill
– Apache Flink
– Apache Phoenix
– Apache Impala
– Apache Bigtop
以下の製品名およびロゴは各社・各団体の登録商標です。
– Embulk
– fluentd
– PostgreSQL

Hadoop/Spark を使うなら Bigtop を使い熟そう！～並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介～（Open Source Conference 2021 Online/Fukuoka 発表資料）

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Hadoop/Spark を使うなら Bigtop を使い熟そう！～並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介～（Open Source Conference 2021 Online/Fukuoka 発表資料）

Ähnlich wie Hadoop/Spark を使うなら Bigtop を使い熟そう！～並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介～（Open Source Conference 2021 Online/Fukuoka 発表資料） (20)

Mehr von NTT DATA Technology & Innovation

Mehr von NTT DATA Technology & Innovation (20)