SlideShare ist ein Scribd-Unternehmen logo
1 von 27
© 2017 NTT DATA Corporation
Apache Hadoop, YARNの最新動向
2017/9/7
株式会社NTTデータ OSSプロフェッショナルサービス
鯵坂 明
db tech showcase 2017 Tokyo
© 2017 NTT DATA Corporation 2
 鯵坂 明 (Akira Ajisaka, @ajis_ka)
 NTTデータ OSSプロフェッショナルサービス
 配属以来、ずっとApache Hadoopと関わってきた
 Hadoopの新機能や、関連するミドルウェアの検証
 プロジェクトへの技術支援
 サポートサービス
 Apache Hadoop committer, PMC member
 最近は、来たるJava 9に備えメンテナンスを続けている
 JUnitやLog4Jのアップデートに苦戦中
自己紹介
© 2017 NTT DATA Corporation 3
 多数のサーバで大規模データの保存・処理を実現するための、オー
プンソースのミドルウェア
Apache Hadoopとは
HDFS (データ格納)
YARN (リソース制御)
Map
Reduce
Hive Pig
Tez
Spark
Spark
Streaming
Spark
MLlib
・・・
© 2017 NTT DATA Corporation 4
 リソース管理・処理基盤: YARN (Yet Another Resource Negotiator)
 ResourceManager(マスタ)はNodeManager(スレーブ)
のリソースを管理
 アプリケーションからの要求に応じ、タスクに必要なリソース(メモ
リ、CPU)をYARN containerという形で割り当て
 処理はNodeManager上で実行される
YARNの簡単な紹介
© 2017 NTT DATA Corporation 5
 Applicationの管理をするためのApplication Masterを起動
YARN applicationの処理の流れ
ResourceManager
NodeManager
NodeManager
NodeManager
NodeManager
NodeManager
クライアント
Application Master
処理の実行
: YARN container
© 2017 NTT DATA Corporation 6
 ApplicationMasterからResourceManagerに依頼し、処理
に必要なYARN containerを起動
YARN applicationの処理の流れ
ResourceManager
NodeManager
NodeManager
NodeManager
NodeManager
NodeManager
Application Master
: YARN container
© 2017 NTT DATA Corporation 7
 ApplicationMaster管理のもと、処理が実行される
YARN applicationの処理の流れ
ResourceManager
NodeManager
NodeManager
NodeManager
NodeManager
NodeManager
Application Master
: YARN container
© 2017 NTT DATA Corporation 8
 最近、YARNに様々な機能が追加されようとしている
 今回はその状況確認をしたい
 GPU Support
 Resource Profile
 Docker container support
 Native Services
 Timeline Service v.2.
 Support distributed scheduling
 Router-based Federation
今日のアジェンダ
© 2017 NTT DATA Corporation 9
 大規模データに対するDeep-learning/machine learningの
流行に伴って、GPUの利用も広まっている
 現状では、YARNで管理できるリソースタイプはCPUとメモリのみ
 Node labelという機能が使えるが、充分ではない
 あるタスクにN枚のGPUを割り当てる、ということができない
 GPUの利用状況を管理・監視できない
 本機能では以下の内容を実施する
 リソースタイプにGPUを追加
 CGroupsによるisolation
GPU Support (YARN-6223) Available in 3.1
© 2017 NTT DATA Corporation 10
 先程述べたGPUだけではなく、FPGA, disk, network, HDFS
帯域などがリソースタイプとして追加されようとしている
 CPUとメモリを使ってスケジューリングする前提で実装されていため、
リソースタイプを追加するたびに大幅なロジックの書き換えが必要
 手軽に新規リソースタイプを追加できる仕組みがほしい! ということ
で開発が進んでいる
Resource Profile (YARN-3926) Available in 3.0 or 3.1
© 2017 NTT DATA Corporation 11
 sub-taskであるYARN-4081のパッチから抜粋
日本語だけだと伝わりづらいのでコードを紹介
© 2017 NTT DATA Corporation 12
 Dockerは便利なツール
 YARN上でもDocker containerが動作可能になっている
 YARN on Dockerでないことに注意
 YARNのContainer Executor
 DefaultContainerExecutor
 LinuxContainerExecutor
 DockerContainerExecutor
Docker container support (YARN-3611) Available in 2.8
© 2017 NTT DATA Corporation 13
 YARN container内で、Docker containerが動作する
概念図
ResourceManager
NodeManager
NodeManager
NodeManager
NodeManager
NodeManager
Application Master
: YARN container
© 2017 NTT DATA Corporation 14
 Docker containerの中に Hadoop artifacts が必要
 たとえば、HDFSへのアクセスのため
 解決のため、volume mount ができるようにしようとしている
(YARN-5534)
 巨大なimageを扱うと、タイムアウトで落ちることがある
 タスク内で暗黙的に pull されるため
 あらかじめ cache しておく必要がある
 解決のため、明示的にdocker pullが使えるようになっている
(YARN-5669, Hadoop 2.9)
 本格的に使うのは、2.9/3.0まで待ったほうがよい
Docker container support の現状
© 2017 NTT DATA Corporation 15
 YARNはapplicationのためにAPIを提供しているが、非常に
low-levelなため、applicationの実装が困難
 よりhigh-levelなAPIを提供するためのプロジェクトが登場
 Apache REEF
 Apache Slider -> YARN本体にマージ
 障害発生時のコンテナ再割り当て
 REST APIでサービスを実行
 コンテナ数の拡張・縮退も可能
 DNSによるサービスの名前解決
YARN Native Services (YARN-4692) Available in 3.0
© 2017 NTT DATA Corporation 16
 例: nginxの起動
REST APIで手軽にYARN applicationを実行
© 2017 NTT DATA Corporation 17
 YARN applicationの一般的な情報を格納し、それを表示する
Web UIを提供
 application試行一覧およびその情報
 各application試行で起動したcontainer一覧およびその
情報など
 HistoryServerがapplicationごとに乱立するのを防ぐ目的
 初期実装の問題点
 HA機能がない
 reader/writerが1インスタンスかつ、ストレージが単一サー
バのローカルディスクのため、スケールしない
TimelineServer Available in 2.4
© 2017 NTT DATA Corporation 18
 初期実装の問題を解決するため、アーキテクチャから見直された
 distributed readers/writers
 writerは各applicationごとのcontainerが担当
 readerはclientからのREST APIを処理することに特化
 Apache HBase for backing storage
 read, write性能が良く、スケールする
 耐障害性もある
Timeline Service v.2 Available in 3.0
© 2017 NTT DATA Corporation 19
 1つのジョブが複数のapplicationに分割されるケースで、それらの
applicationの統計情報をまとめて確認するための仕組み
"flow"という複数のYARN applicationをまとめた概念の導入
© 2017 NTT DATA Corporation 20
 YARNでは、全てのコンテナをResourceManagerが割り当てる
(centralized scheduling)
 長所: FairScheduler, CapacitySchedulerのようなスケ
ジューリングポリシーを正しく満たすことができる
 短所: 割り当て処理がResourceManagerに集中し、クラス
タ規模やapplicationの同時実行数が大きくなると、レイテン
シが大きくなる
 例えば、仮に数秒で終わるようなタスクであっても、タスクの割り当て
そのものに数秒かかってしまうようなことが課題
Support distributed scheduling (YARN-2877) Available in 2.9
© 2017 NTT DATA Corporation 21
 この課題をうまく解いているMicrosoftの論文
 centralized schedulingとdistributed schedulingの組み
合わせで、良いとこ取りをする
 256台のHadoop 2.4.1のクラスタに実装し、Microsoftのワー
クロードで最大35%のスループット向上
Mercury, 2015 USENIX
© 2017 NTT DATA Corporation 22
 container execution typeを2種類に分ける
 GUARANTEED: ResourceManagerが割り当て
 OPPORTUNISTIC: ResourceManagerを介さず、リ
ソースが空いているNodeManagerにリソースを割り当てる
 2種類でリソースが競合したらどうなるのか?
 OPPORTUNISTIC containerがpreemptされる
 そのため、時間のかかるタスクはOPPORTUNISTIC
containerで動作させるべきではない
どうやって組み合わせるのか
© 2017 NTT DATA Corporation 23
処理の流れ (YARN-2877のdesign docより)
QUEUEABLE は OPPORTUNISTIC に読み替える
© 2017 NTT DATA Corporation 24
 数千台のYARNクラスタでは満足できない人向けの機能
 複数のYARN clusterを束ねて1つのクラスタとして見せる
 Routerというサービスによってapplicationは個別のYARN
clusterに割り当てられる
 設定次第で、複数のYARN clusterに跨るapplicationを実行
することも可能
 HDFSには既にFederationの機能が存在するが、HDFSにも
Routerを利用したFederationが追加されようとしている
(HDFS-10467)
Router-based Federation (YARN-2915) Available in 3.0
© 2017 NTT DATA Corporation 25
 Hadoop, YARNは分散処理に特化してきたが、ここ最近では、
より一般的なアプリケーションを手軽に動作させられるようになってき
ている
 近年の新しいハードウェアにも対応しつつある
 超大規模クラスタでもスループット、スケーラビリティを損なわない工
夫がなされている
 Hadoop 3.0のリリースに期待!
まとめ
© 2017 NTT DATA Corporation 26
 "Docker on Hadoop", Apache: Big Data North America 2017,
http://events.linuxfoundation.org/sites/events/files/slides/Docker
OnHadoop.pdf
 "Mercury: Hybrid Centralized and Distributed Scheduling in Large
Shared Clusters", USENIX 2015,
https://www.usenix.org/system/files/conference/atc15/atc15-
paper-karanasos.pdf
References
© 2017 NTT DATA Corporation
本資料中に記載されている会社名、商品名、ロゴは、各社の商標または登録商標です。

Weitere ähnliche Inhalte

Was ist angesagt?

SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~NTT DATA OSS Professional Services
 
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)NTT DATA OSS Professional Services
 
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)NTT DATA OSS Professional Services
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)NTT DATA OSS Professional Services
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組みNTT DATA OSS Professional Services
 
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】NTT DATA OSS Professional Services
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~NTT DATA OSS Professional Services
 
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fallビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo FallYusukeKuramata
 
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...NTT DATA OSS Professional Services
 
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)NTT DATA OSS Professional Services
 
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...NTT DATA Technology & Innovation
 
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...NTT DATA Technology & Innovation
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)NTT DATA OSS Professional Services
 

Was ist angesagt? (20)

Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返りHadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
 
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
 
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
 
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
 
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
 
Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
 
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fallビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
 
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
 
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
 
HDFS Router-based federation
HDFS Router-based federationHDFS Router-based federation
HDFS Router-based federation
 
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
 
Apache Sparkのご紹介 (後半:技術トピック)
Apache Sparkのご紹介 (後半:技術トピック)Apache Sparkのご紹介 (後半:技術トピック)
Apache Sparkのご紹介 (後半:技術トピック)
 
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
 
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
 

Ähnlich wie Apache Hadoop and YARN, current development status

分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)NTT DATA OSS Professional Services
 
Hadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバックHadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバックAdvancedTechNight
 
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...NTT DATA Technology & Innovation
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...NTT DATA OSS Professional Services
 
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...NTT DATA Technology & Innovation
 
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...NTT DATA Technology & Innovation
 
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...NTT DATA Technology & Innovation
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...DataWorks Summit/Hadoop Summit
 
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...NTT DATA Technology & Innovation
 
Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版Makoto Sato
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTT DATA OSS Professional Services
 
DBP-001_SAP on Azure 移行事例の紹介
DBP-001_SAP on Azure 移行事例の紹介DBP-001_SAP on Azure 移行事例の紹介
DBP-001_SAP on Azure 移行事例の紹介decode2016
 
OpenStack Icehouseに向けたHPの取り組みとHP Cloud OSのご紹介
OpenStack Icehouseに向けたHPの取り組みとHP Cloud OSのご紹介OpenStack Icehouseに向けたHPの取り組みとHP Cloud OSのご紹介
OpenStack Icehouseに向けたHPの取り組みとHP Cloud OSのご紹介Toru Makabe
 
Yifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng Jiang
 
Cloud Show Japan 2013 Japan OpenStack User Group 枠 HP Cloud 紹介
Cloud Show Japan 2013 Japan OpenStack User Group 枠 HP Cloud 紹介Cloud Show Japan 2013 Japan OpenStack User Group 枠 HP Cloud 紹介
Cloud Show Japan 2013 Japan OpenStack User Group 枠 HP Cloud 紹介Toru Makabe
 
「hbstudy#23 OpenStack祭!!」資料 ~OpenStackプロジェクトの全体像~
「hbstudy#23 OpenStack祭!!」資料 ~OpenStackプロジェクトの全体像~「hbstudy#23 OpenStack祭!!」資料 ~OpenStackプロジェクトの全体像~
「hbstudy#23 OpenStack祭!!」資料 ~OpenStackプロジェクトの全体像~Masanori Itoh
 
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)NTT DATA Technology & Innovation
 

Ähnlich wie Apache Hadoop and YARN, current development status (20)

分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
Hadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバックHadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバック
 
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
 
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
 
Oracle Big Data SQL3.1のご紹介
Oracle Big Data SQL3.1のご紹介Oracle Big Data SQL3.1のご紹介
Oracle Big Data SQL3.1のご紹介
 
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
 
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
 
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
 
Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
 
DBP-001_SAP on Azure 移行事例の紹介
DBP-001_SAP on Azure 移行事例の紹介DBP-001_SAP on Azure 移行事例の紹介
DBP-001_SAP on Azure 移行事例の紹介
 
OpenStack Icehouseに向けたHPの取り組みとHP Cloud OSのご紹介
OpenStack Icehouseに向けたHPの取り組みとHP Cloud OSのご紹介OpenStack Icehouseに向けたHPの取り組みとHP Cloud OSのご紹介
OpenStack Icehouseに向けたHPの取り組みとHP Cloud OSのご紹介
 
Yifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng hadoop-present-public
Yifeng hadoop-present-public
 
20111130 10 aws-meister-emr_long-public
20111130 10 aws-meister-emr_long-public20111130 10 aws-meister-emr_long-public
20111130 10 aws-meister-emr_long-public
 
Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版
 
Cloud Show Japan 2013 Japan OpenStack User Group 枠 HP Cloud 紹介
Cloud Show Japan 2013 Japan OpenStack User Group 枠 HP Cloud 紹介Cloud Show Japan 2013 Japan OpenStack User Group 枠 HP Cloud 紹介
Cloud Show Japan 2013 Japan OpenStack User Group 枠 HP Cloud 紹介
 
「hbstudy#23 OpenStack祭!!」資料 ~OpenStackプロジェクトの全体像~
「hbstudy#23 OpenStack祭!!」資料 ~OpenStackプロジェクトの全体像~「hbstudy#23 OpenStack祭!!」資料 ~OpenStackプロジェクトの全体像~
「hbstudy#23 OpenStack祭!!」資料 ~OpenStackプロジェクトの全体像~
 
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
 

Mehr von NTT DATA OSS Professional Services

Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力NTT DATA OSS Professional Services
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントNTT DATA OSS Professional Services
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~NTT DATA OSS Professional Services
 
商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのことNTT DATA OSS Professional Services
 
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~NTT DATA OSS Professional Services
 
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)NTT DATA OSS Professional Services
 
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...NTT DATA OSS Professional Services
 
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...NTT DATA OSS Professional Services
 
SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)
SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)
SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)NTT DATA OSS Professional Services
 

Mehr von NTT DATA OSS Professional Services (16)

Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力
 
Spark SQL - The internal -
Spark SQL - The internal -Spark SQL - The internal -
Spark SQL - The internal -
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
 
Structured Streaming - The Internal -
Structured Streaming - The Internal -Structured Streaming - The Internal -
Structured Streaming - The Internal -
 
Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?
 
ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)
 
Application of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jpApplication of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jp
 
Application of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructureApplication of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructure
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
 
商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと
 
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
 
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
 
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
 
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
 
PostgreSQLコミュニティに飛び込もう
PostgreSQLコミュニティに飛び込もうPostgreSQLコミュニティに飛び込もう
PostgreSQLコミュニティに飛び込もう
 
SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)
SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)
SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)
 

Kürzlich hochgeladen

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 

Kürzlich hochgeladen (11)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

Apache Hadoop and YARN, current development status

  • 1. © 2017 NTT DATA Corporation Apache Hadoop, YARNの最新動向 2017/9/7 株式会社NTTデータ OSSプロフェッショナルサービス 鯵坂 明 db tech showcase 2017 Tokyo
  • 2. © 2017 NTT DATA Corporation 2  鯵坂 明 (Akira Ajisaka, @ajis_ka)  NTTデータ OSSプロフェッショナルサービス  配属以来、ずっとApache Hadoopと関わってきた  Hadoopの新機能や、関連するミドルウェアの検証  プロジェクトへの技術支援  サポートサービス  Apache Hadoop committer, PMC member  最近は、来たるJava 9に備えメンテナンスを続けている  JUnitやLog4Jのアップデートに苦戦中 自己紹介
  • 3. © 2017 NTT DATA Corporation 3  多数のサーバで大規模データの保存・処理を実現するための、オー プンソースのミドルウェア Apache Hadoopとは HDFS (データ格納) YARN (リソース制御) Map Reduce Hive Pig Tez Spark Spark Streaming Spark MLlib ・・・
  • 4. © 2017 NTT DATA Corporation 4  リソース管理・処理基盤: YARN (Yet Another Resource Negotiator)  ResourceManager(マスタ)はNodeManager(スレーブ) のリソースを管理  アプリケーションからの要求に応じ、タスクに必要なリソース(メモ リ、CPU)をYARN containerという形で割り当て  処理はNodeManager上で実行される YARNの簡単な紹介
  • 5. © 2017 NTT DATA Corporation 5  Applicationの管理をするためのApplication Masterを起動 YARN applicationの処理の流れ ResourceManager NodeManager NodeManager NodeManager NodeManager NodeManager クライアント Application Master 処理の実行 : YARN container
  • 6. © 2017 NTT DATA Corporation 6  ApplicationMasterからResourceManagerに依頼し、処理 に必要なYARN containerを起動 YARN applicationの処理の流れ ResourceManager NodeManager NodeManager NodeManager NodeManager NodeManager Application Master : YARN container
  • 7. © 2017 NTT DATA Corporation 7  ApplicationMaster管理のもと、処理が実行される YARN applicationの処理の流れ ResourceManager NodeManager NodeManager NodeManager NodeManager NodeManager Application Master : YARN container
  • 8. © 2017 NTT DATA Corporation 8  最近、YARNに様々な機能が追加されようとしている  今回はその状況確認をしたい  GPU Support  Resource Profile  Docker container support  Native Services  Timeline Service v.2.  Support distributed scheduling  Router-based Federation 今日のアジェンダ
  • 9. © 2017 NTT DATA Corporation 9  大規模データに対するDeep-learning/machine learningの 流行に伴って、GPUの利用も広まっている  現状では、YARNで管理できるリソースタイプはCPUとメモリのみ  Node labelという機能が使えるが、充分ではない  あるタスクにN枚のGPUを割り当てる、ということができない  GPUの利用状況を管理・監視できない  本機能では以下の内容を実施する  リソースタイプにGPUを追加  CGroupsによるisolation GPU Support (YARN-6223) Available in 3.1
  • 10. © 2017 NTT DATA Corporation 10  先程述べたGPUだけではなく、FPGA, disk, network, HDFS 帯域などがリソースタイプとして追加されようとしている  CPUとメモリを使ってスケジューリングする前提で実装されていため、 リソースタイプを追加するたびに大幅なロジックの書き換えが必要  手軽に新規リソースタイプを追加できる仕組みがほしい! ということ で開発が進んでいる Resource Profile (YARN-3926) Available in 3.0 or 3.1
  • 11. © 2017 NTT DATA Corporation 11  sub-taskであるYARN-4081のパッチから抜粋 日本語だけだと伝わりづらいのでコードを紹介
  • 12. © 2017 NTT DATA Corporation 12  Dockerは便利なツール  YARN上でもDocker containerが動作可能になっている  YARN on Dockerでないことに注意  YARNのContainer Executor  DefaultContainerExecutor  LinuxContainerExecutor  DockerContainerExecutor Docker container support (YARN-3611) Available in 2.8
  • 13. © 2017 NTT DATA Corporation 13  YARN container内で、Docker containerが動作する 概念図 ResourceManager NodeManager NodeManager NodeManager NodeManager NodeManager Application Master : YARN container
  • 14. © 2017 NTT DATA Corporation 14  Docker containerの中に Hadoop artifacts が必要  たとえば、HDFSへのアクセスのため  解決のため、volume mount ができるようにしようとしている (YARN-5534)  巨大なimageを扱うと、タイムアウトで落ちることがある  タスク内で暗黙的に pull されるため  あらかじめ cache しておく必要がある  解決のため、明示的にdocker pullが使えるようになっている (YARN-5669, Hadoop 2.9)  本格的に使うのは、2.9/3.0まで待ったほうがよい Docker container support の現状
  • 15. © 2017 NTT DATA Corporation 15  YARNはapplicationのためにAPIを提供しているが、非常に low-levelなため、applicationの実装が困難  よりhigh-levelなAPIを提供するためのプロジェクトが登場  Apache REEF  Apache Slider -> YARN本体にマージ  障害発生時のコンテナ再割り当て  REST APIでサービスを実行  コンテナ数の拡張・縮退も可能  DNSによるサービスの名前解決 YARN Native Services (YARN-4692) Available in 3.0
  • 16. © 2017 NTT DATA Corporation 16  例: nginxの起動 REST APIで手軽にYARN applicationを実行
  • 17. © 2017 NTT DATA Corporation 17  YARN applicationの一般的な情報を格納し、それを表示する Web UIを提供  application試行一覧およびその情報  各application試行で起動したcontainer一覧およびその 情報など  HistoryServerがapplicationごとに乱立するのを防ぐ目的  初期実装の問題点  HA機能がない  reader/writerが1インスタンスかつ、ストレージが単一サー バのローカルディスクのため、スケールしない TimelineServer Available in 2.4
  • 18. © 2017 NTT DATA Corporation 18  初期実装の問題を解決するため、アーキテクチャから見直された  distributed readers/writers  writerは各applicationごとのcontainerが担当  readerはclientからのREST APIを処理することに特化  Apache HBase for backing storage  read, write性能が良く、スケールする  耐障害性もある Timeline Service v.2 Available in 3.0
  • 19. © 2017 NTT DATA Corporation 19  1つのジョブが複数のapplicationに分割されるケースで、それらの applicationの統計情報をまとめて確認するための仕組み "flow"という複数のYARN applicationをまとめた概念の導入
  • 20. © 2017 NTT DATA Corporation 20  YARNでは、全てのコンテナをResourceManagerが割り当てる (centralized scheduling)  長所: FairScheduler, CapacitySchedulerのようなスケ ジューリングポリシーを正しく満たすことができる  短所: 割り当て処理がResourceManagerに集中し、クラス タ規模やapplicationの同時実行数が大きくなると、レイテン シが大きくなる  例えば、仮に数秒で終わるようなタスクであっても、タスクの割り当て そのものに数秒かかってしまうようなことが課題 Support distributed scheduling (YARN-2877) Available in 2.9
  • 21. © 2017 NTT DATA Corporation 21  この課題をうまく解いているMicrosoftの論文  centralized schedulingとdistributed schedulingの組み 合わせで、良いとこ取りをする  256台のHadoop 2.4.1のクラスタに実装し、Microsoftのワー クロードで最大35%のスループット向上 Mercury, 2015 USENIX
  • 22. © 2017 NTT DATA Corporation 22  container execution typeを2種類に分ける  GUARANTEED: ResourceManagerが割り当て  OPPORTUNISTIC: ResourceManagerを介さず、リ ソースが空いているNodeManagerにリソースを割り当てる  2種類でリソースが競合したらどうなるのか?  OPPORTUNISTIC containerがpreemptされる  そのため、時間のかかるタスクはOPPORTUNISTIC containerで動作させるべきではない どうやって組み合わせるのか
  • 23. © 2017 NTT DATA Corporation 23 処理の流れ (YARN-2877のdesign docより) QUEUEABLE は OPPORTUNISTIC に読み替える
  • 24. © 2017 NTT DATA Corporation 24  数千台のYARNクラスタでは満足できない人向けの機能  複数のYARN clusterを束ねて1つのクラスタとして見せる  Routerというサービスによってapplicationは個別のYARN clusterに割り当てられる  設定次第で、複数のYARN clusterに跨るapplicationを実行 することも可能  HDFSには既にFederationの機能が存在するが、HDFSにも Routerを利用したFederationが追加されようとしている (HDFS-10467) Router-based Federation (YARN-2915) Available in 3.0
  • 25. © 2017 NTT DATA Corporation 25  Hadoop, YARNは分散処理に特化してきたが、ここ最近では、 より一般的なアプリケーションを手軽に動作させられるようになってき ている  近年の新しいハードウェアにも対応しつつある  超大規模クラスタでもスループット、スケーラビリティを損なわない工 夫がなされている  Hadoop 3.0のリリースに期待! まとめ
  • 26. © 2017 NTT DATA Corporation 26  "Docker on Hadoop", Apache: Big Data North America 2017, http://events.linuxfoundation.org/sites/events/files/slides/Docker OnHadoop.pdf  "Mercury: Hybrid Centralized and Distributed Scheduling in Large Shared Clusters", USENIX 2015, https://www.usenix.org/system/files/conference/atc15/atc15- paper-karanasos.pdf References
  • 27. © 2017 NTT DATA Corporation 本資料中に記載されている会社名、商品名、ロゴは、各社の商標または登録商標です。