SlideShare ist ein Scribd-Unternehmen logo
1 von 49
Downloaden Sie, um offline zu lesen
マネージドな 100% OSS アナリティクス プラットフォーム
HDInsight の最新事情
自己紹介
Hideo Takagi <hitakagi@microsoft.com>
Program Manager - Azure HDInsight
Microsoft
https://qiita.com/whata
https://github.com/hidwatanabe
https://twitter.com/hidwatanabe
https://www.linkedin.com/in/hideo-takagi/
<略歴>
• 大手電機メーカーで SaaS の開発
• キャリア系 SIer で物理・仮想インフラの構築や運用
• ビッグデータ / BI ソリューションの開発
• MS では Data & AI 分野のソリューションアーキテクト
• HDInsight 製品チームでバージョンアッププロジェクトに従事
本セッションのゴール
アジェンダ
1. Big Data analytics 市場と HDInsight
2. Azure HDInsight の最新アップデート
1. パフォーマンス & コストコントロール
2. ネットワーク & セキュリティ
3. 開発ツール
3. サポートライフサイクルとアップグレードおよび移行のヒント
1. Big Data Analytics 市場と HDInsight
Big Data Analytics マーケット概要
トレンド
• エンタープライズの 55% が 2 年以内に OSS のアナリティクスを適用することを計画している
• なぜ OSS か ? →マルチクラウドでオープンなアプリケーション戦略を可能にするため
• OSS アナリティクスは、ストリーミング (Kafka、Flink)、SQL-over-anything (Presto、Kylin)、AI
(H2O.ai、Dataiku) が急速に出現することで、従来の Hadoop&Spark を超えて成長
$21B +27% +41%
2022 TAM 2018-22 CAGR Cloud CAGR
オンプレミス Hadoop ディストリビューションの現況
Azure HDInsight のカスタマー モメンタム
16K+
Largest Cluster
10K+
Clusters / Day
500K+
Concurrent Cores
2X+
Growth in
Consumption
1,500
Concurrent Clusters (by
largest customer)
1B+
Batch Jobs per month
オープンソース, カスタマイズ可能 & 拡張可能
• 99.9% 可用性の SLA
• Ambari と Azure Log
Analytics によるクラスター
の正常性監視
• 賢いオートスケール機能によ
るコスト制御
エンタープライズ対応, マネージド & 高セキュリティ
エンタープライズ対応の OSS アナリティクスのマネージド・クラウドプラットフォーム
HDInsight クラスターのアーキテクチャ
HDInsight Cluster
Gateways
Head Node 1 Head Node 2
Worker Node Worker Node Worker Node Worker Node
Zookeeper1
Zookeeper1
Zookeeper1
Azure Storage
Data Lake Storage
Hive metastore
HDInsight の アプリケーション パートナー エコシステム
Data
Sources
Apps
Sensors
and
devices
データ収集 Advanced Analytics BI / 可視化
ユーザー
自動化システム
アプリ
Web
Mobile
Bots
データカタログ / ガバナンス / リネージ
コネクター: JDBC, ODBC
開発ツール
エンタープライズ対応のアドイン (ハイブリッド, バックアップ, DR, セキュリティ, パフォーマンス)
データ プレパレーション/管
理
HDInsight のソリューション アーキテクチャ
ダウンストリームアプリケーションは
構造化された低レイテンシーのス
トレージ (DB) にアクセス
Advanced
Analytics & Data
Science
Machine Learning
R, Python, APIs
Analytics
Data Exploration
Corporate
Reporting
Self-Service BI
Streaming/Real-
Time/
Application
HDFS 互換ストレージ
(Data Lake)
AZURE STORAGE
BLOBS
AZURE DATA LAKE
STORAGE
業務データ
コールドパス
SPARK/HIVE/PIG ON
AZURE HDINSIGHT
デバイス・センサー
Azure IoT Hub
ホットパス
SPARK STREAMING ON
AZURE HDINSIGHT
KAFKA ON
AZURE HDINSIGHT
AZURE DATA FACTORY AZURE NETWORK
SECURITY GROUPS
AZURE LOG ANALYTICS
AZURE
ACTIVE DIRECTORY
AZURE KEY
MANAGEMENT SERVICE
Serving-layer
AZURE COSMOS DB
HBASE ON AZURE
HDINSIGHT
LLAP/SPARK SQL ON
AZURE HDINSIGHT
ETL
長期間の分析のための
リアルタイムデータストア
アドホッククエリバッチデータの
収集
リアルタイム NOSQL ストアリアルタイム
データの収集
ガバナンス
&
マネジメント
Apache analytics powered by Microsoft
✓ より早いリリースサイクル
✓ 新興の Apache プロジェクト
✓ 性能、スケーラビリティ、可用性を
クラウドに最適化
✓ より Azure ネイティブで最適化
✓ ベスト・オブ・ブリードに統合したOSS
Analytics を最新の Azure プラット
フォームで提供
✓ 10 年以上にわたる分析システム
運用からの学び
✓ 世界規模の開発者、データサイ
エンティスト、開発ツール
Apache ディストリビューション上に構築し Microsoft によってサポート
• Microsoft がクラウド向けに構築、提供、サポートする Apache analytics プロジェクト
• Microsoft の Big Data analytics の長年の経験によりプロジェクトを強化
• Microsoft によるイノベーションとともにコミュニティに貢献
Azure のデータ分析基盤をどう選択するか
どんなときに HDInsight を選択すべきか
1. 100% Apache OSS であることが必要な場合
2. OSS のエコシステムに依存したソリューションプロバイダー、またはそれらのソリューションを使用する場合
3. Spark だけでなく、Hive, Kafka, HBase 等の他のワークロードも必要な場合
4. HDInsight エコシステム アプリケーション (H2O, Starburst, Trifecta, etc)と共に使用する場合
5. 既存のオンプレミスの基盤を Lift & Shift する場合
どんなときに Synapse Analytics を選択すべきか
Synapse Analytics は次世代の Azure SQL Data Warehouse です。Synapse Analytics は Azure 上でデータウェアハウスを
必要とする場合や高速なオンデマンドクエリ (Preview) を使用する場合に最適です。
どんなときに Azure Databricks を選択すべきか
Spark ワークロードで、Databricks Notebook や Databricks API 群で主要なユースケースを満たせる場合、は Azure
Databricks が最適です。生産性の高い Databricks Notebook やクラスター、ライブラリ等の高い管理機構の恩恵を受けるこ
とができます。
※2019/12/3 時点
SPARKHIVE
SPARK
or HIVE
SPARK
HIVE
推奨
今後拡張によって変化する可能性があります
インタラクティブクエリの技術選択
Capability Hive LLAP Spark SQL Presto
Interactive Query Speed High High Medium
Scale High High Low
Caching Yes Yes Early Support
Result Caching Yes No No
Intelligent Cache Eviction Yes No No
Materialized Views Yes No No
Complex Fact to Fact Joins Yes Yes No
Transactions Yes No No
Query Concurrency High Low Low
Row , Column level security Yes [Apache Ranger+ AAD] Medium Medium
Rich end user Tools Yes Yes Yes
Language Support SQL, UDF SQL, Scala, Python SQL
Data Source Connector
Support
Storage Handlers Data Sources High number of
connectors
2. Azure HDInsight の最新アップデート
2-1. パフォーマンス & コストコントロール
オートスケール for Spark, Hadoop, LLAP & HBase (2019/11 GA)オートスケールの設定
オートスケールの監視
必要な分だけの支払い
自動的に クラスターを増減:
2
1
3
4
3
4
1 2
Schedule-based: スケジュールを指定
(25 nodes @ 9 AM & 3 nodes @ 10 PM)
スケーリングの履歴を管理
Load-based: 最小サイズと最大サイズを指定
https://docs.microsoft.com/ja-jp/azure/hdinsight/hdinsight-autoscale-clusters
負荷ベースのオートスケールの動作
• 次のメトリクスを毎分チェック:
• Total Pending CPU
• Total Pending Memory
• Total Free CPU
• Total Free Memory
• Used Memory per Node
• Number of Application Masters per Node
• スケールアウト:
• Total pending CPU が Total Free CPU よりも 3 分間以上高い状態の場合
• Total pending memory が Total Free Memory よりも 3 分間以上高い状態の場合
• スケールイン:
• Total Pending CPU が Total Free CPU よりも 10 分間以上低い状態の場合
• Total Pending Memory が Total Free Memory よりも 10 分間以上低い状態の場合
HBase Accelerated Writes (2019/11 GA)
• Apache HBase と Phoenix の書き込みパ
フォーマンスが最大 10 倍高速化
• ADLS Gen 2 や Blob ストレージ上で高スルー
プットで低レイテンシなワークロードを稼働させる
ために最適化
• Premium SSD マネージドディスクをすべての
RegionServer (worker node) に接続。
Write Ahead Log (WAL) はこれらの
Premium SSD マネージドディスク上にマウント
した HDFS 上に書き込まれる。WAL の書き込
み高速化によって Write 処理の高速化を実
現。
RegionServer
Region
Region
Region
ADLSGen2
クライアント
-Put
-Delete
-Get
Log
Flusher
Store File
HFile
Store File
HFile
Store File
HFile
Premium
Managed
Disk(s)
Azure premium SSD マネージドディスク で HBase の書き込みパフォーマンスを高速化
https://docs.microsoft.com/ja-jp/azure/hdinsight/hbase/apache-hbase-accelerated-writes
HDInsight IO Cache (2018/10 ~)
Storage
インスタンス CPU コア RAM TEMP SSD
D1 v2 1 3.50 GiB 50 GiB
D2 v2 2 7.00 GiB 100 GiB
D3 v2 4 14.00 GiB 200 GiB
D4 v2 8 28.00 GiB 400 GiB
D5 v2 16 56.00 GiB 800 GiB
• RubiX の技術で自動的にキャッシュリソースを管理
• DRAM + Temp SSD により大きなキャッシュプールを構築
IO キャッシュにより Spark ジョブのパフォーマンスが最大 9 倍向上
https://docs.microsoft.com/ja-jp/azure/hdinsight/spark/apache-spark-improve-performance-iocache
2-2. ネットワーク & セキュリティ
HDInsight の仮想ネットワーク アーキテクチャ
Head Nodes
Worker Nodes
Zookeepers
subnet
VNet
Azure
Storage
Hive
Metastore
SSH 用の
パブリックロードバランサー
プライベートアクセス用の
インターナルロードバランサー
インターネット経由の
SSH アクセス
・・・
クラスタ管理アクセス用の
パブリックロードバランサー
HDInsight 管理ノード
Microsoft 管理 VNet 内
のリソースプロバイダ
HTTPS
パブリックエンドポイントを
NSG ルールで制限
1. https://<clustername>.azurehdinsight.net
2. https://<clustername>-int.azurehdinsight.net
3. https://<clustername>-ssh.azurehdinsight.net
1
2 3
Azure
Gateways
Public
Internet
Client
Client
VM
HDInsight のセキュリティ
データアクセス セキュリティ
アプリ/ミドルウェア セキュリティ
OS セキュリティ
ネットワーク セキュリティ
1. ADLS Gen1/Gen2 ACLs
2. アクセス時の TLS 暗号化
3. Azure Storage encryption 用に customer-managed keys を使用
1. ID 管理: Azure AD Domain Service (AAD DS) と Configure AuthN
2. アクセス制御: Apache Ranger AuthZ policies
3. 監査: Ranger Audit Logs
1. 最新のセキュアなベースイメージでクラスタを作成
2. 規則的な間隔で OS パッチの適用
3. ClamAV または セキュリティ監視 と IDS システム (via script actions)
1. VNET
2. Inbound NSG rules
3. Azure Firewall による Outbound traffic restriction
仮想インフラ セキュリティ
物理インフラ セキュリティ
クラウドプロバイダの責任範囲顧客の責任範囲
HDInsight セキュリティ
クラウドにおけるセキュリティは「共同責任モデル」
Enterprise Security Package (ESP) (2018/9 ~)
(パスワードハッシュ)
AADDS
マネージド ドメイン
Cluster users
All VMs
ドメインに参加 すべての Hadoop サービスは Kerberos 管理
サービスプリンシパルは AAD DS に保持
ドメインのクレデンシャルを使用して SSH ログイン
ドメインのクレデンシャルを使用して Web UI ログイン
AD 認証、マルチユーザーサポート、ロールベースのアクセス制御を提供
HDInsight ID Broker (HIB) (Preview)
contoso.onmicrosoft.com
Peered
Bob
Gateways
Head Node 1
Head Node 2
Worker Node Worker Node
Worker Node Worker Node
オンプレミス AD や AAD DS のパスワードハッシュ同期無しで他要素認証や SSO を有効にする ID ブローカー
Azure Firewall を使用した Outbound Traffic 制御 (2019/11 GA)
Virtual Network (10.1.0.0/16)
HDInsight Subnet
Gateways
HeadNode 1
HeadNode 2
Worker Node Worker Node Worker Node Worker Node
Firewall Subnet
UDR
(0.0.0.0/0)
Network/Application rule
HDInsight
管理リソースプ
ロバイダ (RP)
Route table UDRs
(6 IPs)
Network rule - SQL Service tag
Application/Network
rules/HDInsight FQDN tag
その他の許可され
ていないインター
ネット向けの宛先
Inbound NSG Rules (6 IPs)
その他クラス
ターへの
アクセス
Outbound のトラフィックを Azure Firewall で制御
Hive metastore
https://docs.microsoft.com/ja-jp/azure/hdinsight/hdinsight-restrict-outbound-traffic
Apache Kafka on Azure HDInsight
• マネージド Kafka クラスターを 10 分でデプロイ
• スケール性とコスト効率の高い Azure Managed Disk と統合
• エンタープライズ対応のセキュリティ: VNet, Apache Ranger によ
るきめ細かなセキュリティ制御, BYOK によるデータ暗号化
• Alerting and predictive cluster maintenance through
Azure Operations Management Suite
• MirrorMaker による Kafka クラスター間のレプリケーション
(Disaster Recovery)
• データの高可用性のための Rack awareness 機構 (open-
sourced by Azure HDInsight)
• Kafka の機能を拡張する StreamSets 等の ISV を 1 クリックで
一緒にデプロイ可能
ストリーミングプラットフォームのデファクトスタンダードをマネージド環境で提供
REST Proxy with Kafka (Preview)
HDInsight Kafka Cluster
オンプレミス
データソース
VNet 内の
Kafka Producers
ダウンストリーム
アプリケーション
Cosmos DB
Azure Functions
Azure Storage
Power BIBroker Nodes
REST Proxy
VNet 外のどこからでも HDInsight Kafka クラスターに接続
2-3. 開発 & 運用
HDInsight の開発ツール
VS & VSCODE IntelliJ Eclipse Zeppelin Jupyter R Studio
Spark & Hive Tools for Visual Studio Code
Feature Highlights
シンタックスハイライト, オートコンプリート, エラーマーカー インタラクティブクエリHDInsight エクスプローラー
Visual Studio Code プラグインで各種ワークロードの開発やジョブ実行が可能
• クラスターの管理
• バッチスクリプト実行
• インタラクティブ pyspark
• IntelliSense
• ADLS Gen2 アカウントの参照
HDInsight Spark デバッグ & 診断ツールセット
Spark History UI の拡張
ジョブ診断 :
▪ ボトルネックの特定
▪ ジョブデータの分散状態の分析
▪ 外れ値検出とスキュー解析
▪ エグゼキューターの割り当てと使用量
ジョブグラフ :
▪ 健全性チェックの実行
▪ ジョブ実行プランの理解
▪ ジョブ出力の検証
Jupyter Notebook の強化
HDInsight のモニタリング
Apache Ambari HDInsight Cluster Metrics Azure Log Analytics
 CPU, メモリ, ディスク使用量等のクラス
ターのメトリック
 アラートを送信
 キューの容量やジョブをモニタリング
 ゲートウェイへのリクエストの傾向
 クラスターサイズ (コストモニタリング)
 アラートルールや主要なメトリクスのトリ
ガーアクションを定義
 特定ワークロードのメトリクスやログを複
数のクラスターから Log Analytics ワーク
スペースに収集
 カスタムダッシュボードを作成
Log Analytics での HDInsight クラスターのモニタリング
統合された 1 つのワークスペースで 100
以上のクラスターの状態をモニタリング
Kusto Queries Ambari Log:
誤動作しているコンポーネントを監視する
Security Logs:
ゲートウェイ ノードへのログイン試行
クラスタへの SSH ログイン試行
ESP クラスタの Ranger ログ
ワークロードの情報とログ探索
リソース使用量とパフォーマンス
クラスターのログを統合管理
3. サポートライフサイクルと
アップグレードおよび移行のヒント
HDInsight サポートライフサイクル
HDInsight 3.6
*2017/4/4 release
HDInsight 4.0
*2018/9/24 release
Dec 31, 2020Dec 3, 2019
Support
Expires
Today
https://docs.microsoft.com/en-us/azure/hdinsight/hdinsight-component-versioning
HDInsight 4.0 での変更に際しての重要なポイント
1. Apache Storm と ML services のクラスタータイプはサポートされません
2. ADLS Gen 1 はサポートされません
3. Hive metastore は HDInsight 3.6 と 4.0 間で互換性がありません
4. HDInsight 3.6 から 4.0 へのインプレース アップグレードはサポートされていません
Component versioning
https://docs.microsoft.com/ja-jp/azure/hdinsight/hdinsight-component-versioning
HDInsight 3.6 Spark upgrade paths
Spark 2.1.0
Spark 2.3.0
Spark 2.3.1
Spark 2.4
HDInsight 3.6 HDInsight 4.0
Spark 2.2.0
HDInsight 4.0 は 2 つの Spark バージョンを提供
常に最新バージョンを選択することが推奨
HDInsight 3.6 Hive upgrade paths
Hive 1.2.1
Hive 3.1.0
HDInsight 3.6 HDInsight 4.0
Hive 2.1.0
HDInsight 4.0 は Hive 3.1.0 にメジャーバージョンアップ
HDInsight 3.6 Kafka upgrade paths
Kafka 1.0.0
Kafka 1.1.0
Kafka 1.1.0
Kafka 2.1.0
HDInsight 3.6 HDInsight 4.0
HDInsight 4.0 は 2 つの Kafka バージョンを提供
常に最新バージョンを選択することが推奨
Storm migration paths in HDInsight
Storm 1.1.0
Spark Streaming
Spark Structured
Streaming
Azure Stream Analytics
Manage your own
cluster (Storm, Flink,
Kafka Streams, Samza,
etc)
HDInsight 3.6
HDInsight 4.0
Spark Streaming または Spark Structured
Streaming へのマイグレーションが推奨
Spark と Hive metadata における変更
Spark Metadata Hive Metadata Spark Metadata
Hive Metadata
Azure HDInsight 3.6 with Hadoop 2.6 Azure HDInsight 4.0 with Hadoop 3.0
Spark Streaming + Kafka integration compatibility
spark-streaming-kafka-0-8 spark-streaming-kafka-0-10
Broker Version 0.8.2.1 or higher 0.10.0 or higher
API Maturity Deprecated Stable
Language Support Scala, Java, Python Scala, Java
Receiver DStream Yes No
Direct DStream Yes Yes
SSL / TLS Support No Yes
Offset Commit API No Yes
Dynamic Topic Subscription No Yes
https://spark.apache.org/docs/latest/streaming-kafka-integration.html
Kafka プロジェクトでは、バージョン 0.8 と 0.10 の間に新しい Consumer API が導入されたため、対応する Spark Streaming パッケージが 2 つ
用意されています。使用している Kafka Broker と必要な機能に合わせて正しいパッケージを選択してください。バージョン 0.8 のパッケージはは後
のバージョン 0.9 および 0.10 の Kafka Broker と互換性がありますが、バージョン 0.10 パッケージは以前の Broker と互換性がないことに注意し
てください。
※Spark 2.3.0 以降では非推奨
Kafka client compatibility
Compatibility Matrix
https://cwiki.apache.org/confluence/display/KAFKA/Compatibility+Matrix
KIP-35 - Retrieving protocol version
https://cwiki.apache.org/confluence/display/KAFKA/KIP-35+-
+Retrieving+protocol+version
KIP-97: Improved Kafka Client RPC Compatibility Policy
https://cwiki.apache.org/confluence/display/KAFKA/KIP-
97%3A+Improved+Kafka+Client+RPC+Compatibility+Policy
KIP-35 - Retrieving protocol version Kafka broker の機能を動的に決
定するメカニズムを導入し、 KIP-97: Improved Kafka Client RPC
Compatibility Policy で Java クライアントに対して新しい互換性ポリシーと
保証を導入しました。
以前は、クライアントが対話する Kafka broker は、クライアントよりも新しい
バージョンである必要があるという一般的な規則がありました。これで、
librdkafka などの KIP-35 をサポートする Java クライアントやその他のクライ
アントの新しいバージョンは、古い要求タイプにフォールバックしたり、機能が利
用できない場合に適切なエラーをスローしたりできるようになりました。
新しい Kafka broker はクライアントの後方互換性を持つ
Kafka 1.0.0
HDI 3.6
Kafka
Client
(Producer)
Kafka 1.1.0
HDI 3.6 or 4.0
Kafka 2.1.0
HDI 4.0
Kafka
Client
(Consumer)
Kafka 1.0.0
HDI 3.6
Kafka 1.1.0
HDI 3.6 or 4.0
Kafka 2.1.0
HDI 4.0
クライアントが新しい Kafka broker に対して
後方互換性があるわけではないことに注意
まとめ
Azure HDInsight は・・・
• エンタープライズ対応の 100% OSS analytics のマネージド クラウドプラットフォーム
• Spark, Hive, HBase, Kafka 等の様々な OSS analytics ワークロード
• Microsoft によってサポートする独自の OSS analytics ディストリビューションを構築
• より早いリリースサイクル
• よりシンプルに、Azure ネイティブに
参考資料
Azure HDInsight のドキュメント
https://docs.microsoft.com/ja-jp/azure/hdinsight/
Azure Blog : HDInsight
※アナウンスメント、技術情報、Tips 等を紹介しています
https://azure.microsoft.com/en-us/blog/tag/hdinsight/
Microsoft Learn: Azure HDInsight を使用したオープンソースソフトウェア 分析ソリューションの構築
※概要・機能紹介・具体的なシナリオ・ハンズオンのエクササイズなどを通して HDInsight について体系的に学べます
https://docs.microsoft.com/ja-jp/learn/paths/build-oss-analytical-solutions-az-hdinsight/
Microsoft Learn
オススメ!
マネージドな 100% OSS アナリティクス プラットフォーム
HDInsight の最新事情

Weitere ähnliche Inhalte

Was ist angesagt?

クラウドネイティブ時代の分散トレーシング - Distributed Tracing in a Cloud Native Age
クラウドネイティブ時代の分散トレーシング - Distributed Tracing in a Cloud Native Ageクラウドネイティブ時代の分散トレーシング - Distributed Tracing in a Cloud Native Age
クラウドネイティブ時代の分散トレーシング - Distributed Tracing in a Cloud Native AgeYoichi Kawasaki
 
GitOpsでKubernetesのManifest管理
GitOpsでKubernetesのManifest管理GitOpsでKubernetesのManifest管理
GitOpsでKubernetesのManifest管理Shinya Sasaki
 
FIWARE 概要 - FIWARE WednesdayWebinars
FIWARE 概要 - FIWARE WednesdayWebinarsFIWARE 概要 - FIWARE WednesdayWebinars
FIWARE 概要 - FIWARE WednesdayWebinarsfisuda
 
Azure load testingを利用したパフォーマンステスト
Azure load testingを利用したパフォーマンステストAzure load testingを利用したパフォーマンステスト
Azure load testingを利用したパフォーマンステストKuniteru Asami
 
Implementation Approach of Artifical Intelligence
Implementation Approach of Artifical IntelligenceImplementation Approach of Artifical Intelligence
Implementation Approach of Artifical IntelligenceTakao Tetsuro
 
Azure Digital Twins 最新事例紹介 ( IoTビジネス共創ラボ 第16回勉強会 )
Azure Digital Twins 最新事例紹介 ( IoTビジネス共創ラボ 第16回勉強会 )Azure Digital Twins 最新事例紹介 ( IoTビジネス共創ラボ 第16回勉強会 )
Azure Digital Twins 最新事例紹介 ( IoTビジネス共創ラボ 第16回勉強会 )Takeshi Fukuhara
 
Data Factoryの勘所・大事なところ
Data Factoryの勘所・大事なところData Factoryの勘所・大事なところ
Data Factoryの勘所・大事なところTsubasa Yoshino
 
第15回JSSUG「Azure SQL Database 超入門」
第15回JSSUG「Azure SQL Database 超入門」第15回JSSUG「Azure SQL Database 超入門」
第15回JSSUG「Azure SQL Database 超入門」裕之 木下
 
初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!Tetsutaro Watanabe
 
ブロックチェーン統合ツールCactusとトークンエコノミー実現への期待
ブロックチェーン統合ツールCactusとトークンエコノミー実現への期待ブロックチェーン統合ツールCactusとトークンエコノミー実現への期待
ブロックチェーン統合ツールCactusとトークンエコノミー実現への期待Hyperleger Tokyo Meetup
 
Google Cloud のネットワークとロードバランサ
Google Cloud のネットワークとロードバランサGoogle Cloud のネットワークとロードバランサ
Google Cloud のネットワークとロードバランサGoogle Cloud Platform - Japan
 
Azure App Service Overview
Azure App Service OverviewAzure App Service Overview
Azure App Service OverviewTakeshi Fukuhara
 
OAuth2.0によるWeb APIの保護
OAuth2.0によるWeb APIの保護OAuth2.0によるWeb APIの保護
OAuth2.0によるWeb APIの保護Naohiro Fujie
 
FIWARE IoTデバイスを保護する方法
FIWARE IoTデバイスを保護する方法FIWARE IoTデバイスを保護する方法
FIWARE IoTデバイスを保護する方法fisuda
 
Keycloak拡張入門
Keycloak拡張入門Keycloak拡張入門
Keycloak拡張入門Hiroyuki Wada
 
Azure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法について
Azure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法についてAzure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法について
Azure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法についてShinya Yamaguchi
 
FIWARE Context Information Management
FIWARE Context Information ManagementFIWARE Context Information Management
FIWARE Context Information Managementfisuda
 

Was ist angesagt? (20)

クラウドネイティブ時代の分散トレーシング - Distributed Tracing in a Cloud Native Age
クラウドネイティブ時代の分散トレーシング - Distributed Tracing in a Cloud Native Ageクラウドネイティブ時代の分散トレーシング - Distributed Tracing in a Cloud Native Age
クラウドネイティブ時代の分散トレーシング - Distributed Tracing in a Cloud Native Age
 
GitOpsでKubernetesのManifest管理
GitOpsでKubernetesのManifest管理GitOpsでKubernetesのManifest管理
GitOpsでKubernetesのManifest管理
 
FIWARE 概要 - FIWARE WednesdayWebinars
FIWARE 概要 - FIWARE WednesdayWebinarsFIWARE 概要 - FIWARE WednesdayWebinars
FIWARE 概要 - FIWARE WednesdayWebinars
 
Azure load testingを利用したパフォーマンステスト
Azure load testingを利用したパフォーマンステストAzure load testingを利用したパフォーマンステスト
Azure load testingを利用したパフォーマンステスト
 
Implementation Approach of Artifical Intelligence
Implementation Approach of Artifical IntelligenceImplementation Approach of Artifical Intelligence
Implementation Approach of Artifical Intelligence
 
NGINXをBFF (Backend for Frontend)として利用した話
NGINXをBFF (Backend for Frontend)として利用した話NGINXをBFF (Backend for Frontend)として利用した話
NGINXをBFF (Backend for Frontend)として利用した話
 
Azure Digital Twins 最新事例紹介 ( IoTビジネス共創ラボ 第16回勉強会 )
Azure Digital Twins 最新事例紹介 ( IoTビジネス共創ラボ 第16回勉強会 )Azure Digital Twins 最新事例紹介 ( IoTビジネス共創ラボ 第16回勉強会 )
Azure Digital Twins 最新事例紹介 ( IoTビジネス共創ラボ 第16回勉強会 )
 
KeycloakでAPI認可に入門する
KeycloakでAPI認可に入門するKeycloakでAPI認可に入門する
KeycloakでAPI認可に入門する
 
Data Factoryの勘所・大事なところ
Data Factoryの勘所・大事なところData Factoryの勘所・大事なところ
Data Factoryの勘所・大事なところ
 
第15回JSSUG「Azure SQL Database 超入門」
第15回JSSUG「Azure SQL Database 超入門」第15回JSSUG「Azure SQL Database 超入門」
第15回JSSUG「Azure SQL Database 超入門」
 
初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!
 
ブロックチェーン統合ツールCactusとトークンエコノミー実現への期待
ブロックチェーン統合ツールCactusとトークンエコノミー実現への期待ブロックチェーン統合ツールCactusとトークンエコノミー実現への期待
ブロックチェーン統合ツールCactusとトークンエコノミー実現への期待
 
Google Cloud のネットワークとロードバランサ
Google Cloud のネットワークとロードバランサGoogle Cloud のネットワークとロードバランサ
Google Cloud のネットワークとロードバランサ
 
Azure App Service Overview
Azure App Service OverviewAzure App Service Overview
Azure App Service Overview
 
OAuth2.0によるWeb APIの保護
OAuth2.0によるWeb APIの保護OAuth2.0によるWeb APIの保護
OAuth2.0によるWeb APIの保護
 
FIWARE IoTデバイスを保護する方法
FIWARE IoTデバイスを保護する方法FIWARE IoTデバイスを保護する方法
FIWARE IoTデバイスを保護する方法
 
Keycloak拡張入門
Keycloak拡張入門Keycloak拡張入門
Keycloak拡張入門
 
分散トレーシング技術について(Open tracingやjaeger)
分散トレーシング技術について(Open tracingやjaeger)分散トレーシング技術について(Open tracingやjaeger)
分散トレーシング技術について(Open tracingやjaeger)
 
Azure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法について
Azure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法についてAzure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法について
Azure AD とアプリケーションを SAML 連携する際に陥る事例と対処方法について
 
FIWARE Context Information Management
FIWARE Context Information ManagementFIWARE Context Information Management
FIWARE Context Information Management
 

Ähnlich wie 【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情

[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...
[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...
[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...Insight Technology, Inc.
 
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...Naoki (Neo) SATO
 
20190705 mas ken_azure_stack
20190705 mas ken_azure_stack20190705 mas ken_azure_stack
20190705 mas ken_azure_stackOsamu Takazoe
 
Azure上の データベース 機能の選び方。KVSからDWHまで
Azure上の データベース 機能の選び方。KVSからDWHまでAzure上の データベース 機能の選び方。KVSからDWHまで
Azure上の データベース 機能の選び方。KVSからDWHまでDaisuke Masubuchi
 
OSS on Azure で構築するウェブアプリケーション
OSS on Azure で構築するウェブアプリケーションOSS on Azure で構築するウェブアプリケーション
OSS on Azure で構築するウェブアプリケーションDaisuke Masubuchi
 
OSC 2012 Microsoft Session [マイクロソフトの魅せるセンサー×クラウド技術]
OSC 2012 Microsoft Session [マイクロソフトの魅せるセンサー×クラウド技術]OSC 2012 Microsoft Session [マイクロソフトの魅せるセンサー×クラウド技術]
OSC 2012 Microsoft Session [マイクロソフトの魅せるセンサー×クラウド技術]Aya Tokura
 
今改めて学ぶ Microsoft Azure 基礎知識
今改めて学ぶ Microsoft Azure 基礎知識今改めて学ぶ Microsoft Azure 基礎知識
今改めて学ぶ Microsoft Azure 基礎知識Minoru Naito
 
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)日本マイクロソフト株式会社
 
PHP on Windows Azure in Open Source Conference
PHP on Windows Azure in Open Source ConferencePHP on Windows Azure in Open Source Conference
PHP on Windows Azure in Open Source ConferenceMicrosoft
 
PHP on Windows Azure
PHP on Windows AzurePHP on Windows Azure
PHP on Windows AzureMicrosoft
 
Windows Azure for PHP Developers
Windows Azure for PHP DevelopersWindows Azure for PHP Developers
Windows Azure for PHP Developersfumios
 
2014年12月04日 ヒーロー島 Azureスペシャル
2014年12月04日 ヒーロー島 Azureスペシャル2014年12月04日 ヒーロー島 Azureスペシャル
2014年12月04日 ヒーロー島 AzureスペシャルDaiyu Hatakeyama
 
ハイブリッドクラウドとして進化するWindows azureのご紹介 day1ハイライト
ハイブリッドクラウドとして進化するWindows azureのご紹介 day1ハイライトハイブリッドクラウドとして進化するWindows azureのご紹介 day1ハイライト
ハイブリッドクラウドとして進化するWindows azureのご紹介 day1ハイライトGoAzure
 
Microsoft Azure build & ignight update summary
Microsoft Azure build & ignight update summary Microsoft Azure build & ignight update summary
Microsoft Azure build & ignight update summary Hirano Kazunori
 
【Japan Partner Conference 2019】遂に来た! フルマーネージド Azure Red Hat OpenShift で実現する O...
【Japan Partner Conference 2019】遂に来た! フルマーネージド Azure Red Hat OpenShift で実現する O...【Japan Partner Conference 2019】遂に来た! フルマーネージド Azure Red Hat OpenShift で実現する O...
【Japan Partner Conference 2019】遂に来た! フルマーネージド Azure Red Hat OpenShift で実現する O...日本マイクロソフト株式会社
 
20170719 wintechq azure_stack
20170719 wintechq azure_stack20170719 wintechq azure_stack
20170719 wintechq azure_stackOsamu Takazoe
 
Azure DevOps - ALGYAN Oct 2022.pdf
Azure DevOps - ALGYAN Oct 2022.pdfAzure DevOps - ALGYAN Oct 2022.pdf
Azure DevOps - ALGYAN Oct 2022.pdfYasuhiroHanda2
 
SAP on Azure Cloud Workshop Material Japanese 20190221
SAP on Azure Cloud Workshop Material Japanese 20190221SAP on Azure Cloud Workshop Material Japanese 20190221
SAP on Azure Cloud Workshop Material Japanese 20190221Hitoshi Ikemoto
 
G tech2016 デジタルトランスフォーメーションを牽引するAzure+OSSのスキル習得ポイント
G tech2016 デジタルトランスフォーメーションを牽引するAzure+OSSのスキル習得ポイントG tech2016 デジタルトランスフォーメーションを牽引するAzure+OSSのスキル習得ポイント
G tech2016 デジタルトランスフォーメーションを牽引するAzure+OSSのスキル習得ポイントTrainocate Japan, Ltd.
 

Ähnlich wie 【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情 (20)

[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...
[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...
[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...
 
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
 
20190705 mas ken_azure_stack
20190705 mas ken_azure_stack20190705 mas ken_azure_stack
20190705 mas ken_azure_stack
 
Azure上の データベース 機能の選び方。KVSからDWHまで
Azure上の データベース 機能の選び方。KVSからDWHまでAzure上の データベース 機能の選び方。KVSからDWHまで
Azure上の データベース 機能の選び方。KVSからDWHまで
 
OSS on Azure で構築するウェブアプリケーション
OSS on Azure で構築するウェブアプリケーションOSS on Azure で構築するウェブアプリケーション
OSS on Azure で構築するウェブアプリケーション
 
OSC 2012 Microsoft Session [マイクロソフトの魅せるセンサー×クラウド技術]
OSC 2012 Microsoft Session [マイクロソフトの魅せるセンサー×クラウド技術]OSC 2012 Microsoft Session [マイクロソフトの魅せるセンサー×クラウド技術]
OSC 2012 Microsoft Session [マイクロソフトの魅せるセンサー×クラウド技術]
 
今改めて学ぶ Microsoft Azure 基礎知識
今改めて学ぶ Microsoft Azure 基礎知識今改めて学ぶ Microsoft Azure 基礎知識
今改めて学ぶ Microsoft Azure 基礎知識
 
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
 
PHP on Windows Azure in Open Source Conference
PHP on Windows Azure in Open Source ConferencePHP on Windows Azure in Open Source Conference
PHP on Windows Azure in Open Source Conference
 
PHP on Windows Azure
PHP on Windows AzurePHP on Windows Azure
PHP on Windows Azure
 
PHP on Windows Azure
PHP on Windows AzurePHP on Windows Azure
PHP on Windows Azure
 
Windows Azure for PHP Developers
Windows Azure for PHP DevelopersWindows Azure for PHP Developers
Windows Azure for PHP Developers
 
2014年12月04日 ヒーロー島 Azureスペシャル
2014年12月04日 ヒーロー島 Azureスペシャル2014年12月04日 ヒーロー島 Azureスペシャル
2014年12月04日 ヒーロー島 Azureスペシャル
 
ハイブリッドクラウドとして進化するWindows azureのご紹介 day1ハイライト
ハイブリッドクラウドとして進化するWindows azureのご紹介 day1ハイライトハイブリッドクラウドとして進化するWindows azureのご紹介 day1ハイライト
ハイブリッドクラウドとして進化するWindows azureのご紹介 day1ハイライト
 
Microsoft Azure build & ignight update summary
Microsoft Azure build & ignight update summary Microsoft Azure build & ignight update summary
Microsoft Azure build & ignight update summary
 
【Japan Partner Conference 2019】遂に来た! フルマーネージド Azure Red Hat OpenShift で実現する O...
【Japan Partner Conference 2019】遂に来た! フルマーネージド Azure Red Hat OpenShift で実現する O...【Japan Partner Conference 2019】遂に来た! フルマーネージド Azure Red Hat OpenShift で実現する O...
【Japan Partner Conference 2019】遂に来た! フルマーネージド Azure Red Hat OpenShift で実現する O...
 
20170719 wintechq azure_stack
20170719 wintechq azure_stack20170719 wintechq azure_stack
20170719 wintechq azure_stack
 
Azure DevOps - ALGYAN Oct 2022.pdf
Azure DevOps - ALGYAN Oct 2022.pdfAzure DevOps - ALGYAN Oct 2022.pdf
Azure DevOps - ALGYAN Oct 2022.pdf
 
SAP on Azure Cloud Workshop Material Japanese 20190221
SAP on Azure Cloud Workshop Material Japanese 20190221SAP on Azure Cloud Workshop Material Japanese 20190221
SAP on Azure Cloud Workshop Material Japanese 20190221
 
G tech2016 デジタルトランスフォーメーションを牽引するAzure+OSSのスキル習得ポイント
G tech2016 デジタルトランスフォーメーションを牽引するAzure+OSSのスキル習得ポイントG tech2016 デジタルトランスフォーメーションを牽引するAzure+OSSのスキル習得ポイント
G tech2016 デジタルトランスフォーメーションを牽引するAzure+OSSのスキル習得ポイント
 

【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情

  • 1. マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
  • 2. 自己紹介 Hideo Takagi <hitakagi@microsoft.com> Program Manager - Azure HDInsight Microsoft https://qiita.com/whata https://github.com/hidwatanabe https://twitter.com/hidwatanabe https://www.linkedin.com/in/hideo-takagi/ <略歴> • 大手電機メーカーで SaaS の開発 • キャリア系 SIer で物理・仮想インフラの構築や運用 • ビッグデータ / BI ソリューションの開発 • MS では Data & AI 分野のソリューションアーキテクト • HDInsight 製品チームでバージョンアッププロジェクトに従事
  • 4. アジェンダ 1. Big Data analytics 市場と HDInsight 2. Azure HDInsight の最新アップデート 1. パフォーマンス & コストコントロール 2. ネットワーク & セキュリティ 3. 開発ツール 3. サポートライフサイクルとアップグレードおよび移行のヒント
  • 5. 1. Big Data Analytics 市場と HDInsight
  • 6. Big Data Analytics マーケット概要 トレンド • エンタープライズの 55% が 2 年以内に OSS のアナリティクスを適用することを計画している • なぜ OSS か ? →マルチクラウドでオープンなアプリケーション戦略を可能にするため • OSS アナリティクスは、ストリーミング (Kafka、Flink)、SQL-over-anything (Presto、Kylin)、AI (H2O.ai、Dataiku) が急速に出現することで、従来の Hadoop&Spark を超えて成長 $21B +27% +41% 2022 TAM 2018-22 CAGR Cloud CAGR
  • 8. Azure HDInsight のカスタマー モメンタム 16K+ Largest Cluster 10K+ Clusters / Day 500K+ Concurrent Cores 2X+ Growth in Consumption 1,500 Concurrent Clusters (by largest customer) 1B+ Batch Jobs per month
  • 9. オープンソース, カスタマイズ可能 & 拡張可能 • 99.9% 可用性の SLA • Ambari と Azure Log Analytics によるクラスター の正常性監視 • 賢いオートスケール機能によ るコスト制御 エンタープライズ対応, マネージド & 高セキュリティ エンタープライズ対応の OSS アナリティクスのマネージド・クラウドプラットフォーム
  • 10. HDInsight クラスターのアーキテクチャ HDInsight Cluster Gateways Head Node 1 Head Node 2 Worker Node Worker Node Worker Node Worker Node Zookeeper1 Zookeeper1 Zookeeper1 Azure Storage Data Lake Storage Hive metastore
  • 11. HDInsight の アプリケーション パートナー エコシステム Data Sources Apps Sensors and devices データ収集 Advanced Analytics BI / 可視化 ユーザー 自動化システム アプリ Web Mobile Bots データカタログ / ガバナンス / リネージ コネクター: JDBC, ODBC 開発ツール エンタープライズ対応のアドイン (ハイブリッド, バックアップ, DR, セキュリティ, パフォーマンス) データ プレパレーション/管 理
  • 12. HDInsight のソリューション アーキテクチャ ダウンストリームアプリケーションは 構造化された低レイテンシーのス トレージ (DB) にアクセス Advanced Analytics & Data Science Machine Learning R, Python, APIs Analytics Data Exploration Corporate Reporting Self-Service BI Streaming/Real- Time/ Application HDFS 互換ストレージ (Data Lake) AZURE STORAGE BLOBS AZURE DATA LAKE STORAGE 業務データ コールドパス SPARK/HIVE/PIG ON AZURE HDINSIGHT デバイス・センサー Azure IoT Hub ホットパス SPARK STREAMING ON AZURE HDINSIGHT KAFKA ON AZURE HDINSIGHT AZURE DATA FACTORY AZURE NETWORK SECURITY GROUPS AZURE LOG ANALYTICS AZURE ACTIVE DIRECTORY AZURE KEY MANAGEMENT SERVICE Serving-layer AZURE COSMOS DB HBASE ON AZURE HDINSIGHT LLAP/SPARK SQL ON AZURE HDINSIGHT ETL 長期間の分析のための リアルタイムデータストア アドホッククエリバッチデータの 収集 リアルタイム NOSQL ストアリアルタイム データの収集 ガバナンス & マネジメント
  • 13. Apache analytics powered by Microsoft ✓ より早いリリースサイクル ✓ 新興の Apache プロジェクト ✓ 性能、スケーラビリティ、可用性を クラウドに最適化 ✓ より Azure ネイティブで最適化 ✓ ベスト・オブ・ブリードに統合したOSS Analytics を最新の Azure プラット フォームで提供 ✓ 10 年以上にわたる分析システム 運用からの学び ✓ 世界規模の開発者、データサイ エンティスト、開発ツール Apache ディストリビューション上に構築し Microsoft によってサポート • Microsoft がクラウド向けに構築、提供、サポートする Apache analytics プロジェクト • Microsoft の Big Data analytics の長年の経験によりプロジェクトを強化 • Microsoft によるイノベーションとともにコミュニティに貢献
  • 14. Azure のデータ分析基盤をどう選択するか どんなときに HDInsight を選択すべきか 1. 100% Apache OSS であることが必要な場合 2. OSS のエコシステムに依存したソリューションプロバイダー、またはそれらのソリューションを使用する場合 3. Spark だけでなく、Hive, Kafka, HBase 等の他のワークロードも必要な場合 4. HDInsight エコシステム アプリケーション (H2O, Starburst, Trifecta, etc)と共に使用する場合 5. 既存のオンプレミスの基盤を Lift & Shift する場合 どんなときに Synapse Analytics を選択すべきか Synapse Analytics は次世代の Azure SQL Data Warehouse です。Synapse Analytics は Azure 上でデータウェアハウスを 必要とする場合や高速なオンデマンドクエリ (Preview) を使用する場合に最適です。 どんなときに Azure Databricks を選択すべきか Spark ワークロードで、Databricks Notebook や Databricks API 群で主要なユースケースを満たせる場合、は Azure Databricks が最適です。生産性の高い Databricks Notebook やクラスター、ライブラリ等の高い管理機構の恩恵を受けるこ とができます。 ※2019/12/3 時点
  • 16. インタラクティブクエリの技術選択 Capability Hive LLAP Spark SQL Presto Interactive Query Speed High High Medium Scale High High Low Caching Yes Yes Early Support Result Caching Yes No No Intelligent Cache Eviction Yes No No Materialized Views Yes No No Complex Fact to Fact Joins Yes Yes No Transactions Yes No No Query Concurrency High Low Low Row , Column level security Yes [Apache Ranger+ AAD] Medium Medium Rich end user Tools Yes Yes Yes Language Support SQL, UDF SQL, Scala, Python SQL Data Source Connector Support Storage Handlers Data Sources High number of connectors
  • 17. 2. Azure HDInsight の最新アップデート
  • 18. 2-1. パフォーマンス & コストコントロール
  • 19. オートスケール for Spark, Hadoop, LLAP & HBase (2019/11 GA)オートスケールの設定 オートスケールの監視 必要な分だけの支払い 自動的に クラスターを増減: 2 1 3 4 3 4 1 2 Schedule-based: スケジュールを指定 (25 nodes @ 9 AM & 3 nodes @ 10 PM) スケーリングの履歴を管理 Load-based: 最小サイズと最大サイズを指定 https://docs.microsoft.com/ja-jp/azure/hdinsight/hdinsight-autoscale-clusters
  • 20. 負荷ベースのオートスケールの動作 • 次のメトリクスを毎分チェック: • Total Pending CPU • Total Pending Memory • Total Free CPU • Total Free Memory • Used Memory per Node • Number of Application Masters per Node • スケールアウト: • Total pending CPU が Total Free CPU よりも 3 分間以上高い状態の場合 • Total pending memory が Total Free Memory よりも 3 分間以上高い状態の場合 • スケールイン: • Total Pending CPU が Total Free CPU よりも 10 分間以上低い状態の場合 • Total Pending Memory が Total Free Memory よりも 10 分間以上低い状態の場合
  • 21. HBase Accelerated Writes (2019/11 GA) • Apache HBase と Phoenix の書き込みパ フォーマンスが最大 10 倍高速化 • ADLS Gen 2 や Blob ストレージ上で高スルー プットで低レイテンシなワークロードを稼働させる ために最適化 • Premium SSD マネージドディスクをすべての RegionServer (worker node) に接続。 Write Ahead Log (WAL) はこれらの Premium SSD マネージドディスク上にマウント した HDFS 上に書き込まれる。WAL の書き込 み高速化によって Write 処理の高速化を実 現。 RegionServer Region Region Region ADLSGen2 クライアント -Put -Delete -Get Log Flusher Store File HFile Store File HFile Store File HFile Premium Managed Disk(s) Azure premium SSD マネージドディスク で HBase の書き込みパフォーマンスを高速化 https://docs.microsoft.com/ja-jp/azure/hdinsight/hbase/apache-hbase-accelerated-writes
  • 22. HDInsight IO Cache (2018/10 ~) Storage インスタンス CPU コア RAM TEMP SSD D1 v2 1 3.50 GiB 50 GiB D2 v2 2 7.00 GiB 100 GiB D3 v2 4 14.00 GiB 200 GiB D4 v2 8 28.00 GiB 400 GiB D5 v2 16 56.00 GiB 800 GiB • RubiX の技術で自動的にキャッシュリソースを管理 • DRAM + Temp SSD により大きなキャッシュプールを構築 IO キャッシュにより Spark ジョブのパフォーマンスが最大 9 倍向上 https://docs.microsoft.com/ja-jp/azure/hdinsight/spark/apache-spark-improve-performance-iocache
  • 23. 2-2. ネットワーク & セキュリティ
  • 24. HDInsight の仮想ネットワーク アーキテクチャ Head Nodes Worker Nodes Zookeepers subnet VNet Azure Storage Hive Metastore SSH 用の パブリックロードバランサー プライベートアクセス用の インターナルロードバランサー インターネット経由の SSH アクセス ・・・ クラスタ管理アクセス用の パブリックロードバランサー HDInsight 管理ノード Microsoft 管理 VNet 内 のリソースプロバイダ HTTPS パブリックエンドポイントを NSG ルールで制限 1. https://<clustername>.azurehdinsight.net 2. https://<clustername>-int.azurehdinsight.net 3. https://<clustername>-ssh.azurehdinsight.net 1 2 3 Azure Gateways Public Internet Client Client VM
  • 25. HDInsight のセキュリティ データアクセス セキュリティ アプリ/ミドルウェア セキュリティ OS セキュリティ ネットワーク セキュリティ 1. ADLS Gen1/Gen2 ACLs 2. アクセス時の TLS 暗号化 3. Azure Storage encryption 用に customer-managed keys を使用 1. ID 管理: Azure AD Domain Service (AAD DS) と Configure AuthN 2. アクセス制御: Apache Ranger AuthZ policies 3. 監査: Ranger Audit Logs 1. 最新のセキュアなベースイメージでクラスタを作成 2. 規則的な間隔で OS パッチの適用 3. ClamAV または セキュリティ監視 と IDS システム (via script actions) 1. VNET 2. Inbound NSG rules 3. Azure Firewall による Outbound traffic restriction 仮想インフラ セキュリティ 物理インフラ セキュリティ クラウドプロバイダの責任範囲顧客の責任範囲 HDInsight セキュリティ クラウドにおけるセキュリティは「共同責任モデル」
  • 26. Enterprise Security Package (ESP) (2018/9 ~) (パスワードハッシュ) AADDS マネージド ドメイン Cluster users All VMs ドメインに参加 すべての Hadoop サービスは Kerberos 管理 サービスプリンシパルは AAD DS に保持 ドメインのクレデンシャルを使用して SSH ログイン ドメインのクレデンシャルを使用して Web UI ログイン AD 認証、マルチユーザーサポート、ロールベースのアクセス制御を提供
  • 27. HDInsight ID Broker (HIB) (Preview) contoso.onmicrosoft.com Peered Bob Gateways Head Node 1 Head Node 2 Worker Node Worker Node Worker Node Worker Node オンプレミス AD や AAD DS のパスワードハッシュ同期無しで他要素認証や SSO を有効にする ID ブローカー
  • 28. Azure Firewall を使用した Outbound Traffic 制御 (2019/11 GA) Virtual Network (10.1.0.0/16) HDInsight Subnet Gateways HeadNode 1 HeadNode 2 Worker Node Worker Node Worker Node Worker Node Firewall Subnet UDR (0.0.0.0/0) Network/Application rule HDInsight 管理リソースプ ロバイダ (RP) Route table UDRs (6 IPs) Network rule - SQL Service tag Application/Network rules/HDInsight FQDN tag その他の許可され ていないインター ネット向けの宛先 Inbound NSG Rules (6 IPs) その他クラス ターへの アクセス Outbound のトラフィックを Azure Firewall で制御 Hive metastore https://docs.microsoft.com/ja-jp/azure/hdinsight/hdinsight-restrict-outbound-traffic
  • 29. Apache Kafka on Azure HDInsight • マネージド Kafka クラスターを 10 分でデプロイ • スケール性とコスト効率の高い Azure Managed Disk と統合 • エンタープライズ対応のセキュリティ: VNet, Apache Ranger によ るきめ細かなセキュリティ制御, BYOK によるデータ暗号化 • Alerting and predictive cluster maintenance through Azure Operations Management Suite • MirrorMaker による Kafka クラスター間のレプリケーション (Disaster Recovery) • データの高可用性のための Rack awareness 機構 (open- sourced by Azure HDInsight) • Kafka の機能を拡張する StreamSets 等の ISV を 1 クリックで 一緒にデプロイ可能 ストリーミングプラットフォームのデファクトスタンダードをマネージド環境で提供
  • 30. REST Proxy with Kafka (Preview) HDInsight Kafka Cluster オンプレミス データソース VNet 内の Kafka Producers ダウンストリーム アプリケーション Cosmos DB Azure Functions Azure Storage Power BIBroker Nodes REST Proxy VNet 外のどこからでも HDInsight Kafka クラスターに接続
  • 31. 2-3. 開発 & 運用
  • 32. HDInsight の開発ツール VS & VSCODE IntelliJ Eclipse Zeppelin Jupyter R Studio
  • 33. Spark & Hive Tools for Visual Studio Code Feature Highlights シンタックスハイライト, オートコンプリート, エラーマーカー インタラクティブクエリHDInsight エクスプローラー Visual Studio Code プラグインで各種ワークロードの開発やジョブ実行が可能 • クラスターの管理 • バッチスクリプト実行 • インタラクティブ pyspark • IntelliSense • ADLS Gen2 アカウントの参照
  • 34. HDInsight Spark デバッグ & 診断ツールセット Spark History UI の拡張 ジョブ診断 : ▪ ボトルネックの特定 ▪ ジョブデータの分散状態の分析 ▪ 外れ値検出とスキュー解析 ▪ エグゼキューターの割り当てと使用量 ジョブグラフ : ▪ 健全性チェックの実行 ▪ ジョブ実行プランの理解 ▪ ジョブ出力の検証 Jupyter Notebook の強化
  • 35. HDInsight のモニタリング Apache Ambari HDInsight Cluster Metrics Azure Log Analytics  CPU, メモリ, ディスク使用量等のクラス ターのメトリック  アラートを送信  キューの容量やジョブをモニタリング  ゲートウェイへのリクエストの傾向  クラスターサイズ (コストモニタリング)  アラートルールや主要なメトリクスのトリ ガーアクションを定義  特定ワークロードのメトリクスやログを複 数のクラスターから Log Analytics ワーク スペースに収集  カスタムダッシュボードを作成
  • 36. Log Analytics での HDInsight クラスターのモニタリング 統合された 1 つのワークスペースで 100 以上のクラスターの状態をモニタリング Kusto Queries Ambari Log: 誤動作しているコンポーネントを監視する Security Logs: ゲートウェイ ノードへのログイン試行 クラスタへの SSH ログイン試行 ESP クラスタの Ranger ログ ワークロードの情報とログ探索 リソース使用量とパフォーマンス クラスターのログを統合管理
  • 38. HDInsight サポートライフサイクル HDInsight 3.6 *2017/4/4 release HDInsight 4.0 *2018/9/24 release Dec 31, 2020Dec 3, 2019 Support Expires Today https://docs.microsoft.com/en-us/azure/hdinsight/hdinsight-component-versioning
  • 39. HDInsight 4.0 での変更に際しての重要なポイント 1. Apache Storm と ML services のクラスタータイプはサポートされません 2. ADLS Gen 1 はサポートされません 3. Hive metastore は HDInsight 3.6 と 4.0 間で互換性がありません 4. HDInsight 3.6 から 4.0 へのインプレース アップグレードはサポートされていません Component versioning https://docs.microsoft.com/ja-jp/azure/hdinsight/hdinsight-component-versioning
  • 40. HDInsight 3.6 Spark upgrade paths Spark 2.1.0 Spark 2.3.0 Spark 2.3.1 Spark 2.4 HDInsight 3.6 HDInsight 4.0 Spark 2.2.0 HDInsight 4.0 は 2 つの Spark バージョンを提供 常に最新バージョンを選択することが推奨
  • 41. HDInsight 3.6 Hive upgrade paths Hive 1.2.1 Hive 3.1.0 HDInsight 3.6 HDInsight 4.0 Hive 2.1.0 HDInsight 4.0 は Hive 3.1.0 にメジャーバージョンアップ
  • 42. HDInsight 3.6 Kafka upgrade paths Kafka 1.0.0 Kafka 1.1.0 Kafka 1.1.0 Kafka 2.1.0 HDInsight 3.6 HDInsight 4.0 HDInsight 4.0 は 2 つの Kafka バージョンを提供 常に最新バージョンを選択することが推奨
  • 43. Storm migration paths in HDInsight Storm 1.1.0 Spark Streaming Spark Structured Streaming Azure Stream Analytics Manage your own cluster (Storm, Flink, Kafka Streams, Samza, etc) HDInsight 3.6 HDInsight 4.0 Spark Streaming または Spark Structured Streaming へのマイグレーションが推奨
  • 44. Spark と Hive metadata における変更 Spark Metadata Hive Metadata Spark Metadata Hive Metadata Azure HDInsight 3.6 with Hadoop 2.6 Azure HDInsight 4.0 with Hadoop 3.0
  • 45. Spark Streaming + Kafka integration compatibility spark-streaming-kafka-0-8 spark-streaming-kafka-0-10 Broker Version 0.8.2.1 or higher 0.10.0 or higher API Maturity Deprecated Stable Language Support Scala, Java, Python Scala, Java Receiver DStream Yes No Direct DStream Yes Yes SSL / TLS Support No Yes Offset Commit API No Yes Dynamic Topic Subscription No Yes https://spark.apache.org/docs/latest/streaming-kafka-integration.html Kafka プロジェクトでは、バージョン 0.8 と 0.10 の間に新しい Consumer API が導入されたため、対応する Spark Streaming パッケージが 2 つ 用意されています。使用している Kafka Broker と必要な機能に合わせて正しいパッケージを選択してください。バージョン 0.8 のパッケージはは後 のバージョン 0.9 および 0.10 の Kafka Broker と互換性がありますが、バージョン 0.10 パッケージは以前の Broker と互換性がないことに注意し てください。 ※Spark 2.3.0 以降では非推奨
  • 46. Kafka client compatibility Compatibility Matrix https://cwiki.apache.org/confluence/display/KAFKA/Compatibility+Matrix KIP-35 - Retrieving protocol version https://cwiki.apache.org/confluence/display/KAFKA/KIP-35+- +Retrieving+protocol+version KIP-97: Improved Kafka Client RPC Compatibility Policy https://cwiki.apache.org/confluence/display/KAFKA/KIP- 97%3A+Improved+Kafka+Client+RPC+Compatibility+Policy KIP-35 - Retrieving protocol version Kafka broker の機能を動的に決 定するメカニズムを導入し、 KIP-97: Improved Kafka Client RPC Compatibility Policy で Java クライアントに対して新しい互換性ポリシーと 保証を導入しました。 以前は、クライアントが対話する Kafka broker は、クライアントよりも新しい バージョンである必要があるという一般的な規則がありました。これで、 librdkafka などの KIP-35 をサポートする Java クライアントやその他のクライ アントの新しいバージョンは、古い要求タイプにフォールバックしたり、機能が利 用できない場合に適切なエラーをスローしたりできるようになりました。 新しい Kafka broker はクライアントの後方互換性を持つ Kafka 1.0.0 HDI 3.6 Kafka Client (Producer) Kafka 1.1.0 HDI 3.6 or 4.0 Kafka 2.1.0 HDI 4.0 Kafka Client (Consumer) Kafka 1.0.0 HDI 3.6 Kafka 1.1.0 HDI 3.6 or 4.0 Kafka 2.1.0 HDI 4.0 クライアントが新しい Kafka broker に対して 後方互換性があるわけではないことに注意
  • 47. まとめ Azure HDInsight は・・・ • エンタープライズ対応の 100% OSS analytics のマネージド クラウドプラットフォーム • Spark, Hive, HBase, Kafka 等の様々な OSS analytics ワークロード • Microsoft によってサポートする独自の OSS analytics ディストリビューションを構築 • より早いリリースサイクル • よりシンプルに、Azure ネイティブに
  • 48. 参考資料 Azure HDInsight のドキュメント https://docs.microsoft.com/ja-jp/azure/hdinsight/ Azure Blog : HDInsight ※アナウンスメント、技術情報、Tips 等を紹介しています https://azure.microsoft.com/en-us/blog/tag/hdinsight/ Microsoft Learn: Azure HDInsight を使用したオープンソースソフトウェア 分析ソリューションの構築 ※概要・機能紹介・具体的なシナリオ・ハンズオンのエクササイズなどを通して HDInsight について体系的に学べます https://docs.microsoft.com/ja-jp/learn/paths/build-oss-analytical-solutions-az-hdinsight/ Microsoft Learn オススメ!
  • 49. マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情