Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Max compute alieaters analyst

MaxCompute - DataWorksについてエンジニア観点およびデータ分析者観点から説明します。
- MaxComputeはFuxi / Panguと言った独自技術で高性能のデータ処理基盤。この処理基盤で2015はデータソートベンチマークで優勝しました。2016年ではコスト・パーフォマンス効果で優勝しました。
- DataWorksはデータインテグレーション・データ開発・データ管理といったOneStopツールで誰でも簡単にデータを分析したりすることができます。中国ではほぼ利用されているデータツールです。

  • Loggen Sie sich ein, um Kommentare anzuzeigen.

Max compute alieaters analyst

  1. 1. MaxComputeはここがやばい For AliEaters #1 (2/7) 1
  2. 2. 自己紹介 • 名前: Bui Hong Ha (ハー) • ベトナム人で2012年に飛行機で日本に来ました • 所属: SBクラウドプロダクト技術部 • ロール: クラウドアーキテクト / Alibaba Cloud MVP • インターネット: telescreen 2 • 動画配信 • Big Data • Hadoopクラスタを構築運用 (100ノード 1.5PB) • CDH4.3、CDH5.4 • AWS Certified Solution Architect • Alibaba Cloud Professional スキル プロフィール
  3. 3. アジェンダ 3 Max Compute データ民主化するツール Data Works • 性能ベンチマークSort Benchmark • 基盤技術: Fuxi / Pangu • 列指向データベース エンジニア • Data Works • Tunnel • Supported Tools データ分析者
  4. 4. 分散処理基盤技術 Fuxi (伏羲) • リソース管理基盤システム • ジョブスケジューリングシステム Pangu (盘古) • 分散ファイルシステム 1.https://en.wikipedia.org/wiki/Fuxi 2. https://en.wikipedia.org/wiki/Pangu 4
  5. 5. Fuxi: ジョブスケジューリングシステム • Incremental Resource Management • User-transparent Failure Recovery • Effective detection mechanism & multi-level job blacklist http://www.vldb.org/pvldb/vol7/p1393-zhang.pdf 5
  6. 6. ソートベンチマークの結果 2015 2016 2015年のコンペティションで、Alibabaクラウ ドチームはGray (100TBデータのソート時間)と Minute (60sでソートできるデータ量) 試験で優 勝しました 2016年のコンペティションで、Alibabaクラウ ドチームは Cloud (1TBをソートするための料 金)試験で優勝しました sortbenchmark.org 6
  7. 7. Hadoopより最大3倍速い 7 0 40 80 120 160 sum with group sort-merge join hash join strealine io filter Time (s) Hive 2.0 MaxCompute 2.0 2x faster > 3x faster 2x faster 1.5x faster • 同じインスタンススペック • Hiveを最適化。Hive on Tez • ベンチマークデータサイズ: PBレベル
  8. 8. Max Compute as データマネージメント基盤 8 オンプレミス環境 MySQL TXT Text Data … Oracle データマネジメント データ収集 データアプリケーションデーター処理 / マネジメント MaxCompute 基盤 クラウド環境 RDS OSS ECS … データウェアハウス Data Mining Task Scheduling Scrubbing & Converting データー同期 ETL アプリケーション レポート リアルタイム クエリ データ分析 マイニング 予想 データファイル アクセス制御・ポータルインテグレーション
  9. 9. 最も大変かつ最も楽しくない作業とは? https://www.forbes.com/sites/gilpress/2016/03/23/data- preparation-most-time-consuming-least-enjoyable-data- science-task-survey-says/#59dc34f26f63 9 データ準備 (クリーニング) が大変、時間がかかる データ準備 (クリーニング) が最も楽しくない作業
  10. 10. Data Worksがその大変さを担当する 10 ETL Extract – Load - Transform Data Source Data Warehouse Data Works Max Computeデータインテグレーション (作業の60%)
  11. 11. Data Works: データ処理ツール 11
  12. 12. デモ: データインテグレーション • OSSにあるCSVデータを「Max Compute」へ同期 • ツールデモ • Data WorksのWizardモード • Data Worksスクリプト • コマンドライン Tunnel 12
  13. 13. データ処理モデル 13 SQL Map - Reduce Graph • アドホック集計 • 定期に長期間バッチ処理 • データウェアハウス分析 • ツールインテブレーショ ン (BI) • ソーシャル分析
  14. 14. データ処理モデル – SQLデモ 14
  15. 15. データ処理モデル – MapReduceデモ 15
  16. 16. 豊富なツールをサポート • MaxCompute Studio • Intellijiをもとに作られるプラグイン • スクリプト / Javaジョブ開発をサポート • ジョブ実行状況・ジョブスケジューリング • コマンドラインをサポート • Rodps • Rパッケージ • MaxCompute上にあるデータを分析可能 • PyOdps • Pythonパッケージ • Pandas インターフェース 16
  17. 17. MaxCompute Studio 17
  18. 18. Rodps 18 • Rの豊富な統計計算パッケージ を利用しながら、ODPSへデー タアクセスできる • MaxCompute上のデータに 対して学習済みのモデルを 適用できる • FDAモデル • Rpartによる木モデル 特徴
  19. 19. Pyodps 19 • Pandas データフレームインター フェース • SQLではなく、ドメイン固有言語 (Domain-Specific Language)に よってデータをクエリできる 特徴
  20. 20. 触ってみよう! • https://github.com/telescreen/alibaba-maxcompute 20
  21. 21. The End 21

×