8. 1. Understanding Parallelization of Machine Learning Algorithms in Apache Spark
2. Horovod: Uber’s Open Source Distributed Deep Learning Framework for
TensorFlow
3. Project Hydrogen: Unifying State-of-the-art AI and Big Data in Apache Spark
4. The Future of AI and Security
5. Infrastructure for the Complete ML Lifecycle
6. TuneIn: How to Get Your Hadoop/Spark Jobs Tuned While You’re Sleeping
7. Extending Spark SQL API with Easier to Use Array Types Operations
8. Continuous Processing in Structured Streaming
9. A Deep Dive into Stateful Stream Processing in Structured Streaming
10. Flare and TensorFlare: Native Compilation for Spark and TensorFlow Pipelines
11. Model Parallelism in Spark ML Cross-Validation
12. Deploying and Monitoring Heterogeneous Machine Learning Applications with
Clipper
Spark+AI Summitから
9. Understanding Parallelization of Machine Learning
Algorithms in Apache Spark(1/2)
https://databricks.com/session/bay-area-apache-spark-meetup
23. • そこでMLFlow
– ML PlatformをOSSにしたやつ
– プロセスを支援する力の向き
のニュアンスはJenkinsっぽい
• 「一人からでも使えてエンタープ
ライズのユースケースにも適合さ
せられる」のがいいところ
– これもJenkinsっぽさ
• Tracking/Project/Modelの3つの
コンポーネントで構成されている
Infrastructure for the Complete ML Lifecycle(4/5)
24. • Tracking
– どのソースがどういうパラメーターで結果を
だしたのか記録できる
– Plotの画像とかModelとかも残せる
• Project
– 実行環境を抽象化してくれる(ローカルでも
クラウドでも動かせるようになる設定ファイ
ルコンパイラ的なもの)ので、追試が簡単に
なる
– “mlflow run gitのURL”で実行することができ
る
– 実装とチューニングの役割を分離できるとい
う効果もありそうだが、実用的か?
• Model
– いろんなフォーマットにモデルを出力できる
DockerとかSpark(Batch/Streaming)とか
– 配信環境へのモデルファイルのデプロイを支
援してくれるもの(モデルに対するAPIをそろ
えてくれる)
Infrastructure for the Complete ML Lifecycle(5/5)
25. TuneIn: How to Get Your Hadoop/Spark Jobs Tuned
While You’re Sleeping(1/2)
https://databricks.com/session/tunein-how-to-get-your-hadoop-spark-jobs-tuned-while-you-are-sleeping
26. • Dr.Elephant上に自動チューニングの機能をつくった
– https://github.com/linkedin/dr-elephant/wiki/Auto-Tuning
– https://github.com/linkedin/dr-elephant/pull/338/
• これまでのDr.Elephantだとアドバイスをみてどうするか考えないとい
けないので、
– パフォーマンスチューニングできる/やってくれる高機能な人間が
いないとどうしようもない
– 動かしたジョブのデータをつかって主にメモリ周りのチューニング
をして20%くらいリソース使用量(メモリ)をさげれている
• 自動チューニングのアルゴリズムはPSO
– Particle Swarm Optimizationをつかっている
– 試行回数を増やせる問題設定ではないのでそこそこ安定するし収束
も早いのが採用理由
TuneIn: How to Get Your Hadoop/Spark Jobs Tuned
While You’re Sleeping(2/2)
27. Extending Spark SQL API with Easier to Use Array Types
Operations(1/2)
https://databricks.com/session/extending-spark-sql-api-with-easier-to-use-array-types-operations
28. • ArrayをあつかうUDFをたくさん作っ
たという話、SPARK-23736 など
(2.4.xで入るとのこと)
• データレイクはいってきてしまうJSON
の入れ子が複雑だとステージが爆発し
て死ぬのを防ぎたいというモチベー
ション
• MDS( https://github.com/yahoojap
an/multiple-dimension-spread )は読
まない方法を考えてるのに対して、読
んだ後の効率化を考えてるので相互補
完的でもなさそう
• 日本人コミッタ
(ueshin/kiszk/maropu)がレビュー
したようでありがとうって言われてた
Extending Spark SQL API with Easier to Use Array Types
Operations(2/2)
29. Continuous Processing in Structured Streaming(1/3)
https://databricks.com/session/continuous-processing-in-structured-streaming
31. • Microbatch
– DStreamの設計
– 小さいバッチでまとめて処理
– Event Time vs Arrival Time
の差が大きくなることがある
• Continuous
– Structured Streamingの設計
– 逐次で処理
– CheckpointingはChandy-
Lamport
Continuous Processing in Structured Streaming(3/3)
32. A Deep Dive into Stateful Stream Processing in
Structured Streaming
https://databricks.com/session/a-deep-dive-into-stateful-stream-processing-in-structured-streaming
34. Flare and TensorFlare: Native Compilation for Spark and
TensorFlow Pipelines(1/2)
https://databricks.com/session/flare-and-tensorflare-native-compilation-for-spark-and-tensorflow-pipelines
42. 1. SIGMOD/PODSと併催ワークショップで出席したもの
2. How Persistent Memory Changes the Server Environment
3. Kubernetes and the New Cloud
4. P-Store: An Elastic Database System with Predictive
Provisioning
5. TcpRT: Instrument and Diagnostic Analysis System for
Service Quality of Cloud Databases at Massive Scale in
Real-time
6. Query-based Workload Forecasting for Self-Driving
Database Management Systems
7. そのほか興味深かったトピック
SIGMOD/PODSから
43. HILDA
(併催ワークショップ)
DaMoN
(併催ワークショップ)
SIGMOD/PODS
• Workshop on Human-In-the-Loop Data
Analytics
• http://hilda.io/2018/
• Data Management on New Hardware
• https://sites.google.com/view/damon20
18
• is a leading international forum for database
researchers, practitioners, developers, and users to
explore cutting-edge ideas and results, and to
exchange techniques, tools, and experiences.
SIGMOD/PODSと併催ワークショップで出席したもの
DEEM
(併催ワークショップ)
• Data Management for End-to-End ML
• http://deem-workshop.org
44. How Persistent Memory Changes the Server
Environment(1/5)
https://drive.google.com/file/d/1A-E23uJK_tP-jcnS1iJ-1BojzuF9VQGs/view
45. How Persistent Memory Changes the Server
Environment(2/5)
• NAND SSDで4KB/readに
90microsecくらいかかる
• Driverとかの問題でもない、ハー
ドウェアのメディアとしての性質
• Optaneは4KB/readで
15microsecくらい、DIMMなら数
mirocosecとか
• なので、だいたい間くらいのレイ
テンシで電源切ってもデータが消
えない性質が手に入る
46. How Persistent Memory Changes the Server
Environment(3/5)
• 起動後にDRAMにコピーしなくて
もいい
• DMA/RDMAをやったときに即時
に永続化できる
• “Warm Cache”になるのでロード
しなくてもよい
• DBの再起動が 2100s->17.5s で
できるくらいのインパクト
50. TcpRT: Instrument and Diagnostic Analysis System for Service
Quality of Cloud Databases at Massive Scale in Real-time
https://dl.acm.org/citation.cfm?id=3190659
51. 概要
感想
• Alibaba CloudのデータベースサービスでDBの障害を検
出するシステムを作った話
• 外れ値の扱いがロバストになるので障害の検知にCauchy
Distributionをつかっている
• コーシー分布とかはナイーブにつかってもシステム分析だと
役に立ちそうで、データ集めるのがつらかったとかエンジニ
アリングの話も多分にありこの辺の領域では参考になりそう
• 余談ですがRDBMS関連のサービスはアリババクラウドだと
"RDS"とゆってるらしい…
TcpRT: Instrument and Diagnostic Analysis System for Service
Quality of Cloud Databases at Massive Scale in Real-time
54. HILDA
(併催ワークショップ)
DaMoN
(併催ワークショップ)
SIGMOD/PODS
1. Evaluating Visual Data Analysis Systems: A Discussion Report
2. Interactive Visual Analytics for Simpson’s Paradox Detection
3. Active Heterogeneous Hardware and its Impact on System Design
4. Make the Most out of Your SIMD Investments: Counter Control Flow Divergence
in Compiled Query Pipelines
5. (Keynote) How Can Reasoners Simplify Database Querying (And Why Haven't
They Done It Yet)?
6. (Keynote) Machine Learning for Data Management: Problems and Solutions
7. (Keynote) Query Processing and Optimization in Modern Database Systems
8. (Award) The Hive and PIG database System
9. (Award) Serializable Isolation for Snapshot Databases
10. Computation Reuse in Analytics Job Service at Microsoft
11. RUSHMON: Real-time Isolation Anomalies Monitoring
12. Query Processing and Optimizationin Modern Database Systems
13. Bias in OLAP Queries: Detection, Explanation, and Removal
14. (Tutorial) Algorithmic Aspects of Parallel Query Processing
そのほか興味深かったトピック
DEEM
(併催ワークショップ)
15. Data Science ≠ Machine Learning: Some Thoughts on the Role of Data
Management in the new AI-Tsunami
16. Accelerating Human-in-the-loop Machine Learning: Challenges and
Opportunities