Start
Entdecken
Suche senden
Hochladen
Einloggen
Registrieren
Anzeige
Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
Melden
Yuya Unno
Folgen
-- um Preferred Networks
13. May 2013
•
0 gefällt mir
10 gefällt mir
×
Sei der Erste, dem dies gefällt
Mehr anzeigen
•
3,296 Aufrufe
Aufrufe
×
Aufrufe insgesamt
0
Auf Slideshare
0
Aus Einbettungen
0
Anzahl der Einbettungen
0
Check these out next
Jubatusが目指すインテリジェンス基盤
Shohei Hido
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks
深層学習による機械とのコミュニケーション
Yuya Unno
ディープラーニングで株価予測をやってみた
卓也 安東
Chainerのテスト環境とDockerでのCUDAの利用
Yuya Unno
jubatus pressrelease
JubatusOfficial
mlabforum2012_okanohara
Preferred Networks
aiconf2017okanohara
Preferred Networks
1
von
45
Top clipped slide
Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
13. May 2013
•
0 gefällt mir
10 gefällt mir
×
Sei der Erste, dem dies gefällt
Mehr anzeigen
•
3,296 Aufrufe
Aufrufe
×
Aufrufe insgesamt
0
Auf Slideshare
0
Aus Einbettungen
0
Anzahl der Einbettungen
0
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Melden
Yuya Unno
Folgen
-- um Preferred Networks
Anzeige
Anzeige
Anzeige
Recomendados
大規模データ時代に求められる自然言語処理
Preferred Networks
27.1K Aufrufe
•
33 Folien
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
Yuya Unno
18.6K Aufrufe
•
79 Folien
rcast_20140411
Preferred Networks
20.1K Aufrufe
•
48 Folien
自然言語処理紹介(就職編)
長岡技術科学大学 自然言語処理研究室
7.1K Aufrufe
•
22 Folien
深層学習フレームワークChainerの特徴
Yuya Unno
59.4K Aufrufe
•
46 Folien
Jubatusの紹介@第6回さくさくテキストマイニング
Yuya Unno
4.7K Aufrufe
•
27 Folien
Más contenido relacionado
Presentaciones para ti
(20)
Jubatusが目指すインテリジェンス基盤
Shohei Hido
•
5.9K Aufrufe
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks
•
9.7K Aufrufe
深層学習による機械とのコミュニケーション
Yuya Unno
•
12.6K Aufrufe
ディープラーニングで株価予測をやってみた
卓也 安東
•
35.1K Aufrufe
Chainerのテスト環境とDockerでのCUDAの利用
Yuya Unno
•
16.5K Aufrufe
jubatus pressrelease
JubatusOfficial
•
8.8K Aufrufe
mlabforum2012_okanohara
Preferred Networks
•
2.7K Aufrufe
aiconf2017okanohara
Preferred Networks
•
18K Aufrufe
言語と知識の深層学習@認知科学会サマースクール
Yuya Unno
•
26.8K Aufrufe
bigdata2012nlp okanohara
Preferred Networks
•
23.5K Aufrufe
ピーFIの研究開発現場
Yuya Unno
•
8K Aufrufe
言語資源と付き合う
Yuya Unno
•
10.4K Aufrufe
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
Yuya Unno
•
9.5K Aufrufe
IPAB2017 深層学習を使った新薬の探索から創造へ
Preferred Networks
•
29K Aufrufe
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
株式会社メタップス
•
15.3K Aufrufe
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
株式会社メタップス
•
37.7K Aufrufe
子供の言語獲得と機械の言語獲得
Yuya Unno
•
35.4K Aufrufe
情報抽出入門 〜非構造化データを構造化させる技術〜
Yuya Unno
•
37.7K Aufrufe
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
Preferred Networks
•
15.7K Aufrufe
予測型戦略を知るための機械学習チュートリアル
Yuya Unno
•
23.7K Aufrufe
Destacado
(18)
Jubatus分類器の活用テクニック
JubatusOfficial
•
11.9K Aufrufe
Orchestrate DBaaS入門
Tsukasa Kawagishi
•
884 Aufrufe
第1回 Jubatusハンズオン
Yuya Unno
•
7.9K Aufrufe
Twitterのリアルタイム分散処理システム「Storm」入門 demo
AdvancedTechNight
•
4.2K Aufrufe
機械学習とJubatus
Junya Yamaguchi
•
3.2K Aufrufe
Jubatus Casual Talks #2: 大量映像・画像のための異常値検知とクラス分類
Hirotaka Ogawa
•
13K Aufrufe
Jubatus casulatalks2
Daichi Morifuji
•
9.6K Aufrufe
デブサミ2014-Stormで実現するビッグデータのリアルタイム処理プラットフォーム ~ストリームデータ処理から機械学習まで~
Takanori Suzuki
•
21.2K Aufrufe
ディープラーニング徹底活用 -画像認識編-
Hideki
•
21.1K Aufrufe
ストリームデータ分散処理基盤Storm
NTT DATA OSS Professional Services
•
34.1K Aufrufe
Tech-Circle Pepperで機械学習体験ハンズオン勉強会inアトリエ秋葉原
Koji Shiraishi
•
8K Aufrufe
HR Tech x 機械学習 導入事例紹介
dcubeio
•
9.1K Aufrufe
論文紹介 Semi-supervised Learning with Deep Generative Models
Seiya Tokui
•
150.5K Aufrufe
Chainer v2 alpha
Seiya Tokui
•
13.1K Aufrufe
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
徹 上野山
•
319.3K Aufrufe
TensorFlowで会話AIを作ってみた。
tak9029
•
178.5K Aufrufe
深層学習時代の自然言語処理
Yuya Unno
•
149.3K Aufrufe
Chainerの使い方と自然言語処理への応用
Seiya Tokui
•
53.2K Aufrufe
Anzeige
Similar a Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
(20)
Aws summit tokyo 2016
Shotaro Motomura
•
9.8K Aufrufe
16.02.08_Hadoop Conferece Japan 2016_データサイエンスにおける一次可視化からのSpark on Elasticsear...
LINE Corp.
•
1.2K Aufrufe
モデルベース協調フィルタリングにおける推薦の透明性に関する検討
Okamoto Laboratory, The University of Electro-Communications
•
394 Aufrufe
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
Insight Technology, Inc.
•
1.4K Aufrufe
Elastic Cloudを利用したセキュリティ監視の事例
Elasticsearch
•
902 Aufrufe
センサーネットワークコンソーシアム(山口さん作成)
CRI Japan, Inc.
•
2K Aufrufe
20180119_5_IoT Update_20180119
IoTビジネス共創ラボ
•
1.5K Aufrufe
要求開発を補完する現状分析
Atsushi Takayasu
•
1.9K Aufrufe
20190915 hayashi nw_jaws
Hayashi Masayuki
•
710 Aufrufe
データ活用に関するさくらインターネットの取組事例
Shunsuke Kikuchi
•
11.5K Aufrufe
tut_pfi_2012
Preferred Networks
•
3.7K Aufrufe
NTT Communications' Initiatives to Utilize Infrastructure Data
DataWorks Summit
•
2.2K Aufrufe
sakura.io introduction 20171215
さくらインターネット株式会社
•
749 Aufrufe
Sangyo2009 05
Akao Koichi
•
484 Aufrufe
SmartNewsを支えるデータパイプラインとその運用
SmartNews, Inc.
•
3.6K Aufrufe
ベンダーロックインフリーのビジネスクラウドの世界
ミランティスジャパン株式会社
•
745 Aufrufe
20141006 JPNAPユーザ会 計測プローブを用いた国内インターネットの構造分析
Satoshi KAMEI
•
5.5K Aufrufe
2 i4
Takafumi Nakanishi
•
844 Aufrufe
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
NTT DATA Technology & Innovation
•
1.2K Aufrufe
if-up 2017 | A1:IoT通信の選択肢とLoRaWANに見るデバイス開発のポイント
SORACOM,INC
•
8.8K Aufrufe
Más de Yuya Unno
(20)
深層学習で切り拓くパーソナルロボットの未来
Yuya Unno
•
6K Aufrufe
深層学習時代の自然言語処理ビジネス
Yuya Unno
•
19.4K Aufrufe
ベンチャー企業で言葉を扱うロボットの研究開発をする
Yuya Unno
•
7.3K Aufrufe
PFNにおけるセミナー活動
Yuya Unno
•
4.8K Aufrufe
深層学習フレームワークChainerとその進化
Yuya Unno
•
3.9K Aufrufe
進化するChainer
Yuya Unno
•
6.7K Aufrufe
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
Yuya Unno
•
5.5K Aufrufe
Chainer, Cupy入門
Yuya Unno
•
68K Aufrufe
NIP2015読み会「End-To-End Memory Networks」
Yuya Unno
•
11.4K Aufrufe
Chainer入門と最近の機能
Yuya Unno
•
109.9K Aufrufe
Chainerの使い方と自然言語処理への応用
Yuya Unno
•
30.4K Aufrufe
GPU上でのNLP向け深層学習の実装について
Yuya Unno
•
31K Aufrufe
企業における自然言語処理技術利用の最先端
Yuya Unno
•
15.9K Aufrufe
「知識」のDeep Learning
Yuya Unno
•
24.5K Aufrufe
自然言語処理@春の情報処理祭
Yuya Unno
•
8.4K Aufrufe
大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-
Yuya Unno
•
8.1K Aufrufe
EMNLP2014読み会 "Efficient Non-parametric Estimation of Multiple Embeddings per ...
Yuya Unno
•
11.2K Aufrufe
表現学習時代の生成語彙論ことはじめ
Yuya Unno
•
9K Aufrufe
形態素列パターンマッチャーMIURAをつくりました @DSIRNLP#6
Yuya Unno
•
5.5K Aufrufe
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
Yuya Unno
•
9.5K Aufrufe
Anzeige
Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
Jubatusにおける ⼤大規模分散オンライン機械学習 海野 裕也 (株) Preferred Infrastructure 研究開発部⾨門 <unno@preferred.jp> 2012/6/1先端⾦金金融テクノロジー研究会
株式会社 Preferred Infrastructure l 略略称 PFI l 設⽴立立
2006年年3⽉月 l 代表者 ⻄西川 徹 l 社員数 26名(2012/4現在) l 所在地 〒113-‐‑‒0033 東京都⽂文京区本郷2-‐‑‒40-‐‑‒1 l URL http://preferred.jp/ l 事業概要 検索索/推薦(レコメンデーション)分野での製品開発 販売、サービス提供および技術提供 ⼤大規模分散コンピューティング分野での技術提供 2 会社概要
ミッション:最先端の技術を最短路路で実⽤用化 テクノロジーとサービス・プロダクトとの間のギャップを埋め テクノロジーが持つポテンシャルを最⼤大限に引き出すこと 研究ベースの技術が想定しているものと実世界には⼤大きな壁が存在する l アカデミックの第⼀一線で研究しているリサーチャーと、アカデミックな研究を理理解し、 実装・実⽤用化できるエンジニアを集合させる l 世の中に必要とされている技術の中でも、特に難しい課題を選び抜き、それに対する 解を提供していくこと 3 Basic
Technologies Academic Researches Products Services
実績 製品導⼊入/技術提供 l メディア業界 Ø ⽇日経BP 全社横断検索索 Ø 朝⽇日新聞社 公式ニュースサイトasahi.com Ø
株式会社インプレスビジネスメディア Ø ⽇日本放送協会 NHKニュース Ø 株式会社電通 ザッピングエンジン「XAPPY」 l EC/Webサービス業界 Ø 株式会社イプロス 製造技術データベースサイト Ø 国⽴立立情報学研究所 図書情報サービスWebcat Plus Ø 株式会社エフルート モバイル検索索サービス Ø 株式会社はてな ソーシャルブックマークサービス 4
アジェンダ l ビッグデータ分析の現状 l 機械学習の基礎 l
特徴抽出と特徴分析 l 利利⽤用事例例 l Jubatus l オンライン分散解析基盤 l まとめ 5
ビッグデータ分析の現状 6
Big Data ! l
巨⼤大なデータがあらゆる分野で⽣生まれ続けている l データが⼤大きいことも重要だが、増加し続けていることが重要 l データ量量の変化に対応できるスケーラブルなシステムが求められる l データの種類・⽣生成される場所は多様化 l 定形データのみならず、⾮非定形データも増加 7 テキスト ⾏行行動履履歴 画像 ⾳音声 映像 信号 ⾦金金融 ゲノム ⼈人 PC モバイル センサー ⾞車車 ⼯工場 EC 病院 ⽣生成される場所 データの種類
ビッグデータ解析の現状 l ウェブから他の産業領領域へ l ウェブ領領域では成功事例例多数(Google,
Amazon, Facebook) l ウェブ以外の分野でのビッグデータ活⽤用の可能性は未知数 l ⾦金金融・保険・医療療・⼩小売・運輸・製造・インフラ l 新しい技術・戦略略・ビジネス構築が必要になっていく l 分析は量量のみならず多様化・質・速さへ l データの種類や性質は様々であり分野の専⾨門的知識識も必要 l 単なる集計のみならず予測・発⾒見見・分類など深い分析が必要 l いくつかの分析ではリアルタイム処理理が鍵となる →即時処理理、即時対応 情報の在庫を作らない 8
データ活⽤用の3STEP STEP 1. ⼤大量量のデータを捨てずに蓄積できるようになってきた STEP
2. データを分析することで、現状の把握、理理解ができる STEP 3. 状況を理理解し、現状の改善、予測ができる l 世の中は、Step1 から Step2 を踏み出した段階 9 9 蓄積 理理解 予測 より深い解析へ 本の購買履履歴を 全て記録できる ようになった! この本が実際に 売れているのは 意外にも30代の 男性達だ! この⼈人は30代 男性なので、こ の本を買うので はないか?
ビッグデータ解析の現状と今後の課題 l ⼤大規模データを扱えるインフラ l 強⼒力力な分析ツール l
データ分析のための継続的なノウハウの蓄積 l データ分析を⾏行行える⼈人材育成 l データ分析結果を産業を超えて共有できる仕組み作り l 適切切なデータを取得できるようにする⼯工夫 l 取っていたデータの分析ではなく、 分析するためにデータを狙って取得する試みが必要 10
機械学習の基礎
機械学習とは? l データから有⽤用な規則、ルール、知識識、判断基準を抽出 l データがあるところならば、どこでも使える l
様々な分野の問題に利利⽤用可能 12 レコメンデー ションクラス タリング 分類、識識別 市場予測 評判分析 情報抽出 ⽂文字認識識 ロボット 画像解析 遺伝⼦子分析 検索索ランキン グ ⾦金金融 医療療診断 適用分野
タスク固有の問題と⼿手法の分離離 13 ⽂文書 (0,
1, 0, 2.5, -‐‑‒1, …) (1, 0.5, 0.1, -‐‑‒2, 3, …) (0, 1, 0, 1.5, 2, …) 特徴ベクトル グラフィカルモデル 分類/回帰:SVM, LogReg, PA, CW, ALOW, Naïve Bayes CNB, DT, RF, ANN, … クラスタリング:K-‐‑‒means, Spectral Clustering, MMC, LSI, LDA, GM, … 構造分析:HMM, MRF, CRF, … 画像 センサ情報 ⾏行行動履履歴 分野に依存しない 特徴を捉えた抽象化されたデータ 様々な⼿手法・理理論論を 適⽤用可能 特徴抽出 特徴分析
タスク固有の問題と⼿手法の分離離(続) l 特徴抽出と特徴分析を分離離することが重要 l データの種類、ドメイン、利利⽤用⽬目的に依存せず、様々な分析を利利 ⽤用可能なしくみを作ることができる l
利利点 l システム開発・専⾨門家教育のコストを⼤大きく下げることができる l 特徴抽出では各問題ドメインに専念念 l 特徴分析では各分析⼿手法に専念念 14
特徴抽出 l ⼊入⼒力力された⽣生データの特徴をキーとバリューで表す l 変換の⽅方法はデータの種類によって様々 15 周囲が黄色
1 中心が茶 1 花びらの割合 0.7 ⾼高さ 150 世の中ではビッグデー タというキーワードが 注⽬目されていますが, ⼀一⼝口にビッグデータと いっても⽴立立場や観点に よって定義は様々です. 他の要素は0とする ビッグデータ 2 世の中 1 キーワード 1 定義 1 IT関連 ひまわり 特徴ベクトル 分析結果
特徴分析 l 予測 l ⼊入⼒力力xから出⼒力力yを推定(分類:yがカテゴリ値
回帰:yが連続値) l 近傍探索索 l 似たデータはこれまで無かったか,それらはどういうデータか l 統計分析 l 平均・最⼤大/最⼩小・エントロピー・モーメント・相関 l 外れ値、コンセプトドリフト分析 l これまでのデータ傾向から外れた値はあるか、傾向は変わってるか l クラスタリング l 似たデータ同⼠士を纏め上げ、グループ化する l 原因分析 l 複数の特徴の中で最も現象を説明し得る原因は何か? 16
特徴分析(続) l 1つの分析⼿手法だけで⽬目標を達成することは少なく、複数の分析 を組合せることが重要となる l 次にいくつか具体的な利利⽤用シーン毎に分析パターンを紹介する 17
例例:ソーシャルデータからの証券市場予測 l twitterデータ全体での感情分析結果の起伏と、ダウ平均株価の起 伏に強い相関が⾒見見つかった 18 Johan Bollen
and Huina Mao, Twitter Mood as a Stock Market Predictor, in Computer, vol. 44, no. 10, 2011.
例例1:ECサイトの分析 19 l ユーザー分析 l 属性予測 l
性別、年年齢、家族構成、地域、嗜好、過去の⾏行行動 l ⾏行行動予測 l 商品を購⼊入するか、良良い評判を作るか、継続的に会社と関わるか l ユーザーへの推薦 l ユーザーの近傍探索索を⾏行行い、似たユーザーを調べどのような商品 を購⼊入するかどうかを調べ、推薦する l ユーザーへのサポート l 外れ値、コンセプトドリフトを調べ、何か問題が起きているか、 ⾏行行動パターンが変わってきているのかを分析する
例例2:ネットワーク管理理 l 電⼒力力消費量量の予測 l パケットデータなどと、実際の測定値の関係を分析し、パケッ トデータのみから電⼒力力消費量量を予測できるようにする l
ネットワーク保守・セキュリティ l 通信パターン、パケットなどから外れ値検出を⾏行行い、障害検知や 攻撃検知を⾏行行う l サーバー構成・ネットワーク構成の最適化 l 利利⽤用⽅方法が似ているサーバー・サービスをクラスタリングによっ てまとめ上げ、それらが近くなるように配置する l 原因分析 l 何か障害が発⽣生した時に、その原因が何かを膨⼤大な候補の中から いくつかに絞り込む 20
例例3:⼩小売情報分析 l 発注数の最適化 l 過去の売上数、店舗、気象、地域、ニュース、ユーザーからの反 響など様々な情報を元に最適な発注数を予測、リスク分析も⾏行行う l
⽋欠品、代替え分析 l ⽋欠品情報はデータで表されない隠れた情報.これまでの売上デー タの傾向や似た商品での代替えが起きているかで分析を⾏行行う l この実現のため商品間の類似度度を測ったり、売上の相関を調べる l ユーザーのモデル化 l クラスタリング、分類などを利利⽤用し、ユーザーに対し、いくつか タグ付けを⾏行行いユーザー全容を把握できるようにする l 店舗のモデル化 l 複数の店舗情報を分析し、店舗毎の強い点、弱い点などを分析 21
例例4:ソーシャルモニタリング l SNSなどのデータを分析し、企業、商品、⼈人、イベントなどにつ いての⾔言及を分析し、マーケティング・製品開発などに活かす l 特徴抽出では、⾔言語処理理技術が重要となってくる l
評判分析 l ⾔言及対象に対し、肯定/否定/中⽴立立 l 客観的、主観的な記述の抽出 l 評判情報の要約 l ⾔言及対象の分析、真偽判定、評判属性毎に要約(価格、機能など) l 共参照解析なども重要に l 影響度度分析 l 発⾔言毎の影響度度分析、グラフ構造の中⼼心性分析も重要に 22
Jubatus 23
Jubatus登場の背景 l 既存システムは次の3つの⽬目標を同時に達成することが困難 l 1)リアルタイム性の確保 l
2)データを⽔水平分散処理理 l 3)深い分析 l 分散並列列処理理 (MapReduce/Hadoopなど) l スケールアウト構成による性能向上、耐障害性 l 基本的にバッチ処理理、解析結果はすぐ返ってこない l 計算モデルの⾃自由度度が⾼高い分オーバーヘッドも⼤大きい l オンライン / ストリーム処理理 (CEPなど) l 到着したデータをその場で処理理して解析し、結果を出⼒力力する l 多くは単純な処理理しか⾏行行えない 24
Jubatus 25 リアルタイム ストリーム 分散並列列
深い解析 l NTT SIC*とPreferred Infrastructureによる共同開発 l 2011年年10⽉月よりOSSで公開 http://jubat.us/ * NTT SIC: NTT研究所 サイバーコミュニケーション研究所 ソフトウェアイノベーションセンタ
特徴1: リアルタイム /
ストリーム処理理 l 解析結果は、データ投⼊入後すぐ返って来る l 分類などの学習/分析も⼀一瞬で処理理 l twitterの内容を分析して分類するのは6000QPS l 分類、統計分析、回帰、近傍探索索など様々な処理理をリアルタイム 、ストリームで処理理 l データを貯めることなく、その場で処 l 従来バッチで処理理していた様々な解析をリアルタイム・ストリー ムで同様の精度度処理理できるよう、新しく解析⼿手法を開発 26
特徴2: 分散並列列処理理 l スケールアウト:ノードを追加することで、性能向上ができる l
処理理量量に応じてシステムの⼤大きさを柔軟に変更更可能 l ⼩小さいデータから⼤大きなデータの処理理まで同じシステムで処理理 l 耐故障性も確保 l 各ノードが完全に独⽴立立な処理理なら簡単だが、それぞれが情報を蓄 積し、それらを共有して処理理するのは⼤大変 ⇒ モデルの緩やかな共有で解決(後述) 27
特徴3:深い解析 l 単純な集計、統計処理理だけではなく、分類・近傍探索索など様々な 機械学習⼿手法をサポート l ユーザーはデータを投⼊入すればこれらの分析処理理を実現できる l
⾮非定形データを扱えるように、データからの特徴抽出もサポート l 多くの機械学習ライブラリはここがサポートされていない l 特徴抽出はプラグイン化され、今後サポート対象のデータ種類、 分野を増やしていく 28
Jubatusが実現するオンライン分析 l (従来)バッチ分析 l データを全体を⾒見見てから分析を⾏行行う l
結果が返るまで遅くデータを貯めないといけない (情報の在庫が発⽣生) l オンライン分析 l 1つずつデータを⾒見見てモデルを即時更更新、分析に反映 l データ全体を⾒見見て分析した場合と同じような結果が得 られるような理理論論的な保証 29 分析モデル 分析モデル
オンライン分析の特徴 l オンライン分析は解析速度度が速い l レイテンシが⼩小さく、スループットも⼤大きい l
データを貯める必要が無い l Jubatusは最新のオンライン分析⼿手法を実装 l 分類の例例 l Perceptron (1958) l Passive Aggressive (PA) (2003) l Confidence Weighted Learning (CW) (2008) l AROW (2009) l Normal HERD (NHERD) (2010) 30 近年年急激に性能 が向上
オンライン分析を分散化させるのは⾃自明ではない l オンライン分析は頻繁な更更新を必要とする l 単純な分散では頻繁な同期処理理が必要になってしま い、性能の劣劣化が避けられない 31 バッチ分析のイメージ
オンライン分析のイメージ 更更新量量計算 モデル更更新 時間 更更新量量計算 モデル更更新 更更新量量計算 モデル更更新 更更新量量計算 モデル更更新 更更新量量計算 モデル更更新 更更新量量計算 モデル更更新 ここが重いの で⾃自明に並列列 化しやすい
緩やかなモデル情報の共有 l Jubatusは各サーバーのモデル情報を「緩やか」に共有する l データ⾃自体は共有せず、モデルのみ共有する l
既存システムと違う割り切切り l 全サーバー間で同時刻に同じモデルが存在することは保証しない l サーバー毎に解析が(実⽤用上問題が無い程度度に)異異なることを許容 l 時間が経つにつれ、モデル間の情報は共有されていく 32 異異なるサーバー間で 解析結果は似ている が共有されない お互いのモデル情 報をmixして共有
Jubatusにおける分散機械学習のイメージ l みんな個別に分析モデルを更更新 l たまに分析モデルを交換 l
モデルはデータより遙かに⼩小さく効率率率良良く交換できる 33 分析器 分析モデルの 差分のみを交換
分析ロジックの抽象化 l Jubatusでは分析ロジックを3種類の処理理に分解 l 分析ロジック開発者はどう分散させるか、データを共有す るか、耐障害性を保証するかを考える必要ががない l
c.f. MapReduceではロジックをMapとReduceの⼆二つに分解 l UPDATE l データを受け取ってモデルを更更新する l ANALYZE l データを受け取って解析結果を返す l MIX(システムが勝⼿手に呼び出す) l 内部モデルを混ぜ合わせる 34
3つの操作:UPDATE l 分析モデル情報を更更新する l クライアントが結果を待つ必要は特にない 35 分析器
3つの操作:ANALYZE l 分析結果を返すが内部状態を変更更しない l クライアントが結果を受け取る 36 分析器
3つの操作:MIX l 分析器同⼠士が内部モデルの情報を混ぜ合わせる l 混ぜる⽅方法は分析⼿手法によって異異なる l
システムが適当なタイミングで呼び出す 37 分析器
3つの処理理の例例:統計処理理の場合 l 平均値を計算する⽅方法を考えてみる l 内部状態は今までの合計(sum)とデータの個数(count) l
UPDATE l sum += x l count += 1 l ANALYZE l return (sum / count) l MIX l sum = sum1 + sum2 l count = count1 + count2 38
「緩いモデル共有」の特徴 l 分散オンライン機械学習と相性が良良い l 独⽴立立に処理理するのでスループットが⾼高い l
もともと100%の精度度達成が難しいのを逆⼿手に取り、 サーバー間で結果が異異なることを許容する l 任意の並⾏行行計算を実現できるわけではない l 逐次処理理した結果と厳密に⼀一致しない l MIXするまで他のノード計算結果は反映されない 39
Jubatusの分析 l 現在, 以下の分析をサポート l
分類 l 教師有多クラス分類:Perceptron, PA, CW, AROW l 回帰 l 教師有回帰分析:PA l 近傍探索索 l Inverted File Index, LSH l 統計 l 平均、分散、エントロピー、モーメント l また、グラフデータを対象にした分析もサポート予定 l ソーシャルデータやネットワーク分析なども可能となる 40
Jubatusクライアント l Jubatusの機能を利利⽤用するための各種⾔言語⽤用のクライアントを⽤用意 l C++ l
Python l Ruby l Java l Haskel l この他の⾔言語も現在サポート準備中 l これらのクライアントは、サーバーIDLから⾃自動⽣生成されている 41
42
まとめ 43
Jubatusの今後 l これまでは、実現可能性を確かめることに重点をおいていた l 適⽤用範囲の拡⼤大 l
様々なドメインのタスクに取り組み、それを開発にフィードバック l 使いやすくする l 安定性を⾼高める l 実際の利利⽤用例例にそくしたアプリケーションの開発 l クライアント、ツールの充実、ドキュメント整備 l 新機能開発 l 特に外れ値検出、コンセプトドリフト l グラフ解析 l ⼀一緒にJubatusの可能性を検証できるパートナーを探しています! 44
Copyright © 2006-2012 Preferred
Infrastructure All Right Reserved.
Anzeige