Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Jubatus 1.0 の紹介

10.400 Aufrufe

Veröffentlicht am

Jubatusハッカソンで紹介したJubatus1.0の主要アップデートについて

Veröffentlicht in: Technologie
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Jubatus 1.0 の紹介

  1. 1. Jubatus 1.0 Yuhara Motoki Jubatusハッカソン with 読売新聞#2
  2. 2. (ユバタス)とは? 2 • 「分散したデータ」を • 「常に素早く」 • 「深く分析する」 ことを狙ったオンライン機械学習向け分散処理フレームワーク
  3. 3. Jubatusの歩み 3 version 新機能 説明 0.1 分類機能 与えられたデータをカテゴリに分類する機能を実装 0.2 推薦機能 与えられたデータと似ているデータを推薦する機能を実装 回帰分析機能 与えられたデータに対する出力の値を推定する機能を実装 統計機能 データの頻度、標準偏差、最大値、最小値などの統計情報を集計する機能を実装 0.3 グラフマイニング機能 与えられたグラフ構造から中心点や最短経路を抽出する機能を実装 0.4 異常検知機能 与えられたデータ集合のなかから外れ値(異常値)を検知 0.5 クラスタリング機能 与えられたデータ集合を教師データなしで指定された個数にグルーピング 近傍探索機能 登録されたデータ集合から、指定されたデータに類似したものを高速に取得する 0.7 Bandit機能 選択肢と結果を与える事で選択肢の探索と活用を並行して行い、効用を最大化する選 択肢を分析する 0.8 JubaQL機能 SQL-likeにJubatusを実行するためのDSL 0.9 Jubakit Jubatusを利用した機械学習実行のためのサポートツール 近傍探索機能の高速化 SIMDの活用などにより最大20倍の高速化を実現
  4. 4. Jubatus1.0のリリース内容 4 1. 機械学習アルゴリズムの拡充 1. 回帰分析機能 1. 分類機能でサポートしているアルゴリズムをサポート 2. クラスタリング機能 1. DBSCANアルゴリズムのサポート 2. Jubatus Coreのpythonバインディングを提供 3. 画像特徴量抽出プラグインの実装 4. 公式Dockerイメージの提供 5. 公式ドキュメント(HP)の拡充
  5. 5. 1. 機械学習アルゴリズムの拡充(1) 5 • 回帰分析機能(regression) • 分類器でサポートされているアルゴリズム全てを回帰分析機能でも利用でき るように アルゴリズム名 1.0.0以前 1.0.0 手法の種類 Perceptron × ○ 線形回帰 PA × ○ 線形回帰 PA1 ○ ○ 線形回帰 PA2 × ○ 線形回帰 CW × ○ 線形回帰 AROW × ○ 線形回帰 NHERD × ○ 線形回帰 NN × ○ k-近傍法(hash値による近似) cosine × ○ k-近傍法(厳密なcosine距離) euclidean × ○ k-近傍法(厳密なeuclid距離)
  6. 6. 1. 機械学習アルゴリズムの拡充(2) 6 • クラスタリング機能(clustering) • DBSCANの実装 • density-based clustering • クラスタ数の指定が不要 • min_core_point:クラスタを構成する最小データ数 • eps:同クラスタにまとめるデータ間の距離 eps min_core_point:3 K-means DBSCAN
  7. 7. 1. 機械学習アルゴリズムの拡充(2) 7 • Clustering APIの変更、追加 • データ追加時にIDを付与すように修正 • IDだけを返却する軽量なAPIを追加 新規追加
  8. 8. 2. Jubatus-coreのpythonライブラリ化 8 • Embedded Jubatus Python • Jubatus Core のアルゴリズムを直接 Python から呼び出せる • RPC クライアントと互換の API インタフェースを提供 • コードの修正不要で、段階的なサイジングが可能 Embedded Jubatus Python スタンドアロンモード 分散モード ネットワーク(RPC)や設定ファイルの ハンドリングなど面倒な作業が不要。 精度検証 (PoC) フェーズに最適 Jubatus サーバ (1台構成) として、 クライアントとサーバを分離 Jubatus を複数台で構成することにより さらにスループットが向上 本番運用開始 スケールアウト 現状ではmacではインストールできない
  9. 9. 3.画像特徴量抽出プラグインの実装 9 • OpenCVを利用して、画像から特徴量を抽出できるようになりました • 1.0.0で対応している特徴量抽出アルゴリズムは、RGBとORB ※利用にはopencv2.3以上が必要です 画像特徴量抽出 プラグイン 特徴ベクトル(RGBの例) x1y1-Red 115.0 x1y1-Green 110.0 x1y1-Blue 0.0 x1y2-Red 10.0 … … Jubaclassifier jubaclustering Jubarecommender …
  10. 10. 4.公式Dockerイメージの提供 10 • Dockerhub に Jubatus イメージを公開しました • docker pull jubatus/jubatus だけで Jubatus を利用できる環境が手に入 ります • 詳しくは Jubatus Blog を参照 (→ Jubatus Docker で検索) • http://blog.jubat.us/2016/02/running-jubatus-on-docker.html
  11. 11. Jubatus 公式HP が変わりました 11 ナビゲーションバーから 各コンテンツに アクセスしやすくなりました
  12. 12. バグfix 12 • 17件のバグを修正 • 主要なバグの内容 • Recommender エンジン • inverted_index / inverted_index_euclid 利用時に、稀に clear_row API で行削除がで きない問題を修正 • Graph エンジン • 起動直後の Jubatus サーバにモデルファイルを load すると、node / edge ID の重複が 発生してしまう問題を修正
  13. 13. おわりに 13 •Juabtus 1.0(10/31)での大きな機能追加・改善 を紹介 •これ以外にも細かなバグフィクスや機能改善も実施 •引き続き、みなさまからのコントリビュートお待ち してます

×