Suche senden
Hochladen
20130605-JSAI2013
•
2 gefällt mir
•
1,063 views
H
Hiroshi Kajino
Folgen
Oral presentation at JSAI 2013
Weniger lesen
Mehr lesen
Melden
Teilen
Melden
Teilen
1 von 23
Empfohlen
20130304-DEIM2013
20130304-DEIM2013
Hiroshi Kajino
プライバシ保護クラウドソーシング
プライバシ保護クラウドソーシング
Hiroshi Kajino
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
Daiyu Hatakeyama
(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方
Shohei Hido
Understanding Blackbox Predictions via Influence Functions
Understanding Blackbox Predictions via Influence Functions
harmonylab
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
harmonylab
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
harmonylab
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
harmonylab
Empfohlen
20130304-DEIM2013
20130304-DEIM2013
Hiroshi Kajino
プライバシ保護クラウドソーシング
プライバシ保護クラウドソーシング
Hiroshi Kajino
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
Daiyu Hatakeyama
(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方
Shohei Hido
Understanding Blackbox Predictions via Influence Functions
Understanding Blackbox Predictions via Influence Functions
harmonylab
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
harmonylab
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
harmonylab
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
harmonylab
参加型センシングの多次元データに対するプライバシー保護データマイニング
参加型センシングの多次元データに対するプライバシー保護データマイニング
Shunsuke Aoki
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learning
harmonylab
Xgboost for share
Xgboost for share
Shota Yasui
データアカデミー・エッセンス(東京)2
データアカデミー・エッセンス(東京)2
Hiroyuki Ichikawa
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
圭輔 大曽根
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
Takashi J OZAKI
論文紹介:Adversarially Learned One-Class Classifier for Novelty Detection
論文紹介:Adversarially Learned One-Class Classifier for Novelty Detection
Kazuki Adachi
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Preferred Networks
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
Yuya Unno
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
Shohei Hido
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose
cvpaper. challenge
1.pdf
1.pdf
ssuser7b0f20
順序データでもベイズモデリング
順序データでもベイズモデリング
. .
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks
tut_pfi_2012
tut_pfi_2012
Preferred Networks
JAWS DAYS 2022
JAWS DAYS 2022
陽平 山口
ユーザーサイド情報検索システム
ユーザーサイド情報検索システム
joisino
確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案
__106__
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
Deep Learning JP
深層学習よもやま話
深層学習よもやま話
Hiroshi Maruyama
報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習
Masato Nakai
今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しました
Shohei Hido
Weitere ähnliche Inhalte
Was ist angesagt?
参加型センシングの多次元データに対するプライバシー保護データマイニング
参加型センシングの多次元データに対するプライバシー保護データマイニング
Shunsuke Aoki
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learning
harmonylab
Xgboost for share
Xgboost for share
Shota Yasui
データアカデミー・エッセンス(東京)2
データアカデミー・エッセンス(東京)2
Hiroyuki Ichikawa
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
圭輔 大曽根
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
Takashi J OZAKI
Was ist angesagt?
(6)
参加型センシングの多次元データに対するプライバシー保護データマイニング
参加型センシングの多次元データに対するプライバシー保護データマイニング
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learning
Xgboost for share
Xgboost for share
データアカデミー・エッセンス(東京)2
データアカデミー・エッセンス(東京)2
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
Ähnlich wie 20130605-JSAI2013
論文紹介:Adversarially Learned One-Class Classifier for Novelty Detection
論文紹介:Adversarially Learned One-Class Classifier for Novelty Detection
Kazuki Adachi
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Preferred Networks
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
Yuya Unno
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
Shohei Hido
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose
cvpaper. challenge
1.pdf
1.pdf
ssuser7b0f20
順序データでもベイズモデリング
順序データでもベイズモデリング
. .
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks
tut_pfi_2012
tut_pfi_2012
Preferred Networks
JAWS DAYS 2022
JAWS DAYS 2022
陽平 山口
ユーザーサイド情報検索システム
ユーザーサイド情報検索システム
joisino
確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案
__106__
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
Deep Learning JP
深層学習よもやま話
深層学習よもやま話
Hiroshi Maruyama
報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習
Masato Nakai
今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しました
Shohei Hido
presentation for padoc
presentation for padoc
Masato Nakai
第3回メドレー読書会前半
第3回メドレー読書会前半
Shengbo Xu
DLLAB 製造分科会 2018年度成果報告
DLLAB 製造分科会 2018年度成果報告
Deep Learning Lab(ディープラーニング・ラボ)
当たり前を当たり前に:Agile2017レポート
当たり前を当たり前に:Agile2017レポート
Hiroyuki Ito
Ähnlich wie 20130605-JSAI2013
(20)
論文紹介:Adversarially Learned One-Class Classifier for Novelty Detection
論文紹介:Adversarially Learned One-Class Classifier for Novelty Detection
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose
1.pdf
1.pdf
順序データでもベイズモデリング
順序データでもベイズモデリング
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
tut_pfi_2012
tut_pfi_2012
JAWS DAYS 2022
JAWS DAYS 2022
ユーザーサイド情報検索システム
ユーザーサイド情報検索システム
確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
深層学習よもやま話
深層学習よもやま話
報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習
今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しました
presentation for padoc
presentation for padoc
第3回メドレー読書会前半
第3回メドレー読書会前半
DLLAB 製造分科会 2018年度成果報告
DLLAB 製造分科会 2018年度成果報告
当たり前を当たり前に:Agile2017レポート
当たり前を当たり前に:Agile2017レポート
Mehr von Hiroshi Kajino
Graph generation using a graph grammar
Graph generation using a graph grammar
Hiroshi Kajino
化学構造式のためのハイパーグラフ文法(JSAI2018)
化学構造式のためのハイパーグラフ文法(JSAI2018)
Hiroshi Kajino
能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)
能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)
Hiroshi Kajino
Active Learning for Multi-relational Data Construction
Active Learning for Multi-relational Data Construction
Hiroshi Kajino
能動学習による多関係データセットの構築
能動学習による多関係データセットの構築
Hiroshi Kajino
Instance-privacy Preserving Crowdsourcing (HCOMP2014)
Instance-privacy Preserving Crowdsourcing (HCOMP2014)
Hiroshi Kajino
Preserving Worker Privacy in Crowdsourcing
Preserving Worker Privacy in Crowdsourcing
Hiroshi Kajino
20130716 aaai13-short
20130716 aaai13-short
Hiroshi Kajino
Mehr von Hiroshi Kajino
(8)
Graph generation using a graph grammar
Graph generation using a graph grammar
化学構造式のためのハイパーグラフ文法(JSAI2018)
化学構造式のためのハイパーグラフ文法(JSAI2018)
能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)
能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)
Active Learning for Multi-relational Data Construction
Active Learning for Multi-relational Data Construction
能動学習による多関係データセットの構築
能動学習による多関係データセットの構築
Instance-privacy Preserving Crowdsourcing (HCOMP2014)
Instance-privacy Preserving Crowdsourcing (HCOMP2014)
Preserving Worker Privacy in Crowdsourcing
Preserving Worker Privacy in Crowdsourcing
20130716 aaai13-short
20130716 aaai13-short
20130605-JSAI2013
1.
ワーカーの類似性を考慮した クラウドソーシングデータからの学習 梶野 洸1, 坪井
祐太2, 鹿島 久嗣1 1: 東京大学大学院情報理工学系研究科 2: IBM東京基礎研究所 6/5/2013 1人工知能学会全国大会 “Clustering Crowds” to appear in AAAI-13
2.
概要 • クラウドソーシングとその問題 クラウドソーシングでは成果物の品質が問題となる • 既存手法 品質不明の教師データから学習を行う •
提案手法概要 ワーカーの類似性に注目して学習を行う • 実験結果 人工データ、実データで安定した学習が実現された • まとめ 6/5/2013 人工知能学会全国大会 2
3.
概要 • クラウドソーシングとその問題 クラウドソーシングでは成果物の品質が問題となる • 既存手法 品質不明の教師データから学習を行う •
提案手法概要 ワーカーの類似性に注目して学習を行う • 実験結果 人工データ、実データで安定した学習が実現された • まとめ 6/5/2013 人工知能学会全国大会 3
4.
クラウドソーシング • クラウドソーシング 不特定多数の人に仕事を依頼する仕組み 人の知恵が必要な仕事を短時間・大量・安価に処理可能 ワーカー(の能力)が未知⇒得られる成果物の品質は未知 6/5/2013 人工知能学会全国大会
4 不特定多数のワーカーに仕事を依頼できるが成果物の品質は未知 ワーカー依頼者 2. 成果物を返す 1. 仕事を依頼 3. 代金を支払
5.
ラベル付けタスクの例 • 画像が鳥なら1、それ以外に0とラベルを付けるタスク – 教師あり学習の教師データを低コストで作成可能 –
得られる教師データの品質は不明 6/5/2013 人工知能学会全国大会 5 ワーカーの能力に依存して得られるラベルの品質が異なる 難 易 優 劣 真のラベル (観測されない) 1 1 1 1 1 1 0 0 1 0 1 0
6.
ラベル付けタスクの例 • 画像が鳥なら1、それ以外に0とラベルを付けるタスク – 教師あり学習の教師データを低コストで作成可能 –
得られる教師データの品質は不明 6/5/2013 人工知能学会全国大会 6 ワーカーの能力に依存して得られるラベルの品質が異なる 難 易 優 劣 真のラベル (観測されない) 1 1 1 1 1 1 0 0 1 0 1 0 なんとかしたい!
7.
本研究で扱う問題 • 入力 – 特徴ベクトル
: xi ∈RD (i=1,…,I) – ワーカー : j ∈{1,2,…,J} – クラウドラベル: yij ∈{0,1} • 出力 – データ識別平面の法線ベクトル w0∈RD (w0 Txi>0 ⇔yi=1) • アプローチ: 1. 真の識別器とクラウドラベルの関係をモデル化 2. モデルの推定を通じて真の識別器を得る 6/5/2013 人工知能学会全国大会 7 クラウドソーシングで得たデータから識別器を推定する 鳥 or 非鳥 w0 真の識別器
8.
概要 • クラウドソーシングとその問題 クラウドソーシングでは成果物の品質が問題となる • 既存手法 品質不明の教師データから学習を行う •
提案手法概要 ワーカーの類似性に注目して学習を行う • 実験結果 人工データ、実データで安定した学習が実現された • まとめ 6/5/2013 人工知能学会全国大会 8
9.
既存手法(1):潜在ラベル法 • 潜在ラベル法[Raykar+,2010] – 各ワーカー=正答率でモデル化 –
EMアルゴリズムで w0, αj, βj (正答率)を推定 6/5/2013 人工知能学会全国大会 9 真のラベルを介して真の識別器をモデル化する yixi w0 yi1 yi2 yi3 特徴 ベクトル 真の識別器 (ロジスティック回帰) 真のラベル クラウドラベル αj = p(yij=1 | yi=1) βj = p(yij=0 | yi=0) 既知 未知 N(w0 | 0, η-1I) 事前分布
10.
既存手法(2): 識別器統合法 • 識別器統合法[梶野+,12] –
ワーカー j =パラメタ wj の識別器 – wj = w0 + ガウスノイズ 6/5/2013 人工知能学会全国大会 10 識別器でモデル化されたワーカーを統合して真の識別器を推定 各ワーカーのモデル w0 yi2 yi1 真の識別器 クラウド ラベル w1 w2 w3 yi3 N(w0 | 0, η-1I) j=2 j=3 j=1 事前分布 既知 未知
11.
• 識別器統合法 – w0,
W={wj}J j=1に関して事後確率最大化 – 凸最適化問題となる 既存手法(2): 識別器統合法 6/5/2013 人工知能学会全国大会 11 パラメタ推定は凸最適化問題となる 真の識別器: w0 各ワーカー: wj min w0, W 事前分布モデル間の 関係 クラウドラベルに 適応する損失項 (通常のロジスティック損失)(J人分)
12.
既存手法まとめ • 潜在ラベル法 – 各ワーカーのパラメタ数=2 –
長所: 1人あたりのデータ数はあまり要らない – 短所: 局所解に陥りやすい • 識別器統合法 – 各ワーカーのパラメタ数=D (次元) – 長所: 大域的最適解が保証されている – 短所: 1人あたりのデータ数が少ないと学習が不安定 6/5/2013 人工知能学会全国大会 12 いずれの手法も学習が安定しない場合が存在する
13.
既存手法まとめ • 潜在ラベル法 – 各ワーカーのパラメタ数=2 –
長所: 1人あたりのデータ数はあまり要らない – 短所: 局所解に陥りやすい • 識別器統合法 – 各ワーカーのパラメタ数=D (次元) – 長所: 大域的最適解が保証されている – 短所: 1人あたりのデータ数が少ないと学習が不安定 6/5/2013 人工知能学会全国大会 13 いずれの手法も学習が安定しない場合が存在する この問題を 解決します
14.
概要 • クラウドソーシングとその問題 クラウドソーシングでは成果物の品質が問題となる • 既存手法 品質不明の教師データから学習を行う •
提案手法概要 ワーカーの類似性に注目して学習を行う • 実験結果 人工データ、実データで安定した学習が実現された • まとめ 6/5/2013 人工知能学会全国大会 14
15.
提案手法: アイデア • Welinderら(2010)によるワーカーの解析 “ワーカーは似た能力を持つワーカー群に分類できる” –
この事前知識を活用 ⇒ データ数の問題の改善 – 識別器統合法を拡張してワーカーの類似度を考慮 (Welinder et al., The multidimensional wisdom of crowds, NIPS 2010 より引用) 6/5/2013 人工知能学会全国大会 15 ワーカーの類似性に注目するとクラスタリングができる 下記論文 Figure 6 がここに!!!
16.
提案手法: 定式化 • クラスタ化識別器統合法 –
似たワーカーのパラメタをくっつける正則化を導入 – μを大きくすると似たワーカーのパラメタが等しくなる →実質的に有効なパラメタ数を削減 6/5/2013 人工知能学会全国大会 16 類似したワーカーを自動で探し出しパラメタを共有させる wj = wkにする効果 事前分布モデル間の 関係 クラウドラベルに 適応する損失項 (cf. 従来手法では )
17.
概要 • クラウドソーシングとその問題 クラウドソーシングでは成果物の品質が問題となる • 既存手法 品質不明の教師データから学習を行う •
提案手法概要 ワーカーの類似性に注目して学習を行う • 実験結果 人工データ、実データで安定した学習が実現された • まとめ 6/5/2013 人工知能学会全国大会 17
18.
人工データを用いた数値実験 • 潜在ラベルモデルに従うデータ(J=I=10, 二種類のワーカー) L)
次元 D=2 : 識別器統合法 = クラスタ化識別器統合法 R) 次元D=10 : 識別器統合法 < クラスタ化識別器統合法 6/5/2013 人工知能学会全国大会 18 データ数に対して次元が高い場合の性能を改善 劣ったワーカーの割合 劣ったワーカーの割合 類似性◯ 類似性×
19.
実データを用いた数値実験 • 実データを用いた比較 – NER
タスク(各単語が固有表現かどうかを判別) – 次元D=161,901, データ数 I=17,747, ワーカー数 J=42 6/5/2013 人工知能学会全国大会 19 クラスタ化識別器統合法が最も高い性能を示した 適合率 再現率 F値 クラスタ化 識別器統合法 0.647 0.716 0.680 識別器統合法 0.637 0.721 0.677 潜在ラベル法 0.625 0.732 0.675 単純学習法 0.680 0.670 0.675 多数決法 0.686 0.651 0.668 既存手法2 既存手法1 提案手法
20.
実データを用いた数値実験 • μを変化させると階層的クラスタリングと同効果が得られる • 正解なしで異常なワーカーを検出可能 6/5/2013
人工知能学会全国大会 20 クラスタリング結果から異常なワーカーを検出 Precision: 0.454 Recall: 0.857 クラスタ化の強さ→
21.
概要 • クラウドソーシングとその問題 クラウドソーシングでは成果物の品質が問題となる • 既存手法 品質不明の教師データから学習を行う •
提案手法概要 ワーカーの類似性に注目して学習を行う • 実験結果 人工データ、実データで安定した学習が実現された • まとめ 6/5/2013 人工知能学会全国大会 21
22.
まとめ • 問題設定 – 品質不明の冗長な教師データからの学習 •
既存手法(識別器統合法)の問題点 – パラメタ数が多くなりがち – 1人あたりのデータが少ないと学習が不安定になる • 提案手法(クラスタ化識別器統合法) – 似たワーカーをくっつけ、有効なパラメタ数を削減 • 実験結果 – 1人あたりのデータが少ない場合でも安定して学習可能 – ワーカーのクラスタリング手法としても有用 6/5/2013 人工知能学会全国大会 22 ワーカーの類似度を考慮することでより安定した学習を実現
23.
6/5/2013 人工知能学会全国大会 23