SlideShare ist ein Scribd-Unternehmen logo
1 von 23
ワーカーの類似性を考慮した
クラウドソーシングデータからの学習
梶野 洸1, 坪井 祐太2, 鹿島 久嗣1
1: 東京大学大学院情報理工学系研究科
2: IBM東京基礎研究所
6/5/2013 1人工知能学会全国大会
“Clustering Crowds” to appear in AAAI-13
概要
• クラウドソーシングとその問題
クラウドソーシングでは成果物の品質が問題となる
• 既存手法
品質不明の教師データから学習を行う
• 提案手法概要
ワーカーの類似性に注目して学習を行う
• 実験結果
人工データ、実データで安定した学習が実現された
• まとめ
6/5/2013 人工知能学会全国大会 2
概要
• クラウドソーシングとその問題
クラウドソーシングでは成果物の品質が問題となる
• 既存手法
品質不明の教師データから学習を行う
• 提案手法概要
ワーカーの類似性に注目して学習を行う
• 実験結果
人工データ、実データで安定した学習が実現された
• まとめ
6/5/2013 人工知能学会全国大会 3
クラウドソーシング
• クラウドソーシング
不特定多数の人に仕事を依頼する仕組み
人の知恵が必要な仕事を短時間・大量・安価に処理可能
ワーカー(の能力)が未知⇒得られる成果物の品質は未知
6/5/2013 人工知能学会全国大会 4
不特定多数のワーカーに仕事を依頼できるが成果物の品質は未知
ワーカー依頼者
2. 成果物を返す
1. 仕事を依頼
3. 代金を支払
ラベル付けタスクの例
• 画像が鳥なら1、それ以外に0とラベルを付けるタスク
– 教師あり学習の教師データを低コストで作成可能
– 得られる教師データの品質は不明
6/5/2013 人工知能学会全国大会 5
ワーカーの能力に依存して得られるラベルの品質が異なる
難
易
優 劣 真のラベル
(観測されない)
1 1 1 1
1
1
0 0
1 0 1
0
ラベル付けタスクの例
• 画像が鳥なら1、それ以外に0とラベルを付けるタスク
– 教師あり学習の教師データを低コストで作成可能
– 得られる教師データの品質は不明
6/5/2013 人工知能学会全国大会 6
ワーカーの能力に依存して得られるラベルの品質が異なる
難
易
優 劣 真のラベル
(観測されない)
1 1 1 1
1
1
0 0
1 0 1
0
なんとかしたい!
本研究で扱う問題
• 入力
– 特徴ベクトル : xi ∈RD (i=1,…,I)
– ワーカー : j ∈{1,2,…,J}
– クラウドラベル: yij ∈{0,1}
• 出力
– データ識別平面の法線ベクトル w0∈RD
(w0
Txi>0 ⇔yi=1)
• アプローチ:
1. 真の識別器とクラウドラベルの関係をモデル化
2. モデルの推定を通じて真の識別器を得る
6/5/2013 人工知能学会全国大会 7
クラウドソーシングで得たデータから識別器を推定する
鳥 or 非鳥
w0
真の識別器
概要
• クラウドソーシングとその問題
クラウドソーシングでは成果物の品質が問題となる
• 既存手法
品質不明の教師データから学習を行う
• 提案手法概要
ワーカーの類似性に注目して学習を行う
• 実験結果
人工データ、実データで安定した学習が実現された
• まとめ
6/5/2013 人工知能学会全国大会 8
既存手法(1):潜在ラベル法
• 潜在ラベル法[Raykar+,2010]
– 各ワーカー=正答率でモデル化
– EMアルゴリズムで w0, αj, βj (正答率)を推定
6/5/2013 人工知能学会全国大会 9
真のラベルを介して真の識別器をモデル化する
yixi w0
yi1
yi2
yi3
特徴
ベクトル
真の識別器
(ロジスティック回帰) 真のラベル
クラウドラベル
αj = p(yij=1 | yi=1)
βj = p(yij=0 | yi=0)
既知
未知
N(w0 | 0, η-1I)
事前分布
既存手法(2): 識別器統合法
• 識別器統合法[梶野+,12]
– ワーカー j =パラメタ wj の識別器
– wj = w0 + ガウスノイズ
6/5/2013 人工知能学会全国大会 10
識別器でモデル化されたワーカーを統合して真の識別器を推定
各ワーカーのモデル
w0 yi2
yi1
真の識別器
クラウド
ラベル
w1
w2
w3 yi3
N(w0 | 0, η-1I)
j=2
j=3
j=1
事前分布
既知
未知
• 識別器統合法
– w0, W={wj}J
j=1に関して事後確率最大化
– 凸最適化問題となる
既存手法(2): 識別器統合法
6/5/2013 人工知能学会全国大会 11
パラメタ推定は凸最適化問題となる
真の識別器: w0
各ワーカー: wj
min
w0, W
事前分布モデル間の
関係
クラウドラベルに
適応する損失項
(通常のロジスティック損失)(J人分)
既存手法まとめ
• 潜在ラベル法
– 各ワーカーのパラメタ数=2
– 長所: 1人あたりのデータ数はあまり要らない
– 短所: 局所解に陥りやすい
• 識別器統合法
– 各ワーカーのパラメタ数=D (次元)
– 長所: 大域的最適解が保証されている
– 短所: 1人あたりのデータ数が少ないと学習が不安定
6/5/2013 人工知能学会全国大会 12
いずれの手法も学習が安定しない場合が存在する
既存手法まとめ
• 潜在ラベル法
– 各ワーカーのパラメタ数=2
– 長所: 1人あたりのデータ数はあまり要らない
– 短所: 局所解に陥りやすい
• 識別器統合法
– 各ワーカーのパラメタ数=D (次元)
– 長所: 大域的最適解が保証されている
– 短所: 1人あたりのデータ数が少ないと学習が不安定
6/5/2013 人工知能学会全国大会 13
いずれの手法も学習が安定しない場合が存在する
この問題を
解決します
概要
• クラウドソーシングとその問題
クラウドソーシングでは成果物の品質が問題となる
• 既存手法
品質不明の教師データから学習を行う
• 提案手法概要
ワーカーの類似性に注目して学習を行う
• 実験結果
人工データ、実データで安定した学習が実現された
• まとめ
6/5/2013 人工知能学会全国大会 14
提案手法: アイデア
• Welinderら(2010)によるワーカーの解析
“ワーカーは似た能力を持つワーカー群に分類できる”
– この事前知識を活用 ⇒ データ数の問題の改善
– 識別器統合法を拡張してワーカーの類似度を考慮
(Welinder et al., The multidimensional wisdom of crowds, NIPS 2010 より引用)
6/5/2013 人工知能学会全国大会 15
ワーカーの類似性に注目するとクラスタリングができる
下記論文
Figure 6 がここに!!!
提案手法: 定式化
• クラスタ化識別器統合法
– 似たワーカーのパラメタをくっつける正則化を導入
– μを大きくすると似たワーカーのパラメタが等しくなる
→実質的に有効なパラメタ数を削減
6/5/2013 人工知能学会全国大会 16
類似したワーカーを自動で探し出しパラメタを共有させる
wj = wkにする効果
事前分布モデル間の
関係
クラウドラベルに
適応する損失項
(cf. 従来手法では )
概要
• クラウドソーシングとその問題
クラウドソーシングでは成果物の品質が問題となる
• 既存手法
品質不明の教師データから学習を行う
• 提案手法概要
ワーカーの類似性に注目して学習を行う
• 実験結果
人工データ、実データで安定した学習が実現された
• まとめ
6/5/2013 人工知能学会全国大会 17
人工データを用いた数値実験
• 潜在ラベルモデルに従うデータ(J=I=10, 二種類のワーカー)
L) 次元 D=2 : 識別器統合法 = クラスタ化識別器統合法
R) 次元D=10 : 識別器統合法 < クラスタ化識別器統合法
6/5/2013 人工知能学会全国大会 18
データ数に対して次元が高い場合の性能を改善
劣ったワーカーの割合 劣ったワーカーの割合
類似性◯
類似性×
実データを用いた数値実験
• 実データを用いた比較
– NER タスク(各単語が固有表現かどうかを判別)
– 次元D=161,901, データ数 I=17,747, ワーカー数 J=42
6/5/2013 人工知能学会全国大会 19
クラスタ化識別器統合法が最も高い性能を示した
適合率 再現率 F値
クラスタ化
識別器統合法 0.647 0.716 0.680
識別器統合法 0.637 0.721 0.677
潜在ラベル法 0.625 0.732 0.675
単純学習法 0.680 0.670 0.675
多数決法 0.686 0.651 0.668
既存手法2
既存手法1
提案手法
実データを用いた数値実験
• μを変化させると階層的クラスタリングと同効果が得られる
• 正解なしで異常なワーカーを検出可能
6/5/2013 人工知能学会全国大会 20
クラスタリング結果から異常なワーカーを検出
Precision: 0.454
Recall: 0.857
クラスタ化の強さ→
概要
• クラウドソーシングとその問題
クラウドソーシングでは成果物の品質が問題となる
• 既存手法
品質不明の教師データから学習を行う
• 提案手法概要
ワーカーの類似性に注目して学習を行う
• 実験結果
人工データ、実データで安定した学習が実現された
• まとめ
6/5/2013 人工知能学会全国大会 21
まとめ
• 問題設定
– 品質不明の冗長な教師データからの学習
• 既存手法(識別器統合法)の問題点
– パラメタ数が多くなりがち
– 1人あたりのデータが少ないと学習が不安定になる
• 提案手法(クラスタ化識別器統合法)
– 似たワーカーをくっつけ、有効なパラメタ数を削減
• 実験結果
– 1人あたりのデータが少ない場合でも安定して学習可能
– ワーカーのクラスタリング手法としても有用
6/5/2013 人工知能学会全国大会 22
ワーカーの類似度を考慮することでより安定した学習を実現
6/5/2013 人工知能学会全国大会 23

Weitere ähnliche Inhalte

Was ist angesagt?

参加型センシングの多次元データに対するプライバシー保護データマイニング
参加型センシングの多次元データに対するプライバシー保護データマイニング参加型センシングの多次元データに対するプライバシー保護データマイニング
参加型センシングの多次元データに対するプライバシー保護データマイニングShunsuke Aoki
 
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningFeature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningharmonylab
 
Xgboost for share
Xgboost for shareXgboost for share
Xgboost for shareShota Yasui
 
データアカデミー・エッセンス(東京)2
データアカデミー・エッセンス(東京)2データアカデミー・エッセンス(東京)2
データアカデミー・エッセンス(東京)2Hiroyuki Ichikawa
 
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標圭輔 大曽根
 
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探るTakashi J OZAKI
 

Was ist angesagt? (6)

参加型センシングの多次元データに対するプライバシー保護データマイニング
参加型センシングの多次元データに対するプライバシー保護データマイニング参加型センシングの多次元データに対するプライバシー保護データマイニング
参加型センシングの多次元データに対するプライバシー保護データマイニング
 
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learningFeature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learning
 
Xgboost for share
Xgboost for shareXgboost for share
Xgboost for share
 
データアカデミー・エッセンス(東京)2
データアカデミー・エッセンス(東京)2データアカデミー・エッセンス(東京)2
データアカデミー・エッセンス(東京)2
 
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
 
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
 

Ähnlich wie 20130605-JSAI2013

論文紹介:Adversarially Learned One-Class Classifier for Novelty Detection
論文紹介:Adversarially Learned One-Class Classifier for Novelty Detection論文紹介:Adversarially Learned One-Class Classifier for Novelty Detection
論文紹介:Adversarially Learned One-Class Classifier for Novelty DetectionKazuki Adachi
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Preferred Networks
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual TalksYuya Unno
 
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Shohei Hido
 
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Posecvpaper. challenge
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング. .
 
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームPreferred Networks
 
ユーザーサイド情報検索システム
ユーザーサイド情報検索システムユーザーサイド情報検索システム
ユーザーサイド情報検索システムjoisino
 
確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案__106__
 
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)Deep Learning JP
 
深層学習よもやま話
深層学習よもやま話深層学習よもやま話
深層学習よもやま話Hiroshi Maruyama
 
報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習Masato Nakai
 
今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しました今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しましたShohei Hido
 
presentation for padoc
presentation for padocpresentation for padoc
presentation for padocMasato Nakai
 
第3回メドレー読書会前半
第3回メドレー読書会前半第3回メドレー読書会前半
第3回メドレー読書会前半Shengbo Xu
 
当たり前を当たり前に:Agile2017レポート
当たり前を当たり前に:Agile2017レポート当たり前を当たり前に:Agile2017レポート
当たり前を当たり前に:Agile2017レポートHiroyuki Ito
 

Ähnlich wie 20130605-JSAI2013 (20)

論文紹介:Adversarially Learned One-Class Classifier for Novelty Detection
論文紹介:Adversarially Learned One-Class Classifier for Novelty Detection論文紹介:Adversarially Learned One-Class Classifier for Novelty Detection
論文紹介:Adversarially Learned One-Class Classifier for Novelty Detection
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
 
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
 
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose
 
1.pdf
1.pdf1.pdf
1.pdf
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング
 
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
 
tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
 
JAWS DAYS 2022
JAWS DAYS 2022JAWS DAYS 2022
JAWS DAYS 2022
 
ユーザーサイド情報検索システム
ユーザーサイド情報検索システムユーザーサイド情報検索システム
ユーザーサイド情報検索システム
 
確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案
 
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
 
深層学習よもやま話
深層学習よもやま話深層学習よもやま話
深層学習よもやま話
 
報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習
 
今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しました今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しました
 
presentation for padoc
presentation for padocpresentation for padoc
presentation for padoc
 
第3回メドレー読書会前半
第3回メドレー読書会前半第3回メドレー読書会前半
第3回メドレー読書会前半
 
DLLAB 製造分科会 2018年度成果報告
DLLAB 製造分科会 2018年度成果報告DLLAB 製造分科会 2018年度成果報告
DLLAB 製造分科会 2018年度成果報告
 
当たり前を当たり前に:Agile2017レポート
当たり前を当たり前に:Agile2017レポート当たり前を当たり前に:Agile2017レポート
当たり前を当たり前に:Agile2017レポート
 

Mehr von Hiroshi Kajino

Graph generation using a graph grammar
Graph generation using a graph grammarGraph generation using a graph grammar
Graph generation using a graph grammarHiroshi Kajino
 
化学構造式のためのハイパーグラフ文法(JSAI2018)
化学構造式のためのハイパーグラフ文法(JSAI2018)化学構造式のためのハイパーグラフ文法(JSAI2018)
化学構造式のためのハイパーグラフ文法(JSAI2018)Hiroshi Kajino
 
能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)
能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)
能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)Hiroshi Kajino
 
Active Learning for Multi-relational Data Construction
Active Learning for Multi-relational Data ConstructionActive Learning for Multi-relational Data Construction
Active Learning for Multi-relational Data ConstructionHiroshi Kajino
 
能動学習による多関係データセットの構築
能動学習による多関係データセットの構築能動学習による多関係データセットの構築
能動学習による多関係データセットの構築Hiroshi Kajino
 
Instance-privacy Preserving Crowdsourcing (HCOMP2014)
Instance-privacy Preserving Crowdsourcing (HCOMP2014)Instance-privacy Preserving Crowdsourcing (HCOMP2014)
Instance-privacy Preserving Crowdsourcing (HCOMP2014)Hiroshi Kajino
 
Preserving Worker Privacy in Crowdsourcing
Preserving Worker Privacy in CrowdsourcingPreserving Worker Privacy in Crowdsourcing
Preserving Worker Privacy in CrowdsourcingHiroshi Kajino
 

Mehr von Hiroshi Kajino (8)

Graph generation using a graph grammar
Graph generation using a graph grammarGraph generation using a graph grammar
Graph generation using a graph grammar
 
化学構造式のためのハイパーグラフ文法(JSAI2018)
化学構造式のためのハイパーグラフ文法(JSAI2018)化学構造式のためのハイパーグラフ文法(JSAI2018)
化学構造式のためのハイパーグラフ文法(JSAI2018)
 
能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)
能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)
能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)
 
Active Learning for Multi-relational Data Construction
Active Learning for Multi-relational Data ConstructionActive Learning for Multi-relational Data Construction
Active Learning for Multi-relational Data Construction
 
能動学習による多関係データセットの構築
能動学習による多関係データセットの構築能動学習による多関係データセットの構築
能動学習による多関係データセットの構築
 
Instance-privacy Preserving Crowdsourcing (HCOMP2014)
Instance-privacy Preserving Crowdsourcing (HCOMP2014)Instance-privacy Preserving Crowdsourcing (HCOMP2014)
Instance-privacy Preserving Crowdsourcing (HCOMP2014)
 
Preserving Worker Privacy in Crowdsourcing
Preserving Worker Privacy in CrowdsourcingPreserving Worker Privacy in Crowdsourcing
Preserving Worker Privacy in Crowdsourcing
 
20130716 aaai13-short
20130716 aaai13-short20130716 aaai13-short
20130716 aaai13-short
 

20130605-JSAI2013