20130605-JSAI2013

ワーカーの類似性を考慮した
クラウドソーシングデータからの学習
梶野洸1, 坪井祐太2, 鹿島久嗣1
1: 東京大学大学院情報理工学系研究科
2: IBM東京基礎研究所
6/5/2013 1人工知能学会全国大会
“Clustering Crowds” to appear in AAAI-13

概要
• クラウドソーシングとその問題
クラウドソーシングでは成果物の品質が問題となる
• 既存手法
品質不明の教師データから学習を行う
• 提案手法概要
ワーカーの類似性に注目して学習を行う
• 実験結果
人工データ、実データで安定した学習が実現された
• まとめ
6/5/2013 人工知能学会全国大会 2

概要
• 既存手法
• 実験結果
• まとめ

クラウドソーシング
• クラウドソーシング
不特定多数の人に仕事を依頼する仕組み
人の知恵が必要な仕事を短時間・大量・安価に処理可能
ワーカー(の能力)が未知⇒得られる成果物の品質は未知
不特定多数のワーカーに仕事を依頼できるが成果物の品質は未知
ワーカー依頼者
2. 成果物を返す
1. 仕事を依頼
3. 代金を支払

ラベル付けタスクの例
• 画像が鳥なら1、それ以外に0とラベルを付けるタスク
– 教師あり学習の教師データを低コストで作成可能
– 得られる教師データの品質は不明
ワーカーの能力に依存して得られるラベルの品質が異なる
難
易
優劣真のラベル
（観測されない）
1 1 1 1
1
1
0 0
1 0 1
0

ラベル付けタスクの例
• 画像が鳥なら1、それ以外に0とラベルを付けるタスク
– 教師あり学習の教師データを低コストで作成可能
– 得られる教師データの品質は不明
ワーカーの能力に依存して得られるラベルの品質が異なる
難
易
優劣真のラベル
（観測されない）
1 1 1 1
1
1
0 0
1 0 1
0
なんとかしたい！

本研究で扱う問題
• 入力
– 特徴ベクトル : xi ∈RD (i=1,…,I)
– ワーカー : j ∈{1,2,…,J}
– クラウドラベル: yij ∈{0,1}
• 出力
– データ識別平面の法線ベクトル w0∈RD
（w0
Txi>0 ⇔yi=1）
• アプローチ:
1. 真の識別器とクラウドラベルの関係をモデル化
2. モデルの推定を通じて真の識別器を得る
クラウドソーシングで得たデータから識別器を推定する
鳥 or 非鳥
w0
真の識別器

概要
• 既存手法
• 実験結果
• まとめ

既存手法(1):潜在ラベル法
• 潜在ラベル法[Raykar+,2010]
– 各ワーカー=正答率でモデル化
– EMアルゴリズムで w0, αj, βj (正答率)を推定
真のラベルを介して真の識別器をモデル化する
yixi w0
yi1
yi2
yi3
特徴
ベクトル
真の識別器
(ロジスティック回帰) 真のラベル
クラウドラベル
αj = p(yij=1 | yi=1)
βj = p(yij=0 | yi=0)
既知
未知
N(w0 | 0, η-1I)
事前分布

既存手法(2): 識別器統合法
• 識別器統合法[梶野+,12]
– ワーカー j =パラメタ wj の識別器
– wj = w0 + ガウスノイズ
識別器でモデル化されたワーカーを統合して真の識別器を推定
各ワーカーのモデル
w0 yi2
yi1
真の識別器
クラウド
ラベル
w1
w2
w3 yi3
N(w0 | 0, η-1I)
j=2
j=3
j=1
事前分布
既知
未知

• 識別器統合法
– w0, W={wj}J
j=1に関して事後確率最大化
– 凸最適化問題となる
既存手法(2): 識別器統合法
パラメタ推定は凸最適化問題となる
真の識別器: w0
各ワーカー: wj
min
w0, W
事前分布モデル間の
関係
クラウドラベルに
適応する損失項
(通常のロジスティック損失)(J人分)

既存手法まとめ
• 潜在ラベル法
– 各ワーカーのパラメタ数=2
– 長所: 1人あたりのデータ数はあまり要らない
– 短所: 局所解に陥りやすい
– 各ワーカーのパラメタ数=D (次元)
– 長所: 大域的最適解が保証されている
– 短所: 1人あたりのデータ数が少ないと学習が不安定
いずれの手法も学習が安定しない場合が存在する

既存手法まとめ
• 潜在ラベル法
– 各ワーカーのパラメタ数=2
– 長所: 1人あたりのデータ数はあまり要らない
– 短所: 局所解に陥りやすい
– 各ワーカーのパラメタ数=D (次元)
– 長所: 大域的最適解が保証されている
– 短所: 1人あたりのデータ数が少ないと学習が不安定
いずれの手法も学習が安定しない場合が存在する
この問題を
解決します

概要
• 既存手法
• 実験結果
• まとめ

提案手法: アイデア
• Welinderら(2010)によるワーカーの解析
“ワーカーは似た能力を持つワーカー群に分類できる”
– この事前知識を活用 ⇒ データ数の問題の改善
– 識別器統合法を拡張してワーカーの類似度を考慮
(Welinder et al., The multidimensional wisdom of crowds, NIPS 2010 より引用)
ワーカーの類似性に注目するとクラスタリングができる
下記論文
Figure 6 がここに！！！

提案手法: 定式化
• クラスタ化識別器統合法
– 似たワーカーのパラメタをくっつける正則化を導入
– μを大きくすると似たワーカーのパラメタが等しくなる
→実質的に有効なパラメタ数を削減
類似したワーカーを自動で探し出しパラメタを共有させる
wj = wkにする効果
事前分布モデル間の
関係
クラウドラベルに
適応する損失項
(cf. 従来手法では )

概要
• 既存手法
• 実験結果
• まとめ

人工データを用いた数値実験
• 潜在ラベルモデルに従うデータ(J=I=10, 二種類のワーカー)
L) 次元 D=2 : 識別器統合法＝クラスタ化識別器統合法
R) 次元D=10 : 識別器統合法＜クラスタ化識別器統合法
データ数に対して次元が高い場合の性能を改善
劣ったワーカーの割合劣ったワーカーの割合
類似性◯
類似性×

実データを用いた数値実験
• 実データを用いた比較
– NER タスク（各単語が固有表現かどうかを判別）
– 次元D=161,901, データ数 I=17,747, ワーカー数 J=42
クラスタ化識別器統合法が最も高い性能を示した
適合率再現率 F値
クラスタ化
識別器統合法 0.647 0.716 0.680
識別器統合法 0.637 0.721 0.677
潜在ラベル法 0.625 0.732 0.675
単純学習法 0.680 0.670 0.675
多数決法 0.686 0.651 0.668
既存手法2
既存手法1
提案手法

実データを用いた数値実験
• μを変化させると階層的クラスタリングと同効果が得られる
• 正解なしで異常なワーカーを検出可能
クラスタリング結果から異常なワーカーを検出
Precision: 0.454
Recall: 0.857
クラスタ化の強さ→

概要
• 既存手法
• 実験結果
• まとめ

まとめ
• 問題設定
– 品質不明の冗長な教師データからの学習
• 既存手法(識別器統合法)の問題点
– パラメタ数が多くなりがち
– 1人あたりのデータが少ないと学習が不安定になる
• 提案手法(クラスタ化識別器統合法)
– 似たワーカーをくっつけ、有効なパラメタ数を削減
• 実験結果
– 1人あたりのデータが少ない場合でも安定して学習可能
– ワーカーのクラスタリング手法としても有用
ワーカーの類似度を考慮することでより安定した学習を実現

20130605-JSAI2013

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (6)

Ähnlich wie 20130605-JSAI2013

Ähnlich wie 20130605-JSAI2013 (20)

Mehr von Hiroshi Kajino

Mehr von Hiroshi Kajino (8)

20130605-JSAI2013