NIPS 2010 読む会

The Multidimentional Wisdom of Crowds
Peter Welinder, Steve Branson, Serge Belongie, Pietro Perona

NIPS 2010 読む会
発表者 : 坪坂正志
m.tsubosaka(at)gmail.com

2010/12/26 NIPS2010読む会 1

背景
• 多くの機械学習アルゴリズムにおいては大量のラベ
ルありデータが必要となる
• 肝心のラベルは誰がつけるか
– 多くの場合人手
– ラベル付けのために専用の人材を雇うのはコストが高い
– あまり面白い仕事でもない
• cf: 10000枚の写真から猫の移ってる写真を取り出す

2010/12/26 NIPS2010読む会 2

Amazon Mechanical Turk
• 簡単な大量のタスクを多くの人にやってもらうため
のWebサービス (crowdsourcing)
– https://www.mturk.com/mturk/welcome
– 一つのタスクにつき数セントで実施してもらえる
– 例えば
• 画面に何が移っているか答えてもらう
• 語義曖昧性の解消
• サイトのレビュー記事を書いてもらう

• 大量のアノテーションされたデータセットの作成に使
われている
– 画像処理 : [Deng+, CVPR 2009] (ImageNet)
– NLP : [Snow+, EMNLP 2008]
2010/12/26 NIPS2010読む会 3

Crowd Sourcingの問題点
• 安く済む分、専門性の低いアノテーターを使うことに
なるのでラベルづけの精度は落ちる
• さらに、お金目当てで適当に回答を行う人間がいる
• そのため、一つのタスクに対して、複数のアノテー
ターを用意して多数決をとる(majority voting)などの
方法をとる必要がある
– これには多くのアノテーターが必要、つまり多くのお金が
必要となる

2010/12/26 NIPS2010読む会 4

本論文の内容
• 画像の二値ラベル付けに関して扱う
– Ex : 画像に”duck”が写ってるかどうか
• 画像自体の難しさとアノテーターのアノテーションを
行う過程をモデル化することにより、既存の方法より
も高い精度を達成
– あるタスクにおいての精度が提案手法 75.4%,
GLAD[Whitehill+ 2009, NIPS] 60.4% , Majority voting 68.3%
• 個々のアノテーターおよび画像をグループ分けする
ことが可能となる

2010/12/26 NIPS2010読む会 5

画像について
• 各画像�� には変数�� ∈ *0,1+が対応する
• 各�� の値に応じて、多次元ベクトル�� が生成される

識別が簡単 ��2

1
��
識別が困難
2010/12/26 NIPS2010読む会 6

アノテータのノイズ
• アノテータは画像に関する量�� ではなく、ノイズの
入った�� = �� + �� を観測する
– �� は各アノテータ固有のパラメータ�� によって定まる
2
��

��2 ノイズ小

��1
��2

1
�� ノイズ大

��1
2010/12/26 NIPS2010読む会 7

アノテータのバイアス
• アノテータはパラメータ(�� , �� )で表される線形識別
面に基づいて�� 上のデータのラベル付けをする
– これはアノテータの主観で決まって必ずしも二値分類でき
てるとはかぎらない

2010/12/26 NIPS2010読む会 8

Annotatorが誤るパターン
• 画像自体が判別しずらい
– �� が判別面の境界付近に存在する
• ラベルのつけ方にむらがある
– �� が大きい
– 画像に対してのラベル付けの整合性がとれてない
• タスクへの誤った認識
– �� , �� の値が真の判別面と異なる
– 鴨と鵜の区別がつかない

2010/12/26 NIPS2010読む会 9

先行研究
• [David and Skene 1979]
– アノテータのバイアスとスキルを考慮
– [Welinder and Perona 2010, CVPR]によってbinary annotationタ
スク以外にも拡張されてる
• [Raykar+ 2009, ICML]
– アノテータのバイアスについて考慮
– 問題の難しさについては考慮せず
• [Whitehill+ 2009, NIPS] (GLAD)
– 問題の難易度、アノテータの信頼度をモデル化している
– アノテータのバイアスについては考慮していない
• 他にもnon-binary annotationタスクに対して[Spain and
Perona 2008 ECCV],[Smyth+ 1995 NIPS]などがある

2010/12/26 NIPS2010読む会 10

確率モデル
• いままでのアノテータモデルの結合確率を書くと

• グラフィカルモデル

[Welinder+ 2010]

2010/12/26 NIPS2010読む会 11

画像に関するモデル
• ラベルに関する分布
– �� = 1 = ��
• 画像に対する量�� の分布
2
– �� = ��(�� ; �� , �� )
– �� = 0のとき�� = −1、�� = 1のとき�� = 1
– �� が多次元ベクトルのときも同様

[Welinder+ 2010]

2010/12/26 NIPS2010読む会 12

観測時のモデル
• アノテータ��ごとの画像��に対する観測値�� の分布
– �� , �� = ��(�� ; �� , ��2 )
• アノテータの決定面
– 勾配 �� , バイアス ��
– ラベル付けは�� = ��(�� ⋅ �� ≥ �� )に従い決定的に行わ
れる
• �� について積分消去すると

2010/12/26 NIPS2010読む会 13

パラメータについて
��
• �� = , �� = とreparameterizeする
��
– (3)式がΦ(�� ⋅ �� − �� )と書き直せる
• ハイパーパラメータについて
– �� の事前分布は平均0, 分散�� = 3の正規分布を仮定
– �� の事前分布は平均1, 分散�� = 3の正規分布を仮定
– 実のところハイパーパラメータを変えても実験結果には大
きく影響しなかった

2010/12/26 NIPS2010読む会 14

MAP推定
• (1)式を変更すると以下のようになる

• 観測値�� = *�� +を得た上で(4)式を最大化する

– �� , ��, �� = log ��(��, ��, ��, ��)

2010/12/26 NIPS2010読む会 15

MAP推定(conn)
• 以下を繰り返す
– 1. ��を固定したもとで(��, ��)を最適化
– 2. (��, ��)を固定したもとで��を最適化
• 最適化には最急法を用いる
• 実験では20回以内の繰り返しで収束した

2010/12/26 NIPS2010読む会 16

Signal detection theoryとの関係
• 一次元の場合、信号検出理論で使われてるモデル
と同じとなる
– ノイズから被験者がどれだけ正しくシグナルを検出できる
かを知るための理論

http://www.educ.kyoto-u.ac.jp/cogpsy/personal/Kusumi/datasem05/nakashima.pdf より
2010/12/26 NIPS2010読む会 17

Signal detection theoryとの関係
• Sensitivity index ��′ : アノテータがどの程度うまくノイ
ズとシグナルを分離できるかの指標
• Threshold �� : アノテータのバイアスを表す指標

モデルから計算した場合 False alarm rate ��とhit rate ℎ
から計算した場合
��1 − ��0 2
��′ = = �� ′ = Φ−1 ℎ − Φ−1 (��)
��
�� + ��2
2

�� 1 −1
�� = �� = − (Φ ℎ + Φ−1 �� )
�� 2

2010/12/26 NIPS2010読む会 18

シミュレーションによる実験
• 提案モデルの通りにデータおよびアノテータのパラ
メータを生成してそれによるラベルデータを作成
• 500個の疑似イメージデータを作成して、4から20の
アノテータにラベル付けさせるという設定
• 以上の手続きを40回繰り返した平均をとる

2010/12/26 NIPS2010読む会 19

実験結果
• 推定されたパラメータと真のパラメータとの相関

[Welinder+ 2010]

• 他手法との比較

[Welinder+ 2010]

2010/12/26 NIPS2010読む会 20

実際の人間による実験
• Amazon MTurkで実際のアノテータを使った実験を
行った
• 他手法との比較のため、写真にIndigo Buntingと
Blue Grosbeakのどちらが写ってるか答えさせる実験
を行った
– アノテータは各画像に対して40人

2010/12/26 NIPS2010読む会 21

実験結果
• 他手法に比べて提案手法の方が精度が高かった
– [1]は[David and Skene 1979]
– [13]はNIPS 2009のもの

[Welinder+ 2010]

2010/12/26 NIPS2010読む会 22

Ellipse Dataset
• 与えられた楕円が垂直に近いか水平に近いかを答
えてもらうタスク
– 1度刻みで1度から180度までの180枚の画像を用意
– アノテータの数は20人
– 45度のときが最も判別しずらい

[Welinder+ 2010]

2010/12/26 NIPS2010読む会 23

実験結果
• 各画像に関する�� の推定値
– 横軸は45度からのずれで45度から離
れるにつれ判別しやすくなっている
• SDTとの関係
– モデルパラメータから推定した値と [Welinder+ 2010]
False alarm rate, Hit rateから計算した
値の整合性が取れている

[Welinder+ 2010]
2010/12/26 NIPS2010読む会 24

Greeble Dataset
• 緑色で背の高い画像をクラス0とし、黄色で背の低
い画像をクラス1とする。
– このときアノテータにはクラス0の特徴として色もしくは身
長のどちらかしか教えない
– アノテータは色もしくは身長のどちらかの知識のみで分類
を行う
– 画像データの身長および色のパラメータは平均(1,1)もしく
は(-1,-1)、分散0.8の正規分布からランダムに作成する

クラス0 クラス1

[Welinder+ 2010]
2010/12/26 NIPS2010読む会 25

実験結果
• 色で判定しているアノテータと身長で判定しているア
ノテータで判別面にあきらかな違いがでている

[Welinder+ 2010]

2010/12/26 NIPS2010読む会 26

Waterbird Dataset
• Mallard(マガモ), American Black Duck (アメリカガモ),
Canada Goose(カナダガン), Red-necked Grebe(アカ
エリカイツブリ)の四種の水鳥についての画像を50
枚ずつ用意
• 加えて鳥が写っていない風景画像を40枚用意
• 40人のアノテータにたいしてカモが写っているかどう
かを答えてもらう

2010/12/26 NIPS2010読む会 27

実験結果
• アノテータの判別面は三種類のパターンとなった
– Duckとそれ以外をわける
– Duck + Grebeとそれ以外
– 水鳥とそれ以外

2010/12/26 NIPS2010読む会
[Welinder+ 2010] 28

実験結果
• 見当はずれの判別面がみられるがこれは報酬目当
てで適当に答えているアノテータと思われる
– これは[Snow+ 2008]でも報告されている
• 他手法と比較すると提案手法が一番精度が高い
– 提案手法 75.4%
– GLAD[NIPS 2009] 60.4%
– Majority voting 68.3%

2010/12/26 NIPS2010読む会 29

Conclusions
• アノテーションの過程に関してのベイズモデルを提
案
• Amazon MTurkを使って実験した結果既存手法より
も高い精度を得た
• 提案手法を使えば、二値分類問題を解くだけではな
く、画像の難しさの尺度やアノテータがどのように判
別しているかのグルーピングが行える

2010/12/26 NIPS2010読む会 30

NIPS 2010 読む会

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (13)

Ähnlich wie NIPS 2010 読む会

Ähnlich wie NIPS 2010 読む会 (20)

Mehr von 正志坪坂

Mehr von 正志坪坂 (20)