2.
Agenda
• Active Learning とは
• Active Learning 試してみた
• まとめ
3.
References
• (Settles 2009) Active Learning Literature Survey
– よくまとまったサーベイ。本資料での用語は主にこちらに準拠
• (Schein+ 2007) Active Learning for Logistic Regression
– LR に AL を適用する場合のサーベイとして使える
• (Olsson 2009) A Literature Survey of Active Machine Learning in the
Context of Natural Language Processing
– こちらもしっかりしたサーベイ
• (Guo+ 2007) Optimistic Active Learning using Mutual Information
– Expected Error Reduction AL の手法の1つ MM+M を提案
• (Tong+ 2000) Support Vector Machine Active Learning with Application to
Text Classification
– 本資料では参照してないが SVM で AL するなら
40.
ぷちまとめ
• Uncertainly sampling よりばらつきが小さい
– でも random すら大幅に性能向上。ほぼアンサンブル
の恩恵か
– 分布の平均に対する margin sampling が最高性能……
– もう少し複雑な問題の方が効果が見込めるかも
• Vote Entropy は確率モデルでなくてもOK
– 今回は試してないが SVM, Random Forest, ...
• Average KL Divergence が random より悪い
– バグ? 本質的な問題?(NB と LR の予測分布が似
てるわけない、みたいな)
41.
3. Density-Weighted Methods
• Uncertainly Sampling も QBC も、各データ点ごとの評
価しか行わない
– しかし学習して効果があるかは分布にもよるはず
• 下図の例:各点を赤か青に分類する問題で、次の
query は A と B のどちらにするべきか
– B の方が近い点(おそらく同じカテゴリ)が多いので、これ
を学習すれば正解率に貢献するだろうが、分離平面に近い
A が選ばれやすい
A
B
42.
Information Density (Settles+ 2008)
• 𝜙 𝐴 𝑥 : 手法 A におけるデータ x の評価関数
– argmax
𝑥
𝜙 𝐴(𝑥) または argmin
𝑥
𝜙 𝐴(𝑥) となる x を選ぶ
• 評価に類似度を加味した係数を掛ける
argm𝑎𝑥
𝑥
𝜙 𝐴(𝑥) ×
1
𝑈
sim 𝑥, 𝑥 𝑢
𝑈
𝑢=1
𝛽
– ただし U は pool サイズ、xu は pool 内の u 番目の点
• 「似ているデータ」が多いほど選ばれやすい
43.
• 実験の設定は同様
• Uncertainly Sampling の3手法
に Information Density を組
み合わせる
• 類似度は余弦類似度を用い
る(正規化済みなので内積
を取るだけ)
• β=1 とする
Sie haben diese Folie bereits ins Clipboard „“ geclippt.
Clipboard erstellen
Sie haben Ihre erste Folie geclippt!
Durch Clippen können Sie wichtige Folien sammeln, die Sie später noch einmal ansehen möchten. Passen Sie den Namen des Clipboards an, um Ihre Clips zu speichern.
Clipboard erstellen
SlideShare teilen
Sonderangebot für SlideShare-Leser
Nur für Sie: KOSTENLOSE 60-tägige Testversion für die weltgrößte digitale Bibliothek.
Die SlideShare-Familie hat sich gerade vergrößert. Genießen Sie nun Zugriff auf Millionen eBooks, Bücher, Hörbücher, Zeitschriften und mehr von Scribd.