スニペットとウェブカウントを用いたウェブ検索クエリの分類

スニペットとウェブカウントを用いた
ウェブ検索クエリの分類

ヤフー株式会社 R&D統括本部 PF開発本部
要素技術開発部開発2
大久保拓也

ヤフー株式会社 Y!J研究所
颯々野学

1

アジェンダ
• 背景と目的
• クエリ分類の方法
• 評価実験
• 実験結果
• 考察
• まとめと今後

2

背景
 背景
 情報検索の性能に対する期待は高まっている
 高精度な検索,検索要求にあわせた結果の提示
 ユーザの検索要求を満たすには様々な工夫が必要
 クエリに対する工夫 … クエリ拡張,クエリ分類など
 文書に対する工夫 … 文書分類,文書要約など

クエリ分類の利用例

クエリが人名なら写真やプロフィールを出す

 本研究では、ウェブ検索クエリをカテゴリ分類する
タスクに取り組む
4

クエリ分類における問題
 検索クエリをカテゴリ分類する際の問題点
 クエリが短い
 得られる情報が少ない
 単一トークンあるいは高々数トークンのクエリがほとんど

 クエリが曖昧
 複数の意味に解釈できる

 クエリそのものの持つ情報だけでは、十分な情報
を得られないため、これらを補う方法が必要
 クエリログ,検索エンジンの結果を利用するなど
5

本研究の目的
• 目的
• 「クエリ分類」に対して、(★)の情報が役立つか
★(1)スニペットから得られる文脈情報(※)
(※)系列ラベリングで解く固有表現抽出(NER)を使う
★(2)共起表現のウェブカウント

• 検証用のタスク
• 単一トークンのクエリをPER,LOC,ORG,NOT_NEに分類

PER(人名) LOC(地名) ORG(組織名) NOT_NE(その他)
原幹恵池袋積水樹脂他の固有物名
例山本博相模大野広島市立図書館一般名詞など

6

クエリ分類の方法

7

クエリ分類の方法
 ３種類の方法で検証実験
 方法1．スニペットを用いる方法
 検索スニペットから得られるクエリ周辺の文脈情報に着目
 固有表現抽出によって文脈情報を処理
 目的の★(1)に相当
 方法2．ウェブカウントを用いる方法
 クエリ周辺のテキストに現れる特定パターンに着目
 目的の★(2)に相当
 方法3．スニペットとウェブカウントを組み合わせる方法
 上の２つの方法の組み合わせ
 目的の★(1)+★(2)に相当

8

方法1．スニペットを用いる方法
 スニペットとは
 検索エンジンで検索した際に、結果ページタイトル下に
表示される”検索クエリを含む短い説明文”のこと
 クエリの前後の文脈情報を持っている

スニペット

 方法
クエリクエリを例：
スニペット
含んだ文積水樹脂 LOC:0 ORG:12 PER:0 => ORG
山本博 LOC:6 ORG:10 PER:44 => PER

検索固有表現
文抽出多数決カテゴリ
エンジン抽出 9

方法２．ウェブカウントを用いる方法
 ウェブカウントとは
 ある検索クエリでウェブ検索した際の”hit数”
 ウェブカウントが大きい = 一般的な言葉

 方法
検索ウェブカウ
クエリ分類器カテゴリ
エンジンント素性

パターン

例積水樹脂：”積水樹脂株式”で検索 ⇒ ウェブカウント 138,000 ⇒ 組織名と推測
山本博： ”山本博株式”で検索 ⇒ ウェブカウント 216 ⇒ 組織名ではないと推測

10

パターンの説明
 パターンとは
 クエリの前後あるいは周辺に表れる特定の単語
 前後に表れるものを接頭、接尾表現、周辺を周辺と表す
 パターンの収集方法
 単一トークンのウェブ検索クエリを使いウェブ検索を行う
 検索結果の上位50件からスニペットを抽出する
 スニペットを文毎に分割し、クエリを含んだ文を収集する
 収集した文を形態素解析し、解析結果から
周辺、接頭表現、接尾表現をそれぞれ抽出する
 パターンの例
周辺接頭表現接尾表現
ファン、社アーティスト、法人株式、医院 11

方法３．スニペットとウェブカウントを
組み合わせる方法
 スニペットの結果とウェブカウントの素性を同時に
扱う

 スニペットの結果は、取得したスニペットから
集計しているので、取得したスニペットの数で割る
ことにより正規化する

 正規化されたスニペットの結果と、ウェブカウントの
素性で教師あり学習により分類器を作成し、
カテゴリ分類を行う
12

評価実験ー評価方法

 評価方法
 各分類方法を以下の方法で評価
分類方法評価方法
スニペット実験用クエリセットを分類して、分類精度をみる
ウェブカウント実験用クエリセットで10分割交差検定を行い、分類精度の平均をみる
組み合わせ実験用クエリセットで10分割交差検定を行い、分類精度の平均をみる

 実験用クエリセット
 あらかじめ人手でラベル付けされたクエリセット

15

評価実験ー実験条件(1/3)
 実験用クエリセット
 2008年8月のウェブ検索クエリログ10万件のうち
スペースを含まないものからランダムサンプリング

 組織名・人名・地名をIREXの固有表現定義に基づいて
ラベル付けを行った

 実験用クエリの内訳
ラベルクエリ数クエリ例
ORG(組織名) 379 積水樹脂、広島市立図書館など
PER(人名) 140 原幹恵、末續慎吾など
LOC(地名) 65 池袋、相模大野など
NOT_NE(その他) 914 貿易実務検定、ドコモダケなど
16
合計 1498

 固有表現抽出
 学習器
 YamChaに類似の独自の学習器

 学習データ
 ニュース記事を主としたデータを、IREXの固有表現定義に
基づいてアノテーションしたもの
 定義のうち、人名・地名・組織名に関するもののみを適用

 抽出器の性能
 ニュース記事を主とした評価データに対して、F値で87程度
17

 ウェブカウント用のパターン
 収集に使用したクエリ
 2010年1月1日から2010年8月15日までのウェブ検索クエリ
 スペースが入っていないもの

 集計したパターンのうち頻度が上位のもの

 パターンの内訳
パターンパターン数パターン例
周辺 500 ファン,文化
接頭表現 500 社,アーティスト
接尾表現 500 医院,駅
18

評価尺度
 評価には以下の尺度を用いた
 Accuracy
 全てのラベルの正解数 / 全クエリ数
 Recall
 対象ラベルに対する正解数 / 対象ラベルのクエリ数
 Precision
 対象ラベルに対する正解数 / 対象ラベルに分類したクエリ数
 F値
 2 * Precision * Recall / ( Precision + Recall )

19

実験結果(1/2)
 固有表現全体の分類性能
 固有表現であるORG,PER,LOCを対象のラベルとして
各尺度を計算

 スニペットとウェブカウントを比較すると、スニペットでは
Recall,ウェブカウントではPrecisionが高い

 Recall以外は、組み合わせることで分類性能が向上
分類方法 Accuracy Recall Precision F値
スニペット 69.29 69.35 53.29 60.27
ウェブカウント 76.03 61.64 66.30 63.89
組み合わせ 79.64 65.75 73.00 69.19
21

実験結果(2/2)
 各カテゴリの分類性能
 スニペットとウェブカウントを比較すると、スニペットは
Recallが高く、ウェブカウントはPrecisionが高い
 全てのカテゴリで、組み合わせのF値が最も高い
 全体を通してORGの分類性能は低い

分類方法スニペットウェブカウント組み合わせ
カテゴリ Rec Pre F値 Rec Pre F値 Rec Pre F値
ORG 68.87 52.20 59.39 58.05 63.22 60.52 62.01 68.71 65.19
PER 73.57 55.98 63.58 69.29 75.78 72.39 75.71 82.81 79.10
LOC 63.08 53.95 58.16 66.15 64.18 65.15 66.15 76.79 71.07
NOT_NE 69.26 85.77 76.64 85.23 81.57 83.36 88.51 83.23 85.79
22

スニペットを用いる方法(1/3)
 使用する文の数と分類精度の関係について
 使用する文の数が少ないとNOT_NEだが、文の数を
増やすと何かしらの固有表現に分類される場合がある
• スニペット中にクエリが固有表現として扱われた文があれば、
その固有表現のカテゴリと決まるため
 使用する文を増やせば、固有表現であるクエリは正しく分類され、
NOT_NEのクエリは誤って分類されやすくなると考えられる

クエリ正解ラベル 10文使用 100文使用
三輪明宏 PER NOT_NE PER
志賀高原 LOC NOT_NE LOC
諏訪湖花火 NOT_NE NOT_NE PER
使用する文の数によって分類結果が変化する例
24

 使用する文の数を変化させて分類精度を調査
 使用する文の数を増やすと、Recallが上がりPrecisionが下がる
 固有表現であるクエリ ⇒ 正しく分類されやすくなる
 NOT_NEなクエリ ⇒ 誤って分類されやすくなる
 よって、文の数を増やすことで、固有表現であるクエリのRecallを
重視した分類になる

文数
文の数と分類精度の関係 25

 固有表現抽出器の精度依存について
 スニペットから正しく固有表現抽出できることが前提
 固有表現抽出できないクエリは、使用する文の数を
増やしても効果は期待しにくい
 クエリそのものが正しく形態素に分けられない場合など
は、何文処理してもクエリ部分は抽出されないため

クエリ正解ラベル分類結果
arsenal ORG NOT_NE
ほしのまき PER NOT_NE
うまく固有表現抽出できなかったクエリの例

26

ウェブカウントを用いる方法
 接頭表現や接尾表現のパターンが特定の単語を分類す
ることを目的としているため、パターンに合致するようなク
エリの分類精度はよいと考えられる
 一方、文脈をみていないので、文脈によって判断結果が
変わるようなクエリを誤る場合がみられた

クエリ正解ラベル分類結果クエリ正解ラベル分類結果
arsenal ORG ORG 浜松町駅 LOC ORG
ほしのまき PER PER 内外タイムス ORG LOC

ウェブカウントを用いる方法の分類結果の例

27

組み合わせる方法
• ほぼ全てのカテゴリにおいて、組み合わせる方法
の精度が最も高かった
• 組み合わせることにより、スニペットとウェブカウント
の弱点を補完できているためだと考えられる

• スニペットとウェブカウントの特徴
スニペットウェブカウント
Recall or Precision (使用文が多ければ)Recall重視 Precision重視
固有表現抽出の精度依存精度の影響を受ける精度の影響を受けない
文脈に依存するクエリ文脈考慮するので対応できる文脈考慮しないので難しい

28

まとめと今後

29

まとめと今後
• まとめ
• クエリのカテゴリ分類問題に対して、2種類の情報が役
立つかを検証
• ３つの分類方法で評価実験
• スニペットは F値 60.27、ウェブカウントは F値 63.89
• 組み合わせることで精度が向上 F値 69.19
• 今後の課題
• 分類するカテゴリの種類を拡張
• 固有表現抽出器に使う学習データを
ウェブ文書(=スニペット)に対応させる

30

ありがとうございました

31

スニペットとウェブカウントを用いたウェブ検索クエリの分類

Recommended

Recommended

More Related Content

Similar to スニペットとウェブカウントを用いたウェブ検索クエリの分類

Similar to スニペットとウェブカウントを用いたウェブ検索クエリの分類 (20)

More from Yahoo!デベロッパーネットワーク

More from Yahoo!デベロッパーネットワーク (20)

Recently uploaded

Recently uploaded (9)

スニペットとウェブカウントを用いたウェブ検索クエリの分類