SlideShare a Scribd company logo
1 of 30
Download to read offline
スニペットとウェブカウントを用いた
  ウェブ検索クエリの分類


ヤフー株式会社 R&D統括本部 PF開発本部
     要素技術開発部 開発2
       大久保 拓也

    ヤフー株式会社 Y!J研究所
        颯々野 学



                         1
アジェンダ
•   背景と目的
•   クエリ分類の方法
•   評価実験
•   実験結果
•   考察
•   まとめと今後




                   2
背景と目的


        3
背景
   背景
       情報検索の性能に対する期待は高まっている
           高精度な検索,検索要求にあわせた結果の提示
       ユーザの検索要求を満たすには様々な工夫が必要
           クエリに対する工夫 … クエリ拡張,クエリ分類 など
           文書に対する工夫 … 文書分類,文書要約 など

            クエリ分類の利用例



            クエリが人名なら写真やプロフィールを出す


       本研究では、ウェブ検索クエリをカテゴリ分類する
        タスクに取り組む
                                         4
クエリ分類における問題
   検索クエリをカテゴリ分類する際の問題点
       クエリが短い
           得られる情報が少ない
           単一トークンあるいは高々数トークンのクエリがほとんど


       クエリが曖昧
           複数の意味に解釈できる


   クエリそのものの持つ情報だけでは、十分な情報
    を得られないため、これらを補う方法が必要
       クエリログ,検索エンジンの結果を利用する など
                                         5
本研究の目的
• 目的
 • 「クエリ分類」に対して、(★)の情報が役立つか
      ★(1)スニペットから得られる文脈情報(※)
       (※)系列ラベリングで解く固有表現抽出(NER)を使う
      ★(2)共起表現のウェブカウント


 • 検証用のタスク
      • 単一トークンのクエリをPER,LOC,ORG,NOT_NEに分類

        PER(人名)    LOC(地名)   ORG(組織名)   NOT_NE(その他)
         原幹恵        池袋        積水樹脂       他の固有物名
  例      山本博       相模大野      広島市立図書館     一般名詞など

                                                      6
クエリ分類の方法


           7
クエリ分類の方法
   3種類の方法で検証実験
       方法1.スニペットを用いる方法
           検索スニペットから得られるクエリ周辺の文脈情報に着目
           固有表現抽出によって文脈情報を処理
           目的の★(1)に相当
       方法2.ウェブカウントを用いる方法
           クエリ周辺のテキストに現れる特定パターンに着目
           目的の★(2)に相当
       方法3.スニペットとウェブカウントを組み合わせる方法
           上の2つの方法の組み合わせ
           目的の★(1)+★(2)に相当

                                         8
方法1.スニペットを用いる方法
   スニペットとは
       検索エンジンで検索した際に、結果ページタイトル下に
        表示される”検索クエリを含む短い説明文”のこと
       クエリの前後の文脈情報を持っている


          スニペット


   方法
クエリ                クエリを   例:
           スニペット
                   含んだ文   積水樹脂 LOC:0 ORG:12 PER:0 => ORG
                          山本博 LOC:6 ORG:10 PER:44 => PER

 検索                固有表現
           文抽出               多数決          カテゴリ
エンジン                抽出                                9
方法2.ウェブカウントを用いる方法
   ウェブカウントとは
        ある検索クエリでウェブ検索した際の”hit数”
        ウェブカウントが大きい = 一般的な言葉



   方法
                 検索    ウェブカウ
    クエリ                        分類器      カテゴリ
                エンジン   ント素性

         パターン

例 積水樹脂:”積水樹脂株式”で検索 ⇒ ウェブカウント 138,000 ⇒ 組織名と推測
  山本博: ”山本博株式”で検索 ⇒ ウェブカウント    216 ⇒ 組織名ではないと推測

                                               10
パターンの説明
   パターンとは
       クエリの前後あるいは周辺に表れる特定の単語
       前後に表れるものを接頭、接尾表現、周辺を周辺と表す
   パターンの収集方法
       単一トークンのウェブ検索クエリを使いウェブ検索を行う
       検索結果の上位50件からスニペットを抽出する
       スニペットを文毎に分割し、クエリを含んだ文を収集する
       収集した文を形態素解析し、解析結果から
        周辺、接頭表現、接尾表現をそれぞれ抽出する
   パターンの例
           周辺        接頭表現      接尾表現
          ファン、社    アーティスト、法人   株式、医院   11
方法3.スニペットとウェブカウントを
        組み合わせる方法
   スニペットの結果とウェブカウントの素性を同時に
    扱う

   スニペットの結果は、取得したスニペットから
    集計しているので、取得したスニペットの数で割る
    ことにより正規化する

   正規化されたスニペットの結果と、ウェブカウントの
    素性で教師あり学習により分類器を作成し、
    カテゴリ分類を行う
                              12
評価実験


       14
評価実験ー評価方法

   評価方法
        各分類方法を以下の方法で評価
     分類方法                  評価方法
     スニペット         実験用クエリセットを分類して、分類精度をみる
    ウェブカウント   実験用クエリセットで10分割交差検定を行い、分類精度の平均をみる
    組み合わせ     実験用クエリセットで10分割交差検定を行い、分類精度の平均をみる


   実験用クエリセット
        あらかじめ人手でラベル付けされたクエリセット


                                                 15
評価実験ー実験条件(1/3)
   実験用クエリセット
       2008年8月のウェブ検索クエリログ10万件のうち
        スペースを含まないものからランダムサンプリング

       組織名・人名・地名をIREXの固有表現定義に基づいて
        ラベル付けを行った

       実験用クエリの内訳
            ラベル        クエリ数             クエリ例
          ORG(組織名)        379      積水樹脂、広島市立図書館 など
           PER(人名)        140        原幹恵、末續慎吾 など
           LOC(地名)            65     池袋、相模大野 など
         NOT_NE(その他)      914      貿易実務検定、ドコモダケ など
                                                     16
             合計          1498
評価実験ー実験条件(2/3)
   固有表現抽出
       学習器
           YamChaに類似の独自の学習器


       学習データ
           ニュース記事を主としたデータを、IREXの固有表現定義に
            基づいてアノテーションしたもの
           定義のうち、人名・地名・組織名に関するもののみを適用


       抽出器の性能
           ニュース記事を主とした評価データに対して、F値で87程度
                                           17
評価実験ー実験条件(3/3)
   ウェブカウント用のパターン
       収集に使用したクエリ
           2010年1月1日から2010年8月15日までのウェブ検索クエリ
           スペースが入っていないもの


       集計したパターンのうち頻度が上位のもの

       パターンの内訳
                パターン   パターン数      パターン例
                 周辺        500   ファン,文化
                接頭表現       500   社,アーティスト
                接尾表現       500    医院,駅
                                            18
評価尺度
   評価には以下の尺度を用いた
       Accuracy
           全てのラベルの正解数 / 全クエリ数
       Recall
           対象ラベルに対する正解数 / 対象ラベルのクエリ数
       Precision
           対象ラベルに対する正解数 / 対象ラベルに分類したクエリ数
       F値
           2 * Precision * Recall / ( Precision + Recall )

                                                              19
実験結果


       20
実験結果(1/2)
   固有表現全体の分類性能
       固有表現であるORG,PER,LOCを対象のラベルとして
        各尺度を計算

       スニペットとウェブカウントを比較すると、スニペットでは
        Recall,ウェブカウントではPrecisionが高い

       Recall以外は、組み合わせることで分類性能が向上
    分類方法    Accuracy      Recall       Precision     F値
    スニペット         69.29        69.35         53.29        60.27
ウェブカウント           76.03        61.64         66.30        63.89
    組み合わせ         79.64        65.75         73.00        69.19
                                                              21
実験結果(2/2)
   各カテゴリの分類性能
         スニペットとウェブカウントを比較すると、スニペットは
          Recallが高く、ウェブカウントはPrecisionが高い
         全てのカテゴリで、組み合わせのF値が最も高い
         全体を通してORGの分類性能は低い

分類方法                スニペット                  ウェブカウント                 組み合わせ
カテゴリ        Rec      Pre     F値      Rec     Pre     F値      Rec     Pre     F値
    ORG     68.87    52.20   59.39   58.05   63.22   60.52   62.01   68.71   65.19
    PER     73.57    55.98   63.58   69.29   75.78   72.39   75.71   82.81   79.10
    LOC     63.08    53.95   58.16   66.15   64.18   65.15   66.15   76.79   71.07
NOT_NE      69.26    85.77   76.64   85.23   81.57   83.36   88.51   83.23   85.79
                                                                               22
考察


     23
スニペットを用いる方法(1/3)
   使用する文の数と分類精度の関係について
       使用する文の数が少ないとNOT_NEだが、文の数を
        増やすと何かしらの固有表現に分類される場合がある
        • スニペット中にクエリが固有表現として扱われた文があれば、
          その固有表現のカテゴリと決まるため
       使用する文を増やせば、固有表現であるクエリは正しく分類され、
        NOT_NEのクエリは誤って分類されやすくなると考えられる


             クエリ    正解ラベル    10文使用    100文使用
            三輪明宏     PER     NOT_NE    PER
            志賀高原     LOC     NOT_NE    LOC
            諏訪湖花火   NOT_NE   NOT_NE    PER
            使用する文の数によって分類結果が変化する例
                                               24
スニペットを用いる方法(2/3)
   使用する文の数を変化させて分類精度を調査
       使用する文の数を増やすと、Recallが上がりPrecisionが下がる
       固有表現であるクエリ ⇒ 正しく分類されやすくなる
       NOT_NEなクエリ ⇒ 誤って分類されやすくなる
       よって、文の数を増やすことで、固有表現であるクエリのRecallを
        重視した分類になる




                                 文数
                   文の数と分類精度の関係                 25
スニペットを用いる方法(3/3)
   固有表現抽出器の精度依存について
       スニペットから正しく固有表現抽出できることが前提
       固有表現抽出できないクエリは、使用する文の数を
        増やしても効果は期待しにくい
       クエリそのものが正しく形態素に分けられない場合など
        は、何文処理してもクエリ部分は抽出されないため

            クエリ       正解ラベル       分類結果
            arsenal     ORG       NOT_NE
           ほしのまき        PER       NOT_NE
               うまく固有表現抽出できなかったクエリの例

                                           26
ウェブカウントを用いる方法
   接頭表現や接尾表現のパターンが特定の単語を分類す
    ることを目的としているため、パターンに合致するようなク
    エリの分類精度はよいと考えられる
   一方、文脈をみていないので、文脈によって判断結果が
    変わるようなクエリを誤る場合がみられた

     クエリ      正解ラベル   分類結果    クエリ     正解ラベル   分類結果
    arsenal    ORG    ORG    浜松町駅      LOC    ORG
    ほしのまき      PER    PER    内外タイムス    ORG    LOC

                ウェブカウントを用いる方法の分類結果の例


                                                     27
組み合わせる方法
• ほぼ全てのカテゴリにおいて、組み合わせる方法
  の精度が最も高かった
• 組み合わせることにより、スニペットとウェブカウント
  の弱点を補完できているためだと考えられる


• スニペットとウェブカウントの特徴
                             スニペット            ウェブカウント
 Recall or Precision   (使用文が多ければ)Recall重視     Precision重視
固有表現抽出の精度依存               精度の影響を受ける         精度の影響を受けない
文脈に依存するクエリ              文脈考慮するので対応できる       文脈考慮しないので難しい


                                                            28
まとめと今後


         29
まとめと今後
• まとめ
 • クエリのカテゴリ分類問題に対して、2種類の情報が役
   立つかを検証
   • 3つの分類方法で評価実験
 • スニペットは F値 60.27、ウェブカウントは F値 63.89
 • 組み合わせることで精度が向上 F値 69.19
• 今後の課題
 • 分類するカテゴリの種類を拡張
 • 固有表現抽出器に使う学習データを
   ウェブ文書(=スニペット)に対応させる

                                       30
ありがとうございました


              31

More Related Content

Similar to スニペットとウェブカウントを用いたウェブ検索クエリの分類

第10回rest勉強会 リファクタリング(サーバ編)編
第10回rest勉強会 リファクタリング(サーバ編)編第10回rest勉強会 リファクタリング(サーバ編)編
第10回rest勉強会 リファクタリング(サーバ編)編ksimoji
 
Ai for marketing
Ai for marketingAi for marketing
Ai for marketingHiroki Iida
 
Optimization and simulation with DataRobot
Optimization and simulation with DataRobotOptimization and simulation with DataRobot
Optimization and simulation with DataRobotYuya Yamamoto
 
Collaborativefilteringwith r
Collaborativefilteringwith rCollaborativefilteringwith r
Collaborativefilteringwith rTeito Nakagawa
 
Jubatusでマルウェア分類
Jubatusでマルウェア分類Jubatusでマルウェア分類
Jubatusでマルウェア分類Shuzo Kashihara
 
全文検索In着うた配信サービス
全文検索In着うた配信サービス全文検索In着うた配信サービス
全文検索In着うた配信サービスtechtalkdwango
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 
Azure Search 言語処理関連機能 〜 アナライザー、検索クエリー、辞書、& ランキング, etc
Azure Search 言語処理関連機能 〜 アナライザー、検索クエリー、辞書、& ランキング, etcAzure Search 言語処理関連機能 〜 アナライザー、検索クエリー、辞書、& ランキング, etc
Azure Search 言語処理関連機能 〜 アナライザー、検索クエリー、辞書、& ランキング, etcYoichi Kawasaki
 
コーパス学習による Apache Solr の徹底活用
コーパス学習による Apache Solr の徹底活用コーパス学習による Apache Solr の徹底活用
コーパス学習による Apache Solr の徹底活用Koji Sekiguchi
 
大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価Yahoo!デベロッパーネットワーク
 
TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?KSK Analytics Inc.
 
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編Toshi Harada
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleYusuke Matsubara
 

Similar to スニペットとウェブカウントを用いたウェブ検索クエリの分類 (20)

第10回rest勉強会 リファクタリング(サーバ編)編
第10回rest勉強会 リファクタリング(サーバ編)編第10回rest勉強会 リファクタリング(サーバ編)編
第10回rest勉強会 リファクタリング(サーバ編)編
 
Ai for marketing
Ai for marketingAi for marketing
Ai for marketing
 
honda m
honda mhonda m
honda m
 
Optimization and simulation with DataRobot
Optimization and simulation with DataRobotOptimization and simulation with DataRobot
Optimization and simulation with DataRobot
 
PHP版レガシーコード改善に役立つ新パターン #wewlc_jp
PHP版レガシーコード改善に役立つ新パターン #wewlc_jp PHP版レガシーコード改善に役立つ新パターン #wewlc_jp
PHP版レガシーコード改善に役立つ新パターン #wewlc_jp
 
Collaborativefilteringwith r
Collaborativefilteringwith rCollaborativefilteringwith r
Collaborativefilteringwith r
 
Pfi last seminar
Pfi last seminarPfi last seminar
Pfi last seminar
 
OSS ソースコードサーチツールの効能、有効活用方法
OSS ソースコードサーチツールの効能、有効活用方法OSS ソースコードサーチツールの効能、有効活用方法
OSS ソースコードサーチツールの効能、有効活用方法
 
全文検索入門
全文検索入門全文検索入門
全文検索入門
 
Jubatusでマルウェア分類
Jubatusでマルウェア分類Jubatusでマルウェア分類
Jubatusでマルウェア分類
 
全文検索In着うた配信サービス
全文検索In着うた配信サービス全文検索In着うた配信サービス
全文検索In着うた配信サービス
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
第28回Tokyo.R
第28回Tokyo.R第28回Tokyo.R
第28回Tokyo.R
 
Azure Search 言語処理関連機能 〜 アナライザー、検索クエリー、辞書、& ランキング, etc
Azure Search 言語処理関連機能 〜 アナライザー、検索クエリー、辞書、& ランキング, etcAzure Search 言語処理関連機能 〜 アナライザー、検索クエリー、辞書、& ランキング, etc
Azure Search 言語処理関連機能 〜 アナライザー、検索クエリー、辞書、& ランキング, etc
 
Nips20180127
Nips20180127Nips20180127
Nips20180127
 
コーパス学習による Apache Solr の徹底活用
コーパス学習による Apache Solr の徹底活用コーパス学習による Apache Solr の徹底活用
コーパス学習による Apache Solr の徹底活用
 
大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価
 
TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?
 
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編
 
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principleSegmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
 

More from Yahoo!デベロッパーネットワーク

ヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるかヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるかYahoo!デベロッパーネットワーク
 
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2Yahoo!デベロッパーネットワーク
 
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtcヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtcYahoo!デベロッパーネットワーク
 
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtcYahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtcYahoo!デベロッパーネットワーク
 
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtcヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtcYahoo!デベロッパーネットワーク
 
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtcYahoo!デベロッパーネットワーク
 
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtcPC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtcYahoo!デベロッパーネットワーク
 
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtcモブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtcYahoo!デベロッパーネットワーク
 
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtcユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtcYahoo!デベロッパーネットワーク
 

More from Yahoo!デベロッパーネットワーク (20)

ゼロから始める転移学習
ゼロから始める転移学習ゼロから始める転移学習
ゼロから始める転移学習
 
継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes Operator継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes Operator
 
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるかヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
 
オンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッションオンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッション
 
LakeTahoe
LakeTahoeLakeTahoe
LakeTahoe
 
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
 
Persistent-memory-native Database High-availability Feature
Persistent-memory-native Database High-availability FeaturePersistent-memory-native Database High-availability Feature
Persistent-memory-native Database High-availability Feature
 
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
 
eコマースと実店舗の相互利益を目指したデザイン #yjtc
eコマースと実店舗の相互利益を目指したデザイン #yjtceコマースと実店舗の相互利益を目指したデザイン #yjtc
eコマースと実店舗の相互利益を目指したデザイン #yjtc
 
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtcヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
 
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtcYahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
 
ビッグデータから人々のムードを捉える #yjtc
ビッグデータから人々のムードを捉える #yjtcビッグデータから人々のムードを捉える #yjtc
ビッグデータから人々のムードを捉える #yjtc
 
サイエンス領域におけるMLOpsの取り組み #yjtc
サイエンス領域におけるMLOpsの取り組み #yjtcサイエンス領域におけるMLOpsの取り組み #yjtc
サイエンス領域におけるMLOpsの取り組み #yjtc
 
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtcヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
 
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtcYahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
 
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
 
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtcPC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
 
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtcモブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
 
「新しいおうち探し」のためのAIアシスト検索 #yjtc
「新しいおうち探し」のためのAIアシスト検索 #yjtc「新しいおうち探し」のためのAIアシスト検索 #yjtc
「新しいおうち探し」のためのAIアシスト検索 #yjtc
 
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtcユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
 

Recently uploaded

Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 

Recently uploaded (9)

Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 

スニペットとウェブカウントを用いたウェブ検索クエリの分類

  • 1. スニペットとウェブカウントを用いた ウェブ検索クエリの分類 ヤフー株式会社 R&D統括本部 PF開発本部 要素技術開発部 開発2 大久保 拓也 ヤフー株式会社 Y!J研究所 颯々野 学 1
  • 2. アジェンダ • 背景と目的 • クエリ分類の方法 • 評価実験 • 実験結果 • 考察 • まとめと今後 2
  • 4. 背景  背景  情報検索の性能に対する期待は高まっている  高精度な検索,検索要求にあわせた結果の提示  ユーザの検索要求を満たすには様々な工夫が必要  クエリに対する工夫 … クエリ拡張,クエリ分類 など  文書に対する工夫 … 文書分類,文書要約 など クエリ分類の利用例 クエリが人名なら写真やプロフィールを出す  本研究では、ウェブ検索クエリをカテゴリ分類する タスクに取り組む 4
  • 5. クエリ分類における問題  検索クエリをカテゴリ分類する際の問題点  クエリが短い  得られる情報が少ない  単一トークンあるいは高々数トークンのクエリがほとんど  クエリが曖昧  複数の意味に解釈できる  クエリそのものの持つ情報だけでは、十分な情報 を得られないため、これらを補う方法が必要  クエリログ,検索エンジンの結果を利用する など 5
  • 6. 本研究の目的 • 目的 • 「クエリ分類」に対して、(★)の情報が役立つか ★(1)スニペットから得られる文脈情報(※) (※)系列ラベリングで解く固有表現抽出(NER)を使う ★(2)共起表現のウェブカウント • 検証用のタスク • 単一トークンのクエリをPER,LOC,ORG,NOT_NEに分類 PER(人名) LOC(地名) ORG(組織名) NOT_NE(その他) 原幹恵 池袋 積水樹脂 他の固有物名 例 山本博 相模大野 広島市立図書館 一般名詞など 6
  • 8. クエリ分類の方法  3種類の方法で検証実験  方法1.スニペットを用いる方法  検索スニペットから得られるクエリ周辺の文脈情報に着目  固有表現抽出によって文脈情報を処理  目的の★(1)に相当  方法2.ウェブカウントを用いる方法  クエリ周辺のテキストに現れる特定パターンに着目  目的の★(2)に相当  方法3.スニペットとウェブカウントを組み合わせる方法  上の2つの方法の組み合わせ  目的の★(1)+★(2)に相当 8
  • 9. 方法1.スニペットを用いる方法  スニペットとは  検索エンジンで検索した際に、結果ページタイトル下に 表示される”検索クエリを含む短い説明文”のこと  クエリの前後の文脈情報を持っている スニペット  方法 クエリ クエリを 例: スニペット 含んだ文 積水樹脂 LOC:0 ORG:12 PER:0 => ORG 山本博 LOC:6 ORG:10 PER:44 => PER 検索 固有表現 文抽出 多数決 カテゴリ エンジン 抽出 9
  • 10. 方法2.ウェブカウントを用いる方法  ウェブカウントとは  ある検索クエリでウェブ検索した際の”hit数”  ウェブカウントが大きい = 一般的な言葉  方法 検索 ウェブカウ クエリ 分類器 カテゴリ エンジン ント素性 パターン 例 積水樹脂:”積水樹脂株式”で検索 ⇒ ウェブカウント 138,000 ⇒ 組織名と推測 山本博: ”山本博株式”で検索 ⇒ ウェブカウント 216 ⇒ 組織名ではないと推測 10
  • 11. パターンの説明  パターンとは  クエリの前後あるいは周辺に表れる特定の単語  前後に表れるものを接頭、接尾表現、周辺を周辺と表す  パターンの収集方法  単一トークンのウェブ検索クエリを使いウェブ検索を行う  検索結果の上位50件からスニペットを抽出する  スニペットを文毎に分割し、クエリを含んだ文を収集する  収集した文を形態素解析し、解析結果から 周辺、接頭表現、接尾表現をそれぞれ抽出する  パターンの例 周辺 接頭表現 接尾表現 ファン、社 アーティスト、法人 株式、医院 11
  • 12. 方法3.スニペットとウェブカウントを 組み合わせる方法  スニペットの結果とウェブカウントの素性を同時に 扱う  スニペットの結果は、取得したスニペットから 集計しているので、取得したスニペットの数で割る ことにより正規化する  正規化されたスニペットの結果と、ウェブカウントの 素性で教師あり学習により分類器を作成し、 カテゴリ分類を行う 12
  • 14. 評価実験ー評価方法  評価方法  各分類方法を以下の方法で評価 分類方法 評価方法 スニペット 実験用クエリセットを分類して、分類精度をみる ウェブカウント 実験用クエリセットで10分割交差検定を行い、分類精度の平均をみる 組み合わせ 実験用クエリセットで10分割交差検定を行い、分類精度の平均をみる  実験用クエリセット  あらかじめ人手でラベル付けされたクエリセット 15
  • 15. 評価実験ー実験条件(1/3)  実験用クエリセット  2008年8月のウェブ検索クエリログ10万件のうち スペースを含まないものからランダムサンプリング  組織名・人名・地名をIREXの固有表現定義に基づいて ラベル付けを行った  実験用クエリの内訳 ラベル クエリ数 クエリ例 ORG(組織名) 379 積水樹脂、広島市立図書館 など PER(人名) 140 原幹恵、末續慎吾 など LOC(地名) 65 池袋、相模大野 など NOT_NE(その他) 914 貿易実務検定、ドコモダケ など 16 合計 1498
  • 16. 評価実験ー実験条件(2/3)  固有表現抽出  学習器  YamChaに類似の独自の学習器  学習データ  ニュース記事を主としたデータを、IREXの固有表現定義に 基づいてアノテーションしたもの  定義のうち、人名・地名・組織名に関するもののみを適用  抽出器の性能  ニュース記事を主とした評価データに対して、F値で87程度 17
  • 17. 評価実験ー実験条件(3/3)  ウェブカウント用のパターン  収集に使用したクエリ  2010年1月1日から2010年8月15日までのウェブ検索クエリ  スペースが入っていないもの  集計したパターンのうち頻度が上位のもの  パターンの内訳 パターン パターン数 パターン例 周辺 500 ファン,文化 接頭表現 500 社,アーティスト 接尾表現 500 医院,駅 18
  • 18. 評価尺度  評価には以下の尺度を用いた  Accuracy  全てのラベルの正解数 / 全クエリ数  Recall  対象ラベルに対する正解数 / 対象ラベルのクエリ数  Precision  対象ラベルに対する正解数 / 対象ラベルに分類したクエリ数  F値  2 * Precision * Recall / ( Precision + Recall ) 19
  • 20. 実験結果(1/2)  固有表現全体の分類性能  固有表現であるORG,PER,LOCを対象のラベルとして 各尺度を計算  スニペットとウェブカウントを比較すると、スニペットでは Recall,ウェブカウントではPrecisionが高い  Recall以外は、組み合わせることで分類性能が向上 分類方法 Accuracy Recall Precision F値 スニペット 69.29 69.35 53.29 60.27 ウェブカウント 76.03 61.64 66.30 63.89 組み合わせ 79.64 65.75 73.00 69.19 21
  • 21. 実験結果(2/2)  各カテゴリの分類性能  スニペットとウェブカウントを比較すると、スニペットは Recallが高く、ウェブカウントはPrecisionが高い  全てのカテゴリで、組み合わせのF値が最も高い  全体を通してORGの分類性能は低い 分類方法 スニペット ウェブカウント 組み合わせ カテゴリ Rec Pre F値 Rec Pre F値 Rec Pre F値 ORG 68.87 52.20 59.39 58.05 63.22 60.52 62.01 68.71 65.19 PER 73.57 55.98 63.58 69.29 75.78 72.39 75.71 82.81 79.10 LOC 63.08 53.95 58.16 66.15 64.18 65.15 66.15 76.79 71.07 NOT_NE 69.26 85.77 76.64 85.23 81.57 83.36 88.51 83.23 85.79 22
  • 22. 考察 23
  • 23. スニペットを用いる方法(1/3)  使用する文の数と分類精度の関係について  使用する文の数が少ないとNOT_NEだが、文の数を 増やすと何かしらの固有表現に分類される場合がある • スニペット中にクエリが固有表現として扱われた文があれば、 その固有表現のカテゴリと決まるため  使用する文を増やせば、固有表現であるクエリは正しく分類され、 NOT_NEのクエリは誤って分類されやすくなると考えられる クエリ 正解ラベル 10文使用 100文使用 三輪明宏 PER NOT_NE PER 志賀高原 LOC NOT_NE LOC 諏訪湖花火 NOT_NE NOT_NE PER 使用する文の数によって分類結果が変化する例 24
  • 24. スニペットを用いる方法(2/3)  使用する文の数を変化させて分類精度を調査  使用する文の数を増やすと、Recallが上がりPrecisionが下がる  固有表現であるクエリ ⇒ 正しく分類されやすくなる  NOT_NEなクエリ ⇒ 誤って分類されやすくなる  よって、文の数を増やすことで、固有表現であるクエリのRecallを 重視した分類になる 文数 文の数と分類精度の関係 25
  • 25. スニペットを用いる方法(3/3)  固有表現抽出器の精度依存について  スニペットから正しく固有表現抽出できることが前提  固有表現抽出できないクエリは、使用する文の数を 増やしても効果は期待しにくい  クエリそのものが正しく形態素に分けられない場合など は、何文処理してもクエリ部分は抽出されないため クエリ 正解ラベル 分類結果 arsenal ORG NOT_NE ほしのまき PER NOT_NE うまく固有表現抽出できなかったクエリの例 26
  • 26. ウェブカウントを用いる方法  接頭表現や接尾表現のパターンが特定の単語を分類す ることを目的としているため、パターンに合致するようなク エリの分類精度はよいと考えられる  一方、文脈をみていないので、文脈によって判断結果が 変わるようなクエリを誤る場合がみられた クエリ 正解ラベル 分類結果 クエリ 正解ラベル 分類結果 arsenal ORG ORG 浜松町駅 LOC ORG ほしのまき PER PER 内外タイムス ORG LOC ウェブカウントを用いる方法の分類結果の例 27
  • 27. 組み合わせる方法 • ほぼ全てのカテゴリにおいて、組み合わせる方法 の精度が最も高かった • 組み合わせることにより、スニペットとウェブカウント の弱点を補完できているためだと考えられる • スニペットとウェブカウントの特徴 スニペット ウェブカウント Recall or Precision (使用文が多ければ)Recall重視 Precision重視 固有表現抽出の精度依存 精度の影響を受ける 精度の影響を受けない 文脈に依存するクエリ 文脈考慮するので対応できる 文脈考慮しないので難しい 28
  • 29. まとめと今後 • まとめ • クエリのカテゴリ分類問題に対して、2種類の情報が役 立つかを検証 • 3つの分類方法で評価実験 • スニペットは F値 60.27、ウェブカウントは F値 63.89 • 組み合わせることで精度が向上 F値 69.19 • 今後の課題 • 分類するカテゴリの種類を拡張 • 固有表現抽出器に使う学習データを ウェブ文書(=スニペット)に対応させる 30