SlideShare ist ein Scribd-Unternehmen logo
1 von 30
Downloaden Sie, um offline zu lesen
日本語かな漢字変換における
識別モデルの適用とその考察


株式会社 Preferred Infrastructure

   ◯徳永拓之, 岡野原大輔
        tkng@preferred.jp
          twitter:@tkng
発表概要
●
    かな漢字変換とは
●
    既存手法の紹介
●
    提案手法
●
    実験結果
●
    まとめ




           日本語かな漢字変換における識別モデルの適用とその考察   2
かな漢字変換問題とは
●
    入力となる文字列xに対し、漢字かな交じり列y
    を提示する
●
    変換結果yが正解y'と同じ、もしくは類似して
    いるほど良い


     「くろいひとみのおおきなおんなのこ」
                 ↓
        「黒い瞳の大きな女の子」
          日本語かな漢字変換における識別モデルの適用とその考察   3
典型的な解き方
●
    全ての部分文字列に対して辞書引きにより変換
    候補を求め、グラフを作る
●
    ビタビアルゴリズムを用いてグラフの最短経路
    を求める
●
    問題:グラフのノード間の距離をどうやって決
    めるか?



          日本語かな漢字変換における識別モデルの適用とその考察   4
1. グラフの構築




      転        食う       野           城

BOS   点        空        の       死       ろ   EOS

          天空                    四



               日本語かな漢字変換における識別モデルの適用とその考察     5
2. 前向きに辿る
●
    BOSから辿って、一番低いコストを実現するパ
    スと、その時のコストを記憶する


       転        食う       野           城

BOS    点        空        の       死       ろ   EOS

           天空                    四



                日本語かな漢字変換における識別モデルの適用とその考察     6
2. 前向きに辿る
●
    BOSから辿って、一番低いコストを実現するパ
    スと、その時のコストを記憶する


       転        食う       野           城

BOS    点        空        の       死       ろ   EOS

           天空                    四



                日本語かな漢字変換における識別モデルの適用とその考察     7
2. 前向きに辿る
●
    BOSから辿って、一番低いコストを実現するパ
    スと、その時のコストを記憶する


       転        食う       野           城

BOS    点        空        の       死       ろ   EOS

           天空                    四



                日本語かな漢字変換における識別モデルの適用とその考察     8
2. 前向きに辿る
●
    BOSから辿って、一番低いコストを実現するパ
    スと、その時のコストを記憶する


       転        食う       野           城

BOS    点        空        の       死       ろ   EOS

           天空                    四



                日本語かな漢字変換における識別モデルの適用とその考察     9
2. 前向きに辿る
●
    BOSから辿って、一番低いコストを実現するパ
    スと、その時のコストを記憶する


       転        食う       野           城

BOS    点        空        の       死       ろ   EOS

           天空                    四



                日本語かな漢字変換における識別モデルの適用とその考察    10
3. 後ろ向きに辿る
●
    EOSから赤いところを辿ると最適解が求まる



       転        食う       野           城

BOS    点        空        の       死       ろ   EOS

           天空                    四



                日本語かな漢字変換における識別モデルの適用とその考察    11
3. 後ろ向きに辿る
●
    EOSから赤いところを辿ると最適解が求まる



       転        食う       野           城

BOS    点        空        の       死       ろ   EOS

           天空                    四



                日本語かな漢字変換における識別モデルの適用とその考察    12
3. 後ろ向きに辿る
●
    EOSから赤いところを辿ると最適解が求まる



       転        食う       野           城

BOS    点        空        の       死       ろ   EOS

           天空                    四



                日本語かな漢字変換における識別モデルの適用とその考察    13
3. 後ろ向きに辿る
●
    EOSから赤いところを辿ると最適解が求まる



       転        食う       野           城

BOS    点        空        の       死       ろ   EOS

           天空                    四



                日本語かな漢字変換における識別モデルの適用とその考察    14
3. 後ろ向きに辿る
●
    EOSから赤いところを辿ると最適解が求まる



       転        食う       野           城

BOS    点        空        の       死       ろ   EOS

           天空                    四



                日本語かな漢字変換における識別モデルの適用とその考察    15
ノード間の距離の決め方は?
●
    確率的言語モデルを用いる [森, 1999]
●
    識別モデルを用いる(提案手法)




           日本語かな漢字変換における識別モデルの適用とその考察   16
確率的言語モデルによるかな漢字変換 (1/2)

●
    入力xに対する出力yとして、確率値P(y|x)を最
    大とするyを出力する


    P(天空の城|てんくうのしろ) > P(点食うの死ろ
    |てんくうのしろ) みたいにモデル化したい




           日本語かな漢字変換における識別モデルの適用とその考察   17
確率的言語モデルによるかな漢字変換 (2/2)

●
    P(y|x) ∝ P(y) P(x|y)
    ●
        P(x) を言語モデルと呼ぶ
    ●
        P(x|y) をかな漢字モデルと呼ぶ


    ●
        言語モデルは日本語として正しそうな文に大きなス
        コアを与える
    ●
        かな漢字モデルはP(げん|間) みたいな珍しい読み方
        に対してペナルティを与える

                 日本語かな漢字変換における識別モデルの適用とその考察   18
今回提案する手法
●
    識別的な手法でパラメーターを調整する
    ●
        形態素解析はCRFで解析精度が向上 [工藤, 2004]


    今回は構造化SVMを利用した




               日本語かな漢字変換における識別モデルの適用とその考察   19
識別モデルの特徴
●
    パラメーターに対する制約がゆるい
    ●
        ベイズの定理を使う場合、確率分布であるという条
        件を満たす必要がある箇所がある


●
    制約がゆるい分パラメーター最適化は大変
    ●
        閉じた形で最適解が求まらないので、勾配法を使っ
        て最適化する



             日本語かな漢字変換における識別モデルの適用とその考察   20
FOBOSによる構造化SVMの最適化
●
    Forward Backward Splitting (Duchi, 2009)




                日本語かな漢字変換における識別モデルの適用とその考察     21
構造化SVMの直感的な説明
●
    現在のパラメーターで変換してみる
    ●
        ただし、正解パスにはペナルティを与えておく
●
    うまく変換できたらOK
●
    できなかったら?
    ●
        正解パスの距離を小さくする
    ●
        不正解パスの距離を長くする
●
    その後、正則化をかける

              日本語かな漢字変換における識別モデルの適用とその考察   22
実験の設定
●   データ:京大コーパス
    ●
        学習に約16000文、テストに約2000文
●
    提案手法:構造化SVM
    ●
        素性:クラスバイグラム, 単語バイグラム, 単語ユニグ
        ラム, 単語とよみのペア
●   比較対象:確率的言語モデル
    ●
        言語モデル:クラスバイグラム, 単語バイグラム, 単語
        ユニグラムの線形和
    ●
        仮名漢字モデル:単語とよみのペア
               日本語かな漢字変換における識別モデルの適用とその考察   23
評価指標
●
    精度:|LCS| / |SYS|
●
    再現率:|LCS| / |CPS|


    |CPS|:正解の文字数
    |SYS|:システムの出力した文字数
    |LCS|:CPSとSYSの最長共通部分列の文字数


              日本語かな漢字変換における識別モデルの適用とその考察   24
実験結果
●
    精度、再現率で提案手法は3%程度上回った




          日本語かな漢字変換における識別モデルの適用とその考察   25
間違い例
●
    同音異義語
    ●
        地球 集会 軌道(正解:地球 周回 軌道)
●
    未知語
    ●
        簿ー・晩・帰依と(正解:ボー・バン・キエト)
●
    表記揺れ
    ●
        一 歳年下の弟(正解:1 歳年下の弟)



              日本語かな漢字変換における識別モデルの適用とその考察   26
考察
●
    識別的手法は形態素解析の場合と同様に、かな
    漢字変換においても有効であった
●
    間違い例の中には、未知語の場合を除き、単語
    境界の検出間違いは見当たらなかった
●
    間違いとした物の中には、実際には間違いとは
    言えない物も多かった



          日本語かな漢字変換における識別モデルの適用とその考察   27
今後の課題
●
    大規模データへの適用
    ●
        今回の学習コーパスは今となっては小さい (18MB)
●
    単語間の共起情報をもっと使いたい
    ●
        仮名文字列を形態素解析した情報を素性に加える
●
    オンライン学習によるユーザー適応が実用にな
    るかを調査したい
    ●
        まず実用レベルにまで仕上げる必要がある


              日本語かな漢字変換における識別モデルの適用とその考察   28
コードはOSSで公開予定
●
    公開予定地:http://code.google.com/p/bell/




              日本語かな漢字変換における識別モデルの適用とその考察   29
まとめ
●
    識別的手法(構造化SVM)を用いることで、実
    験では3%程度の性能の向上が得られた
●
    今後はユーザー適応の実験を行ないたい
●
    コードはOSSで公開予定




          日本語かな漢字変換における識別モデルの適用とその考察   30

Weitere ähnliche Inhalte

Kürzlich hochgeladen

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 

Kürzlich hochgeladen (9)

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 

Empfohlen

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 

Empfohlen (20)

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 

日本語かな漢字変換における識別モデルの適用とその考察

  • 2. 発表概要 ● かな漢字変換とは ● 既存手法の紹介 ● 提案手法 ● 実験結果 ● まとめ 日本語かな漢字変換における識別モデルの適用とその考察 2
  • 3. かな漢字変換問題とは ● 入力となる文字列xに対し、漢字かな交じり列y を提示する ● 変換結果yが正解y'と同じ、もしくは類似して いるほど良い 「くろいひとみのおおきなおんなのこ」 ↓ 「黒い瞳の大きな女の子」 日本語かな漢字変換における識別モデルの適用とその考察 3
  • 4. 典型的な解き方 ● 全ての部分文字列に対して辞書引きにより変換 候補を求め、グラフを作る ● ビタビアルゴリズムを用いてグラフの最短経路 を求める ● 問題:グラフのノード間の距離をどうやって決 めるか? 日本語かな漢字変換における識別モデルの適用とその考察 4
  • 5. 1. グラフの構築 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 5
  • 6. 2. 前向きに辿る ● BOSから辿って、一番低いコストを実現するパ スと、その時のコストを記憶する 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 6
  • 7. 2. 前向きに辿る ● BOSから辿って、一番低いコストを実現するパ スと、その時のコストを記憶する 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 7
  • 8. 2. 前向きに辿る ● BOSから辿って、一番低いコストを実現するパ スと、その時のコストを記憶する 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 8
  • 9. 2. 前向きに辿る ● BOSから辿って、一番低いコストを実現するパ スと、その時のコストを記憶する 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 9
  • 10. 2. 前向きに辿る ● BOSから辿って、一番低いコストを実現するパ スと、その時のコストを記憶する 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 10
  • 11. 3. 後ろ向きに辿る ● EOSから赤いところを辿ると最適解が求まる 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 11
  • 12. 3. 後ろ向きに辿る ● EOSから赤いところを辿ると最適解が求まる 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 12
  • 13. 3. 後ろ向きに辿る ● EOSから赤いところを辿ると最適解が求まる 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 13
  • 14. 3. 後ろ向きに辿る ● EOSから赤いところを辿ると最適解が求まる 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 14
  • 15. 3. 後ろ向きに辿る ● EOSから赤いところを辿ると最適解が求まる 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 15
  • 16. ノード間の距離の決め方は? ● 確率的言語モデルを用いる [森, 1999] ● 識別モデルを用いる(提案手法) 日本語かな漢字変換における識別モデルの適用とその考察 16
  • 17. 確率的言語モデルによるかな漢字変換 (1/2) ● 入力xに対する出力yとして、確率値P(y|x)を最 大とするyを出力する P(天空の城|てんくうのしろ) > P(点食うの死ろ |てんくうのしろ) みたいにモデル化したい 日本語かな漢字変換における識別モデルの適用とその考察 17
  • 18. 確率的言語モデルによるかな漢字変換 (2/2) ● P(y|x) ∝ P(y) P(x|y) ● P(x) を言語モデルと呼ぶ ● P(x|y) をかな漢字モデルと呼ぶ ● 言語モデルは日本語として正しそうな文に大きなス コアを与える ● かな漢字モデルはP(げん|間) みたいな珍しい読み方 に対してペナルティを与える 日本語かな漢字変換における識別モデルの適用とその考察 18
  • 19. 今回提案する手法 ● 識別的な手法でパラメーターを調整する ● 形態素解析はCRFで解析精度が向上 [工藤, 2004] 今回は構造化SVMを利用した 日本語かな漢字変換における識別モデルの適用とその考察 19
  • 20. 識別モデルの特徴 ● パラメーターに対する制約がゆるい ● ベイズの定理を使う場合、確率分布であるという条 件を満たす必要がある箇所がある ● 制約がゆるい分パラメーター最適化は大変 ● 閉じた形で最適解が求まらないので、勾配法を使っ て最適化する 日本語かな漢字変換における識別モデルの適用とその考察 20
  • 21. FOBOSによる構造化SVMの最適化 ● Forward Backward Splitting (Duchi, 2009) 日本語かな漢字変換における識別モデルの適用とその考察 21
  • 22. 構造化SVMの直感的な説明 ● 現在のパラメーターで変換してみる ● ただし、正解パスにはペナルティを与えておく ● うまく変換できたらOK ● できなかったら? ● 正解パスの距離を小さくする ● 不正解パスの距離を長くする ● その後、正則化をかける 日本語かな漢字変換における識別モデルの適用とその考察 22
  • 23. 実験の設定 ● データ:京大コーパス ● 学習に約16000文、テストに約2000文 ● 提案手法:構造化SVM ● 素性:クラスバイグラム, 単語バイグラム, 単語ユニグ ラム, 単語とよみのペア ● 比較対象:確率的言語モデル ● 言語モデル:クラスバイグラム, 単語バイグラム, 単語 ユニグラムの線形和 ● 仮名漢字モデル:単語とよみのペア 日本語かな漢字変換における識別モデルの適用とその考察 23
  • 24. 評価指標 ● 精度:|LCS| / |SYS| ● 再現率:|LCS| / |CPS| |CPS|:正解の文字数 |SYS|:システムの出力した文字数 |LCS|:CPSとSYSの最長共通部分列の文字数 日本語かな漢字変換における識別モデルの適用とその考察 24
  • 25. 実験結果 ● 精度、再現率で提案手法は3%程度上回った 日本語かな漢字変換における識別モデルの適用とその考察 25
  • 26. 間違い例 ● 同音異義語 ● 地球 集会 軌道(正解:地球 周回 軌道) ● 未知語 ● 簿ー・晩・帰依と(正解:ボー・バン・キエト) ● 表記揺れ ● 一 歳年下の弟(正解:1 歳年下の弟) 日本語かな漢字変換における識別モデルの適用とその考察 26
  • 27. 考察 ● 識別的手法は形態素解析の場合と同様に、かな 漢字変換においても有効であった ● 間違い例の中には、未知語の場合を除き、単語 境界の検出間違いは見当たらなかった ● 間違いとした物の中には、実際には間違いとは 言えない物も多かった 日本語かな漢字変換における識別モデルの適用とその考察 27
  • 28. 今後の課題 ● 大規模データへの適用 ● 今回の学習コーパスは今となっては小さい (18MB) ● 単語間の共起情報をもっと使いたい ● 仮名文字列を形態素解析した情報を素性に加える ● オンライン学習によるユーザー適応が実用にな るかを調査したい ● まず実用レベルにまで仕上げる必要がある 日本語かな漢字変換における識別モデルの適用とその考察 28
  • 29. コードはOSSで公開予定 ● 公開予定地:http://code.google.com/p/bell/ 日本語かな漢字変換における識別モデルの適用とその考察 29
  • 30. まとめ ● 識別的手法(構造化SVM)を用いることで、実 験では3%程度の性能の向上が得られた ● 今後はユーザー適応の実験を行ないたい ● コードはOSSで公開予定 日本語かな漢字変換における識別モデルの適用とその考察 30