Suche senden
Hochladen
日本語かな漢字変換における識別モデルの適用とその考察
•
1 gefällt mir
•
1,217 views
T
tkng
Folgen
Technologie
Diashow-Anzeige
Melden
Teilen
Diashow-Anzeige
Melden
Teilen
1 von 30
Jetzt herunterladen
Downloaden Sie, um offline zu lesen
Empfohlen
小林敏:ルビの配置方法 1 2_2
小林敏:ルビの配置方法 1 2_2
Japan Electronic Publishing Association
Deconvolutional paragraph representation learning
Deconvolutional paragraph representation learning
Yasuhide Miura
変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
Confidence Weightedで ランク学習を実装してみた
Confidence Weightedで ランク学習を実装してみた
tkng
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
Empfohlen
小林敏:ルビの配置方法 1 2_2
小林敏:ルビの配置方法 1 2_2
Japan Electronic Publishing Association
Deconvolutional paragraph representation learning
Deconvolutional paragraph representation learning
Yasuhide Miura
変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
Confidence Weightedで ランク学習を実装してみた
Confidence Weightedで ランク学習を実装してみた
tkng
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
Skeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
Introduction to Data Science
Introduction to Data Science
Christy Abraham Joy
Weitere ähnliche Inhalte
Kürzlich hochgeladen
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
Kürzlich hochgeladen
(9)
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Empfohlen
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
Skeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
Introduction to Data Science
Introduction to Data Science
Christy Abraham Joy
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
Vit Horky
The six step guide to practical project management
The six step guide to practical project management
MindGenius
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Applitools
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
GetSmarter
ChatGPT webinar slides
ChatGPT webinar slides
Alireza Esmikhani
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
Project for Public Spaces & National Center for Biking and Walking
Empfohlen
(20)
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
Skeleton Culture Code
Skeleton Culture Code
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
How to have difficult conversations
How to have difficult conversations
Introduction to Data Science
Introduction to Data Science
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
The six step guide to practical project management
The six step guide to practical project management
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
ChatGPT webinar slides
ChatGPT webinar slides
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
日本語かな漢字変換における識別モデルの適用とその考察
1.
日本語かな漢字変換における 識別モデルの適用とその考察 株式会社 Preferred Infrastructure
◯徳永拓之, 岡野原大輔 tkng@preferred.jp twitter:@tkng
2.
発表概要 ●
かな漢字変換とは ● 既存手法の紹介 ● 提案手法 ● 実験結果 ● まとめ 日本語かな漢字変換における識別モデルの適用とその考察 2
3.
かな漢字変換問題とは ●
入力となる文字列xに対し、漢字かな交じり列y を提示する ● 変換結果yが正解y'と同じ、もしくは類似して いるほど良い 「くろいひとみのおおきなおんなのこ」 ↓ 「黒い瞳の大きな女の子」 日本語かな漢字変換における識別モデルの適用とその考察 3
4.
典型的な解き方 ●
全ての部分文字列に対して辞書引きにより変換 候補を求め、グラフを作る ● ビタビアルゴリズムを用いてグラフの最短経路 を求める ● 問題:グラフのノード間の距離をどうやって決 めるか? 日本語かな漢字変換における識別モデルの適用とその考察 4
5.
1. グラフの構築
転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 5
6.
2. 前向きに辿る ●
BOSから辿って、一番低いコストを実現するパ スと、その時のコストを記憶する 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 6
7.
2. 前向きに辿る ●
BOSから辿って、一番低いコストを実現するパ スと、その時のコストを記憶する 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 7
8.
2. 前向きに辿る ●
BOSから辿って、一番低いコストを実現するパ スと、その時のコストを記憶する 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 8
9.
2. 前向きに辿る ●
BOSから辿って、一番低いコストを実現するパ スと、その時のコストを記憶する 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 9
10.
2. 前向きに辿る ●
BOSから辿って、一番低いコストを実現するパ スと、その時のコストを記憶する 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 10
11.
3. 後ろ向きに辿る ●
EOSから赤いところを辿ると最適解が求まる 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 11
12.
3. 後ろ向きに辿る ●
EOSから赤いところを辿ると最適解が求まる 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 12
13.
3. 後ろ向きに辿る ●
EOSから赤いところを辿ると最適解が求まる 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 13
14.
3. 後ろ向きに辿る ●
EOSから赤いところを辿ると最適解が求まる 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 14
15.
3. 後ろ向きに辿る ●
EOSから赤いところを辿ると最適解が求まる 転 食う 野 城 BOS 点 空 の 死 ろ EOS 天空 四 日本語かな漢字変換における識別モデルの適用とその考察 15
16.
ノード間の距離の決め方は? ●
確率的言語モデルを用いる [森, 1999] ● 識別モデルを用いる(提案手法) 日本語かな漢字変換における識別モデルの適用とその考察 16
17.
確率的言語モデルによるかな漢字変換 (1/2) ●
入力xに対する出力yとして、確率値P(y|x)を最 大とするyを出力する P(天空の城|てんくうのしろ) > P(点食うの死ろ |てんくうのしろ) みたいにモデル化したい 日本語かな漢字変換における識別モデルの適用とその考察 17
18.
確率的言語モデルによるかな漢字変換 (2/2) ●
P(y|x) ∝ P(y) P(x|y) ● P(x) を言語モデルと呼ぶ ● P(x|y) をかな漢字モデルと呼ぶ ● 言語モデルは日本語として正しそうな文に大きなス コアを与える ● かな漢字モデルはP(げん|間) みたいな珍しい読み方 に対してペナルティを与える 日本語かな漢字変換における識別モデルの適用とその考察 18
19.
今回提案する手法 ●
識別的な手法でパラメーターを調整する ● 形態素解析はCRFで解析精度が向上 [工藤, 2004] 今回は構造化SVMを利用した 日本語かな漢字変換における識別モデルの適用とその考察 19
20.
識別モデルの特徴 ●
パラメーターに対する制約がゆるい ● ベイズの定理を使う場合、確率分布であるという条 件を満たす必要がある箇所がある ● 制約がゆるい分パラメーター最適化は大変 ● 閉じた形で最適解が求まらないので、勾配法を使っ て最適化する 日本語かな漢字変換における識別モデルの適用とその考察 20
21.
FOBOSによる構造化SVMの最適化 ●
Forward Backward Splitting (Duchi, 2009) 日本語かな漢字変換における識別モデルの適用とその考察 21
22.
構造化SVMの直感的な説明 ●
現在のパラメーターで変換してみる ● ただし、正解パスにはペナルティを与えておく ● うまく変換できたらOK ● できなかったら? ● 正解パスの距離を小さくする ● 不正解パスの距離を長くする ● その後、正則化をかける 日本語かな漢字変換における識別モデルの適用とその考察 22
23.
実験の設定 ●
データ:京大コーパス ● 学習に約16000文、テストに約2000文 ● 提案手法:構造化SVM ● 素性:クラスバイグラム, 単語バイグラム, 単語ユニグ ラム, 単語とよみのペア ● 比較対象:確率的言語モデル ● 言語モデル:クラスバイグラム, 単語バイグラム, 単語 ユニグラムの線形和 ● 仮名漢字モデル:単語とよみのペア 日本語かな漢字変換における識別モデルの適用とその考察 23
24.
評価指標 ●
精度:|LCS| / |SYS| ● 再現率:|LCS| / |CPS| |CPS|:正解の文字数 |SYS|:システムの出力した文字数 |LCS|:CPSとSYSの最長共通部分列の文字数 日本語かな漢字変換における識別モデルの適用とその考察 24
25.
実験結果 ●
精度、再現率で提案手法は3%程度上回った 日本語かな漢字変換における識別モデルの適用とその考察 25
26.
間違い例 ●
同音異義語 ● 地球 集会 軌道(正解:地球 周回 軌道) ● 未知語 ● 簿ー・晩・帰依と(正解:ボー・バン・キエト) ● 表記揺れ ● 一 歳年下の弟(正解:1 歳年下の弟) 日本語かな漢字変換における識別モデルの適用とその考察 26
27.
考察 ●
識別的手法は形態素解析の場合と同様に、かな 漢字変換においても有効であった ● 間違い例の中には、未知語の場合を除き、単語 境界の検出間違いは見当たらなかった ● 間違いとした物の中には、実際には間違いとは 言えない物も多かった 日本語かな漢字変換における識別モデルの適用とその考察 27
28.
今後の課題 ●
大規模データへの適用 ● 今回の学習コーパスは今となっては小さい (18MB) ● 単語間の共起情報をもっと使いたい ● 仮名文字列を形態素解析した情報を素性に加える ● オンライン学習によるユーザー適応が実用にな るかを調査したい ● まず実用レベルにまで仕上げる必要がある 日本語かな漢字変換における識別モデルの適用とその考察 28
29.
コードはOSSで公開予定 ●
公開予定地:http://code.google.com/p/bell/ 日本語かな漢字変換における識別モデルの適用とその考察 29
30.
まとめ ●
識別的手法(構造化SVM)を用いることで、実 験では3%程度の性能の向上が得られた ● 今後はユーザー適応の実験を行ないたい ● コードはOSSで公開予定 日本語かな漢字変換における識別モデルの適用とその考察 30
Jetzt herunterladen