OCRは古い技術
- 1. Copyright © Sansan, Inc. All rights reserved.
OCRは古い技術
Sansan株式会社
オペレーション部R&Dグループ
小林幸司
2015.9.30
BearTail(Dr.Wallet)×Sansan -合同LT会-
- 2. Copyright © Sansan, Inc. All rights reserved.
内容
- OCRはふるい技術でできている
- OCRの課題は文字認識ではない
- あぶり出そう
- 5. Copyright © Sansan, Inc. All rights reserved.
Deep Convolutional Network for Handwritten
Chinese Character Recognition (2015)
Yuhao Zhang
Computer Science Department Stanford University
- 6. Copyright © Sansan, Inc. All rights reserved.
混合識別関数による類似文字認識の高精度化 (2000)
中嶋孝,若林哲史,木村文隆,三宅康二 三重大学
3036クラス(ETL9B)に対する認識率
混合改良投影距離 98.90%
混合擬似ベイズ識別関数 98.89%
など
2000年以前にも99%越えの研究例は存在する
- 7. Copyright © Sansan, Inc. All rights reserved.
2000年 から 2015年 何があったか
● SIFT特徴量 (D. G. Lowe 1999)
● Haar-like特徴量 (Viola, Jones 2001)
● Adaboost による顔検出(同上)
● HOG特徴量 (Navneet Dalal and Bill Triggs 2005)
● Deep Learning (2010~)
OCRで使用される技術
● 局所方向ヒストグラム特徴など(ふるい)
○ ほぼHOG
● ベイズ識別、部分空間法(ふるい)
○ 古典的なパターン識別
○ 多クラス問題は回帰が好まれる
- 8. Copyright © Sansan, Inc. All rights reserved.
http://www.technologyreview.com/view/523326/how-
google-cracked-house-number-identification-in-street-
view/
DLは使いどころが難しい。
情景からの検出など、小クラス問題には強い。
- 9. Copyright © Sansan, Inc. All rights reserved.
● DL で多クラス問題を解く難しさ
○ 学習サンプル数の問題など
● 文字に特化した局所特徴量は既にある
○ 主にエッジに着目
● 新しい特徴量、識別器を開発する動機が希薄
○ 課題は別にある
- 11. Copyright © Sansan, Inc. All rights reserved.
Deep Convolutional Network for Handwritten Chinese
Character Recognition (2015)
Yuhao Zhang
95%とか99%って何の数字?
→切り出した文字画像を学習して、評価した数字
- 12. Copyright © Sansan, Inc. All rights reserved.
c% (99%over)
b%
a%
a×b×c = ?
不確定要素はまだある(二値化、ノイズ、文字色
etc)
文字認識性能が良くても前段の処理でミスをす
れば取り戻すことができない!
- 13. Copyright © Sansan, Inc. All rights reserved.
文字認識の性能向上ばかりやっていられない。
OCRの課題は機械学習以外のところに多い。
注:内訳などは適当です!
- 14. Copyright © Sansan, Inc. All rights reserved.
http://www.mvision.co.jp/WebHelpIM/_RESOURCE/Ocr_01_fig.html https://ja.wikipedia.org/wiki/アラビア文字
文字切り出しが成功しないと99%などという数字は到達不
可能
- 15. Copyright © Sansan, Inc. All rights reserved.
Handwritten Japanese Address Recognition Technique Based on Improved Phased Search of
Candidate Rectangle Lattice
H.NAKAYAMA, M.SUZUKI, N.KATO, and Y.NEMOTO
文字切り出しは複数の候補からベストなものを選びたい。
グラフ理論が活躍できるのはここ。
- 16. Copyright © Sansan, Inc. All rights reserved.
基準は?
● 認識類似度
● 文字幅、高さ
● 言語処理
○ 単語のマッチ
○ Nグラム
● など
- 19. Copyright © Sansan, Inc. All rights reserved.
● スコアで比較したいので、識別機は類似度を返すものがよ
い。
○ 古典的な空間法など
● 状況に応じてエッジスコアの定義を見直す必要がある。
● 認識回数が増えるので、計算時間にデメリットがある。
類似度がいい箇所は先に確定してしまうなどの工夫が必要。
● 文字候補数など過剰気味にあったほうがよい。
正解候補がない状態はまずい。
- 21. Copyright © Sansan, Inc. All rights reserved.
辞書と付き合わせながらのあぶり出し例
Lexicon-Driven Handwritten Character String
Recognition for Japanese Address Reading.
Cheng-Lin Li,Masashi Koga,Hiromichi Fujisawa
- 22. Copyright © Sansan, Inc. All rights reserved.
lexicon
言語情報(バイグラムなど)
認識結果
Fast Lexicon-Based Scene Text Recognition with
Sparse Belief Propagation
Jerod J. Weinman, Erik Learned-Miller, and Allen Hanson
文字切り出しだけではないあぶり出し
こちらは文字候補のあぶり出し例
xの認識候補
画像
認識文字
候補
単語候補
- 23. Copyright © Sansan, Inc. All rights reserved.
Scene Text Extraction with Edge Constraint and Text
Collinearity
SeongHun Lee , Min Su Cho , Kyomin Jung , and Jin Hyung Kim
文字列抽出のあぶり出し例
- 24. Copyright © Sansan, Inc. All rights reserved.
まとめ
● OCR内で使われている技術は古い
○ 特徴量
○ 識別機
○ グラフ理論
● 文字認識そのものは現実の要求にこたえら
れるものが既にある
● 現実の開発で求められるものは文字認識そ
のものでないことが多い
● 時代はあぶり出し
○ 慣れてくると文字列はグラフに見えて
くる
○ 「あぶり出し」は専門用語でも何でも
無いので注意が必要