SlideShare ist ein Scribd-Unternehmen logo
1 von 25
Copyright © Sansan, Inc. All rights reserved.
OCRは古い技術
Sansan株式会社
オペレーション部R&Dグループ
小林幸司
2015.9.30
BearTail(Dr.Wallet)×Sansan -合同LT会-
Copyright © Sansan, Inc. All rights reserved.
内容
- OCRはふるい技術でできている
- OCRの課題は文字認識ではない
- あぶり出そう
Copyright © Sansan, Inc. All rights reserved.
文字認識はあんまりがんばってもしょうがない
Copyright © Sansan, Inc. All rights reserved.
OCRの特徴量、識別器
Copyright © Sansan, Inc. All rights reserved.
Deep Convolutional Network for Handwritten
Chinese Character Recognition (2015)
Yuhao Zhang
Computer Science Department Stanford University
Copyright © Sansan, Inc. All rights reserved.
混合識別関数による類似文字認識の高精度化 (2000)
中嶋孝,若林哲史,木村文隆,三宅康二 三重大学
3036クラス(ETL9B)に対する認識率
混合改良投影距離 98.90%
混合擬似ベイズ識別関数 98.89%
など
2000年以前にも99%越えの研究例は存在する
Copyright © Sansan, Inc. All rights reserved.
2000年 から 2015年 何があったか
● SIFT特徴量 (D. G. Lowe 1999)
● Haar-like特徴量 (Viola, Jones 2001)
● Adaboost による顔検出(同上)
● HOG特徴量 (Navneet Dalal and Bill Triggs 2005)
● Deep Learning (2010~)
OCRで使用される技術
● 局所方向ヒストグラム特徴など(ふるい)
○ ほぼHOG
● ベイズ識別、部分空間法(ふるい)
○ 古典的なパターン識別
○ 多クラス問題は回帰が好まれる
Copyright © Sansan, Inc. All rights reserved.
http://www.technologyreview.com/view/523326/how-
google-cracked-house-number-identification-in-street-
view/
DLは使いどころが難しい。
情景からの検出など、小クラス問題には強い。
Copyright © Sansan, Inc. All rights reserved.
● DL で多クラス問題を解く難しさ
○ 学習サンプル数の問題など
● 文字に特化した局所特徴量は既にある
○ 主にエッジに着目
● 新しい特徴量、識別器を開発する動機が希薄
○ 課題は別にある
Copyright © Sansan, Inc. All rights reserved.
文字認識じゃなくて何をがんばるのか
Copyright © Sansan, Inc. All rights reserved.
Deep Convolutional Network for Handwritten Chinese
Character Recognition (2015)
Yuhao Zhang
95%とか99%って何の数字?
→切り出した文字画像を学習して、評価した数字
Copyright © Sansan, Inc. All rights reserved.
c% (99%over)
b%
a%
a×b×c = ?
不確定要素はまだある(二値化、ノイズ、文字色
etc)
文字認識性能が良くても前段の処理でミスをす
れば取り戻すことができない!
Copyright © Sansan, Inc. All rights reserved.
文字認識の性能向上ばかりやっていられない。
OCRの課題は機械学習以外のところに多い。
注:内訳などは適当です!
Copyright © Sansan, Inc. All rights reserved.
http://www.mvision.co.jp/WebHelpIM/_RESOURCE/Ocr_01_fig.html https://ja.wikipedia.org/wiki/アラビア文字
文字切り出しが成功しないと99%などという数字は到達不
可能
Copyright © Sansan, Inc. All rights reserved.
Handwritten Japanese Address Recognition Technique Based on Improved Phased Search of
Candidate Rectangle Lattice
H.NAKAYAMA, M.SUZUKI, N.KATO, and Y.NEMOTO
文字切り出しは複数の候補からベストなものを選びたい。
グラフ理論が活躍できるのはここ。
Copyright © Sansan, Inc. All rights reserved.
基準は?
● 認識類似度
● 文字幅、高さ
● 言語処理
○ 単語のマッチ
○ Nグラム
● など
Copyright © Sansan, Inc. All rights reserved.
最適経路法はこれらを一緒にすることで、
間違いのボトルネックをなくすことを目的
とする
Copyright © Sansan, Inc. All rights reserved.
時代はあぶり出し
Copyright © Sansan, Inc. All rights reserved.
● スコアで比較したいので、識別機は類似度を返すものがよ
い。
○ 古典的な空間法など
● 状況に応じてエッジスコアの定義を見直す必要がある。
● 認識回数が増えるので、計算時間にデメリットがある。
類似度がいい箇所は先に確定してしまうなどの工夫が必要。
● 文字候補数など過剰気味にあったほうがよい。
正解候補がない状態はまずい。
Copyright © Sansan, Inc. All rights reserved.
いろんなあぶり出し
Copyright © Sansan, Inc. All rights reserved.
辞書と付き合わせながらのあぶり出し例
Lexicon-Driven Handwritten Character String
Recognition for Japanese Address Reading.
Cheng-Lin Li,Masashi Koga,Hiromichi Fujisawa
Copyright © Sansan, Inc. All rights reserved.
lexicon
言語情報(バイグラムなど)
認識結果
Fast Lexicon-Based Scene Text Recognition with
Sparse Belief Propagation
Jerod J. Weinman, Erik Learned-Miller, and Allen Hanson
文字切り出しだけではないあぶり出し
こちらは文字候補のあぶり出し例
xの認識候補
画像
認識文字
候補
単語候補
Copyright © Sansan, Inc. All rights reserved.
Scene Text Extraction with Edge Constraint and Text
Collinearity
SeongHun Lee , Min Su Cho , Kyomin Jung , and Jin Hyung Kim
文字列抽出のあぶり出し例
Copyright © Sansan, Inc. All rights reserved.
まとめ
● OCR内で使われている技術は古い
○ 特徴量
○ 識別機
○ グラフ理論
● 文字認識そのものは現実の要求にこたえら
れるものが既にある
● 現実の開発で求められるものは文字認識そ
のものでないことが多い
● 時代はあぶり出し
○ 慣れてくると文字列はグラフに見えて
くる
○ 「あぶり出し」は専門用語でも何でも
無いので注意が必要
Copyright © Sansan, Inc. All rights reserved.

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

[DL輪読会]“Highly accurate protein structure prediction with AlphaFold”
[DL輪読会]“Highly accurate protein structure prediction with AlphaFold”[DL輪読会]“Highly accurate protein structure prediction with AlphaFold”
[DL輪読会]“Highly accurate protein structure prediction with AlphaFold”
 
lsh
lshlsh
lsh
 
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
 
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
[Dl輪読会]A simple neural network module for relational reasoning
[Dl輪読会]A simple neural network module for relational reasoning[Dl輪読会]A simple neural network module for relational reasoning
[Dl輪読会]A simple neural network module for relational reasoning
 
[DLHacks]PyTorch, PixyzによるGenerative Query Networkの実装
[DLHacks]PyTorch, PixyzによるGenerative Query Networkの実装 [DLHacks]PyTorch, PixyzによるGenerative Query Networkの実装
[DLHacks]PyTorch, PixyzによるGenerative Query Networkの実装
 
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...
感覚運動随伴性、予測符号化、そして自由エネルギー原理 (Sensory-Motor Contingency, Predictive Coding and ...
 
人工知能概論 3
人工知能概論 3人工知能概論 3
人工知能概論 3
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装
 
CVPR 2019 report (30 papers)
CVPR 2019 report (30 papers)CVPR 2019 report (30 papers)
CVPR 2019 report (30 papers)
 
プログラミング初心者がOpenCVと機械学習でOCRエンジン自作に挑戦する話
プログラミング初心者がOpenCVと機械学習でOCRエンジン自作に挑戦する話プログラミング初心者がOpenCVと機械学習でOCRエンジン自作に挑戦する話
プログラミング初心者がOpenCVと機械学習でOCRエンジン自作に挑戦する話
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
人工知能概論 7
人工知能概論 7人工知能概論 7
人工知能概論 7
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
異常検知 - 何を探すかよく分かっていないものを見つける方法
異常検知 - 何を探すかよく分かっていないものを見つける方法異常検知 - 何を探すかよく分かっていないものを見つける方法
異常検知 - 何を探すかよく分かっていないものを見つける方法
 

Andere mochten auch

Andere mochten auch (9)

Bear tail(dr.wallet)×sansan 合同lt会-勉強会esaki
Bear tail(dr.wallet)×sansan  合同lt会-勉強会esakiBear tail(dr.wallet)×sansan  合同lt会-勉強会esaki
Bear tail(dr.wallet)×sansan 合同lt会-勉強会esaki
 
データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出データサイエンス概論第一 6 異常検出
データサイエンス概論第一 6 異常検出
 
Introduction to Research Data Management - 2015-05-27 - Social Sciences Divis...
Introduction to Research Data Management - 2015-05-27 - Social Sciences Divis...Introduction to Research Data Management - 2015-05-27 - Social Sciences Divis...
Introduction to Research Data Management - 2015-05-27 - Social Sciences Divis...
 
TensorFlow White Paperを読む
TensorFlow White Paperを読むTensorFlow White Paperを読む
TensorFlow White Paperを読む
 
Introduction to Chainer: A Flexible Framework for Deep Learning
Introduction to Chainer: A Flexible Framework for Deep LearningIntroduction to Chainer: A Flexible Framework for Deep Learning
Introduction to Chainer: A Flexible Framework for Deep Learning
 
文字認識はCNNで終わるのか?
文字認識はCNNで終わるのか?文字認識はCNNで終わるのか?
文字認識はCNNで終わるのか?
 
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明深層学習の非常に簡単な説明
深層学習の非常に簡単な説明
 
Introduction to Chainer
Introduction to ChainerIntroduction to Chainer
Introduction to Chainer
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
 

OCRは古い技術

  • 1. Copyright © Sansan, Inc. All rights reserved. OCRは古い技術 Sansan株式会社 オペレーション部R&Dグループ 小林幸司 2015.9.30 BearTail(Dr.Wallet)×Sansan -合同LT会-
  • 2. Copyright © Sansan, Inc. All rights reserved. 内容 - OCRはふるい技術でできている - OCRの課題は文字認識ではない - あぶり出そう
  • 3. Copyright © Sansan, Inc. All rights reserved. 文字認識はあんまりがんばってもしょうがない
  • 4. Copyright © Sansan, Inc. All rights reserved. OCRの特徴量、識別器
  • 5. Copyright © Sansan, Inc. All rights reserved. Deep Convolutional Network for Handwritten Chinese Character Recognition (2015) Yuhao Zhang Computer Science Department Stanford University
  • 6. Copyright © Sansan, Inc. All rights reserved. 混合識別関数による類似文字認識の高精度化 (2000) 中嶋孝,若林哲史,木村文隆,三宅康二 三重大学 3036クラス(ETL9B)に対する認識率 混合改良投影距離 98.90% 混合擬似ベイズ識別関数 98.89% など 2000年以前にも99%越えの研究例は存在する
  • 7. Copyright © Sansan, Inc. All rights reserved. 2000年 から 2015年 何があったか ● SIFT特徴量 (D. G. Lowe 1999) ● Haar-like特徴量 (Viola, Jones 2001) ● Adaboost による顔検出(同上) ● HOG特徴量 (Navneet Dalal and Bill Triggs 2005) ● Deep Learning (2010~) OCRで使用される技術 ● 局所方向ヒストグラム特徴など(ふるい) ○ ほぼHOG ● ベイズ識別、部分空間法(ふるい) ○ 古典的なパターン識別 ○ 多クラス問題は回帰が好まれる
  • 8. Copyright © Sansan, Inc. All rights reserved. http://www.technologyreview.com/view/523326/how- google-cracked-house-number-identification-in-street- view/ DLは使いどころが難しい。 情景からの検出など、小クラス問題には強い。
  • 9. Copyright © Sansan, Inc. All rights reserved. ● DL で多クラス問題を解く難しさ ○ 学習サンプル数の問題など ● 文字に特化した局所特徴量は既にある ○ 主にエッジに着目 ● 新しい特徴量、識別器を開発する動機が希薄 ○ 課題は別にある
  • 10. Copyright © Sansan, Inc. All rights reserved. 文字認識じゃなくて何をがんばるのか
  • 11. Copyright © Sansan, Inc. All rights reserved. Deep Convolutional Network for Handwritten Chinese Character Recognition (2015) Yuhao Zhang 95%とか99%って何の数字? →切り出した文字画像を学習して、評価した数字
  • 12. Copyright © Sansan, Inc. All rights reserved. c% (99%over) b% a% a×b×c = ? 不確定要素はまだある(二値化、ノイズ、文字色 etc) 文字認識性能が良くても前段の処理でミスをす れば取り戻すことができない!
  • 13. Copyright © Sansan, Inc. All rights reserved. 文字認識の性能向上ばかりやっていられない。 OCRの課題は機械学習以外のところに多い。 注:内訳などは適当です!
  • 14. Copyright © Sansan, Inc. All rights reserved. http://www.mvision.co.jp/WebHelpIM/_RESOURCE/Ocr_01_fig.html https://ja.wikipedia.org/wiki/アラビア文字 文字切り出しが成功しないと99%などという数字は到達不 可能
  • 15. Copyright © Sansan, Inc. All rights reserved. Handwritten Japanese Address Recognition Technique Based on Improved Phased Search of Candidate Rectangle Lattice H.NAKAYAMA, M.SUZUKI, N.KATO, and Y.NEMOTO 文字切り出しは複数の候補からベストなものを選びたい。 グラフ理論が活躍できるのはここ。
  • 16. Copyright © Sansan, Inc. All rights reserved. 基準は? ● 認識類似度 ● 文字幅、高さ ● 言語処理 ○ 単語のマッチ ○ Nグラム ● など
  • 17. Copyright © Sansan, Inc. All rights reserved. 最適経路法はこれらを一緒にすることで、 間違いのボトルネックをなくすことを目的 とする
  • 18. Copyright © Sansan, Inc. All rights reserved. 時代はあぶり出し
  • 19. Copyright © Sansan, Inc. All rights reserved. ● スコアで比較したいので、識別機は類似度を返すものがよ い。 ○ 古典的な空間法など ● 状況に応じてエッジスコアの定義を見直す必要がある。 ● 認識回数が増えるので、計算時間にデメリットがある。 類似度がいい箇所は先に確定してしまうなどの工夫が必要。 ● 文字候補数など過剰気味にあったほうがよい。 正解候補がない状態はまずい。
  • 20. Copyright © Sansan, Inc. All rights reserved. いろんなあぶり出し
  • 21. Copyright © Sansan, Inc. All rights reserved. 辞書と付き合わせながらのあぶり出し例 Lexicon-Driven Handwritten Character String Recognition for Japanese Address Reading. Cheng-Lin Li,Masashi Koga,Hiromichi Fujisawa
  • 22. Copyright © Sansan, Inc. All rights reserved. lexicon 言語情報(バイグラムなど) 認識結果 Fast Lexicon-Based Scene Text Recognition with Sparse Belief Propagation Jerod J. Weinman, Erik Learned-Miller, and Allen Hanson 文字切り出しだけではないあぶり出し こちらは文字候補のあぶり出し例 xの認識候補 画像 認識文字 候補 単語候補
  • 23. Copyright © Sansan, Inc. All rights reserved. Scene Text Extraction with Edge Constraint and Text Collinearity SeongHun Lee , Min Su Cho , Kyomin Jung , and Jin Hyung Kim 文字列抽出のあぶり出し例
  • 24. Copyright © Sansan, Inc. All rights reserved. まとめ ● OCR内で使われている技術は古い ○ 特徴量 ○ 識別機 ○ グラフ理論 ● 文字認識そのものは現実の要求にこたえら れるものが既にある ● 現実の開発で求められるものは文字認識そ のものでないことが多い ● 時代はあぶり出し ○ 慣れてくると文字列はグラフに見えて くる ○ 「あぶり出し」は専門用語でも何でも 無いので注意が必要
  • 25. Copyright © Sansan, Inc. All rights reserved.