SlideShare a Scribd company logo
1 of 32
Download to read offline
吉村研究室
B2211017
片渕 小夜
201310合同ゼミ①
3次元空間中の文字の回転角度を利用し
た情景中文字の検出と認識
2013/10/07IS1-031
目次
1. 文字認識技術の概要と諸問題
2. 提案手法の説明
3. 実験の説明と考察
4. まとめ
5. 参考文献
2013/10/07IS1-032
1.文字認識技術の概要と諸問題
2013/10/07IS1-033
文字認識技術の概要と諸問題(1)
2013/10/07IS1-034
今では携帯電話やタブレットPC,
スマートフォンでカメラが内蔵
されていない機器は殆ど無い
カメラを入力手段とする文字認識への期待が高まっている
文字認識技術の概要と諸問題(2)
2013/10/07IS1-035
カメラで撮影した文字は回転や透視投影の変形を含み、
従来のフラットヘッドスキャナで取得された文書画像を対象とするOCR
では認識が難しい
文字認識技術の概要と諸問題(3)
2013/10/07IS1-036
 従来手法では…
1. アフィン不変な特徴を用いたレイアウトに依存しない
文字認識手法
→認識対象は白の背景に黒で印刷された文字、情景内からの文
字検出については考慮されていない
2. 教師なし学習を用いて情景内から文字を検出、認識
する手法
→回転している文字について考慮されていない
回転や透視投影の影響を受けている文字を
情景内から検出、認識する手法を提案する
2.提案手法の説明
2013/10/07IS1-037
大まかな流れ
2013/10/07IS1-038
1. 連結成分切り出し
2. 文字認識
3. 非文字の棄却、文字検出
1.連結成分切り出し
2013/10/07IS1-039
面積が50px以下の領域
はノイズとして判定
2.文字認識
2013/10/07IS1-0310
① 特徴抽出
標準文字に対して計算機上で3次元の回転処理を施し回転文字
を生成、特徴抽出を行う
回転はx軸,y軸,z軸の順に
行われる
回転処理を行う際には画素値
の線形補間を用いている
2.文字認識
2013/10/07IS1-0311
② 特徴抽出
特徴ベクトルとして加重方向指数ヒストグラム(392次元)を抽出
して使用する
特徴抽出によって得られた特徴ベクトルから、文字のクラスごと
に平均ベクトル、共分散行列の固有値、固有ベクトルを算出し、そ
れらを学習辞書とする
A
A
A
2.文字認識
2013/10/07IS1-0312
③ 認識
識別関数としてMQDF(Modified quadratic discriminant
function)を採用
→識別精度を損なうこと無く、計算量を大幅に削減できる
(補足)数式中の変数
2013/10/07IS1-0313
X:入力文字のn次元特徴ベクトル
M:母集団の平均ベクトル
k:識別に用いる固有ベクトル数
N:各クラスのサンプル数
P(ω):クラスωの事前確立
Φ𝑖, 𝜆𝑖:標本共分散行列の第i固有ベクトルと第i固有値
𝜎2
:特徴ベクトルXの事前確立分布を球状と仮定した場合の分散
𝑁0:𝜎2の信頼度定数
3.非文字の棄却、文字検出
2013/10/07IS1-0314
 取り出した連結成分集合に非文字の連結成分が含
まれている
→非文字連結部分を棄却
非文字連結部分
3.非文字の棄却、文字検出
2013/10/07IS1-0315
① 小さな非文字の連結部分を除去
ピリオドと分類された連結部分を棄却
※この研究では「1つの文字は連結した1つの領域で成り立って
いる」として文字を認識するため、「i」,「j」の2つの連結領域から
なる文字を認識することはできない
i j ピリオドと判断され棄却
i j
3.非文字の棄却、文字検出
2013/10/07IS1-0316
② 閾値よりも大きい値を持つ連結成分を非文字として
棄却
MQDFの値が最小となる文字クラスに連結成分を分類
→値が小さいほどその連結成分が文字である可能性が高い
なお、閾値は全ての連結成分に対して求めた識別関数値(MQDF
の出力値)ヒストグラムを用いた大津の判別分析により決定する
3.非文字の棄却、文字検出
2013/10/07IS1-0317
③ グループA, グループBに含まれる連結成分の数を
カウントし、少ない方のグループを棄却する
3.実験の説明と考察
2013/10/07IS1-0318
実験データ
2013/10/07IS1-0319
 認識対象文字が合計1271個含まれる情景内画像50
枚
※学習した回転角度の範囲内で回転している文字
※Z軸まわりの回転角度が一定である
文字検出の精度を比較
するため、2値化によって
画像中の全ての文字連結成分
を切り出せる画像を扱う
評価基準
2013/10/07IS1-0320
R 再現率 =
𝑇𝑃
𝑇𝑃 + 𝐹𝑁
∗ 100 %
𝑃 適合率 =
𝑇𝑃
𝑇𝑃 + 𝐹𝑃
∗ 100(%)
𝐹 𝐹値 =
2 ∗ 𝑅 ∗ 𝑃
𝑅 + 𝑃
(%)
TP(TruePositive),TN(TrueNegative):文字、非文字を
正しく認識した個数
FP(FalsePositive),FN(FalseNegative):文字、非文字を
誤って分類した個数
実験手法(1)
2013/10/07IS1-0321
 同じ平面に印字されている文字は、3次元空間中で
あってもある程度同じ向きを持つと想定される
 回転角度を想定した結果を用いて連結成分を絞り
込む
同じ回転角度を持つ!
実験手法(2)
2013/10/07IS1-0322
A) 文字の回転角度による棄却を行わない手法
B) 文字の回転角度による棄却を追加した手法(2クラ
スを許容とする)
2クラス:最大個数の回転角度クラスとその回転角度±10度のク
ラスのうち連結成分数の多い方のクラス
C) 文字の回転角度による棄却を追加した手法(3ク
ラスを許容とする)
3クラス:最大個数の回転角度クラスとその回転角度±10度の2ク
ラス
実験結果(1)
2013/10/07IS1-0323
実験結果(2)
2013/10/07IS1-0324
実験結果(3)
2013/10/07IS1-0325
文字の回転角度を用いた非文字の連結成分棄却により誤検出が
減少していることがわかる
実験結果(4)
2013/10/07IS1-0326
4.まとめ
2013/10/07IS1-0327
研究のまとめ
2013/10/07IS1-0328
 情景内に含まれる回転や透視投影の変形を含む文字を
認識することができた
 回転文字の辞書を作成
 MQDFによるある種の「文字らしさ」をもって判定をしている
 回転角度による棄却により精度向上
 ただし、文字は1つの連結成分として考えられているため、
認識ができない文字がある
 辞書の容量削減、推定精度の向上
 X,Y軸周りの回転角度を用いた文字検出の精度向上
この研究が面白いと感じた部分
2013/10/07IS1-0329
 iPhoneを使った文字認識アプリを作ったことがある
1. 2値化
2. テキストライン検出、文字のベースラインを2次スプ
ライン曲線で当てはめる
3. 文字の並ぶピッチを判断、1文字ごとに分割し文字を
抽出
4. 回転文字に対応していない
1. ex:1->/, O(オー)->0(ゼロ)などの誤検出
 回転文字の辞書を作ることを思いつかなかった
5.参考文献
2013/10/07IS1-0330
使用した論文
蔵元 侃太,大山 航,若林 哲史,木村 文隆
『3次元空間中の文字の回転角度を利用した情景文字
の検出と認識』
『SSII2013第19回画像センシングシンポジウム』(2013
年6月)IS1-03
2013/10/07IS1-0331
参考ページ
2013/10/07IS1-0332
 画像処理ソリューション(2013/08/23アクセス)
 http://imagingsolution.blog107.fc2.com/
 吉田大祐(2006)『eラーニングのための単語辞書を
使用した板書手書き文字認識』(2013/09/14アクセ
ス)
 http://miuse.mie-
u.ac.jp/bitstream/10076/9124/1/2006T028.pdf

More Related Content

More from Saya Katafuchi

マルウェア解析講座そのいち〜仮想環境下では暴れないけど質問ある?〜
マルウェア解析講座そのいち〜仮想環境下では暴れないけど質問ある?〜マルウェア解析講座そのいち〜仮想環境下では暴れないけど質問ある?〜
マルウェア解析講座そのいち〜仮想環境下では暴れないけど質問ある?〜
Saya Katafuchi
 

More from Saya Katafuchi (15)

第一回カオス時系列解析
第一回カオス時系列解析第一回カオス時系列解析
第一回カオス時系列解析
 
卒論執筆のために3年生からやる5つのこと
卒論執筆のために3年生からやる5つのこと卒論執筆のために3年生からやる5つのこと
卒論執筆のために3年生からやる5つのこと
 
第3回長崎デジタルコンテストLT『リバースエンジニアリング入門』
第3回長崎デジタルコンテストLT『リバースエンジニアリング入門』第3回長崎デジタルコンテストLT『リバースエンジニアリング入門』
第3回長崎デジタルコンテストLT『リバースエンジニアリング入門』
 
画像認識のための深層学習
画像認識のための深層学習画像認識のための深層学習
画像認識のための深層学習
 
ディープボルツマンマシン入門
ディープボルツマンマシン入門ディープボルツマンマシン入門
ディープボルツマンマシン入門
 
20140514在校生向けUnity&AR講座
20140514在校生向けUnity&AR講座20140514在校生向けUnity&AR講座
20140514在校生向けUnity&AR講座
 
20140508 在校生向けUnity&AR講座
20140508 在校生向けUnity&AR講座20140508 在校生向けUnity&AR講座
20140508 在校生向けUnity&AR講座
 
VirtualDJでPCDJっぽいことをやった
VirtualDJでPCDJっぽいことをやったVirtualDJでPCDJっぽいことをやった
VirtualDJでPCDJっぽいことをやった
 
ヤンデレのUnityに愛されて眠れない〜りたーんず〜
ヤンデレのUnityに愛されて眠れない〜りたーんず〜ヤンデレのUnityに愛されて眠れない〜りたーんず〜
ヤンデレのUnityに愛されて眠れない〜りたーんず〜
 
Capture the flag!
Capture the flag!Capture the flag!
Capture the flag!
 
Tesseract-OCR in iOS
Tesseract-OCR in iOSTesseract-OCR in iOS
Tesseract-OCR in iOS
 
ヤンデレのUnityに愛されて眠れない〜Unity3分クッキング〜
ヤンデレのUnityに愛されて眠れない〜Unity3分クッキング〜ヤンデレのUnityに愛されて眠れない〜Unity3分クッキング〜
ヤンデレのUnityに愛されて眠れない〜Unity3分クッキング〜
 
マルウェア解析講座そのいち〜仮想環境下では暴れないけど質問ある?〜
マルウェア解析講座そのいち〜仮想環境下では暴れないけど質問ある?〜マルウェア解析講座そのいち〜仮想環境下では暴れないけど質問ある?〜
マルウェア解析講座そのいち〜仮想環境下では暴れないけど質問ある?〜
 
Reverseengineering koukai
Reverseengineering koukaiReverseengineering koukai
Reverseengineering koukai
 
i phoneでbasicやるよ!
i phoneでbasicやるよ!i phoneでbasicやるよ!
i phoneでbasicやるよ!
 

Recently uploaded

Recently uploaded (11)

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 

201310合同ゼミ論文紹介