SlideShare ist ein Scribd-Unternehmen logo
1 von 16
Downloaden Sie, um offline zu lesen
CVPR読み会                                                                       2012.06.23




                      CV勉強会@関東(第20回)
   紹介する論文テーマ:

   Icon Scanning : Towards Next Generation QR Codes
                                                      shirasy




 本資料は、以下の学会発表論文を引用しております。
 I. Friedman and L. Zelnik-Manor: Icon Scanning: Towards Next Generation QR
 Codes ,CVPR2012(2012)                                                               1
自己紹介

最近、参加している活動

              写真関連

 CV関連



 デザイン関連




                     2
本論文に関心を持ったきっかけ


 下記記載に関心を持ち、本論文を選択

 The first contribution of this paper is a novel algorithm for
 automatic detection of icons in a snapshot
 This removes the need for manually marking the icon’s
 boundary, thus, facilitating significantly the user experience.



 実際に体験することが可能 : 「eyeconit」


 利用時の体験としての「eyeconit」の比較の対象となるアプリ
 ⇒iPhone標準アプリの「App Store」
                                                                   3
本論文の概要



  “In this paper we have described a practical novel
  solution for automatic icon scanning.
  Our system first detects the icon with a high success rate
  with no false alarms - doing all that in real-time.
  Next, the system recognizes the detected icon within the
  entire App-Store database in a few seconds.”


  ■研究のゴール:
  Future goal is to extend this and propose a more visually
  appealing alternative to QR Codes.


                                                               4
関連研究




  http://www.tineye.com/   http://www.google.com/mobile/goggles/




アプリアイコンスキャナー




                                                            5
本論文に関心を持ったきっかけ




      「eyeconit」




                   6
提案手法 処理内容

  <アイコン位置の特定処理>
  ●処理内容
  (1)エッジ抽出(色情報:RGB,HSV,Lab)
  (2)アイコンに対応する輪郭抽出
  (3)アイコンに対応する輪郭特定




                              7
提案手法 処理内容




            8
提案手法 処理内容

  <アイコンの認識処理(1/2)>
  ●処理内容
  (1) クラスタリング用の特徴量算出
  ⇒色情報(Lab色空間)を考慮したSIFT特徴量(168次元)



  <アイコンの特徴に関するロバスト性向上のための工夫>




                                    9
提案手法 処理内容

  <アイコンの認識処理(2/2)>
  ●処理内容
  (2) クラスタリング
  ・K-models clustring
  ・EM like approach for learning the best set of K models

  <撮影環境に関するロバスト性向上のための工夫>




                                                            10
補足:K-models clustring

  • As with K-means, the K in K-models denotes the number of clusters.
  • A single design feature is different between K-means and K-models, the
    replacement of proximity to a cluster center with minimal squared error for
    a model.(モデルの最小2乗誤差によるクラスタ中心の近接の交換の交換)




D.Ashlock, J.A.Brown, and S.M.Corns. "K-models Clustering, a Generalization of K-means Clustering",   11
Intelligent Engineering Systems Through Artificial Neural Networks(20), pp. 485-492, 2010.
提案手法 処理内容




            12
Implementing a complete system



   Implemented in C++ and use openCV2.2
   • The detection module requires 330ms on iPhone4 to processan image.
   • Once an icon has been detected its descriptor is computed
     (which takes 90ms)
   • The entire recognition process takes 4 seconds.




                                                                     13
付録: 実利用状況



     利用開始1週間後の感想:

 利用シーン:主にPCでのブラウジングに、興味あるアプリを見つけた時に利用

  アプリが手軽にダウンロードできることを期待して、このアプリを利用。
  従来の同アプローチのアプリと比較し、ストレスは小さい。ただし、タスクが達
  成できないことは少なからずある。
  ⇒ タスク達成率という観点があるとしたら、50%ほど。


  「App Store」と比べた時の「eyeconit」の利点は文字を入力しなくても良い
  点に尽きる
  プライマリのタスク達成を確実とするため、画像処理による認識が失敗した
  場合、文字でのクエリ入力を可能とすると良いのかもしれない。
  (アプリのユーザエクスペリエンス(UX)視点で見た場合)                  14
付録: 実利用状況
 アプリのユーザコメント :
 ユーザにとっての良い体験を支える技術として、提案手法が活かされている模様




                                                          15
http://appcomments.com/app/id478802786/eyeconit_reviews
最後に


 ■将来的な研究のゴール
 Future goal is to extend this and propose a more visually
 appealing alternative to QR Codes.



 ■本論文に触れた感想
 スマートフォン向けアプリの場合、「アプリ≒特定のタスクを達成するもの」と言
 う事例が多い。
 本論文では、特定のタスク達成を目的としたアプローチが取られているととも
 に、それを評価するためのシステム(アプリ:eyeconit)が運用されており、興味
 深かった。
 物体抽出・認識法の評価軸は、抽出精度や処理時間以外にもあると言うこ
 とを感じることができ良かった。                   16

Weitere ähnliche Inhalte

Was ist angesagt?

エンド・トゥ・エンドAI描画に至る道 - 高度構造化入力のためのニューラルネットワーク構成やインフラの検討 -
エンド・トゥ・エンドAI描画に至る道 - 高度構造化入力のためのニューラルネットワーク構成やインフラの検討 -エンド・トゥ・エンドAI描画に至る道 - 高度構造化入力のためのニューラルネットワーク構成やインフラの検討 -
エンド・トゥ・エンドAI描画に至る道 - 高度構造化入力のためのニューラルネットワーク構成やインフラの検討 -
Silicon Studio Corporation
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
n_hidekey
 
第17回関西CVPRML勉強会 (一般物体認識) 1,2節
第17回関西CVPRML勉強会 (一般物体認識) 1,2節第17回関西CVPRML勉強会 (一般物体認識) 1,2節
第17回関西CVPRML勉強会 (一般物体認識) 1,2節
Yasutomo Kawanishi
 

Was ist angesagt? (17)

【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
【慶應大学講演】なぜ、博士課程に進学したか?
【慶應大学講演】なぜ、博士課程に進学したか?【慶應大学講演】なぜ、博士課程に進学したか?
【慶應大学講演】なぜ、博士課程に進学したか?
 
エンド・トゥ・エンドAI描画に至る道 - 高度構造化入力のためのニューラルネットワーク構成やインフラの検討 -
エンド・トゥ・エンドAI描画に至る道 - 高度構造化入力のためのニューラルネットワーク構成やインフラの検討 -エンド・トゥ・エンドAI描画に至る道 - 高度構造化入力のためのニューラルネットワーク構成やインフラの検討 -
エンド・トゥ・エンドAI描画に至る道 - 高度構造化入力のためのニューラルネットワーク構成やインフラの検討 -
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
 
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学びカーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
カーセンサーで深層学習を使ってUX改善を行った事例とそこからの学び
 
【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
【CVPR 2020 メタサーベイ】Computational Photography
【CVPR 2020 メタサーベイ】Computational Photography【CVPR 2020 メタサーベイ】Computational Photography
【CVPR 2020 メタサーベイ】Computational Photography
 
【CVPR 2020 メタサーベイ】Image and Video Synthesis_Group14.1
【CVPR 2020 メタサーベイ】Image and Video Synthesis_Group14.1【CVPR 2020 メタサーベイ】Image and Video Synthesis_Group14.1
【CVPR 2020 メタサーベイ】Image and Video Synthesis_Group14.1
 
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
 
第17回関西CVPRML勉強会 (一般物体認識) 1,2節
第17回関西CVPRML勉強会 (一般物体認識) 1,2節第17回関西CVPRML勉強会 (一般物体認識) 1,2節
第17回関西CVPRML勉強会 (一般物体認識) 1,2節
 
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
NVIDIA Seminar ディープラーニングによる画像認識と応用事例NVIDIA Seminar ディープラーニングによる画像認識と応用事例
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
 
DeepLearningDay2016Spring
DeepLearningDay2016SpringDeepLearningDay2016Spring
DeepLearningDay2016Spring
 
-SSIIの技術マップ- 過去•現在, そして未来 [領域]認識
-SSIIの技術マップ- 過去•現在, そして未来 [領域]認識-SSIIの技術マップ- 過去•現在, そして未来 [領域]認識
-SSIIの技術マップ- 過去•現在, そして未来 [領域]認識
 
【CVPR 2020 メタサーベイ】Image Retrieval
【CVPR 2020 メタサーベイ】Image Retrieval【CVPR 2020 メタサーベイ】Image Retrieval
【CVPR 2020 メタサーベイ】Image Retrieval
 

Ähnlich wie 20120623 cv勉強会 shirasy

XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
Shuji Morisaki
 
OpenCVをAndroidで動かしてみた
OpenCVをAndroidで動かしてみたOpenCVをAndroidで動かしてみた
OpenCVをAndroidで動かしてみた
徹 上野山
 
march report in japanese
march report in japanesemarch report in japanese
march report in japanese
nao takatoshi
 
DSL駆動によるクラウド・アプリケーション開発
DSL駆動によるクラウド・アプリケーション開発DSL駆動によるクラウド・アプリケーション開発
DSL駆動によるクラウド・アプリケーション開発
Tomoharu ASAMI
 
2012 kanemotolablecture7
2012 kanemotolablecture72012 kanemotolablecture7
2012 kanemotolablecture7
ytanno
 
Intalio japan special cloud workshop
Intalio japan special cloud workshopIntalio japan special cloud workshop
Intalio japan special cloud workshop
Daisuke Sugai
 

Ähnlich wie 20120623 cv勉強会 shirasy (20)

Einsteinvision - object detection を試してみよう
Einsteinvision - object detection を試してみようEinsteinvision - object detection を試してみよう
Einsteinvision - object detection を試してみよう
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
 
OpenSpan_PreMarketing
OpenSpan_PreMarketingOpenSpan_PreMarketing
OpenSpan_PreMarketing
 
Semat - a Japanese introduction
Semat - a Japanese introductionSemat - a Japanese introduction
Semat - a Japanese introduction
 
OpenCVをAndroidで動かしてみた
OpenCVをAndroidで動かしてみたOpenCVをAndroidで動かしてみた
OpenCVをAndroidで動かしてみた
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
 
DSP開発におけるSpark MLlibの活用
DSP開発におけるSpark MLlibの活用DSP開発におけるSpark MLlibの活用
DSP開発におけるSpark MLlibの活用
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 
march report in japanese
march report in japanesemarch report in japanese
march report in japanese
 
DSL駆動によるクラウド・アプリケーション開発
DSL駆動によるクラウド・アプリケーション開発DSL駆動によるクラウド・アプリケーション開発
DSL駆動によるクラウド・アプリケーション開発
 
【CVPR 2020 メタサーベイ】Vision Applications and Systems
【CVPR 2020 メタサーベイ】Vision Applications and Systems【CVPR 2020 メタサーベイ】Vision Applications and Systems
【CVPR 2020 メタサーベイ】Vision Applications and Systems
 
Building modernapplicationwithelasiccloud
Building modernapplicationwithelasiccloudBuilding modernapplicationwithelasiccloud
Building modernapplicationwithelasiccloud
 
SAP Inside Track Tokyo 2022 Deep Learning版Cash Applicationをやってみた
SAP Inside Track Tokyo 2022 Deep Learning版Cash ApplicationをやってみたSAP Inside Track Tokyo 2022 Deep Learning版Cash Applicationをやってみた
SAP Inside Track Tokyo 2022 Deep Learning版Cash Applicationをやってみた
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
Iccv2019 参加報告
Iccv2019 参加報告Iccv2019 参加報告
Iccv2019 参加報告
 
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
 
2012 kanemotolablecture7
2012 kanemotolablecture72012 kanemotolablecture7
2012 kanemotolablecture7
 
Spine入門
Spine入門Spine入門
Spine入門
 
Intalio japan special cloud workshop
Intalio japan special cloud workshopIntalio japan special cloud workshop
Intalio japan special cloud workshop
 

Mehr von Yoichi Shirasawa

20111212paper whiteboard prototyping(shibuyaux)
20111212paper whiteboard prototyping(shibuyaux)20111212paper whiteboard prototyping(shibuyaux)
20111212paper whiteboard prototyping(shibuyaux)
Yoichi Shirasawa
 
20111127 iccv祭り shirasy
20111127 iccv祭り shirasy20111127 iccv祭り shirasy
20111127 iccv祭り shirasy
Yoichi Shirasawa
 
20110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_320110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_3
Yoichi Shirasawa
 
20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)
Yoichi Shirasawa
 
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
Yoichi Shirasawa
 

Mehr von Yoichi Shirasawa (18)

動画にて、身体と人工物のインタラクションを表現する
動画にて、身体と人工物のインタラクションを表現する動画にて、身体と人工物のインタラクションを表現する
動画にて、身体と人工物のインタラクションを表現する
 
写真に関わるユーザーエクスペリエンス(UX)のためのアプローチ
写真に関わるユーザーエクスペリエンス(UX)のためのアプローチ写真に関わるユーザーエクスペリエンス(UX)のためのアプローチ
写真に関わるユーザーエクスペリエンス(UX)のためのアプローチ
 
写真撮影プロセスとHCDプロセスの共通性
写真撮影プロセスとHCDプロセスの共通性写真撮影プロセスとHCDプロセスの共通性
写真撮影プロセスとHCDプロセスの共通性
 
フォトグラファーのためのUXデザイン
フォトグラファーのためのUXデザインフォトグラファーのためのUXデザイン
フォトグラファーのためのUXデザイン
 
20151004 hcdvalue LT_shirasy_スケッチモーション
20151004 hcdvalue LT_shirasy_スケッチモーション20151004 hcdvalue LT_shirasy_スケッチモーション
20151004 hcdvalue LT_shirasy_スケッチモーション
 
写真を見る人の経験のためにできること
写真を見る人の経験のためにできること写真を見る人の経験のためにできること
写真を見る人の経験のためにできること
 
20131116 digitable shirasy
20131116 digitable shirasy20131116 digitable shirasy
20131116 digitable shirasy
 
201312hcdnet2013-shirasy
201312hcdnet2013-shirasy201312hcdnet2013-shirasy
201312hcdnet2013-shirasy
 
20140321_abc2014spring_shirasy
20140321_abc2014spring_shirasy20140321_abc2014spring_shirasy
20140321_abc2014spring_shirasy
 
20130622_gcs2013_shirasy
20130622_gcs2013_shirasy20130622_gcs2013_shirasy
20130622_gcs2013_shirasy
 
20121021hcdvalue_shirasy
20121021hcdvalue_shirasy20121021hcdvalue_shirasy
20121021hcdvalue_shirasy
 
20111212paper whiteboard prototyping(shibuyaux)
20111212paper whiteboard prototyping(shibuyaux)20111212paper whiteboard prototyping(shibuyaux)
20111212paper whiteboard prototyping(shibuyaux)
 
20111127 iccv祭り shirasy
20111127 iccv祭り shirasy20111127 iccv祭り shirasy
20111127 iccv祭り shirasy
 
20111107 cvim(shirasy)
20111107 cvim(shirasy)20111107 cvim(shirasy)
20111107 cvim(shirasy)
 
20110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_320110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_3
 
20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)
 
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
 
20100626 CVIM(3)6,7 shirasy
20100626 CVIM(3)6,7 shirasy20100626 CVIM(3)6,7 shirasy
20100626 CVIM(3)6,7 shirasy
 

Kürzlich hochgeladen

Kürzlich hochgeladen (11)

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 

20120623 cv勉強会 shirasy

  • 1. CVPR読み会 2012.06.23 CV勉強会@関東(第20回) 紹介する論文テーマ: Icon Scanning : Towards Next Generation QR Codes shirasy 本資料は、以下の学会発表論文を引用しております。 I. Friedman and L. Zelnik-Manor: Icon Scanning: Towards Next Generation QR Codes ,CVPR2012(2012) 1
  • 2. 自己紹介 最近、参加している活動 写真関連 CV関連 デザイン関連 2
  • 3. 本論文に関心を持ったきっかけ 下記記載に関心を持ち、本論文を選択 The first contribution of this paper is a novel algorithm for automatic detection of icons in a snapshot This removes the need for manually marking the icon’s boundary, thus, facilitating significantly the user experience. 実際に体験することが可能 : 「eyeconit」 利用時の体験としての「eyeconit」の比較の対象となるアプリ ⇒iPhone標準アプリの「App Store」 3
  • 4. 本論文の概要 “In this paper we have described a practical novel solution for automatic icon scanning. Our system first detects the icon with a high success rate with no false alarms - doing all that in real-time. Next, the system recognizes the detected icon within the entire App-Store database in a few seconds.” ■研究のゴール: Future goal is to extend this and propose a more visually appealing alternative to QR Codes. 4
  • 5. 関連研究 http://www.tineye.com/ http://www.google.com/mobile/goggles/ アプリアイコンスキャナー 5
  • 7. 提案手法 処理内容 <アイコン位置の特定処理> ●処理内容 (1)エッジ抽出(色情報:RGB,HSV,Lab) (2)アイコンに対応する輪郭抽出 (3)アイコンに対応する輪郭特定 7
  • 9. 提案手法 処理内容 <アイコンの認識処理(1/2)> ●処理内容 (1) クラスタリング用の特徴量算出 ⇒色情報(Lab色空間)を考慮したSIFT特徴量(168次元) <アイコンの特徴に関するロバスト性向上のための工夫> 9
  • 10. 提案手法 処理内容 <アイコンの認識処理(2/2)> ●処理内容 (2) クラスタリング ・K-models clustring ・EM like approach for learning the best set of K models <撮影環境に関するロバスト性向上のための工夫> 10
  • 11. 補足:K-models clustring • As with K-means, the K in K-models denotes the number of clusters. • A single design feature is different between K-means and K-models, the replacement of proximity to a cluster center with minimal squared error for a model.(モデルの最小2乗誤差によるクラスタ中心の近接の交換の交換) D.Ashlock, J.A.Brown, and S.M.Corns. "K-models Clustering, a Generalization of K-means Clustering", 11 Intelligent Engineering Systems Through Artificial Neural Networks(20), pp. 485-492, 2010.
  • 13. Implementing a complete system Implemented in C++ and use openCV2.2 • The detection module requires 330ms on iPhone4 to processan image. • Once an icon has been detected its descriptor is computed (which takes 90ms) • The entire recognition process takes 4 seconds. 13
  • 14. 付録: 実利用状況 利用開始1週間後の感想: 利用シーン:主にPCでのブラウジングに、興味あるアプリを見つけた時に利用 アプリが手軽にダウンロードできることを期待して、このアプリを利用。 従来の同アプローチのアプリと比較し、ストレスは小さい。ただし、タスクが達 成できないことは少なからずある。 ⇒ タスク達成率という観点があるとしたら、50%ほど。 「App Store」と比べた時の「eyeconit」の利点は文字を入力しなくても良い 点に尽きる プライマリのタスク達成を確実とするため、画像処理による認識が失敗した 場合、文字でのクエリ入力を可能とすると良いのかもしれない。 (アプリのユーザエクスペリエンス(UX)視点で見た場合) 14
  • 15. 付録: 実利用状況 アプリのユーザコメント : ユーザにとっての良い体験を支える技術として、提案手法が活かされている模様 15 http://appcomments.com/app/id478802786/eyeconit_reviews
  • 16. 最後に ■将来的な研究のゴール Future goal is to extend this and propose a more visually appealing alternative to QR Codes. ■本論文に触れた感想 スマートフォン向けアプリの場合、「アプリ≒特定のタスクを達成するもの」と言 う事例が多い。 本論文では、特定のタスク達成を目的としたアプローチが取られているととも に、それを評価するためのシステム(アプリ:eyeconit)が運用されており、興味 深かった。 物体抽出・認識法の評価軸は、抽出精度や処理時間以外にもあると言うこ とを感じることができ良かった。 16