SlideShare ist ein Scribd-Unternehmen logo
1 von 56
2015 / 5 / 28 (Thu.)
KAGAYA Hokuto
PFI Seminar
- IT × Food-
自己紹介
• 加賀谷北斗 (Hokuto KAGAYA)
• 東大工学部電子情報卒,現在学際情報学府修士2年
• コンピュータビジョン・機械学習に興味
• 今日は専門の話メインでします
• 2014年度サマーインターン
• テーマ:映像解析/監視カメラ上の人物の頭部位置検出と方向推定
• 現在はPFNにてアルバイト中
• 初めてなのでお手柔らかにお願いします
IT化の波
衣
住
食
例:睡眠状態解析
[永田ら 2014]
例:コーディネート推薦
[Liu+ 2013]
例:睡眠状態解析
[永田ら 2014]
例:コーディネート推薦
[Liu+ 2013]
今日は
衣
住
食
今日は
• 食事関連のナウいサービスや最近の研究動向についてお
話したいと思います
もくじ
1. 「食」とIT概観
2. 詳細事例①AR/VR系
3. 詳細事例②食事認識
4. 自分の研究について
5. まとめ
もくじ
1. 「食」とIT概観
2. 詳細事例①AR/VR系
3. 詳細事例②食事認識
4. 自分の研究について
5. まとめ
食とIT
• いくつかの方向性
• 食事画像加工
• 推薦・レシピなど
• 食事に関するVR・AR的な研究
• 食事の自動認識
• その他
1. 食とIT概観
食とIT
• いくつかの方向性
• 食事画像加工
• 推薦・レシピなど
• 食事に関するVR・AR的な研究
• 食事の自動認識
• その他
1. 食とIT概観
食事画像加工
1. 食とIT概観
http://foodpic.net/
食事画像加工
http://foodpic.net/
1. 食とIT概観
食事画像加工
1. 食とIT概観
1. 食とIT概観
1. 食とIT概観
食事画像専用SNS等の登場
http://miil.me/ http://pecolly.jp/ http://www.uniqlo.com/jp/lifetools/recipe/
1. 食とIT概観
IBM Watson
• Watsonが考案したレシピ本が発売(2015/4)
1. 食とIT概観
ワインラベル認識
• App Store上では未だに人気アプリ
1. 食とIT概観
http://k-tai.impress.co.jp/docs/news/20140522_649700.html
もくじ
1. 「食」とIT概観
2. 詳細事例①AR/VR系
3. 詳細事例②食事認識
4. 自分の研究について
5. まとめ
AR/VR系の研究
• 「Aのときに人間はBする」という心理学の知見
• さまざまなハードウェア,ソフトウェアを用いて
これを仮想的,重畳的に引き起こす
• 元々の知見に基づいた行動変容が期待できる
味覚センサ・ディスプレイ
• 高分子膜により生体膜を模倣した味覚センサの登場[Toko
98]
• 砂糖を利用した「食べられる」モデルを出力する3Dプリ
ンタ (The CandyFab Project, 2006)
http://candyfab.org
2. AR/VR
MetaCookie[Narumi+ 2011など]
• 人間が感じる「味」は化学物質と舌との反応だけで決ま
るものではなく,その食べ物を食べている時の他の感覚
に左右されて変わる
• これを風味と呼ぶ
• 特に「嗅覚」「視覚」は味覚に非常に大きな影響を与え
るとされている
• ex. かき氷のシロップ
• どうせ一緒なら
2. AR/VR
俺はスイで。
MetaCookie
• https://www.youtube.com/watch?v=3GnQE9cCf84
• クッキーを画像で認識,視覚情報および嗅覚情報を重畳
する
2. AR/VR
拡張満腹感
[Narumi+ 2012]など
• 人間が「満腹」を感じるのは・・
• 食事をする際の環境,食事自体の環境がそれぞれ大きく影響
• ex. 誰と食べるか,どこで食べるか,サイズ感,食器
• その中で,食品自体のサイズ感に注目
• 比較的容易に処理可能
• サイズを画像処理的に変化させることで満腹感を人工的
に操作する
2. AR/VR
拡張満腹感
https://www.youtube.c
om/watch?v=KzFNWL
L0l-o
2. AR/VR
rigid MLS methodという手法
拡張満腹感
2. AR/VR
テーブルトップ型拡張満腹感[Sakurai+ 2012]
2. AR/VR
2. AR/VR
テーブルトップ型拡張満腹感[Sakurai+ 2012]
もくじ
1. 「食」とIT概観
2. 詳細事例①AR/VR系
3. 詳細事例②食事認識
4. 自分の研究について
5. まとめ
食事画像認識
ご飯
189 kcal
たくわん
23 kcal
キャベツのサラダ
90 kcal
スンドゥブ
456 kcal
* Displayed calories are just examples.
30 3. 認識
• For health, for life-log, for entertainment
• FoodLog App by our lab. and foo.log Inc. [1]
• Food record with smartphone
食事画像認識
31
[1] http://app.foodlog.jp/
3. 認識
Problem Definition
• Detection
• Classification
• Estimation
32
Where is a food region?
What is this food?
What amount is this food?
What calorie does this food have?
3. 認識
食事認識研究の事例
TADA Project (パデュー大学)
スマートフォン等のデバイス上で動作することを想定
した包括的な食事記録・評価のフレームワークを提案
食事領域推定/食事分類/量推定などにも取り組む
1. 食事品目の分類に有効な特徴量は何か?[Bosch+
2011]
→色(とか局所特徴量)がやっぱり大事!
2. 食事の量の自動推定[Chae+ 2011]
→食事ごとに別のテンプレートを使う
33 3. 認識
食事認識研究の事例
柳井研究室 (電気通信大学)
精力的に「食事画像」をテーマとした研究を行う
1. Multi Kernel Learningを用いて複数の特徴を結合
して食事認識を行う[Joutou+ 2009]
2. 共起情報の利用[Matsuda+ 2012]
3. スマートフォン上で利用できる食事認識[Kawano+
2014]
識別器の重み圧縮を行うことで
省メモリかつ高速なモバイル上で
の動作を実現
34 3. 認識
食事認識研究の事例
[Yang+ 2011] (CVPR!)
アメリカのファストフードがデータセット
画素レベルでのソフトラベリングが前処理
画素中の2点の関係を特徴量にして学習して分類
要するに独自の新たな特徴量を考案
28%の精度
35 3. 認識
食事認識研究の事例
Platemate [Noronha+ 2011]
画像をアップロードすると裏で管理栄養士さんが写真からカロ
リーを教えてくれる!手軽にクラウドソーシング!
実は同様の仕組みのアプリがすでにけっこうある (ex. 撮って栄養,
カロナビ)
36
http://imd.jp/app/km.html
3. 認識
食事認識研究の事例
最近まであまりデファクトのデータセットがな
かった (cf. Caltech Bird)
(PFID [Chen+ 2009])
Food-101 [Bossard+ 2014]
UEC Food-256 [Kawano+ 2014]
(FoodLog Dataset [Kagaya+ 2014])
37 3. 認識
FoodLog App
個人の記録に特化した食事認識
スマートフォンを用い,領域と量の指定はインタラク
ティブに行う
現在アプリでは空間情報を用いたカラーヒストグラム
を特徴として過去の食事から画像検索
領域/量推定の不確定さを解消される
ただし手間は増える
「検索」なのでわかりやすい
しかし,個人のログを外れるような食事に
は対応できない
38 3. 認識
• このへんから私の研究の話をします
3. 認識
手動!
手動!
半自動
3. 認識
自動!
自動!
自動!
3. 認識
Convolutional Neural Networks (CNN)
深層学習アルゴリズムのひとつ
いわゆるDeep Learning/多層NN
主に畳み込み層とプーリング層で構成
物体認識のコンテストで優勝するなど広く応用される
画像からの特徴抽出が自動で行える
けっきょくとってくる特徴がとても大事だ
食事分類に適した特徴を抽出できる(のではないか?)
42 3. 認識
CNNによる認識
FoodLog Appに実際にユーザが登録した画像を
用いてデータセットを作成
画像登録数上位10種に限定
この10種から900枚ずつ抽出
合計9000枚を6分割し,4つを学
習,1つを検証,1つをテストに用
いる
43 3. 認識
CNNによる認識
結果(他手法との比較)
Boschの結果,杉山の結果[Sugiyama 修士論文]
色,GIST(大域特徴量),SIFT(局所特徴量)などとSVMの組み合わ
せが有効との結果
空間情報を利用した色特徴量+SVM,GIST+SVM,ScSPM[7]
44
層数 特徴マップ 特徴マップのサイズ 正規化 データセット 正解率
2層 32-32 5-5
1回,
LRN(across map)
6-fold cross
validation
73.70%
手法 データセット 正解率
SPM + Color + SVM
6-fold cross
validation
54.63%
GIST + SVM
6-fold cross
validation
52.63%
ScSPM
6-fold cross
validation
60.47%
3. 認識
フィルタの可視化
45
(A) CIFAR-10
(C) FoodLog App
(B) ImageNet
3. 認識
食事への最適化
46 3. 認識
Yet Another Approach (1)
電子レンジの漏れ電流を用いた食事認識
[Nakamata+ 2014]
• 電子レンジを利用中はマイクロ波が漏れる
• そのマイクロ波の時間変化は,食品によって異な
るため,機械学習を適用して食品を認識
47 3. 認識
Yet Another Approach (1)
48 3. 認識
Yet Another Approach (2)
FoodBoard: 食事認識用まな板[Cuong+, 2013]
まな板で調理中にナマの食材たちを認識する
プライバシー問題への対処,特別なカメラなどを用意するためにキッチンの
ものの配置等を動かす必要がない
光ファイバーが敷き詰められたまな板を使う
49 3. 認識
Problem
一般食事画像認識を考えると・・
問題点は何か?
1. number of categories is supermassive
• FoodLogに登録されている(ユニーク)料理数: 68,566
• Cookpad投稿数: 200万超 (11/19現在)
2. intra-class variance is very high
3. inter-class variance is low
3. 認識
これはつまり
Fine-Grained Visual Categorization という分野に属す
る(あるいは近い)
犬や鳥の場合と少し違うのは,料理に階層構造がn(>2)層以上存
在すること,ほぼ同一の内容を示す異名のオブジェクトが存在し
てしまうことなど
1の解決策:名寄せ?
「カレー」「カレーライス」「ライスカレー」「ポークカレー」
2の解決策:個人性の利用
同一人物は同じようなそれをよく食べるという仮定
3の解決策:メタデータ,画像以外の情報の利用
3. 認識
今取り組んでいること
FGVC分野の知見の適用(cf. visipedia[Branson+
2010])
Human-in-the-loop的な考え方を取り入れる
3. 認識
もくじ
1. 「食」とIT概観
2. 詳細事例①AR/VR系
3. 詳細事例②食事認識
4. 自分の研究について
5. まとめ
まとめ
• 食事に関連する最近の研究・サービスを主にCV・ML・
AR/VR関係のことについて紹介した
• 食事は人間が生きる以上かならず必要なので,それに係
る研究は非常に重要
• 食事認識はいくつかとても難しいポイントがあり,まだ
解決できていない部分も多い
• しかしデファクトのデータセットの登場など進歩も見られる
参考文献
• [Narumi+ 2011] Takuji Narumi, Shinya Nishizaka, Takashi Kajinami, Tomohiro Tanikawa
and Michitaka Hirose, "MetaCookie+", IEEE VR 2011 Research Demo, pp.265-266, Mar.
2011.
• [Narumi+ 2012] Takji Narumi, Yuki Ban,Takashi Kajinami, Tomohiro Tanikawa and
Michitaka Hirose, “Augmented Perception of Satiety: Controlling Food Consumption by
Changing Apparent Size of Food with Augmented Reality”, CHI 2012 Proceedings of the
2012 ACM annual conference on Human Factors in Computing Systems, pp.109-118,
Austin Teaxs, USA, May 5-10, (2012)
• [Joutou+ 09] Taichi Joutou and Keiji Yanai: A Food Image Recognition System with
Multiple Kernel Learning, International Conference on Image Processing (ICIP), (2009).
• [Matsuda+ 2012] Yuji Matsuda and Keiji Yanai: Multiple-Food Recognition Considering Co-
occurrence Employing Manifold Ranking, IAPR International Conference on Pattern
Recognition (ICPR), (2012)
• [Bosch+ 2011] M. Bosch, F. Zhu, N. Khanna, C.J. Boushey, and E.J. Delp, "Combining
Global and Local Features for Food Identification and Dietary Assessment," Proceedings of
the International Conference on Image Processing,pp. 1789-1792, September 2011,
Brussels, Belgium. DOI: 10.1109/ICIP.2011.6115809
• [Branson+ 2010] S. Branson et al., “Visual Recognition with Human in the Loop”, ECCV
2010
• [Nakamata+ 2014] Nakamata, A., Asami, T., Wei, W., & Kawahara, Y. (2014, September).
Feature optimization for recognizing food using power leakage from microwave oven. In
Proceedings of the 2014 ACM International Joint Conference on Pervasive and Ubiquitous
Computing: Adjunct Publication (pp. 537-546). ACM.
参考文献
• [Cuong+ 2013] Cuong, P., SCHOENING, J., Tom, B., Thomas, P., & Patrick, O. (2013).
FoodBoard: Surface Contact Imaging for Food Recognition.
• [Chen+ 2009] Chen, M., Dhingra, K., Wu, W., Yang, L., Sukthankar, R., & Yang, J. (2009,
November). PFID: Pittsburgh fast-food image dataset. In Image Processing (ICIP), 2009
16th IEEE International Conference on (pp. 289-292). IEEE.
• [Bossard+ 2014] Bossard, L., Guillaumin, M., & Van Gool, L. (2014). Food-101–Mining
Discriminative Components with Random Forests. In Computer Vision–ECCV 2014 (pp.
446-461). Springer International Publishing.
• [Kawano+ 2014] Kawano, Y., & Yanai, K. (2014, November). FoodCam-256: A Large-
scale Real-time Mobile Food RecognitionSystem employing High-Dimensional Features and
Compression of Classifier Weights. In Proceedings of the ACM International Conference on
Multimedia (pp. 761-762). ACM.
• [Kagaya+ 2014] Kagaya, H., Aizawa, K., & Ogawa, M. (2014, November). Food Detection
and Recognition Using Convolutional Neural Network. In Proceedings of the ACM
International Conference on Multimedia (pp. 1085-1088). ACM.
• [Chae+ 2011] J. Chae, I. Woo, S. Kim, R. Maciejewski, F. Zhu, E.J. Delp, C.J. Boushey,
and D.S. Ebert, "Volume Estimation Using Food Specific Shape Templates in Mobile
Image-Based Dietary Assessment," Proceedings of the IS&T/SPIE Conference on
Computational Imaging IX, Vol. 7873, pp. 1-8, January 2011
• [Noronha+ 2011] Jon Noronha, Eric Hysen, Haoqi Zhang, and Krzysztof Z. Gajos.
Platemate: Crowdsourcing nutrition analysis from food photographs. In Proceedings of the
24th annual ACM symposium on User interface software and technology, UIST ’11, pp. 1–
12. ACM, 2011.
参考文献
• [Toko 98] Toko, K. (1998). RETRACTED: Electronic tongue. Biosensors and Bioelectronics,
13(6), 701-709.
• [Liu+ 2013] Liu, S., Feng, J., Song, Z., Zhang, T., Lu, H., Xu, C., & Yan, S. (2012,
October). Hi, magic closet, tell me what to wear!. In Proceedings of the 20th ACM
international conference on Multimedia (pp. 619-628). ACM.
• [永田ら 2014] 永田ら, スマートフォンによる短時間睡眠支援に向けた入眠時刻の推定, 情報処理
学会研究報告高度交通システムとスマートコミュニティ, 2014

Weitere ähnliche Inhalte

Ähnlich wie PFIセミナー2015/05/28 食とIT

「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
ハッカソン形式の実践的IT教育の実施報告
ハッカソン形式の実践的IT教育の実施報告ハッカソン形式の実践的IT教育の実施報告
ハッカソン形式の実践的IT教育の実施報告Kazunori Sakamoto
 
Hasc勉強会報告
Hasc勉強会報告Hasc勉強会報告
Hasc勉強会報告萌 松木
 
NECTJ JHL Annual Conference Namiai Internatinal Camp
NECTJ JHL Annual Conference Namiai Internatinal CampNECTJ JHL Annual Conference Namiai Internatinal Camp
NECTJ JHL Annual Conference Namiai Internatinal CampNECTJ
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 

Ähnlich wie PFIセミナー2015/05/28 食とIT (6)

「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
ハッカソン形式の実践的IT教育の実施報告
ハッカソン形式の実践的IT教育の実施報告ハッカソン形式の実践的IT教育の実施報告
ハッカソン形式の実践的IT教育の実施報告
 
Hasc勉強会報告
Hasc勉強会報告Hasc勉強会報告
Hasc勉強会報告
 
NECTJ JHL Annual Conference Namiai Internatinal Camp
NECTJ JHL Annual Conference Namiai Internatinal CampNECTJ JHL Annual Conference Namiai Internatinal Camp
NECTJ JHL Annual Conference Namiai Internatinal Camp
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 

PFIセミナー2015/05/28 食とIT