PFIセミナー2015/05/28 食とIT

2015 / 5 / 28 (Thu.)
KAGAYA Hokuto
PFI Seminar
- IT × Food-

自己紹介
• 加賀谷北斗 (Hokuto KAGAYA)
• 東大工学部電子情報卒，現在学際情報学府修士2年
• コンピュータビジョン・機械学習に興味
• 今日は専門の話メインでします
• 2014年度サマーインターン
• テーマ：映像解析/監視カメラ上の人物の頭部位置検出と方向推定
• 現在はPFNにてアルバイト中
• 初めてなのでお手柔らかにお願いします

IT化の波
衣
住
食
例：睡眠状態解析
[永田ら 2014]
例：コーディネート推薦
[Liu+ 2013]

例：睡眠状態解析
[永田ら 2014]
例：コーディネート推薦
[Liu+ 2013]
今日は
衣
住
食

今日は
• 食事関連のナウいサービスや最近の研究動向についてお
話したいと思います

もくじ
1. 「食」とIT概観
2. 詳細事例①AR/VR系
3. 詳細事例②食事認識
4. 自分の研究について
5. まとめ

食とIT
• いくつかの方向性
• 食事画像加工
• 推薦・レシピなど
• 食事に関するVR・AR的な研究
• 食事の自動認識
• その他
1. 食とIT概観

食事画像加工
1. 食とIT概観
http://foodpic.net/

食事画像加工
http://foodpic.net/
1. 食とIT概観

食事画像加工
1. 食とIT概観

食事画像専用SNS等の登場
http://miil.me/ http://pecolly.jp/ http://www.uniqlo.com/jp/lifetools/recipe/
1. 食とIT概観

IBM Watson
• Watsonが考案したレシピ本が発売(2015/4)
1. 食とIT概観

ワインラベル認識
• App Store上では未だに人気アプリ
1. 食とIT概観
http://k-tai.impress.co.jp/docs/news/20140522_649700.html

AR/VR系の研究
• 「Aのときに人間はBする」という心理学の知見
• さまざまなハードウェア，ソフトウェアを用いて
これを仮想的，重畳的に引き起こす
• 元々の知見に基づいた行動変容が期待できる

味覚センサ・ディスプレイ
• 高分子膜により生体膜を模倣した味覚センサの登場[Toko
98]
• 砂糖を利用した「食べられる」モデルを出力する3Dプリ
ンタ (The CandyFab Project, 2006)
http://candyfab.org
2. AR/VR

MetaCookie[Narumi+ 2011など]
• 人間が感じる「味」は化学物質と舌との反応だけで決ま
るものではなく，その食べ物を食べている時の他の感覚
に左右されて変わる
• これを風味と呼ぶ
• 特に「嗅覚」「視覚」は味覚に非常に大きな影響を与え
るとされている
• ex. かき氷のシロップ
• どうせ一緒なら
2. AR/VR
俺はスイで。

MetaCookie
• https://www.youtube.com/watch?v=3GnQE9cCf84
• クッキーを画像で認識，視覚情報および嗅覚情報を重畳
する
2. AR/VR

拡張満腹感
[Narumi+ 2012]など
• 人間が「満腹」を感じるのは・・
• 食事をする際の環境，食事自体の環境がそれぞれ大きく影響
• ex. 誰と食べるか，どこで食べるか，サイズ感，食器
• その中で，食品自体のサイズ感に注目
• 比較的容易に処理可能
• サイズを画像処理的に変化させることで満腹感を人工的
に操作する
2. AR/VR

拡張満腹感
https://www.youtube.c
om/watch?v=KzFNWL
L0l-o
2. AR/VR
rigid MLS methodという手法

テーブルトップ型拡張満腹感[Sakurai+ 2012]
2. AR/VR

2. AR/VR
テーブルトップ型拡張満腹感[Sakurai+ 2012]

食事画像認識
ご飯
189 kcal
たくわん
23 kcal
キャベツのサラダ
90 kcal
スンドゥブ
456 kcal
* Displayed calories are just examples.
30 3. 認識

• For health, for life-log, for entertainment
• FoodLog App by our lab. and foo.log Inc. [1]
• Food record with smartphone
食事画像認識
31
[1] http://app.foodlog.jp/
3. 認識

Problem Definition
• Detection
• Classification
• Estimation
32
Where is a food region?
What is this food?
What amount is this food?
What calorie does this food have?
3. 認識

食事認識研究の事例
TADA Project (パデュー大学)
スマートフォン等のデバイス上で動作することを想定
した包括的な食事記録・評価のフレームワークを提案
食事領域推定／食事分類／量推定などにも取り組む
1. 食事品目の分類に有効な特徴量は何か？[Bosch+
2011]
→色（とか局所特徴量）がやっぱり大事！
2. 食事の量の自動推定[Chae+ 2011]
→食事ごとに別のテンプレートを使う
33 3. 認識

柳井研究室 (電気通信大学)
精力的に「食事画像」をテーマとした研究を行う
1. Multi Kernel Learningを用いて複数の特徴を結合
して食事認識を行う[Joutou+ 2009]
2. 共起情報の利用[Matsuda+ 2012]
3. スマートフォン上で利用できる食事認識[Kawano+
2014]
識別器の重み圧縮を行うことで
省メモリかつ高速なモバイル上で
の動作を実現
34 3. 認識

[Yang+ 2011] (CVPR!)
アメリカのファストフードがデータセット
画素レベルでのソフトラベリングが前処理
画素中の2点の関係を特徴量にして学習して分類
要するに独自の新たな特徴量を考案
28%の精度
35 3. 認識

Platemate [Noronha+ 2011]
画像をアップロードすると裏で管理栄養士さんが写真からカロ
リーを教えてくれる！手軽にクラウドソーシング！
実は同様の仕組みのアプリがすでにけっこうある (ex. 撮って栄養，
カロナビ）
36
http://imd.jp/app/km.html
3. 認識

最近まであまりデファクトのデータセットがな
かった (cf. Caltech Bird)
(PFID [Chen+ 2009])
Food-101 [Bossard+ 2014]
UEC Food-256 [Kawano+ 2014]
(FoodLog Dataset [Kagaya+ 2014])
37 3. 認識

FoodLog App
個人の記録に特化した食事認識
スマートフォンを用い，領域と量の指定はインタラク
ティブに行う
現在アプリでは空間情報を用いたカラーヒストグラム
を特徴として過去の食事から画像検索
領域/量推定の不確定さを解消される
ただし手間は増える
「検索」なのでわかりやすい
しかし，個人のログを外れるような食事に
は対応できない
38 3. 認識

• このへんから私の研究の話をします
3. 認識

手動！
手動！
半自動
3. 認識

自動！
自動！
自動！
3. 認識

Convolutional Neural Networks (CNN)
深層学習アルゴリズムのひとつ
いわゆるDeep Learning/多層NN
主に畳み込み層とプーリング層で構成
物体認識のコンテストで優勝するなど広く応用される
画像からの特徴抽出が自動で行える
けっきょくとってくる特徴がとても大事だ
食事分類に適した特徴を抽出できる（のではないか？）
42 3. 認識

CNNによる認識
FoodLog Appに実際にユーザが登録した画像を
用いてデータセットを作成
画像登録数上位10種に限定
この10種から900枚ずつ抽出
合計9000枚を6分割し，4つを学
習，1つを検証，1つをテストに用
いる
43 3. 認識

CNNによる認識
結果（他手法との比較）
Boschの結果，杉山の結果[Sugiyama 修士論文]
色，GIST（大域特徴量），SIFT（局所特徴量）などとSVMの組み合わ
せが有効との結果
空間情報を利用した色特徴量＋SVM，GIST＋SVM，ScSPM[7]
44
層数特徴マップ特徴マップのサイズ正規化データセット正解率
2層 32-32 5-5
1回，
LRN(across map)
6-fold cross
validation
73.70%
手法データセット正解率
SPM + Color + SVM
6-fold cross
validation
54.63%
GIST + SVM
6-fold cross
validation
52.63%
ScSPM
6-fold cross
validation
60.47%
3. 認識

フィルタの可視化
45
(A) CIFAR-10
(C) FoodLog App
(B) ImageNet
3. 認識

食事への最適化
46 3. 認識

Yet Another Approach (1)
電子レンジの漏れ電流を用いた食事認識
[Nakamata+ 2014]
• 電子レンジを利用中はマイクロ波が漏れる
• そのマイクロ波の時間変化は，食品によって異な
るため，機械学習を適用して食品を認識
47 3. 認識

48 3. 認識

FoodBoard: 食事認識用まな板[Cuong+, 2013]
まな板で調理中にナマの食材たちを認識する
プライバシー問題への対処，特別なカメラなどを用意するためにキッチンの
ものの配置等を動かす必要がない
光ファイバーが敷き詰められたまな板を使う
49 3. 認識

Problem
一般食事画像認識を考えると・・
問題点は何か？
1. number of categories is supermassive
• FoodLogに登録されている(ユニーク)料理数: 68,566
• Cookpad投稿数: 200万超 (11/19現在）
2. intra-class variance is very high
3. inter-class variance is low
3. 認識

これはつまり
Fine-Grained Visual Categorization という分野に属す
る（あるいは近い）
犬や鳥の場合と少し違うのは，料理に階層構造がn(>2)層以上存
在すること，ほぼ同一の内容を示す異名のオブジェクトが存在し
てしまうことなど
1の解決策：名寄せ？
「カレー」「カレーライス」「ライスカレー」「ポークカレー」
2の解決策：個人性の利用
同一人物は同じようなそれをよく食べるという仮定
3の解決策：メタデータ，画像以外の情報の利用
3. 認識

今取り組んでいること
FGVC分野の知見の適用（cf. visipedia[Branson+
2010])
Human-in-the-loop的な考え方を取り入れる
3. 認識

まとめ
• 食事に関連する最近の研究・サービスを主にCV・ML・
AR/VR関係のことについて紹介した
• 食事は人間が生きる以上かならず必要なので，それに係
る研究は非常に重要
• 食事認識はいくつかとても難しいポイントがあり，まだ
解決できていない部分も多い
• しかしデファクトのデータセットの登場など進歩も見られる

参考文献
• [Narumi+ 2011] Takuji Narumi, Shinya Nishizaka, Takashi Kajinami, Tomohiro Tanikawa
and Michitaka Hirose, "MetaCookie+", IEEE VR 2011 Research Demo, pp.265-266, Mar.
2011.
• [Narumi+ 2012] Takji Narumi, Yuki Ban,Takashi Kajinami, Tomohiro Tanikawa and
Michitaka Hirose, “Augmented Perception of Satiety: Controlling Food Consumption by
Changing Apparent Size of Food with Augmented Reality”, CHI 2012 Proceedings of the
2012 ACM annual conference on Human Factors in Computing Systems, pp.109-118,
Austin Teaxs, USA, May 5-10, (2012)
• [Joutou+ 09] Taichi Joutou and Keiji Yanai: A Food Image Recognition System with
Multiple Kernel Learning, International Conference on Image Processing (ICIP), (2009).
• [Matsuda+ 2012] Yuji Matsuda and Keiji Yanai: Multiple-Food Recognition Considering Co-
occurrence Employing Manifold Ranking, IAPR International Conference on Pattern
Recognition (ICPR), (2012)
• [Bosch+ 2011] M. Bosch, F. Zhu, N. Khanna, C.J. Boushey, and E.J. Delp, "Combining
Global and Local Features for Food Identification and Dietary Assessment," Proceedings of
the International Conference on Image Processing,pp. 1789-1792, September 2011,
Brussels, Belgium. DOI: 10.1109/ICIP.2011.6115809
• [Branson+ 2010] S. Branson et al., “Visual Recognition with Human in the Loop”, ECCV
2010
• [Nakamata+ 2014] Nakamata, A., Asami, T., Wei, W., & Kawahara, Y. (2014, September).
Feature optimization for recognizing food using power leakage from microwave oven. In
Proceedings of the 2014 ACM International Joint Conference on Pervasive and Ubiquitous
Computing: Adjunct Publication (pp. 537-546). ACM.

参考文献
• [Cuong+ 2013] Cuong, P., SCHOENING, J., Tom, B., Thomas, P., & Patrick, O. (2013).
FoodBoard: Surface Contact Imaging for Food Recognition.
• [Chen+ 2009] Chen, M., Dhingra, K., Wu, W., Yang, L., Sukthankar, R., & Yang, J. (2009,
November). PFID: Pittsburgh fast-food image dataset. In Image Processing (ICIP), 2009
16th IEEE International Conference on (pp. 289-292). IEEE.
• [Bossard+ 2014] Bossard, L., Guillaumin, M., & Van Gool, L. (2014). Food-101–Mining
Discriminative Components with Random Forests. In Computer Vision–ECCV 2014 (pp.
446-461). Springer International Publishing.
• [Kawano+ 2014] Kawano, Y., & Yanai, K. (2014, November). FoodCam-256: A Large-
scale Real-time Mobile Food RecognitionSystem employing High-Dimensional Features and
Compression of Classifier Weights. In Proceedings of the ACM International Conference on
Multimedia (pp. 761-762). ACM.
• [Kagaya+ 2014] Kagaya, H., Aizawa, K., & Ogawa, M. (2014, November). Food Detection
and Recognition Using Convolutional Neural Network. In Proceedings of the ACM
International Conference on Multimedia (pp. 1085-1088). ACM.
• [Chae+ 2011] J. Chae, I. Woo, S. Kim, R. Maciejewski, F. Zhu, E.J. Delp, C.J. Boushey,
and D.S. Ebert, "Volume Estimation Using Food Specific Shape Templates in Mobile
Image-Based Dietary Assessment," Proceedings of the IS&T/SPIE Conference on
Computational Imaging IX, Vol. 7873, pp. 1-8, January 2011
• [Noronha+ 2011] Jon Noronha, Eric Hysen, Haoqi Zhang, and Krzysztof Z. Gajos.
Platemate: Crowdsourcing nutrition analysis from food photographs. In Proceedings of the
24th annual ACM symposium on User interface software and technology, UIST ’11, pp. 1–
12. ACM, 2011.

参考文献
• [Toko 98] Toko, K. (1998). RETRACTED: Electronic tongue. Biosensors and Bioelectronics,
13(6), 701-709.
• [Liu+ 2013] Liu, S., Feng, J., Song, Z., Zhang, T., Lu, H., Xu, C., & Yan, S. (2012,
October). Hi, magic closet, tell me what to wear!. In Proceedings of the 20th ACM
international conference on Multimedia (pp. 619-628). ACM.
• [永田ら 2014] 永田ら, スマートフォンによる短時間睡眠支援に向けた入眠時刻の推定, 情報処理
学会研究報告高度交通システムとスマートコミュニティ, 2014

PFIセミナー2015/05/28 食とIT

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie PFIセミナー2015/05/28 食とIT

Ähnlich wie PFIセミナー2015/05/28 食とIT (6)

PFIセミナー2015/05/28 食とIT