人工知能研究振興財団研究助成に対する成果報告

カメラと荷重センサの統合による机
上物体と人とのインタラクション検出
2015/3/18
人工知能研究振興財団成果報告会
京都大学学術情報メディアセンター
マルチメディア情報研究分野研究協力
法学研究科情報助手
橋本敦史

人の活動に沿った作業ガイドシステム
〜調理を例にとって〜
CounterActive (Ju et al, 2001)
eyeCOOK
(Bradbury et al, 2003)
Happy Cooking(浜田ら, 2006)
しゃべるDSお料理ナビ
(Nintendo DS, 2006)
主な支援のターゲット:
初心者が行う作業
AM Kitchen (glassware, 2014)

技術的な制限から，初心者向けになってしまう
– 決まった順序で調理をしてもらう必要
– “次へ” の指示が毎ステップで必要
>> 全部教えて欲しい人（＝初心者）には許容できる制限
Step 1 Step 2 Step 3 Step 4
終わったから…
次を表示!

より熟練した作業者のための支援
1. 個々の作業には慣れている作業者が，
2. 不慣れなレシピ（ワークフロー）に取り組む場面
– わからない部分だけしか支援がいらない
• 分量, 火力, 不慣れな材料…
血圧が高いので
塩分は控え目に…
離乳食を作らなきゃ.

熟練作業者には操作報酬がない…
Step 1 Step 2 Step 3 Step 4
やり方は
わかってる.
これも…これも
わかってる
塩は何gだっけ?
• システム側がユーザの行動を理解する必要
– 自動での作業進行理解

物体とのインタラクションを鍵にした作業進行理解
• ワークフローによる
進行状態の表現
– 好きな順で作業可能
• 手に取った材料の種類で
どの作業パスか予測可能
• 置いた材料/道具で
作業の終了を判定
Cut Cut
Stir-fry
Season
A delicious food
A recipe
workflow

作業進行理解に基づく情報提示
• 計算機による，より高度な人間活動支援
1. 作業への集中を妨げない
2. 失敗を防ぐ
3. より創造的な活動に注力させる
作業者の意図を感じられるインターフェイス

http://www.mm.media.kyoto-u.ac.jp/research/smartkitchen

このようなインターフェイス
実現のための課題
A. 物体の把持/解放検出
– いつ，どれを手に取ったか？
B. 物体認識
– 手に持った物体の種類は何か？
C. 次の動作（意図）の予測
– 既に終わった作業 x 手に取った物体から
類推される作業者の意図は?

課題A物体の把持/解放検出(1
1) R. Yasuoka, A. Hashimoto et al, “Detecting Start and End Times of Object-Handlings on a Table
by Fusion of Camera and Load Sensors,” CEA2013

課題A. 物体の把持/解放検出
• 画像処理のみによる手法
2) 橋本他, “TexCut: GraphCutを用いたテクスチャの比較による背景差分の検討”, 信学論D, 2011
3) 橋本他, “机上物体検出を対象とした接触理由付けによる誤検出棄却”, 信学論D, 2012
4) 橋本他, “把持の順序と外見の変化モデルを利用した調理作業における食材追跡”, 信学論A, 2011
a. TexCut(2 (背景差分)
c. パッチ型背景モデル
の更新(4
b. 前景領域に対する
把持/解放/棄却判定(3
パッチ
パッチ型背景モデル

画像のみによる把持/解放検出結果

画像のみの手法の限界
• 見えない部分でリアルタイム性が損なわれる
手で継続して隠れている
部分の状況がわからない

荷重センシングシステム(5の利用
F0 at {0,0} F1 at {1,0}
F2 at {0,1} F3 at {1,1}
W at {x, y}
W
FF
y
W
FF
xFFFFW 3231
3210 ,,
+
=
+
=+++=
5) A. Schmidt et al, “Context acquisition based on load sensing,” UbiComp ’02
• 作業台への荷重の変化を利用
• 物体が1個の場合
– 荷重変化の重心=物体の位置
– 荷重変化の増減 → 「取る/置く」の区別

荷重センシングシステム(5の利用
F0 at {0,0} F1 at {1,0}
F2 at {0,1} F3 at {1,1}
W at {x, y}
W
FF
y
W
FF
xFFFFW 3231
3210 ,,
+
=
+
=+++=
• 作業台への荷重の変化を利用
• 物体が複数の場合
– 荷重変化の重心≠物体の位置
– 荷重変化の増減 → 「取る/置く」の組み合わせ次第

カメラと荷重センサを統合したモデル
複数物体を画像処理で区別（位置・見た目）
→ 荷重変化から生成される仮説の評価
荷重変化の検出（遮蔽非依存）
→ 物体の組合せ仮説を生成
カメラ
荷重センサ
Wﾊｻﾐ+ Wﾉﾘ
×
16

把持/解放仮説の生成
• 荷重に変動があるたびに仮説の生成/評価

物体の存在確率マップと制約式
はさみの存在確率マップ
のりの存在確率マップ
物体の存在確率マップ
遮蔽
18

物体の存在確率マップと制約式
比の制約式
WA
WB
rA rB×
複数物体同時移動時の問題に対応
画素ごとの確率
19
観測された
重心位置
物体の存在確率マップ

荷重センシングシステム(3の構築
F0 at {0,0} F1 at {1,0}
F2 at {0,1} F3 at {1,1}
W at {x, y}
W
FF
y
W
FF
xFFFFW 3231
3210 ,,
+
=
+
=+++=
3) A. Schmidt et al, “Context acquisition based on load sensing,” UbiComp ’02
データロガー: HBM QuantumX 440A
ロードセル: HBM C9B

一方が完全に遮蔽されている場合の
物体位置の推定例
「はさみの見え」と
「荷重変化」に
基づいて，「のり」の
位置を推定
のりの存在位置の
確率密度マップ

より複雑な作業での評価
• 人参の皮を剥いて切る，という作業での評価
被験
者
検出回数正棄却
A 4/7回 4/4回
B 3/7回 1/2回
C 5/7回 5/10回
D 4/7回 7/11回
合計 16/28回 17/27回
加工による物体の重さ変化
などで課題が残っている．

課題B 物体認識(6
6) 井上，橋本他，”食材認識のための画像と食材切断時の振動音及び荷重の利用”,
信学論D, 2014

食材認識の難しさ：外見的特徴の欠如
限られた種類の色
緑色のほとんどはクロロフィルβに由来
同種の食材でも異なる形状
種類と同じくらい，生育環境にも依存
模様が少ない表面
一部の食材しか特徴的な模様を持たない

切断時に生じる物理的特徴を利用
音と荷重
おそらくは食材の物理的性質を反映しているはず…
荷重は，切断時にかかった力を反映
→ 固さ，繊維の大きさなど
音は，マクロなレベルでの構造を反映
→ 層状の皮，空洞など

センサ化されたまな板
• 荷重センサと接触型マイク
Load Sensor
TopView
Load-Sensing Board
SideView Glass-Based Chopping Board
Contact Mic
Front View
C411 (AKG)
AS-FORCE (Asakusa giken)

情報を含む信号区間の抽出
ts te
t
t
t
0.2 s
カメラ
荷重
最後に検出された
物体の領域
ts
イベント
Put Withdraw
tp
ImpactTouch
tc
音声
荷重の急な立ち下がりを見つけ，そこから他の
センサの信号区間を切り出し．

各センサから得る特徴
カメラ
荷重
音声
: 色特徴
: メル周波数ケプストラム（MFCC）由来
: 波形のモーメントなど
43 = 64 ビン
23 次元
10 次元

実験: 23種類の食材を対象とした
• 日本の家庭で頻繁に調理される23種類(5
しいたけ
しめじ
えのきだけ
長ネギ
生姜
キュウリ
ほうれん草
レモン
ピーマン
なす
ごぼう
キャベツ
トマト
大根
じゃがいも
玉ねぎ
白菜
カボチャ
ニンニク
人参
ニラ
ブロッコリ
鶏肉
5) 妹尾紗恵. 食材相関図からみた料理構造解析 : 安定性と可変性にみる日本の家庭料理.
日本家政学会誌, Vol. 59(4), pp. 211–219, 2008.

実験1では，人手で切断の検出見逃し/誤りを排除して評価を行った
（今回の発表では結果については省略）

実験2(全自動で検出した場合)の結果
画像のみを利用した場合の認識結果: avg. 73.8%
Confusion Matrix
- 横軸: サンプルのクラス番号
- 縦軸: サンプルの認識結果
- 座標(i,j)の画素の白さ :
クラスiがクラスjと認識された割合
→ 対角線上が白いほど良い結果

3種類の特徴を全て使った場合: avg. 87.7%
Confusion Matrix
- 横軸: サンプルのクラス番号
- 縦軸: サンプルの認識結果
- 座標(i,j)の画素の白さ :
クラスiがクラスjと認識された割合
→ 対角線上が白いほど良い結果

三種の特徴を統合した場合が最良であることを確認

課題C 次の動作（意図）の予測(7
7) Hashimoto et al, ” How does userfs access to object make HCI smooth in recipe guidance?,”
In Proc. of HCII2014

実際に予測に基づいた情報提示を
行うインターフェイスを構築
1. コンピュータが扱い安いレシピ記述 (XMLベース)
– Hand-Work Mark-up Language (HWML)
1. 任意のバックエンドシステムから操作が可能なUI
– Chef’s Interface For Food preparatiON (CHIFFON)
1. 人と物体のインタラクションに基づいてUIを操作す
るバックエンドシステム(現在は手動入力で評価中)

への加工
Hand-Work Markup Language (HWML)
• 2階層構造のワークフロー記述
への加工
とへの加工
StepLayer
(材料別の分割)
Sub-stepLayer
(加工による分割)
小口切り
くし切り
混ぜる味付け和える
x 4

HWMLの例
<?xml version="1.0" encoding="utf-8"?>
<recipe title="あんかけレタス炒飯" overview="./image/overview.jpg">
<materials>
…
</materials>
<directions>
<step id="step01" priority="14" navi_text="ご飯を用意する">
<substep> … </substep>
…
</step>
<step id=“step02” … parent=“step01” …>
…
</step>
…
</directions>
<event … /> …
</recipe>
(ルート要素)材料表2階層構造のワークフロー

CHIFFON: ブラウザ上で動作するUI
http://chiffon.mm.media.kyoto-u.ac.jp user_id: guest password: chiffon

CHIFFON: ブラウザ上で動作するUI
現在表示されている
sub-step
完了を示す
チェックボックス
<audio>
<substep>で記述された指
示
<step>/<substep>
のキャプション
HTML形式で
書かれた指示テキスト
<video>
http://chiffon.mm.media.kyoto-u.ac.jp user_id: guest password: chiffon

z
CHIFFON: フロントエンドとバックエンドの連携
フロンドエンド
バックエンドナビゲータ
ユーザ
イベント検出器
CHIFFONで提供する機能
タップ等による操作
何らかのセンサ
による作業観測

物体とのインタラクションに基づく
ユーザ意図の予測に関する評価実験
• Wizard of OZ (WOZ) 法の利用
– 全自動の認識の前に，人がイベント検出器となって
予測アルゴリズムのみを評価
– 自動化の際に必要な性能の見積もり

z
CHIFFON + WOZ法のためのシステム
フロンドエンド
バックエンドナビゲータ
ユーザ
Wizard (人間)
CHIFFONで提供する機能
タップ等による操作
人の目による
観測

WizardのためのUI
(rice) (egg) (cibol) (lettuce) (ginger)
(sesame oil)
(salt&pepper) (soy sauce) (soup stock) (water)
(oil)
(starch)
(knife) (fork) (wood paddle) (rice paddle) (ladle)
(tablespoon ) (teaspoon ) (measure cup)
(ginger soup) (starch & water) (starchy sauce) (rice & egg) ( …& chibol)
(…&lettuce) (fried rice w. sauce) (unknown) (unknown) (unknown)

実験設定
• レシピ
– あんかけレタス炒飯
– 複雑さ: 14 ステップ，30 サブステップ
• 「あん」と「炒飯」の大きく2つの作業の流れ
• 被験者
– 5人の被験者
– 調理頻度: 週1回以上
– 調理前10分間で，大凡のプランニングをしてもらう
– 出来る限り普段通りの調理ができるよう，様々な設定

結果
被験者
A B C D E
a) 作業に関わる物体接触 99 101 72 98 77
b) 作業に無関係な接触 92 106 73 76 95
c) 正しい予測の回数 128 162 108 135 121
1. 予測精度 67.0% 78.3% 74.5% 77.6% 70.3%
2. 手動での操作回数 2 2 9 1 2
• 従来のレシピ提示システムだと，最低29回の操作が必要
• 被験者Cは1/3，それ以外は1/10程度まで操作数現象
• 予測精度に対して期待以上の効果
• 多少の間違いは許容され得る（情報の提示方法に依存）

今回の助成を受けた研究成果
テーマ: カメラと荷重センサの統合による机上物体と
人とのインタラクション検出
A. 物体の把持/解放検出
B. 物体認識
発表文献:
– [1] Ryuta Yasuoka, Atsushi Hashimoto, Takuya Funatomi, and Michihiko Minoh. Detecting
start and end times of object-handlings on a table by fusion of camera and load sensors. In
Proceedings of the 5th international workshop on Multimedia for cooking & eating activities,
pages 51–56. ACM, 2013.
– [2] 井上仁, 橋本敦史, 中村和晃, 舩冨拓哉, 山肩洋子, 上田真由美, and 美濃導彦. 食材認識のため
の画像と食材切断時の振動音及び荷重の利用. 電子情報通信学会論文誌 D, 97(9), 2014.
– [3] 安岡竜太, 橋本敦史, 舩冨卓哉, and 美濃導彦. カメラと荷重センサの統合による机上物体に対す
るハンドリング開始・終了の検出 (食メディア (調理支援), メディア・コミュニケーションの品質と福祉, 及
び一般). 電子情報通信学会技術研究報告. MVE, マルチメディア・仮想環境基礎, 112(474):69–74,
2013.

人工知能研究振興財団研究助成に対する成果報告

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Atsushi Hashimoto

Mehr von Atsushi Hashimoto (12)

人工知能研究振興財団研究助成に対する成果報告

Hinweis der Redaktion