生活支援ロボットにおけるGenerative Adversarial Netsを用いた曖昧な指示の理解

生活支援ロボットにおける
Generative Adversarial Netsを用いた
曖昧な指示の理解
国立研究開発法人情報通信研究機構
杉浦孔明，マガスーバ・アリー，河井恒

Motivation: 生活支援ロボットに対し短い文で命令できれば
便利である
https://www.toyota.com/usa/toyota-effect/romy-robot.html
音声（言語）
を使った場合
はどんな課題
があるの？
候補が少ないならいいけど、
多いならタッチパネルは不便。
音声のほうが便利では？
社会課題
• 要支援者を物理的・経済的に支える
生産年齢人口の減少
• ポテンシャルユーザのなかで介助犬
（育成に2年300万円）の利用者≒0.5%
家族の世話で仕事
辞めないと…
介助犬を世話
できない

悪い対話例：
質問が多いため不便
（ 質問多すぎ…）
ユーザは、「現在把持中のペットボトルをキッチンで一番
大きい棚の３段目の右側に片付けて」とは言わない
どのペットボトルですか？どこに片
付けますか？キッチンのどの棚です
か？棚の何番目の段ですか？…
ペットボトルを
片付けておいて
状況

問題設定：
Carry and Placeタスクにおけるマルチモーダル言語理解
対象タスク：Carry and Place
• ユーザに指示された物体を適切
な場所（対象領域）に移動させ
るタスク
入力
• 指示文、状態を表す文、（環境
中を巡回して得た）対象領域の
カメラ画像
出力
• 対象領域の尤もらしさ

Q. Carry and Placeタスクはどれくらい重要なのか？
A. Retrieveタスクと合わせ、約40%をカバー
• IAADP*が定義した介助犬タスクのうち、
生活支援ロボットHSRが可能なタスクは
全49細目
• Retrieveと合わせて20細目をカバー
– cf. Retrieveタスク言語理解（2017）
*International Association of Assistance Dog Partners

関連研究：GANの応用では「生成」がメインであり、言語
理解にGANを応用した研究はほとんどない
分野例
マルチモーダル
言語理解
• 物体操作の言語理解・生成[Iwahashi,Sugiura+ 10]
• 移動指示の言語理解[Kollar+ 10]
• ピッキング指示の言語理解[Hatori+ 18]
Generative
Adversarial Nets
(GAN)
• GAN [Goodfellow+ 14]：Fakeデータを生成する
GeneratorとReal/Fakeデータを判別するDiscriminator
の敵対的学習
• 「The GAN Zoo」＝GANをリスト化したサイト
GAN-based
classification
• AC-GAN [Odena+ 16]：Discriminatorの出力にクラス
ラベルを追加
• cGAN classifier [Shen+ 17], LAC-GAN [Sugiura+ 17]

Generative Adversarial Nets (GAN) [Goodfellow+ 14]:
Human-readableな「擬似データ」を、Gが生成
G
(Generator)
𝑝𝑝(𝑆𝑆 = 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟|𝑥𝑥)
𝒙𝒙𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇
𝒛𝒛
𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓
D
(Discriminator)
Discriminator(D)とGenerator(G)のコスト関数
DCGAN [Radford+ 15]
乱数

Latent Classifier GAN (LAC-GAN)によるデータ拡張と
言語理解[Sugiura+ 17]
• 分類に有効な表現をExtractorに生成させ、それを
Generatorに真似させる点がミソ
• Extractorが全結合型のため、画像等に向かなかった
「データが少ないがDNNで精度を
上げたい」タスクに向いている。

提案手法：
MultiModal Classifier GAN（MMC-GAN）のExtractor
• マルチモーダルデータのデータ拡張を潜在空間で行う
（⇔各入力の次元数は異なるので、元の空間では非効率的）
• PV-DM[Le+ 14]（472万文で学習）を用いて、「指示文」
「コンテキスト文」をパラグラフ分散表現に変換

Carry and Placeマルチモーダルデータセットの構築
• 日用品をランダムに対象領域に配置
• 画像を撮影（Depthのみ使用）
• 指示および状態を表す文をランダムに
生成
– 例：Put down the towel
• 対象領域の尤もらしさを４段階でラベ
ル付け
– HSRによるPlaceの難易度に依存（障
害物、領域の位置、高さ）
ラベル A1 A2 A3 A4 計
画像数 212 432 398 240 1282

定量的結果
指示のみ指示＋状態指示＋状態＋画像
手法 GAN
type
Valid Test Valid Test Valid Test
ベース
ライン
- 35.3 28.6 34.3 26.7 77.0 76.6
提案
GAN 27.1 24.8 28.0 27.5 84.2 79.1
CGAN 28.5 28.8 28.1 27.6 83.7 81.0
• Dへの入力＝600次元、出力＝４クラス（動作成功度）
• サンプル数＝1282（学習:検証:テスト＝83%:8.5%:8.5%）
• 評価尺度＝分類精度
– 「Validationセットで最良性能のモデル」のテストセット精度
ベースラインより
提案手法が良い
言語のみでは精度低

テストセットに対する定性的結果およびConfusion matrix
正しい予測
誤分類
似たクラスへの混同
が多い

背景生活支援ロボットに対し、短い文で命令できれば
便利である
提案 MMC-GANによるデータ拡張（マルチモーダル）
と分類を同時に行う
結果ベースライン（単純なCNN）より言語理解精度が
高い
まとめ

生活支援ロボットにおけるGenerative Adversarial Netsを用いた曖昧な指示の理解

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Komei Sugiura

Mehr von Komei Sugiura (15)

Kürzlich hochgeladen

Kürzlich hochgeladen (9)

生活支援ロボットにおけるGenerative Adversarial Netsを用いた曖昧な指示の理解