SlideShare ist ein Scribd-Unternehmen logo
1 von 14
生活支援ロボットにおける
Generative Adversarial Netsを用いた
曖昧な指示の理解
国立研究開発法人 情報通信研究機構
杉浦孔明,マガスーバ・アリー,河井恒
Motivation: 生活支援ロボットに対し短い文で命令できれば
便利である
https://www.toyota.com/usa/toyota-effect/romy-robot.html
音声(言語)
を使った場合
はどんな課題
があるの?
候補が少ないならいいけど、
多いならタッチパネルは不便。
音声のほうが便利では?
社会課題
• 要支援者を物理的・経済的に支える
生産年齢人口の減少
• ポテンシャルユーザのなかで介助犬
(育成に2年300万円)の利用者≒0.5%
家族の世話で仕事
辞めないと…
介助犬を世話
できない
悪い対話例:
質問が多いため不便
( 質問多すぎ…)
ユーザは、「現在把持中のペットボトルをキッチンで一番
大きい棚の3段目の右側に片付けて」とは言わない
どのペットボトルですか?どこに片
付けますか?キッチンのどの棚です
か?棚の何番目の段ですか?…
ペットボトルを
片付けておいて
状況
問題設定:
Carry and Placeタスクにおけるマルチモーダル言語理解
対象タスク:Carry and Place
• ユーザに指示された物体を適切
な場所(対象領域)に移動させ
るタスク
入力
• 指示文、状態を表す文、(環境
中を巡回して得た)対象領域の
カメラ画像
出力
• 対象領域の尤もらしさ
Q. Carry and Placeタスクはどれくらい重要なのか?
A. Retrieveタスクと合わせ、約40%をカバー
• IAADP*が定義した介助犬タスクのうち、
生活支援ロボットHSRが可能なタスクは
全49細目
• Retrieveと合わせて20細目をカバー
– cf. Retrieveタスク言語理解(2017)
*International Association of Assistance Dog Partners
関連研究:GANの応用では「生成」がメインであり、言語
理解にGANを応用した研究はほとんどない
分野 例
マルチモーダル
言語理解
• 物体操作の言語理解・生成[Iwahashi,Sugiura+ 10]
• 移動指示の言語理解[Kollar+ 10]
• ピッキング指示の言語理解[Hatori+ 18]
Generative
Adversarial Nets
(GAN)
• GAN [Goodfellow+ 14]:Fakeデータを生成する
GeneratorとReal/Fakeデータを判別するDiscriminator
の敵対的学習
• 「The GAN Zoo」=GANをリスト化したサイト
GAN-based
classification
• AC-GAN [Odena+ 16]:Discriminatorの出力にクラス
ラベルを追加
• cGAN classifier [Shen+ 17], LAC-GAN [Sugiura+ 17]
デモビデオ
Generative Adversarial Nets (GAN) [Goodfellow+ 14]:
Human-readableな「擬似データ」を、Gが生成
G
(Generator)
𝑝𝑝(𝑆𝑆 = 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟|𝑥𝑥)
𝒙𝒙𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇
𝒛𝒛
𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓
D
(Discriminator)
Discriminator(D)とGenerator(G)のコスト関数
DCGAN [Radford+ 15]
乱数
Latent Classifier GAN (LAC-GAN)によるデータ拡張と
言語理解[Sugiura+ 17]
• 分類に有効な表現をExtractorに生成させ、それを
Generatorに真似させる点がミソ
• Extractorが全結合型のため、画像等に向かなかった
「データが少ないがDNNで精度を
上げたい」タスクに向いている。
提案手法:
MultiModal Classifier GAN(MMC-GAN)のExtractor
• マルチモーダルデータのデータ拡張を潜在空間で行う
(⇔各入力の次元数は異なるので、元の空間では非効率的)
• PV-DM[Le+ 14](472万文で学習)を用いて、「指示文」
「コンテキスト文」をパラグラフ分散表現に変換
Carry and Placeマルチモーダルデータセットの構築
• 日用品をランダムに対象領域に配置
• 画像を撮影(Depthのみ使用)
• 指示および状態を表す文をランダムに
生成
– 例:Put down the towel
• 対象領域の尤もらしさを4段階でラベ
ル付け
– HSRによるPlaceの難易度に依存(障
害物、領域の位置、高さ)
ラベル A1 A2 A3 A4 計
画像数 212 432 398 240 1282
定量的結果
指示のみ 指示+状態 指示+状態+画像
手法 GAN
type
Valid Test Valid Test Valid Test
ベース
ライン
- 35.3 28.6 34.3 26.7 77.0 76.6
提案
GAN 27.1 24.8 28.0 27.5 84.2 79.1
CGAN 28.5 28.8 28.1 27.6 83.7 81.0
• Dへの入力=600次元、出力=4クラス(動作成功度)
• サンプル数=1282(学習:検証:テスト=83%:8.5%:8.5%)
• 評価尺度=分類精度
– 「Validationセットで最良性能のモデル」のテストセット精度
ベースラインより
提案手法が良い
言語のみでは精度低
テストセットに対する定性的結果およびConfusion matrix
正しい予測
誤分類
似たクラスへの混同
が多い
背景 生活支援ロボットに対し、短い文で命令できれば
便利である
提案 MMC-GANによるデータ拡張(マルチモーダル)
と分類を同時に行う
結果 ベースライン(単純なCNN)より言語理解精度が
高い
まとめ

Weitere ähnliche Inhalte

Mehr von Komei Sugiura

New challenge in RoboCup 2017 Nagoya: RoboCup@Home Standard Platform
New challenge in RoboCup 2017 Nagoya: RoboCup@Home Standard PlatformNew challenge in RoboCup 2017 Nagoya: RoboCup@Home Standard Platform
New challenge in RoboCup 2017 Nagoya: RoboCup@Home Standard PlatformKomei Sugiura
 
20160907rsj16ロボット聴覚OS
20160907rsj16ロボット聴覚OS20160907rsj16ロボット聴覚OS
20160907rsj16ロボット聴覚OSKomei Sugiura
 
20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置
20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置
20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置Komei Sugiura
 
20160221statistic imitation learning and human-robot communication
20160221statistic imitation learning and human-robot communication20160221statistic imitation learning and human-robot communication
20160221statistic imitation learning and human-robot communicationKomei Sugiura
 
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバックKomei Sugiura
 
20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測
20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測
20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測Komei Sugiura
 
階層型評価構造に基づく観光スポット推薦システムの構築と長期実証実験
階層型評価構造に基づく観光スポット推薦システムの構築と長期実証実験階層型評価構造に基づく観光スポット推薦システムの構築と長期実証実験
階層型評価構造に基づく観光スポット推薦システムの構築と長期実証実験Komei Sugiura
 
実世界の意味を扱う理論と機械知能の構築
実世界の意味を扱う理論と機械知能の構築実世界の意味を扱う理論と機械知能の構築
実世界の意味を扱う理論と機械知能の構築Komei Sugiura
 
Cloud Robotics for Human-Robot Dialogues
Cloud Robotics for Human-Robot DialoguesCloud Robotics for Human-Robot Dialogues
Cloud Robotics for Human-Robot DialoguesKomei Sugiura
 
20151129インテリジェントホームロボティクス研究会
20151129インテリジェントホームロボティクス研究会20151129インテリジェントホームロボティクス研究会
20151129インテリジェントホームロボティクス研究会Komei Sugiura
 
Japan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラムJapan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラムKomei Sugiura
 
Language acquisition framework for robots: From grounded language acquisition...
Language acquisition framework for robots: From grounded language acquisition...Language acquisition framework for robots: From grounded language acquisition...
Language acquisition framework for robots: From grounded language acquisition...Komei Sugiura
 
rospeex: a cloud-based speech communication toolkit for ROS
rospeex: a cloud-based speech communication toolkit for ROSrospeex: a cloud-based speech communication toolkit for ROS
rospeex: a cloud-based speech communication toolkit for ROSKomei Sugiura
 
Introduction to RoboCup@Home
Introduction to RoboCup@HomeIntroduction to RoboCup@Home
Introduction to RoboCup@HomeKomei Sugiura
 
ロボカップ@ホーム入門
ロボカップ@ホーム入門ロボカップ@ホーム入門
ロボカップ@ホーム入門Komei Sugiura
 

Mehr von Komei Sugiura (15)

New challenge in RoboCup 2017 Nagoya: RoboCup@Home Standard Platform
New challenge in RoboCup 2017 Nagoya: RoboCup@Home Standard PlatformNew challenge in RoboCup 2017 Nagoya: RoboCup@Home Standard Platform
New challenge in RoboCup 2017 Nagoya: RoboCup@Home Standard Platform
 
20160907rsj16ロボット聴覚OS
20160907rsj16ロボット聴覚OS20160907rsj16ロボット聴覚OS
20160907rsj16ロボット聴覚OS
 
20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置
20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置
20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置
 
20160221statistic imitation learning and human-robot communication
20160221statistic imitation learning and human-robot communication20160221statistic imitation learning and human-robot communication
20160221statistic imitation learning and human-robot communication
 
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック
 
20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測
20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測
20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測
 
階層型評価構造に基づく観光スポット推薦システムの構築と長期実証実験
階層型評価構造に基づく観光スポット推薦システムの構築と長期実証実験階層型評価構造に基づく観光スポット推薦システムの構築と長期実証実験
階層型評価構造に基づく観光スポット推薦システムの構築と長期実証実験
 
実世界の意味を扱う理論と機械知能の構築
実世界の意味を扱う理論と機械知能の構築実世界の意味を扱う理論と機械知能の構築
実世界の意味を扱う理論と機械知能の構築
 
Cloud Robotics for Human-Robot Dialogues
Cloud Robotics for Human-Robot DialoguesCloud Robotics for Human-Robot Dialogues
Cloud Robotics for Human-Robot Dialogues
 
20151129インテリジェントホームロボティクス研究会
20151129インテリジェントホームロボティクス研究会20151129インテリジェントホームロボティクス研究会
20151129インテリジェントホームロボティクス研究会
 
Japan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラムJapan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラム
 
Language acquisition framework for robots: From grounded language acquisition...
Language acquisition framework for robots: From grounded language acquisition...Language acquisition framework for robots: From grounded language acquisition...
Language acquisition framework for robots: From grounded language acquisition...
 
rospeex: a cloud-based speech communication toolkit for ROS
rospeex: a cloud-based speech communication toolkit for ROSrospeex: a cloud-based speech communication toolkit for ROS
rospeex: a cloud-based speech communication toolkit for ROS
 
Introduction to RoboCup@Home
Introduction to RoboCup@HomeIntroduction to RoboCup@Home
Introduction to RoboCup@Home
 
ロボカップ@ホーム入門
ロボカップ@ホーム入門ロボカップ@ホーム入門
ロボカップ@ホーム入門
 

Kürzlich hochgeladen

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 

Kürzlich hochgeladen (9)

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 

生活支援ロボットにおけるGenerative Adversarial Netsを用いた曖昧な指示の理解