Suche senden
Hochladen
生活支援ロボットにおけるGenerative Adversarial Netsを用いた曖昧な指示の理解
•
1 gefällt mir
•
1,478 views
Komei Sugiura
Folgen
20180606人工知能学会全国大会発表資料
Weniger lesen
Mehr lesen
Technologie
Melden
Teilen
Melden
Teilen
1 von 14
Empfohlen
ロボティクスにおける言語の利活用
ロボティクスにおける言語の利活用
Komei Sugiura
生活支援ロボットにおける大規模データ収集に向けて
生活支援ロボットにおける大規模データ収集に向けて
Komei Sugiura
生活支援ロボットのマルチモーダル言語理解技術
生活支援ロボットのマルチモーダル言語理解技術
Komei Sugiura
SuMo-SS: Submodular Optimization Sensor Scattering for Deploying Sensor Netwo...
SuMo-SS: Submodular Optimization Sensor Scattering for Deploying Sensor Netwo...
Komei Sugiura
ロボットの音声コミュニケーション技術:言葉や能力の壁を越えるデータ指向知能に向けて
ロボットの音声コミュニケーション技術:言葉や能力の壁を越えるデータ指向知能に向けて
Komei Sugiura
Spatio-Temporal Pseudo Relevance Feedback for Large-Scale and Heterogeneous S...
Spatio-Temporal Pseudo Relevance Feedback for Large-Scale and Heterogeneous S...
Komei Sugiura
言葉や能力の壁を越えるデータ指向知能
言葉や能力の壁を越えるデータ指向知能
Komei Sugiura
20161014IROS_WS
20161014IROS_WS
Komei Sugiura
Empfohlen
ロボティクスにおける言語の利活用
ロボティクスにおける言語の利活用
Komei Sugiura
生活支援ロボットにおける大規模データ収集に向けて
生活支援ロボットにおける大規模データ収集に向けて
Komei Sugiura
生活支援ロボットのマルチモーダル言語理解技術
生活支援ロボットのマルチモーダル言語理解技術
Komei Sugiura
SuMo-SS: Submodular Optimization Sensor Scattering for Deploying Sensor Netwo...
SuMo-SS: Submodular Optimization Sensor Scattering for Deploying Sensor Netwo...
Komei Sugiura
ロボットの音声コミュニケーション技術:言葉や能力の壁を越えるデータ指向知能に向けて
ロボットの音声コミュニケーション技術:言葉や能力の壁を越えるデータ指向知能に向けて
Komei Sugiura
Spatio-Temporal Pseudo Relevance Feedback for Large-Scale and Heterogeneous S...
Spatio-Temporal Pseudo Relevance Feedback for Large-Scale and Heterogeneous S...
Komei Sugiura
言葉や能力の壁を越えるデータ指向知能
言葉や能力の壁を越えるデータ指向知能
Komei Sugiura
20161014IROS_WS
20161014IROS_WS
Komei Sugiura
New challenge in RoboCup 2017 Nagoya: RoboCup@Home Standard Platform
New challenge in RoboCup 2017 Nagoya: RoboCup@Home Standard Platform
Komei Sugiura
20160907rsj16ロボット聴覚OS
20160907rsj16ロボット聴覚OS
Komei Sugiura
20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置
20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置
Komei Sugiura
20160221statistic imitation learning and human-robot communication
20160221statistic imitation learning and human-robot communication
Komei Sugiura
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック
Komei Sugiura
20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測
20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測
Komei Sugiura
階層型評価構造に基づく観光スポット推薦システムの構築と長期実証実験
階層型評価構造に基づく観光スポット推薦システムの構築と長期実証実験
Komei Sugiura
実世界の意味を扱う理論と機械知能の構築
実世界の意味を扱う理論と機械知能の構築
Komei Sugiura
Cloud Robotics for Human-Robot Dialogues
Cloud Robotics for Human-Robot Dialogues
Komei Sugiura
20151129インテリジェントホームロボティクス研究会
20151129インテリジェントホームロボティクス研究会
Komei Sugiura
Japan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラム
Komei Sugiura
Language acquisition framework for robots: From grounded language acquisition...
Language acquisition framework for robots: From grounded language acquisition...
Komei Sugiura
rospeex: a cloud-based speech communication toolkit for ROS
rospeex: a cloud-based speech communication toolkit for ROS
Komei Sugiura
Introduction to RoboCup@Home
Introduction to RoboCup@Home
Komei Sugiura
ロボカップ@ホーム入門
ロボカップ@ホーム入門
Komei Sugiura
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
Weitere ähnliche Inhalte
Mehr von Komei Sugiura
New challenge in RoboCup 2017 Nagoya: RoboCup@Home Standard Platform
New challenge in RoboCup 2017 Nagoya: RoboCup@Home Standard Platform
Komei Sugiura
20160907rsj16ロボット聴覚OS
20160907rsj16ロボット聴覚OS
Komei Sugiura
20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置
20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置
Komei Sugiura
20160221statistic imitation learning and human-robot communication
20160221statistic imitation learning and human-robot communication
Komei Sugiura
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック
Komei Sugiura
20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測
20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測
Komei Sugiura
階層型評価構造に基づく観光スポット推薦システムの構築と長期実証実験
階層型評価構造に基づく観光スポット推薦システムの構築と長期実証実験
Komei Sugiura
実世界の意味を扱う理論と機械知能の構築
実世界の意味を扱う理論と機械知能の構築
Komei Sugiura
Cloud Robotics for Human-Robot Dialogues
Cloud Robotics for Human-Robot Dialogues
Komei Sugiura
20151129インテリジェントホームロボティクス研究会
20151129インテリジェントホームロボティクス研究会
Komei Sugiura
Japan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラム
Komei Sugiura
Language acquisition framework for robots: From grounded language acquisition...
Language acquisition framework for robots: From grounded language acquisition...
Komei Sugiura
rospeex: a cloud-based speech communication toolkit for ROS
rospeex: a cloud-based speech communication toolkit for ROS
Komei Sugiura
Introduction to RoboCup@Home
Introduction to RoboCup@Home
Komei Sugiura
ロボカップ@ホーム入門
ロボカップ@ホーム入門
Komei Sugiura
Mehr von Komei Sugiura
(15)
New challenge in RoboCup 2017 Nagoya: RoboCup@Home Standard Platform
New challenge in RoboCup 2017 Nagoya: RoboCup@Home Standard Platform
20160907rsj16ロボット聴覚OS
20160907rsj16ロボット聴覚OS
20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置
20160606劣モジュラ性を利用したドローンによるばらまき型センサ配置
20160221statistic imitation learning and human-robot communication
20160221statistic imitation learning and human-robot communication
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック
20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック
20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測
20150531Deep Recurrent Neural Networkによる環境モニタリングデータの予測
階層型評価構造に基づく観光スポット推薦システムの構築と長期実証実験
階層型評価構造に基づく観光スポット推薦システムの構築と長期実証実験
実世界の意味を扱う理論と機械知能の構築
実世界の意味を扱う理論と機械知能の構築
Cloud Robotics for Human-Robot Dialogues
Cloud Robotics for Human-Robot Dialogues
20151129インテリジェントホームロボティクス研究会
20151129インテリジェントホームロボティクス研究会
Japan Robot Week 2014けいはんなロボットフォーラム
Japan Robot Week 2014けいはんなロボットフォーラム
Language acquisition framework for robots: From grounded language acquisition...
Language acquisition framework for robots: From grounded language acquisition...
rospeex: a cloud-based speech communication toolkit for ROS
rospeex: a cloud-based speech communication toolkit for ROS
Introduction to RoboCup@Home
Introduction to RoboCup@Home
ロボカップ@ホーム入門
ロボカップ@ホーム入門
Kürzlich hochgeladen
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
Kürzlich hochgeladen
(9)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
生活支援ロボットにおけるGenerative Adversarial Netsを用いた曖昧な指示の理解
1.
生活支援ロボットにおける Generative Adversarial Netsを用いた 曖昧な指示の理解 国立研究開発法人
情報通信研究機構 杉浦孔明,マガスーバ・アリー,河井恒
2.
Motivation: 生活支援ロボットに対し短い文で命令できれば 便利である https://www.toyota.com/usa/toyota-effect/romy-robot.html 音声(言語) を使った場合 はどんな課題 があるの? 候補が少ないならいいけど、 多いならタッチパネルは不便。 音声のほうが便利では? 社会課題 • 要支援者を物理的・経済的に支える 生産年齢人口の減少 •
ポテンシャルユーザのなかで介助犬 (育成に2年300万円)の利用者≒0.5% 家族の世話で仕事 辞めないと… 介助犬を世話 できない
3.
悪い対話例: 質問が多いため不便 ( 質問多すぎ…) ユーザは、「現在把持中のペットボトルをキッチンで一番 大きい棚の3段目の右側に片付けて」とは言わない どのペットボトルですか?どこに片 付けますか?キッチンのどの棚です か?棚の何番目の段ですか?… ペットボトルを 片付けておいて 状況
4.
問題設定: Carry and Placeタスクにおけるマルチモーダル言語理解 対象タスク:Carry
and Place • ユーザに指示された物体を適切 な場所(対象領域)に移動させ るタスク 入力 • 指示文、状態を表す文、(環境 中を巡回して得た)対象領域の カメラ画像 出力 • 対象領域の尤もらしさ
5.
Q. Carry and
Placeタスクはどれくらい重要なのか? A. Retrieveタスクと合わせ、約40%をカバー • IAADP*が定義した介助犬タスクのうち、 生活支援ロボットHSRが可能なタスクは 全49細目 • Retrieveと合わせて20細目をカバー – cf. Retrieveタスク言語理解(2017) *International Association of Assistance Dog Partners
6.
関連研究:GANの応用では「生成」がメインであり、言語 理解にGANを応用した研究はほとんどない 分野 例 マルチモーダル 言語理解 • 物体操作の言語理解・生成[Iwahashi,Sugiura+
10] • 移動指示の言語理解[Kollar+ 10] • ピッキング指示の言語理解[Hatori+ 18] Generative Adversarial Nets (GAN) • GAN [Goodfellow+ 14]:Fakeデータを生成する GeneratorとReal/Fakeデータを判別するDiscriminator の敵対的学習 • 「The GAN Zoo」=GANをリスト化したサイト GAN-based classification • AC-GAN [Odena+ 16]:Discriminatorの出力にクラス ラベルを追加 • cGAN classifier [Shen+ 17], LAC-GAN [Sugiura+ 17]
7.
デモビデオ
8.
Generative Adversarial Nets
(GAN) [Goodfellow+ 14]: Human-readableな「擬似データ」を、Gが生成 G (Generator) 𝑝𝑝(𝑆𝑆 = 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟|𝑥𝑥) 𝒙𝒙𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇 𝒛𝒛 𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓 D (Discriminator) Discriminator(D)とGenerator(G)のコスト関数 DCGAN [Radford+ 15] 乱数
9.
Latent Classifier GAN
(LAC-GAN)によるデータ拡張と 言語理解[Sugiura+ 17] • 分類に有効な表現をExtractorに生成させ、それを Generatorに真似させる点がミソ • Extractorが全結合型のため、画像等に向かなかった 「データが少ないがDNNで精度を 上げたい」タスクに向いている。
10.
提案手法: MultiModal Classifier GAN(MMC-GAN)のExtractor •
マルチモーダルデータのデータ拡張を潜在空間で行う (⇔各入力の次元数は異なるので、元の空間では非効率的) • PV-DM[Le+ 14](472万文で学習)を用いて、「指示文」 「コンテキスト文」をパラグラフ分散表現に変換
11.
Carry and Placeマルチモーダルデータセットの構築 •
日用品をランダムに対象領域に配置 • 画像を撮影(Depthのみ使用) • 指示および状態を表す文をランダムに 生成 – 例:Put down the towel • 対象領域の尤もらしさを4段階でラベ ル付け – HSRによるPlaceの難易度に依存(障 害物、領域の位置、高さ) ラベル A1 A2 A3 A4 計 画像数 212 432 398 240 1282
12.
定量的結果 指示のみ 指示+状態 指示+状態+画像 手法
GAN type Valid Test Valid Test Valid Test ベース ライン - 35.3 28.6 34.3 26.7 77.0 76.6 提案 GAN 27.1 24.8 28.0 27.5 84.2 79.1 CGAN 28.5 28.8 28.1 27.6 83.7 81.0 • Dへの入力=600次元、出力=4クラス(動作成功度) • サンプル数=1282(学習:検証:テスト=83%:8.5%:8.5%) • 評価尺度=分類精度 – 「Validationセットで最良性能のモデル」のテストセット精度 ベースラインより 提案手法が良い 言語のみでは精度低
13.
テストセットに対する定性的結果およびConfusion matrix 正しい予測 誤分類 似たクラスへの混同 が多い
14.
背景 生活支援ロボットに対し、短い文で命令できれば 便利である 提案 MMC-GANによるデータ拡張(マルチモーダル) と分類を同時に行う 結果
ベースライン(単純なCNN)より言語理解精度が 高い まとめ