ICRA 2019 速報

ICRA 2019 速報
⽚岡裕雄（産総研）
千葉直也（東北⼤），荒⽊諒介（中部⼤）
http://xpaperchallenge.org/

概要：この資料について
• ロボティクスの会議ICRA 2019の参加速報
– 著者のフォーカス分野：コンピュータビジョン（CV），パ
ターン認識
• 普段は画像/動画を扱っています
• CVPR/ICCV/ECCVなどの論⽂を読んでいます
• ICRA/NIPS/ICML/ICLR/SIGGRAPHなども読みます
• cvpaper.challengeというコミュニティも主宰（次/次々ページ）
– 経験値：ICRA 投稿・採択・参加２回⽬
– ICRAの歴史/分野はコミュニティの⼈の⽅が詳しいので関
連リンク内（11ページ⽬）の情報をご参照ください
– このまとめではひたすら著者のICRAの動向/所感や読んだ
論⽂をピックアップするスタイルにします

⽚岡の主宰するcvpaper.challenge
3
• ⽇本のCV分野を強くするチャレンジ！
u論⽂読破・まとめ・発想・議論・実装・論⽂執筆に⾄るまで取り組む
Survey Member: 200+名
Research Member: 50+名
（産総研/筑波⼤/電⼤/早⼤/慶⼤/⼯学院/東⼯⼤/東北⼤/東⼤/千葉
⼤/岐⾩⼤/デジハリ⼤/中部⼤/UCL）
cvpaper.challengeの研究プロジェクト
CV分野の今を映し, トレンドを創る挑戦
⼈を⾒ない⼈物⾏動認識
ECCV16WS Award
ViEW16若⼿奨励賞
Dynamic Fashion Cultures
MIRU17学⽣奨励賞
# イメージ図
NIDB
Near-Miss Incident DB
交通事故解析/予測
ICRA18/CVPR18
3D-ResNets-PyTorch
CVPR18/GitHub世界4位
その他多数のProj.が推進中
HP: http://xpaperchallenge.org/
Twitter: @CVpaperChalleng

⽚岡の主宰するcvpaper.challenge
4http://xpaperchallenge.org/cv/recruit.html

NLP（⾃然⾔語処理）版もあります！
5
https://www.slideshare.net/nlpaper-challenge/nlpaperchallenge-126950430

NLP（⾃然⾔語処理）版もあります！
6
https://www.slideshare.net/nlpaper-challenge/nlpaperchallenge-126950430

概要：ICRA2019について
• Robotics分野のトップ会議！
– Google Scholar Subcategory @Robotics
• Robotics分野にて第⼀位
• h-5 index: 75
• h-5 median: 104
– 採択率は毎回4割前後
– ICRAの詳細はロボットコミュニティ⽅が詳しいので説明は
割愛

• 会場：Palais des congrès de Montréal
– 広い，なんだか⾊合いがオシャレ
– 最近のCS系の国際会議に頻出
• NeurIPS 2018（以前のNIPS） https://nips.cc/Conferences/2018
• CHI 2018 https://chi2018.acm.org/
• ICRA 2019 https://www.icra2019.org/montreal/conference-venue
ICRA 2019 HP より

• 採択率：44.0%（2018は40.8%）
– 採択数：1,317本
– 採択国トップ10：U.S., Germany, China, U.K., Canada,
Switzerland, Japan, France, Australia, South Korea
（合計で70ヶ国以上が採択）
– 2,163本がICRA（のみ），753本がRA-L（RA-Letters
Option）にも投稿
– 42 workshops/tutorialsが採択

• 参加者は4,000⼈に到達
– 昨年の3,000⼈から約1,000⼈増
– ⼈数が増えたことによりオーラルは賞候補のみ
• 以前は10並列くらいですべてオーラルだった
– ブーススタイルのポスターが定着
ポスターセッションの様⼦

ICRA報告関連リンク
• 会議レポート等はこちらにも載せられています
– ICRAの季節（2018/03/30）: http://roboticschallenge.blog.fc2.com/
– ロボットの国際会議「ICRA 2008」現地レポート
（2008/05/30）:
https://robot.watch.impress.co.jp/cda/news/2008/05/30/1085.html
– ロボット国際会議「ICRA2009」，神⼾で今⽇から開催
（2009年5⽉，⽵内秀樹）: http://www.icra2009.org/
– 2012/2014年IEEEロボティクスとオートメーションに関
する国際会議: https://www.jstage.jst.go.jp/article/jrsj/30/9/30_30_869/_pdf/-
char/ja https://www.jstage.jst.go.jp/article/jrsj/32/8/32_32_718/_pdf

著者作のICRA 2018 速報はこちら
https://www.slideshare.net/cvpaperchallenge/icra-2018

ICRA 2019の動向・気付き
- 今回どんな研究が流⾏っていた？
- 海外の研究者は何をしている？
- 「動向」や「気付き」をまとめました

ICRA 2019の動向・気付き（1/23）
– ICRAはシステム/ロボットとして動く⽅が重要？
• 査読コメントから. . .
• 実験量の多さ/モデルの新しさは求められていない
– ロボットを組み⽴てて動かすのはかなり⼤変そう，出来合いのロボッ
トを⽤意できても様々な要素が絡み動かすのはやはり⼤変そう
– 実験量の少なさを理由に落とされることは少なかった
– モデルが新しくないからという理由もあまり⾒ない
• 動画コンテンツ提出の重要性
– （ざっと）40〜50%くらいの研究が動画を提出
– 査読にも「動画について」のコメントが書かれるくらいには重要

– 8 -> 6ページになりさらに読みやすくなった！
• もともとロボット開発の論⽂が多い
• 動画像コンテンツも多くて内容を把握した上で論⽂を読める
• 投稿する側としても6ページ固定にした⽅が書きやすい
• （その他）8ページだと追加ページのチャージ料が⾼かった
– 2018年時はレジストレーションと合わせて20万円近くした
– この流れはありがたい↓
– 当時ちょうどジャーナルの投稿料，他学会の参加費⽴て替えが重なりすぎてクレジットカードが. . .

– arXivも以前にも増して積極的に使⽤するようになった！
• 2016 – 2019の本数（下図参照）
– 80 -> 176 -> 277 -> 210（2019はおそらくこれからも増える）
– 上の数字は ICRA 201xでarXiv内検索
• SNS戦略はCVやMLの⽅が上⼿かも
– ロボットの⼈，今がチャンス？
– Twitter等で宣伝（プレゼンスの勝負は学会が始まる前に決まる）
https://arxiv.org/

– ⾃動運転はまだまだ研究としてICRAに出てきそう
• ⾃動運転（Self-driving Cars）のようなセッションは組まれていな
かった（?）が，ナビ/危険回避などあらゆる側⾯から研究
– ICRAでは⾃動運転関連の研究は⾮常に多い
• CV系国際会議（e.g. CVPR, ICCV） vs. ICRA
– CV系国際会議：認識/ナビゲーションなどの基礎的なアルゴリズムや
モデルを提案
– ICRA：よりシステムとして完成されている/想定されているような研
究が多い（印象です）
• システム開発としての⾃動運転研究ならICRAの⽅が採択され
そう
– あくまで印象です

– SLAMは変わらず多くの論⽂が投稿/採択
• SLAM; Simultaneous Localization and Mapping/Visual SLAM
• インクリメンタルではあるが，確実にSLAMというサブ分野が前に
進められている
• アルゴリズム⾃体に改良がある，組み合わせによる改善，適⽤環境
を想定したアプリケーションなどなど

– ドローン&3Dセンサ（e.g. Laser Scanner）の組み合わせ
• 特に⼩型のドローンに搭載
– センサも計算機も⼩型になったことで強気で（はないかもしれないが）ドローン
に搭載して⾏くスタイルになった
– Jetson TX2などが⼩型センサとして使われているが，今後はJetson
Nanoなどに置き換わる？
https://blogs.nvidia.co.jp/2019/04/02/jetson-nano-ai-computing/
https://car.watch.impress.co.j
p/docs/event_repo/gtc2019/1
175604.html

– 深層学習活⽤における⼀番の違いは認識よりもロボット制
御側に使⽤していること
• 2018年では多数が物体検出/領域分割などに使⽤していた
– 2018: そのまま使うことが多かった
– 2019: 改良して使うことも多くなった
• ⼀部の層のみでなく，多くの制御研究者も対応してきた
• 畳み込みネット and/or 強化学習というのが増えた

– ロボティクスの⽅がSelf-Supervised Learning（SSL）の
設定が活かせる
• SSL: ⾃ら教師を作り出して特徴表現を学習する「⾃⼰教師学習」
– SSLは特定タスクの前に⾃ら教師を作り出し特徴表現を学習するため，
その後に特定タスクのためのファインチューニングを伴う
• センサー系で正解値を捉え，例えばRGB画像と対応付けて学習
• 画像 +α を実装する事が多い
– RGB2Depth：Dの真値を作りRGBからDを復元するように学習
– Prediction：現在と将来フレームを対応付け
– Vision and Touch：画像と圧⼒センサ（今回のBest Paper）
– ロボティクスではマルチモーダル多し

– 2016年時点の予想から
• 「あらゆる物理量同⼠を変換可能」が現在SSLという形でモダリ
ティを（⼀部ではあるが）事前学習できるようになってきた
– もちろんまだ完成系ではない！
• 引⽤：これからのコンピュータビジョン技術 - cvpaper.challenge
in PRMU Grand Challenge 2016 (PRMU研究会 2016年12⽉)
https://www.slideshare.net/cvpaperchallenge/cvpaperchallenge-in-prmu-grand-challenge-2016-prmu-201612/55

– 極限環境での認識/計測問題はCV分野でワークショップ開
けそう？
• ⽔中や宇宙など
• 夜や天候変動ですらCV分野では考慮されることは多くない
– それ⾃体が研究になり得る
– Vision for All Seasonsというワークショップがすでにある
https://vision4allseasons.net/call-for-papers/
ロボティクスの⼈がCV分野でワークショップ開けますね！

– ロボットがロボットを観察してインタラクションする時代
が到来？
• ⾃動データセット収集の取り組みが始まっている
• ある程度のラベル付けとキャリブレーションが必要だが，その後は
データセットが⾃動で集まる

– シミュレーション環境のレベル向上
• NVIDIA Research のセンスが光っている
• ロボティクスはもちろん，CG/CV/強化学習（RL）などに⻑けてい
るグループが並列にあるからこそ実現しているのではないか
シミュレーションで学習，リアルで試⾏，
シミュレーションに誤差をフィードバック
上：Domain Randomization（DR; 従来法）
下：Structured SR（SDR; NVIDIAの提案法）
VR等で培ったCG技術と前景/背景の構造を上⼿く考
慮して画像レンダリング（この結果，実環境の追加
学習がなくてもある程度のレベルで検出可能）

– カナダに所縁のある講演者が集合
• Yoshua Bengio（University of Montreal）
– https://mila.quebec/en/yoshua-bengio/
– Deep Learning Big3（右図中央）の⼀⾓
– 最近チューリング賞を獲得
– 研究室から多数の博⼠を排出
» その⼀⼈がGANで有名なGoodfellow⽒
• Raquel Urtasun（Uber/Univ. of Tronto）
– http://www.cs.toronto.edu/~urtasun/
– KITTI dataset/benchmarkの⼈
– データセット（KITTI）とベースライン（KITTI
leaderboard）を作って，世界と競いトップになる
– ⾃動運転分野でアカデミック/インダストリーのトップ
• 講演内容は次ページ以降に記載
https://amturing.acm.org/

– Yoshua Bengio（Univ. of Montreal）
• Challenge for Deep Learning toward AI
– いかに知識を細かく分解できるか？（Separating knowledge in small
pieces）
– 学習分布を超えて理解できるか？⼀般化できるか？
– いかに学習したモデルを超えて知識を獲得する？（e.g. trans learning,
domain adaptation, agent learning）
– ピクセルの⼩さな変化を捉える (Small change e.g. eyes open/close in pixel
space)
– 学習の順番を間違えると転移学習がうまくいかない (Wrong knowledge
factorization leads to poor transfer)
» Poor transfer all parameters must be changed
» Catastrophic forgetting, poor transfer
– 因果関係を誤ってはいけない (Causality should not be wrong)
» ⾼速な適応のため (For faster adaptation)

– Yoshua Bengio（Univ. of Montreal）
• Challenge for Deep Learning toward AI
– ⾃然はランダムではなく有益な信号を保持する (Nature is not shuffled
(useful signal))
» Factorize knowledge to optimize faster
» Nature does not~ (ICLRʼ19 plenary talk, Bottou)
– 因果推論グラフからのソフトパラメータ化 (Soft parametrization of causal
graph)
» Episode-wise mixture
» A->B | B->A : Hypotheses causality
– ⼈間の脳に学ぼう (Learning from human brain)
» Long-/short-weight
» Arxiv: A meta-transfer objective for learning to disentangle causal
mechanism https://arxiv.org/abs/1901.10912

– Raquel Urtasun (Uber ATG/Univ. of Toronto)
• A Future with Affordable Self-Driving Vehicles
– 3 jobs
» Professor at UoT
» Co-founder at Vector Institute for AI
» Chief Scientist at Uber ATG, Head of Uber ATG Toronto
» Do Ph.D./Master at UoT and full-time employee at Uber
– E2E Driving
» Sensor data, understand, just control
– Intermediate interpretable driving
» Mapping/localization
» Detection/Tracking/Prediction/Planning/Control
– Detection
» In all time/temperature/city
» SOTA at KITTI leaderboard
– Publication:
http://www.cs.toronto.edu/~urtasun/publications/publications.html

– Ryan Gariepy, CTO
• Move fast and (donʼt) break things
– Everything in statups
» Engineering, Hardware/Software, sales, manufacturing,,,
– Platform company
» Apple: iPhone 5.5 million phones (2007), launch App Store (2008)
» Robotics company is not only selling a robot
– Value chain
» Sell {parts/robots, software/products}, earn $
– Google: PageRank (> metatags)
– Apple: iPhone
– Sefl-driving cars
» Human level
» Insurance
» We run out of money
– One miracle -> Ideal
– Two miracle -> Out of money

– Ryan Gariepy, CTO
• Move fast and (donʼt) break things
– Competitive advantage
» More capital ($), efficiency (t: time), knowledge ($, t)
» Adavantage & Idea make competition -> competitive advantage
» UX, team, data …
– Not building robots, running a company
– Know where robotics fits in your business
– Donʼt just declare your competitive advantage, validate it

– Apple Mixer
• Autonomous Systems Group
– What we do: Autonomous Driving
» State estimation, motion planning, control, multi-agent systems
– What we are
» International team
» Ian Goodfellow at Autonomous Driving Team
– What we look for
» Graph search methods, Multi-agent system, sensor fusion,
optimization, tracking, programming field robot systems
» Drive development, test software
» Education and Experience: Intern (3-6 months)/Full-time job
» Complex problems, team environment, designs/builds complete
solutions
– What we offer
» Cross-functional team
» Innovative multi-platform hardware/software

– ICRA論⽂増えた（1,300+論⽂）
• 会期中では時間⾜りない問題
• ポスターも全部回るのは無理
• 読む⼈数増やしたい. . .
どなたかICRAを全部読んでサマリを残す
robotpaper.challengeをやりませんか！？
こちらまで -> http://xpaperchallenge.org/cv/recruit.html

– 「だからどうした？」が数年後に化ける
• 迷路探索が解けて何なんだ？紐を⽳に⼊れて何になる？
• 強化学習は実環境で適応するかも？
• Domain Randomization/Self-Supervised Learningは純粋な教師
あり学習を超えてしまうかも？
-> 数年後に期待！

– ICRA 2019 Best Paperのfootnoteから（下記参照）
• 主著は2⼈で協⼒して進める
– 実際これやると分かりますが，相性などハマると倍以上の研究速度になります
• 協⼒機関はStanford, NVIDIA, TRI, JD
– （⽉並みですが）連携は⼤事！
• ⾼額なロボットの貸与あり
– 研究資⾦を計算資源等に回せる
• その上でプロフェッショナルと議論
– そこまでやるからクオリティを担保できる
https://arxiv.org/pdf/1810.10191.pdf

– 1本の論⽂/動画に命を懸ける（前ページからの続き）
• ⽂字通り “Deadline”
• 何があっても{質を⾼める, 投稿する}ことなく超えてはいけない

ICRAの重要技術/重要論⽂？
- ICRAで現在使われている重要技術を紹介
- Google Scholarにて各国際会議上位の論⽂をICRA2019の
フォルダ内で検索，引⽤回数が多いものを記載
- およそ10論⽂以上に引⽤された論⽂

ICRAの重要技術/重要論⽂（1/12）
• Vision meets robotics: The KITTI dataset
– IJRR 2013
– ⾃動運転⽤のデータセットKITTIをロボットコミュニティ
に向けて詳解

• Reinforcement learning in robotics: A
survey
– IJRR 2013
– 強化学習のタイプ分け，詳細サーベイ/応⽤先を紹介

• Deep learning for detecting robotic grasps
– RSS 2013
– 物体位置のみならず，どう掴めば良いかを指⽰

• Learning Monocular Reactive UAV Control
in Cluttered Natural Environments
– ICRA 2013
– 単眼カメラの⼊⼒のみから障害物回避などUAVを操作

• Dense visual SLAM for RGB-D cameras
– IROS 2013
– RGB-Dの⼊⼒からDenseSLAMを実⾏

• SVO: Fast Semi-Direct Monocular Visual
Odometry
– ICRA 2014
– SVOを提案，⾼速かつ外れ値が少ないビジュアルオドメト
リ法として活⽤
– ドローンにも適⽤可能

• Rich Feature Hierarchies for Accurate Object
Detection and Semantic Segmentation
– CVPR 2014
– 候補領域抽出 + 物体識別の2ステップにより物体検出
* 物体検出は重要なので次ページに最近の動向を図⽰
Person
Uma
物体2
物体識別：Uma（⾺）
位置（x,y,w,h）：118, 250, 89, 146
物体１
物体識別：Person（⼈）
位置（x,y,w,h）：125, 15, 78, 162
画像はPascal VOC datasetより抜粋

Haar-like [Viola+, CVPR01]
+ AdaBoost
Fast R-CNN [Girshick, ICCV15]
ROI Pooling, Multi-task Loss
Faster R-CNN [Ren+, NIPS15]
RPN
・・・
・・・
R-CNN時代（それ以前は”Hand-crafted” ObjectNess）⾼速化＆⾼精度化
One-shot Detector時代兎にも⾓にも（精度を保ちつつ）⾼速化
YOLO(v1)/v2/v3 [Redmon+,
CVPR16/CVPR17/arXiv18]
One-shot detector, w/ full-connect layer
・・・
Latest Algorithm 精度重視，⾼速
Mask R-CNN [He+, ICCV17]
RoI Align, Det+Seg
・・・
bbox+segmentationのラベル
が同時に⼿に⼊るならMask R-
CNNを試そう
41.8AP@MSCOCO
bboxのみが⼿に⼊るな
らRetinaNetを⽤いるの
がベター
40.8AP@MSCOCO
SSD [Liu+, ECCV16]
One-shot detector, Anchor Box
Hand-crafted feature時代基礎/枠組みの構築
HOG [Dalal+, CVPR05]
+ SVM
ICF [Dollár+, BMVC09]
+ Soft-cascade
DPM [Felzenszwalb+, TPAMI12]
+ Latent SVM
・・・
物体検出技術の変遷（ʼ01〜ʼ19）
物体検知（Meta Study Group 発表資料）から抜粋
https://www.slideshare.net/cvpaperchallenge/meta-study-group

• Unsupervised feature learning for 3D
scene labeling
– ICRA 2014
– 3次元空間内で物体に対してラベル付け

• Fully Convolutional Networks for Semantic
Segmentation
– CVPR 2015
– 物体領域の意味ごとに分類を実施するセマンティックセグ
メンテーション
* セマンティックセグメンテーションも重要なので次ページに最近の動向を図⽰

FCN [Long, CVPR2015]
全層畳み込み，チャネル和
SegNet [Kendall, arXiv2015]
U-Net [Ronneberger, MICCAI2015]
位置情報保持，チャネル連結
・・・ベースアルゴリズム・・・
精度重視
Mask R-CNN [He, ICCV2017]
RoI Align, Det+Seg
・・・
物体検出とインスタンスセグメ
ンテーションのタスクを同時に
学習することで双⽅を相補的に
改善している
※下はセマンティック/インスタンスセグメンテーションを両⽅含む
セグメンテーション
（Instance/Semantic Segmentation）
DeepLab(v1,v2,v3) [Chen, TPAMI2017]
Dilated Conv, 特徴マップの並列化

• Learning Spatiotemporal Features with 3D
Convolutional Networks
– ICCV 2015
– 時空間3次元畳み込みによる3D CNN（C3D）を提案
– 時間⽅向にも畳み込みができるようになり動画認識がより
⾼精度になるための⾜がかりになった

• Supersizing self-supervision: Learning to
grasp from 50K tries and 700 robot hours
– ICRA 2016
– マニピュレーションにおいて⾃ら教師を作り出すSelf-
supervised Learningにより把持姿勢を学習

• Deep Residual Learning for Image
Recognition
– CVPR 2016
– スキップコネクションによる残差を次のユニットに渡すこ
とで，勾配消失することなくより深い層の学習を実現

今後の⽅針
- では，どうすればよいか？
- 我々の取り組みも含んでいる

今後の⽅針？（1/3）
• ビジョンでやり残した問題は多いはず！
– なのに解けている印象だけ与えているかもしれない
– 特定環境の画像識別/物体検出など
• 思ったよりも上⼿くいかないことが多い
• 実は（物体検出など）全体の数値で解けているように⾒せている
「だけ」でカテゴリごとには全然できない物体アリ
– 実環境再構成問題
• キャリブレーション/マッチングが上⼿くいかないことも多い
ICRAコミュニティはここら辺の問題を拾って
ビジョン分野を前に進められるのでは？

今後の⽅針？（2/3）
• データを集めれば，モデルを改善すれば良い，
わけではない
– データの適⽤状況が異なると精度が落ちる
– 状況が変わるとモデルが全然うまく動かない
• なんてよくありますよね. . .
システムとして総合的に完成させる

今後の⽅針？（3/3）
• 連携する
– 共同主著（主著が2+⼈）は⾯⽩い
• cvpaper.challengeの研究メンバーは半分くらいこのスタイル
– 研究機関混合
• バックグラウンドの多様性を受け⼊れて連携
– 徹底したディスカッション
• 研究テーマは重要，常にテーマを考える/レベルを上げる
⽬指せ，ICRA Best Paper！
（最近，⽇本からも既にノミネート/受賞されている研究はいくつもある）

以下，まとめ論⽂集
- 102本あります
- （注）主にテーマ設定/⼿法/結果のみピックアップしているので
深い読み込みを⾏なっておりません

• H. Liu, et al. “High-Fidelity Grasping in Virtual Reality using a
Glove-based System,” in ICRA 2019.
– VR内でのインタラクションのための⼿部姿勢推定/位置推定/フィード
バックを⾏い，安定かつ⾃然なインタラクション
– 信頼度が⾼く，低遅延のハンドトラッキングを実現するために15の
IMUセンサを搭載したグローブを開発
【1】（PaperID: 7）
(a) Leap Motionでは⾃然だが不安定，
(b) Oculusでは安定するが不⾃然，(c)
提案⼿法ではIMUセンサを⽤いたグロー
ブにより⾃然かつ安定したVRでのトラッ
キングが可能

• H. Liu, et al. “Self-Supervised Incremental Learning for
• Sound Source Localization in Complex Indoor Environment,” in
ICRA 2019.
– Microphone Arrayにより⾳声を⼊⼒，⼈物を探索する課題
– ⼈物姿勢推定により⼈がいる/いないを報酬として与える
– 屋内環境（4部屋のうちいずれかに⼈物を配置）で20サンプルを学習に
使⽤した例では67%，120サンプルを⽤いた場合は90%まで到達した

• H. Kataoka, et al. “Unsupervised Out-of-context Understanding,”
in ICRA 2019.
– 教師なしで⽂脈外の⾏動（野球場でバットを振るのは正常だが台所で
は異常）を理解
– ⼈物⾏動/情景の⼊⼒からミニバッチ内の異常を排除するように学習す
ることで⽂脈外の⾏動を学習
– シミュレーション環境において90%を超える精度で正常・異常を識別

• M. Brossard, et al. “Learning Wheel Odometry and IMU Errors for
Localization,” in ICRA 2019.
– Segway/⾃動⾞によるVisual Odometryの研究
– ガウシアン過程により推定と正解値の残差を少なくしていく，さらに
拡張カルマンフィルタも提案して推定誤差を少なくすることに成功

• T. Miunske, et al. “A new Approach for an Adaptive Linear
Quadratic Regulated Motion Cueing Algorithm for an 8 DoF Full
Motion Driving Simulator,” in ICRA 2019.
– Full MotionのドライブシミュレータであるStuttgart Driving
Simulatorを開発
– 建物内に設置されたポッドをXY軸で並進移動可能（左図）
– ポッド内は全周環境を提供可能である

• J. Choi, et al. “Deep Reinforcement Learning of Navigation in a
Complex and Crowded Environment with a Limited Field of View,”
in ICRA 2019.
– 強化学習によりエージェント（右図）を操作するためにモデルを構築
– CNN/LSTMをベースとしたLSTM-LMC（左図）を提案
– ナビゲーションを⾏う際にRandomizationを取り⼊れることにより安
定して迅速な案内を実現した

• B. Li, et al. “Trajectory Planning for a Tractor with Multiple Trailers
in Extremely Narrow Environments: A Unified Approach,” in ICRA
2019.
– 牽引⾞両（Tractor-trailer）における動線計画
– ⾮常に狭い環境においても迂回するなど⾃⾞両のみでなく後続⾞両も
考慮してパスプランニング

• T. Kanji, et al. “Detection-by-Localization: Maintenance-Free
Change Object Detector,” in ICRA 2019.
– 物体レベルの変化検出により⾃⼰位置推定（Self-localization）を実現
– マルチモーダルの情報検索を採⽤，異なる複数の検出結果を総合的に
判断することにより位置推定を向上

• L. Berscheid, et al. “Improving Data Efficiency of Self-supervised
Learning for Robotic Grasping,” in ICRA 2019.
– マニピュレーションにおいて⾃ら教師を作り出して学習を⾏うSelf-
supervised Learningを実施（環境は左図）
– CNNの出⼒がそれぞれのグリッパからの距離に相当，推論時には20種
類の回転を想定

• A. Philipp, et al. “Analytic Collision Risk Calculation for
Autonomous Vehicle Navigation,” in ICRA 2019.
– 衝突回避のためのコントロールについて研究
– 将来の外的な要因（他⾞両の動線）を予測してナビゲーション
【10】（PaperID: 109）

• B. Sun, et al. “Oriented Point Sampling for Plane Detection in
Unorganized Point Clouds,” in ICRA 2019.
– 3次元点群（w/ RGB）を⼊⼒とした平⾯検出，平⾯ごとにセグメン
テーション
– 平⾯の仮説を⽣成，検証するためにOriented Point Sampling (OPS)
を提案
– データセットにはSUN RGB-D datasetを採⽤，3D-KHT+Octreeアル
ゴリズムと⽐較，10,000点ほどで平⾯検出を実現した
【11】（PaperID: 111）

• L. Heng, et al. “Project AutoVision: Localization and 3D Scene
Perception for an Autonomous Vehicle with a Multi-Camera
System,” in ICRA 2019.
– ⾃動運転において⾃⼰位置推定/3次元空間把握を実施する”Project
AutoVision”の開発について報告
– センサには360度カバーする複数カメラを使⽤，カメラ間のマッチング
にはCVM-Net（左下）を⽤いた
【12】（PaperID: 118）

• Y. Li, et al. “Pose Graph Optimization for Unsupervised Monocular
Visual Odometry,” in ICRA 2019.
– 教師なしOdometry推定に対しグラフ最適化とループクロージャ検出
– NeuralBundlerではRGBから距離を復元するDepth netとカメラ姿勢を
推定するPose netから構成され，さらにカメラ姿勢はPose Graph
Optimizationにより最適化
【13】（PaperID: 122）
正解値と推定値の⽐較，定量的な⽐較において
もUnDeepVO/SfMLearner等の従来法よりも推
定誤差が少ないことを検証した

• X. Chen, et al. “Dual Refinement Network for Single-Shot Object
Detection,” in ICRA 2019.
– One-shot（e.g. SSD, YOLO）でかつTwo-stage（e.g. Faster R-
CNN）のように精度が⾼い物体検出⽅法Dual Refinement NetWork
（DRN）を提案，⽔中環境の海産物検出に使⽤
– DRNのベースにはSSDを採⽤，候補領域からの特徴回帰や
deformationを考慮した検出を実施，one-shotの複数ストリームによ
り⾼精度な検出を実現
– 検証はPascal VOC/ImageNet VIDにも適⽤，出⼒解像度が512
[pixel]四⽅のDRN512はRefineDet512よりも⾼精度（82.8@VOC）
【14】（PaperID: 124）

• S. H. Kasaei, et al. “Interactive Open-Ended Object, Affordance
and Grasp Learning for Robotic Manipulation,” in ICRA 2019.
– スパースな3D点群の⼊⼒から物体位置/姿勢，アフォーダンスを検出
– AffordanceNetではあらかじめ定められた物体について機能推定と位
置を検出したが，本研究ではトラッキングとある程度汎⽤的な機能推
定を実現した
【15】（PaperID: 128）

• T. Gulde, et al. “RoPose-Real: Real World Dataset Acquisition for
Data-Driven Industrial Robot Arm Pose Estimation,” in ICRA 2019.
– ロボットアーム⾃体の姿勢推定のためにデータセットを収集
– ある程度のキーポイントをラベル付けし，キャリブレーションを⾏え
ば⾃動でデータセット収集が可能
【16】（PaperID: 170）

• N. Bucki, et al. “Design and Control of a Passively Morphing
Quadcopter,” in ICRA 2019.
– ⾃らを折りたたみ，⼩さな隙間でも通り抜けられるクアッドコプター
を開発した
– 中央のボディはそのままに，⽻をたためるように構成
– 姿勢を制御しつつ狭い隙間を通り抜ける（右図）
【17】（PaperID: 185）

• Y. Chebotar, et al. “Closing the Sim-to-Real Loop:
• Adapting Simulation Randomization with Real World Experience,”
in ICRA 2019.
– 強化学習により⼤量のシミュレーションで学習，リアルで物体操作
– シミュレーションとリアルの挙動の違いから誤差を計算して学習
– Swing-peg-in-hole/Cabinet drawerのタスクにおいて有効性確認
【18】（PaperID: 190）

• A. Maldonado, et al. “Learning ad-hoc Compact Representations
from Salient Landmarks for Visual Place Recognition in
Underwater Environments,” in ICRA 2019.
– ⽔中カメラにより撮影された映像から，顕著な領域を検出
– オートエンコーダによりパッチのマッチングを実施
【19】（PaperID: 193）

• Y. Karako, et al. “High-Speed Ring Insertion by Dynamic
Observable Contact Hand,” in ICRA 2019.
– ロボットハンドによるリング（ベアリング?）を軸に通す技術を開発
– 軸に対して近づき，接触/姿勢制御を経て軸に通す
– ⼈間のベストタイムよりも⾼速に軸に通すことに成功
【20】（PaperID: 204）

• H. W. Yu, et al. “A Variational Observation Model of 3D Object for
Probabilistic Semantic SLAM,” in ICRA 2019.
– 領域ごとの物体の観測から状態を推定してVoxelにて形状を復元する，
単眼RGBのみの⼊⼒から3次元形状復元を⾏う研究
– モデルはDarkNet-19をベースに作成，画像からの事前状態や検知され
た物体のエンコードを経て，Decoderでは3次元形状を復元
【21】（PaperID: 212）

• W. Kim, et al. “Automatic Labeled LiDAR Data Generation based
on Precise Human Model,” in ICRA 2019.
– LiDARデータからの歩⾏者ラベルデータの⽣成（LiDARデータにラベル
付けする研究は意外とない）
– ⼈物領域と背景領域をFully Convolutional Network (FCN)を⽤いて分
離
【22】（PaperID: 222）

• M. Dehghan, et al. “Online Object and Task Learning via Human
Robot Interaction,” in ICRA 2019.
– 物体の位置が変化する，増加する⾮整備環境においても物体を理解し
て操作するロボットハンドの開発
– 単純なユーザインタフェースにより⼈間がロボットに対して新しい物
体情報を教⽰する
– 3Dのアームのプランニングも2Dの画⾯にて教⽰可能
【23】（PaperID: 246）

• H. Porav, et al. “I Can See Clearly Now : Image Restoration via
De-Raining,” in ICRA 2019.
– ステレオカメラを準備，⽚⽅には⾬滴を付与して⼈⼯的にデータを作
成，⾬滴を除去しながらタスクをこなすように学習
– U-Netをベースとした⼿法を提案
– ⽔滴が付着した画像の復元やセマンティックセグメンテーションを⾼
精度に実施
【24】（PaperID: 248）

• Y. Yoon, et al. “Robots Learn Social Skills: End-to-End Learning of
Co-Speech Gesture Generation for Humanoid Robots,” in ICRA
2019.
– プレゼンテーションの⾳声⼊⼒からジェスチャを獲得してロボットを
操作する⼿法を開発
– TEDから⾳声/姿勢を対応付けしたデータセットを作成
– RNNのEnc-Decモデルにより，⾳声を⼊⼒するとプレゼンテーション
を⾏なっているようにロボットを操作
【25】（PaperID: 250）

• Z. Liang, et al. “Hierarchical Depthwise Graph Convolutional
Neural Network for 3D Semantic Segmentation of Point Clouds,” in
ICRA 2019.
– Graph Convolutionを⽤いた3次元点群のセグメンテーション⼿法を提
案
– Depth/Point Wiseで畳み込みができるように改良
– 従来法と⽐較すると推定誤差が少なく⾼精度
【26】（PaperID: 286）

• N. DeMarinis, et al. “Scanning the Internet for ROS: A View of
Security in Robotics Research,” in ICRA 2019.
– インターネット上でROSのUnsecureなホストを検索，28ヶ国で発⾒
– カメラやアクチュエータなどが遠隔操作可能であることを実験した
【27】（PaperID: 291）

• C. C. Rocha, et al. “Self-Supervised Surgical Tool Segmentation
using Kinematic Information,” in ICRA 2019.
– 医療機材をSelf-supervised Learningで学習する⼿法を提案
– 最初にGrabcutベースの⼿法と繰り返し最適化によりラベルT*を⽣成
– 次にT*を⽤いてFCN+CRFにより最適化
【28】（PaperID: 307）

• D. Frossard, et al. “DeepSignals: Predicting Intent of Drivers
Through Visual Signals,” in ICRA 2019.
– ニューラルネットにより左折/右折を判断（左図）
– Enc-Dec型の特徴抽出とLSTMによる時系列情報を考慮した識別を実施
– オクルージョンが発⽣した場合にはよくわからないと判断，さらに⾞
両が前⽅の場合にもどちらに進⾏するのかを判断する
【29】（PaperID: 340）

• A. Prakash, et al. “Structured Domain Randomization: Bridging
the Reality Gap by Context-Aware Synthetic Data,” in ICRA 2019.
– ランダムで物体/背景を⼊れ替えて学習画像を⽣成するDomain
Randomization（DR）に関する研究
– 鮮明なCGであれば⾃動運転などの学習ができてしまうという提案
– 実際に左図のSDRのようなDRはかなりキレイな画像を再現できており，
Faster R-CNNでリアル画像での学習なしに物体検出ができてしまう
【30】（PaperID: 341）

• Y. Xia, et al. “Visual Diver Recognition for Underwater Human-
Robot Collaboration,” in ICRA 2019.
– ⽔中で⼈物/ダイバーの検出
– Faster R-CNNで検出，領域からCanny/ConvexHull等で特徴抽出，k-
meansにより分類
– 90%以上の精度で検出，分類可能であった
【31】（PaperID: 345）

• C. Won, et al. “SweepNet: Wide-baseline Omnidirectional Depth
Estimation,” in ICRA 2019.
– ⿂眼カメラから全周囲の距離画像を⽣成（Omnidirectional depth
sensing）する研究
– 従来法は複数の画像をつなぎ合わせてパノラマ距離画像を⽣成するの
に対して，本研究ではあらかじめパノラマ画像から距離画像を⽣成
– コストマップを⽣成する部分を深層学習で学習・計算（SweepNet），
事後処理に渡して距離画像を⽣成
【32】（PaperID: 390）

• J. Y. Zhang, et al. “Learning from Extrapolated Corrections,” in
ICRA 2019.
– ユーザからのインタラクティブな教⽰によりロボットアームの軌道を
学習，ロボットアームがユーザの教えた通りの軌道で動く
– 少ない教師から教える必要があるため，デモンストレーションからで
はなく，実際に動作を修正しながら学習させていく
【33】（PaperID: 397）

• K. Kawaharazuka, et al. “Dynamic Manipulation of Flexible Objects
with Torque Sequence Using a Deep Neural Network,” in ICRA
2019.
– 動的かつ柔軟な物体（e.g. 紐，布）のロボットによる操作のための研
究である
– RGB/Flow画像を⼊⼒としてエンコーディング（Conv），全結合
（FC），デコーディング（Deconv）を経て，画像を⽣成
– 物体の時系列動作を復元した画像に対してロボットハンドにより操作
可能とした
【34】（PaperID: 408）

• S. Chadwick, et al. “Distant Vehicle Detection Using Radar and
Vision,” in ICRA 2019.
– 画像内の⼩物体検出において，レーダ情報を⽤いて情報を補間するこ
とで精度が向上することを検証
– 物体検出のネットワークはRGB/Radarの2ストリーム，中間層で統合
して特徴抽出を強くする
【35】（PaperID: 409）

• C. Tu, et al. “Point Cloud Compression for 3D LiDAR Sensor using
Recurrent Neural Network with Residual Blocks,” in ICRA 2019.
– 3D LiDARから抽出した点群データを圧縮するためにRecurrent
Neural Network（RNN）を⽤いる⼿法を提案
– RNNを⽤いると，圧縮率を調整することができ，さらに圧縮した状態
で従来⼿法よりも（SLAMや位置推定において）良好な精度を出すこと
に成功
【36】（PaperID: 412）

• Z. Wen, et al. “Asymmetric Local Metric Learning with PSD
Constraint for Person Re-identification,” in ICRA 2019.
– 距離学習（Metric Learning）により異なるカメラ間で同⼀⼈物を対応
付ける⼈物再同定（Person Re-identifiation; ReID）を⾼精度化
– 現在のReIDの問題ではposi/negaのバランスを考慮していないが，提
案⼿法ではPositive Semi-Definite (PSD)により拘束付け
– GRID/VIPeR/CUHK01といったデータセットにて検証，To̶1,10,20
にて従来法を上回る精度を達成
【37】（PaperID: 423）

• D. Morrison, et al. “Multi-View Picking: Next-best-view Reaching
for Improved Grasping in Clutter,” in ICRA 2019.
– 複数視点からピッキング対象の物体を観測し，ベストビューを判断し
て操作
– 視点を変えながら尤度マップを更新して良好な位置を判定する
– コードはこちら https://github.com/dougsm/mvp_grasp
【38】（PaperID: 427）

• E. Lakomkin, et al. “Incorporating End-to-End Speech Recognition
Models for Sentiment Analysis,” in ICRA 2019.
– 発話した⾔葉がPositive/Negativeの2値識別を⾏う感情推定のために
⾳声⼊⼒を⽤いる
– モデルには前処理を経てmLSTMに⼊⼒，ロジスティック回帰を経て出
⼒
– 教師ありの提案⼿法は80.4%，教師なしでは73.6%の精度を達成
【39】（PaperID: 445）

• J. Poon, et al. “Probabilistic Active Filtering for Object Search in
Clutter,” in ICRA 2019.
– できる限り少ない物体の移動回数で画像中の可視物体が多くなるよう
にロボットアームを操作
– Gaussian Processをベースとした提案⼿法を⽤いて操作の前後におい
て状態を観測
【40】（PaperID: 447）

• X. Huang, et al. “Improving Keypoint Matching Using a Landmark-
Based Image Representation,” in ICRA 2019.
– 画像間のキーポイントマッチング問題において，まず画像内のランド
マークを検出してからキーポイントマッチングを実施
– 深層学習によりランドマークを検出
– UAcampus/Mapillaryデータセットにて検証，すべての場⾯において
マッチングの精度が向上
【41】（PaperID: 448）

• J.-B. Weibel, et al. “Robust 3D Object Classification by Combining
Point Pair Features and Graph Convolution,” in ICRA 2019.
– 学習するデータと実際に観測するデータには乖離がある（左図）ため，
回転やノイズに対して強い3次元物体認識⼿法を検討
– Pixel Pair/Graph Convを⽤いたCNNモデルにより識別
– Stanford 3D Indoor/ScanNetにて検証，PointNet/PPFなどベースラ
インよりも⾼い精度で認識できた（提案法 93.0 vs. PointNet 64.3）
【42】（PaperID: 456）

• B. Lewandowski, et al. “A Fast and Robust 3D Person Detector and
Posture Estimator for Mobile Robotic Applications,” in ICRA 2019.
– スーパーマーケットでの3次元⼈物検出と姿勢推定を想定（左図）
– 距離画像から3次元点群に変換，セグメンテーション/クラスタリング
により⼈物領域を捉え，3次元特徴抽出とSVM/AdaBoostにより最終結
果を出⼒
– Standing/Squattingをそれぞれ96.9/100%で識別した
【43】（PaperID: 477）

• M. Suchi, et al. “EasyLabel: A Semi-Automatic Pixel-wise Object
Annotation Tool for Creating Robotic RGB-D Datasets,” in ICRA
2019.
– 距離センサとロボットを⽤いて簡易的にデータセット構築
– 距離画像からセグメンテーションマスクを抽出，最⼤矩形を計算して
物体検出⽤のデータにもできる
– 下表はデータセットの統計
【44】（PaperID: 523）

• K. Saleh, et al. “Real-time Intent Prediction of Pedestrians for
Autonomous Ground Vehicles via Spatio-Temporal DenseNet,” in
ICRA 2019.
– ⾃動⾞から撮影した映像から歩⾏者の横断を予測
– DenseNetに時系列フレームを⼊⼒したSpatio-temporal DenseNetを
⽤い，YOLOv3の検出内を解析
– AP値が84.76（検出にGTを使⽤）/73.78（YOLOv3使⽤）であり，
C3DやConvNet-LSTMなどを使⽤した際よりも⾼い値を達成
【45】（PaperID: 547）

• S. Y. Loo, et al. “CNN-SVO: Improving the Mapping in Semi-Direct
Visual Odometry Using Single-Image Depth Prediction,” in ICRA
2019.
– Semi-direct Visual Odometry (SVO)の改良論⽂
– SVOに対して単眼画像からDepth推定を復元するRGB2Depthを適⽤し
て性能を向上
– KITTI/Oxford Robocar datasetに対して検証を⾏なった
【46】（PaperID: 595）

• C. Oh, et al. “Learning Action Representations for Self-supervised
Visual Exploration,” in ICRA 2019.
– 強化学習を⽤いた経路探索において⾃ら教師を作り出すSelf-
supervised Learningを⽤いて学習
– 現在/将来フレームとその間の⾏動を評価する枠組みを提案（この中で
Triplet Ranking Lossを適⽤）
– 従来法であるA3C/ICMと⽐較することにyろい有効性を検証
【47】（PaperID: 613）

• T. Homberger, et al. “Support Surface Estimation for Legged
Robots,” in ICRA 2019.
– 植物が存在する⾮整備環境においても歩⾏ができる4⾜歩⾏ロボットの
開発を⾏なった
– 適応的に⾜元を観測し，できる限り植物を避けるようなパスを選択し
ながら歩⾏を続ける
【48】（PaperID: 646）

• A. Bajcsy, et al. “A Scalable Framework For Real-Time Multi-Robot,
Multi-Human Collision Avoidance,” in ICRA 2019.
– 複数のロボット・⼈物が移動していても衝突することなく避けるため
のフレームワークを提供
– 位置情報のセンシングと軌道の予測，さらに移動物体同⼠の衝突マッ
プを計算して避けるように指⽰する
【49】（PaperID: 658）

• S. Pillai, et al. “SuperDepth: Self-Supervised, Super-Resolved
Monocular Depth Estimation,” in ICRA 2019.
– RGBの⼊⼒からCNNによりDepth画像に変換する問題設定
– ステレオカメラで撮影・距離計算した画像を正解値として距離画像を
Self-Supervised LearningによりRGB2Depthの特徴表現学習
– KITTIによりMonoDepth/GeoNet等と⽐較して誤差が少なく良好な⼿
法と判断
【50】（PaperID: 660）

• S. Alabachi, et al. “Customizing Object Detectors for Indoor
Robots,” in ICRA 2019.
– ドローンから簡易的にデータセット作成・学習を実施する枠組み
– インタラクティブな検出枠のラベル付け，ファイル⽣成，データ拡張
– Dense Upscaled Network（DUNet）の学習によりデータ作成開始か
ら⾼速な学習が可能
【51】（PaperID: 682）

• R. Codd-Downey, et al. “Finding divers with SCUBANet,” in ICRA
2019.
– 潜⽔映像から⽔中ダイバーを検出する問題設定
– アノテーションのためのUIも構築してデータを準備
– ⼈物領域，頭部，⼿部を含めて検出，Inception_v2ベースの検出器で
71.16@mAPを達成
【52】（PaperID: 691）

• V. Nekrasov, et al. “Real-Time Joint Semantic Segmentation and
Depth Estimation Using Asymmetric Annotations,” in ICRA 2019.
– セマンティックセグメンテーションと距離画像推定の同時回帰問題
– Multi-task学習を⾏うと同時に，知識蒸留（Knowledge Distillation）
を実施することでデータセットの不均衡な問題を解決
– アーキテクチャは下記の通りである
– もっとも⾼精度な⼿法ではないが，もっとも⾼速な⼿法であり精度と
のバランスもとれている
【53】（PaperID: 699）

• X. Pan, et al. “Semantic Predictive Control for Explainable and
Efficient Policy Learning,” in ICRA 2019.
– 予測とその根拠を出⼒する研究
– 将来の予測のみならず，その根拠を多少なりとも⽰すためのセマン
ティックラベルを出⼒するSemantic Predictive Control (SPC)
– ⼊⼒，特徴抽出，ConvLSTMの繰り返し多段学習，特徴統合部から構成
【54】（PaperID: 705）

• B. Katz, et al. “Mini Cheetah: A Platform for Pushing the Limits of
Dynamic Quadruped Control,” in ICRA 2019.
– ⼩型4⾜歩⾏ロボットであるMini Cheetahの提案
– ⾼さ0.3m, 9kg, ⾛⾏時2.45 m/s, バック宙もする
【55】（PaperID: 708）

• X. Lin, et al. “Adaptive Variance for Changing Sparse-Reward
Environments,” in ICRA 2019.
– 未知環境においても柔軟にマニピュレーションが⾏えるロボットの実
装を⾏う
– 従来は環境や物体が固定であったが，本研究では学習環境とは異なる
環境（テーブル⾊，物体の配置や形状）でのマニピュレーションを実
⾏（下図）
– 報酬はGaussian-parametrized policyにより実⾏
【56】（PaperID: 720）

• J. Song, et al. “Exploiting Trademark Databases for Robotic Object
Fetching,” in ICRA 2019.
– 商品などにおいてロゴを検出するためのデータセットを⾃動⽣成
– ロゴをあらかじめ切り出しておいて，領域や物体と混ぜて画像を⽣成
– ベースモデルVGG16のFaster R-CNNにおいて82.0 @mAPを実現
【57】（PaperID: 743）

• B. J. Meyer, et al. “The Importance of Metric Learning for Robotic
Vision: Open Set Recognition and Active Learning,” in ICRA 2019.
– 新規カテゴリ追加のためのアクティブ学習について提案
– 新規物体の観測が従来カテゴリの観測と遠いインスタンスが多い場合，
新規カテゴリとして追加
– アクティブ学習により特徴空間分布がスパースになる（下図）
【58】（PaperID: 753）

• Z. Dai, et al. “A Comparison of CNN-Based and Hand-Crafted
Keypoint Descriptors,” in ICRA 2019.
– SLAM等で使⽤するにあたり，CNNベースとハンドクラフトベースの
キーポイントマッチング⽅法を⽐較
– CNNベースのマッチングはハンドクラフトよりも良好
– ファインチューンCNNは事前学習CNNよりも姿勢変化に対して良好
– 事前学習CNNはファインチューンCNNよりも照明変動に対して良好
【59】（PaperID: 782）

• A. Milioto, et al. “Fast Instance and Semantic Segmentation
Exploiting Local Connectivity, Metric Learning, and One-Shot
Detection for Robotics,” in ICRA 2019.
– インスタンス/セマンティックセグメンテーションの同時学習に隣接ピ
クセルの類似性を活⽤（最初はsuperpixelを利⽤）
– 距離学習（Metric Learning）とソフトマックス確率を使⽤してセグメ
ンテーションの特徴学習
【60】（PaperID: 789）

• J. Li, et al. “Discrete Rotation Equivariance for Point Cloud
Recognition”, in ICRA 2019.
– 三次元点群の（離散的な）回転に対して不変な性質をもつニューラル
ネットワークのレイヤーを提案
– 離散的な回転を考えた場合，回転という操作が要素順序の⼊れ替えに
なることを利⽤
– 想定している回転すべてに対して特徴量を計算し，全候補回転につい
てプーリングを⾏う
【61】（PaperID: 803）

• A. Osep, et al. “Large-Scale Object Mining for Object Discovery
from Unlabeled Video,” in ICRA 2019.
– レアな物体を⾒つけるためにビデオからの物体検出とマイニング
– セグメンテーション/トラッキング/特徴抽出とクラスタリング，検出
済み物体との⽐較により新規に物体が検出・登録される
【62】（PaperID: 817）

• B. Bescos, et al. “Empty Cities: Image Inpainting for a Dynamic-
Object-Invariant Space,” in ICRA 2019.
– 交通画像上から⾞両/歩⾏者を消滅させるという問題設定
– シミュレータにより⾞両/歩⾏者のありなしをペアとして学習できるの
で，ありの画像を⼊⼒，なしの画像を正解として学習
– GANをベースとしたmGANにより問題解決
【63】（PaperID: 856）

• J. Xue, et al. “Semantic BLVD: Building A Large-scale 5D
Semantics Benchmark for Autonomous Driving for View-Invariant
Relocalization,” in ICRA 2019.
– 交通データの5D（xyz, temporal, interactive event）理解のための
ベンチマークを構築
– 下記のような交通シーン（図）において表のようなデータを集めた
【64】（PaperID: 871）

• T.-H. Wang, et al. “Plug-and-Play: Improve Depth Prediction via
Sparse Data Propagation,” in ICRA 2019.
– Plug-and-Play (PnP)モジュールを提案して学習済みのRGB2Depthモ
デルの更新なく距離画像の質を改善
– スパースな距離画像を⽤い局所的領域について特徴を更新
– NYU-v2/KITTI datasetにて検証して距離画像が改善されていることを
確認した
【65】（PaperID: 879）

• L. Morreale, et al. “Dense 3D Visual Mapping via Semantic
Simplification,” in ICRA 2019.
– セマンティックラベル情報を⽤いることでDenseSLAMの情報を簡易化
– 点郡推定，Semantic Simplification，3D マッピング
【66】（PaperID: 897）

• L. Naik, et al. “Semantic mapping extension for OpenStreetMap
applied to indoor robot navigation,” in ICRA 2019.
– ロボットが⾛⾏するための屋内版OpenStreetMap（OSM）を作成
– そのために屋内のセマンティックラベルを推定，ドアや廊下，エレ
ベータなど
– 下記はイメージ図
【67】（PaperID: 954）

• T. Vintr, et al. “Spatio-temporal representation for long-term
anticipation of human presence in service robotics,” in ICRA 2019.
– 時系列の周期的な動きから⼈物の⻑期の予測を⾏う
– 下図のように⼈間の⾏動には周期があるので，時系列モデルを組み⽴
てて⻑期的な予測を実施
【68】（PaperID: 956）

• C. Sweeney, et al. “A Supervised Approach to Predicting Noise in
Depth Images,” in ICRA 2019.
– 距離画像中のノイズ領域を推定して埋めあわせる問題
– 実環境の距離画像を合成データで⽣成した距離画像に近づけることで，
⼤量の学習データを利⽤可能にする
– 提案のアーキテクチャは右図の通り，Pix2Pix/CycleGANと⽐較しても
よりノイズを減らすことに成功している
【69】（PaperID: 979）

• K. Wang, et al. “A Unified Framework for Mutual Improvement of
SLAM and Semantic Segmentation,” in ICRA 2019.
– SLAM + Semantic Segmentationにより意味ラベルが付与された状態
で3次元再構成ができるという提案
– モーションや⻑時間の変化，さらには3D姿勢の修正を⾏えると主張
【70】（PaperID: 1036）

• M. Feng, et al. “2D3D-MatchNet: Learning to Match Keypoints
Across 2D Image and 3D Point Cloud,” in ICRA 2019.
– 2Dと3Dの特徴量をマッチング可能にする2D3DMatch-Netの提案
– 学習はPositive/Negativeの3D点群とPositiveと対応する2D画像の3つ
を⽤いてTriplet Lossの派⽣であるWeighted Soft-margin Triplet
Lossを計算（下図）2Dと3Dの特徴抽出の構造が若⼲違うことに注意
– 2D3DMatch-Netを⽤いてSLAMに成功
【71】（PaperID: 1065）

• J. K. Yim, et al. “Drift-free Roll and Pitch Estimation for High-
acceleration Hopping,” in ICRA 2019.
– ホップする⼩型ロボットの開発
– 複数に分けて階段を登る，椅⼦からテーブルに登るなど可能
– ⼈間がジョイスティックにより操作することも可能である
【72】（PaperID: 1079）

• T. Randhavane, et al. “Pedestrian Dominance Modeling for
Socially-Aware Robot Navigation,” in ICRA 2019.
– シミュレーション環境において，他とは挙動が異なる歩⾏者を配置す
ることが可能（左図の緑，⾚線）
– ユーザスタディ/ラベル/Simulated Crowd Datasetからの状況把握の
結果をモデルに反映させてナビゲーション（歩⾏者横断のシーンに⽤
いて⾞両を⽌めるなどVehicle-Pedestrian Interactionのシミュレー
ションに応⽤）
【73】（PaperID: 1092）

• M. A. Lee, et al. “Making Sense of Vision and Touch: Self-
Supervised Learning of Multimodal Representations for Contact-
Rich Tasks,” in ICRA 2019.
– 視覚（カメラ）と触覚（圧⼒センサ）のマルチモーダルから⾃⼰教
師学習を⾏い，通常探索空間が⼤きくなりがちな強化学習において
コンパクトな⽅策学習を⾏った
– 画像/圧⼒/アームの動作をエンコードしてマルチモードの特徴表現
とし，動き画像をデコード/触覚を予測/タイミングが合うかを推定
– ⽅策の学習に成功，なおかつアームへの物理的/視覚的な妨害に対し
てもロバストに学習できた
【74】（PaperID: 1116） Best Paper

• Z. Cui, et al. “Real-Time Dense Mapping for Self-Driving Vehicles
using Fisheye Cameras,” in ICRA 2019.
– 交通シーンにおいて⾞両に複数⿂眼カメラを搭載し，⽋損の少ない
Dense Mappingを⾏う
– 同時にYOLOv3により物体検出，距離画像はTSDF表現に変換される
【75】（PaperID: 1126）

• M. Nieuwenhuisen, et al. “Search-based 3D Planning and
Trajectory Optimization for Safe Micro Aerial Vehicle Flight Under
Sensor Visibility Constraints,” in ICRA 2019.
– ドローン（Micro Aerial Vehicles; MAV）において視覚的な拘束条件
を与えることで安全な軌道で⽬的地まで⾶んで⾏くことを想定
– 従来は2Dベースのセンシングだが，本研究ではVelodyne Puck Lite
3D Laserを⽤いた3Dセンシングを⾏う
– DJI Matrice 600 MAVを⽤いて実験を⾏なった，正解値（理想的な軌
道？）からの誤差（Absolute Traj. Errors; ATE）により評価
【76】（PaperID: 1133）
MAVとその撮影（上図），右図は視覚
的拘束がない場合（⾚線）とある場合
（⻘線）を⽰す．拘束ありの場合はよ
り安全な軌道を提供する．

• Y. Abeysirigoonawardena, et al. “Generating Adversarial Driving
Scenarios in High-Fidelity Simulators,” in ICRA 2019.
– ⾃動運転のための⽅策（ポリシー）を学習するためにシミュレーショ
ンを適⽤
– Bayesian Optimizationを適⽤して⾃動運転の⽅策を⽣成，あらかじめ
⽣成されたシナリオで学習し模倣学習で視覚情報を⽤いてファイン
チューニング
【77】（PaperID: 1139）

• M. Gao, et al. “Goal-oriented Object Importance Estimation in On-
road Driving Videos,” in ICRA 2019.
– ⽬的地まで辿り着くために障壁となる物体や危険対象となりそうな⼈
物などをピックアップするObject Importance Estimation (OIE)の提
案
– 視覚的な/位置的な情報を照らし合わせながらOIEをピックアップ
– 視覚モデルの抽象化/⽬的地モデルの特徴抽出からLSTMにコネクトし
て最終的な位置を割り出す
【78】（PaperID: 1145）

• W. Wan, et al. “Part Segmentation for Highly Accurate Deformable
Tracking in Occlusions via Fully Convolutional Neural Networks,” in
ICRA 2019.
– 姿勢トラッカーからの⼊⼒に対してFCNにて処理して姿勢を修正する
– Object Interaction時にも姿勢を外さずにトラッキングすることが可能
【79】（PaperID: 1150）

• B.-K. Lee, et al. “Depth Completion with Deep Geometry and
Context Guidance,” in ICRA 2019.
– GeometryのみならずContext情報を⽤いることでDepth情報を補完
– Geometry側はSparse DepthとRGBからEnd-Decモデルによりデンス
な距離画像と法線画像を出⼒
– Context側はブラー画像を⼊⼒，Low/High Resolution画像をそれぞれ
処理して重みを抽出，Geometry/Contextの出⼒を合わせて距離画像
を修正
【80】（PaperID: 1173）

• J. Razlaw, et al. “Detection and Tracking of Small Objects in
Sparse 3D Laser Range Data,” in ICRA 2019.
– MAVからの⼩物体の検出/追跡に関する研究，LiDARを⽤いて3次元点
群をスキャン
– 右図に⼿順が⽰されており，点群から領域をセグメント，マッピング
とdetection/tracking
【81】（PaperID: 1186）

• A. Zanardi, et al. “Wormhole Learning,” in ICRA 2019.
– RGB/IRとday/nightのデータを相互に転移学習やInvarianceを計算す
る学習，最終的にはIRにて学習した特徴の相関関係を把握しながら
RGBのdayからnightへのtransferをwormholeと呼んでいる
– 右図のようなブラーがかかっていて，夜間の難しいシーンであっても
検出ができるようになった
【82】（PaperID: 1203）

• Y. Gloumakov, et al. “A Clustering Approach to Categorizing 7
Degree-of-Freedom Arm Motions during Activities of Daily Living,”
in ICRA 2019.
– ⽇常⽣活⾏動において，⼿部領域をトラッキングして階層的クラスタ
リングにより分類
– ⾏動カテゴリはActivities of Daily Living (ADLs)により定義されてい
るものを使⽤
– 階層の設定によりうまく分離
【83】（PaperID: 1280）

• D. Wang, et al. “Deep Object-Centric Policies for Autonomous
Driving,” in ICRA 2019.
– 画像⼊⼒から物体を中⼼として次のアクションを決定する
– 構造は物体の検出（ローカル特徴）とグローバル特徴を⽤いてアク
ションを出⼒する
– 複数のアテンションを実装，物体中⼼の⾏動決定により，ある程度解
釈性を保有する
【84】（PaperID: 1299）

• K. Burnett, et al. “Building a Winning Self-Driving Car in Six
Months,” in ICRA 2019.
– トロント⼤学の⾃動運転チャレンジのレポートであり，最初の6ヶ⽉で
構築した⾃動運転⾞の技術を紹介している
– 左図は使⽤したセンサー，マルチセンサーで周囲環境を捉える
– 基本的にはシンプルなアルゴズムの組み合わせで構成（右図）され，
マップの事前情報を⽤いず，CPUのみの計算でリアルタイムで動作
【85】（PaperID: 1324）

• A. Kotani, et al. “Teaching Robots To Draw,” in ICRA 2019.
– ⼈間の書いた⽂字をロボットが模倣して書く
– モデルは右の図に⽰す通りであり，⽂字領域のセグメンテーションや
再帰的モデルによりどのように再現すればよいかを処理
【86】（PaperID: 1344）

• Y. Yao, et al. “Egocentric Vision-based Future Vehicle Localization
for Intelligent Driving Assistance Systems,” in ICRA 2019.
– ADAS/⾃動運転の設定において，⾃⾞両から他⾞両の軌道を予測する
– モデルには時系列位置やフロー画像を⼊⼒としたMulti-stream RNNを
⽤いて物体の位置・スケール，アピアランス特徴を抽出して将来の軌
道を予測
– 230ビデオ/2,400⾞両の観測を⽤いて，位置の誤差（FDE）やIoUを計
測，データセットには⾃ら準備したHEV-IやKITTI datasetを使⽤
– コードは https://usa.honda-ri.com/hevi から公開されている
【87】（PaperID: 1348）

• A. L. Alfeo, et al. “Urban Swarms: A new approach for
autonomous waste management,” in ICRA 2019.
– ⼤規模な（City-levelでの）⼈物の動きをシミュレーション
– 知識を抽出して⼤規模シミュレーションに反映することができる
【88】（PaperID: 1410）

• D. Miller, et al. “Evaluating Merging Strategies for Sampling-based
Uncertainty Techniques in Object Detection,” in ICRA 2019.
– 物体検出結果を統合する際の⼿法について検証，⼀般物体検出では頻
繁に誤りを引き起こすがここでは誤検出を低減する
– ベースラインはSSDやシンプルなクラスタリングによる⼿法であり，
提案ではSpatial/Semantic Affinityによりもっとも⾼いスコアのラベ
ル，KL Divergenceを評価
– 特に重なり率が⾼い（IoU 0.7以上）際に精度が向上した
【89】（PaperID: 1491）

• V. A. Sindagi, et al. “MVX-Net: Multimodal VoxelNet for 3D Object
Detection,” in ICRA 2019.
– RGB + Point Cloudを⼊⼒として3次元物体検出を実⾏
– 事前学習済みのFaster R-CNNから特徴マップを統合，3D RPNを出⼒
するとともに物体ラベルを2Dから返却
– 詳細なアーキテクチャは右図を参照
【90】（PaperID: 1494）

• A. Behjat, et al. “Adaptive Genomic Evolution of Neural Network
Topologies (AGENT) for State-to-Action Mapping in Autonomous
Agents,” in ICRA 2019.
– ニューラルネットの学習に遺伝アルゴリズムを取り⼊れたNeuro
Evolution of Augmented Topologies (NEAT)を提案
– 実験ではOpenAIの強化学習やUAVに実装して使⽤することにも成功
【91】（PaperID: 1529）
最初のステップではすべてのサン
プリングが参加するが，性能が良
いものだけを残す．挙動を試しな
がらベストなニューロンのみを残
してモデルを形成していく．

• F. Behbahani, et al. “Learning from Demonstration in the Wild,” in
ICRA 2019.
– シミュレーション環境内で⾃動⾞や歩⾏者等を動かす際の参考として
実環境の観測を⽤いる
– 環境の校正，検出と追跡した結果をエージェントに反映させる
– C
【92】（PaperID: 1539）

• K. Mano, et al. “Fast and Precise Detection of Object Grasping
Positions with Eigenvalue Templates,” in ICRA 2019.
– ロボットによる⾼速な物体操作のために固有テンプレートを⽤いて
Graspability（把持可能性）の位置推定
– ロボットハンドと物体の接触/衝突領域から把持領域マップを計算
【93】（PaperID: 1550）

• C. Paxton, et al. “Prospection: Interpretable Plans From Language
By Predicting the Future,” in ICRA 2019.
– ⾃然⾔語の⼊⼒からサブゴールやモーションを実⾏できるマニピュ
レーションロボットを想定
– ⾔語モデルにはLSTMを⽤い，サブゴールなど⾼次な予測と運動/低次
な操作を6DoFの計測から可能とした
– ⾔語/把持環境を⼊⼒としたサブゴール推定精度は80〜90%まで到達
【94】（PaperID: 1613）

• K. Takahashi, et al. “Deep Visuo-Tactile Learning: Estimation of
Tactile Properties from Images,” in ICRA 2019.
– テクスチャの質感やその度合いを画像のみから推定する研究
– 中間層に隠れ変数を含むエンコーダ-デコーダモデルをモデルとして採
⽤，物質のスキャンから質感・度合いを推定
【95】（PaperID: 1822）

• H. Zhan, et al. “Self-supervised Learning for Single View Depth
and Surface Normal Estimation,” in ICRA 2019.
– Self-supervised learningにより単眼画像から距離画像と法線画像を推
定する研究
– 同時にOdometry CNNによりオドメトリも推定
– 結果は下図に⽰すとおり
【96】（PaperID: 1853）

• R. P. Bhattacharyya, et al. “Simulating Emergent Properties of
Human Driving Behavior Using Multi-Agent Reward Augmented
Imitation Learning,” in ICRA 2019.
– マルチエージェントの模倣学習を実環境である交通シーンにおけるド
ライバの振る舞いにて再現
– Reward Augmented Imitation Learning（RAIL）を提案，報酬の拡
張をマルチエージェント模倣学習に対して実施，位置付け的にはGAIL
の複数エージェント版
– 単⼀/複数エージェントにおいて振る舞いを再現できていることを確認
– https://github. com/sisl/ngsim_env にてコードを共有
【97】（PaperID: 1979）

• S. Tian, et al. “Manipulation by Feel: Touch-Based Control with
Deep Predictive Models,”, in ICRA 2019.
– マニピュレーションにおいて⼈間は細かい調整を指の触覚により実⾏
するため，動画から触覚（tactile）を学習して物体の再配置を⾏う
– 深層学習を⽤いた動画からの教師なし学習により，触覚のモダリティ
を獲得
– 物体再配置，ジョイスティック操作，ダイスロールにより検証を⾏い，
ベースラインよりもMSE誤差が⼩さい軌道が多くあることを確認
– コードは https://sites.google.com/view/deeptactilempc にて公開
【98】（PaperID: 2120）

• C. Song, et al. “Inferring 3D Shapes of Unknown Rigid Objects in
Clutter through Inverse Physics Reasoning,” in ICRA 2019.
– 環境が複雑な場⾯において形状の未知な物体を把持
– RGB-Dの⼊⼒からSupervoxel/Spectral Clusteringを計算，6D姿勢を
推定して物理計算（下図参照）
– データは https://goo.gl/1oYLB7 からダウンロード可能
【99】（PaperID: 2888）

• N. Hirose, et al. “VUNet: Dynamic Scene View Synthesis for
Traversability Estimation using an RGB Camera,” in ICRA 2019.
– 動的環境において短期予測を⾏い，移動可能（traversability）領域を
推定可能なVUNetの提案
– モバイルロボットは過去/現在フレームから将来フレームを⽣成的に予
測することも可能
– 衝突可能性が⾼い場合はアラート/緊急停⽌を作動
【100】（PaperID: 2943）
VUNetの構造．SNet（Static Transformation Network）は時間t
の画像から時間t+1の画像を⽣成するネットワーク，DNet
（Dynamic Transformation Network）は時系列画像間（ tとt-
1 ）から次の動きを予測して画像⽣成を⾏う

• B. Wehbe, et al. “A Framework for On-line Learning of Underwater
Vehicles Dynamic Models,” in ICRA 2019.
– アクティブに学習できるナビゲーションロボット（ここでは⽔中ロ
ボット）の提案
– 適応的に学習を⾏うSupport Vector Regression（SVR）モデルを提
案，新規データの⼊⼒と外れ値棄却/忘却によりデータの選択を⾏い
SVRにて学習
– 推定値の，真値からの誤差を⽰す係数（Coefficient of
Determination）により評価，31,300サンプルを3分割して評価
【101】（PaperID: 2944）

Photo by Dr. Kazuhito Yokoi
https://staff.aist.go.jp/kazuhito.yokoi/

ICRA 2019 速報

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ICRA 2019 速報

Similar to ICRA 2019 速報 (20)

Recently uploaded

Recently uploaded (11)

ICRA 2019 速報