SlideShare ist ein Scribd-Unternehmen logo
1 von 78
これからの Vision & Language
~ Acadexit した4つの理由
オムロンサイニックエックス株式会社
牛久 祥孝
losnuevetoros
自己紹介
2014.3 博士(情報理工学)、東京大学
2014.4~2016.3 NTT CS研 研究員
2016.4~2018.9 東京大学 講師 (原田・牛久研究室)
2016.9~ 産業技術総合研究所 協力研究員
2016.12~2018.9 国立国語研究所 共同研究員
2018.10~ オムロンサイニックエックス株式会社
Principal Investigator
2019.1~ 株式会社Ridge-i 社外CRO
[Ushiku+, ACMMM 2012]
[Ushiku+, ICCV 2015]
画像キャプション生成 主観的な感性表現を持つ
画像キャプション生成
動画の特定区間と
キャプションの相互検索
[Yamaguchi+, ICCV 2017]
A guy is skiing with no shirt on
and yellow snow pants.
A zebra standing in a field with
a tree in the dirty background.
[Shin+, BMVC 2016]
A yellow train on the tracks near
a train station.
2011
2012
2014
電話音声認識のエラー率が
30%程度→20%以下に
[Seide+, InterSpeech 2011]
大規模画像分類のエラー率が
25%程度→15%程度に
[Krizhevsky+, NIPS 2012]
LSTMで英仏翻訳の精度が
複雑なシステムと同等に
[Sutskever+, NIPS 2014]
2012年:一般物体認識における激震
2012年の画像
認識タスクで
ディープ勢が
2位以下に圧勝!
2012年の画像
認識タスクで
ディープ勢が
2位以下に圧勝!
2012年の画像
認識タスクで
ディープ勢が
2位以下に圧勝!
2012年:一般物体認識における激震
公式サイトにアクセスしてみると…
1st team w/ DL
Error rate: 15%
2nd team w/o DL
Error rate: 26%
[http://image-net.org/challenges/LSVRC/2012/results.html]
2012年:一般物体認識における激震
公式サイトにアクセスしてみると…
1st team w/ DL
Error rate: 15%
2nd team w/o DL
Error rate: 26%
[http://image-net.org/challenges/LSVRC/2012/results.html]
It’s me!!
入力
出力
Deep Learning の影響
• 機械翻訳でも深層学習が登場 [Sutskever+, NIPS 2014]
– RNNで問題になっていた勾配の消失をLSTM
[Hochreiter+Schmidhuber, 1997] で解決
→文中の離れた単語間での関係を扱えるように
– LSTMを4層つなぎ、end-to-endで機械学習
→state-of-the-art並み(英仏翻訳)
CNN/RNNなどの共通技術が台頭
画像認識や機械翻訳の参入障壁が低下
ユーザー生成コンテンツの爆発的増加
特にコンテンツ投稿・共有サービスでは…
• Facebookに画像が2500億枚 (2013年9月時点)
• YouTubeにアップロードされる動画
1分間で計400時間分 (2015年7月時点)
Pōhutukawa blooms this
time of the year in New
Zealand. As the flowers
fall, the ground
underneath the trees look
spectacular.
画像/動画と
関連する文章の対
→大量に収集可能
Vision and Language の萌芽的な研究
記事付き画像へのキャプション生成
[Feng+Lapata, ACL 2010]
• Input: article + image Output: caption for image
• Dataset: Sets of article + image + caption
× 3361
King Toupu IV died at the
age of 88 last week.
Vision and Language の萌芽的な研究
× 3361
King Toupu IV died at the
age of 88 last week.
記事付き画像へのキャプション生成
[Feng+Lapata, ACL 2010]
• Input: article + image Output: caption for image
• Dataset: Sets of article + image + caption
これらの背景から…
つぎのような様々な取り組みが!
画像キャプション生成
Group of people sitting
at a table with a dinner.
Tourists are standing on
the middle of a flat desert.
[Ushiku+, ICCV 2015]
動画キャプション生成
A man is holding a box of doughnuts.
Then he and a woman are standing next each other.
Then she is holding a plate of food.
[Shin+, ICIP 2016]
他言語化・キャプション翻訳
Ein Masten mit zwei Ampeln
fur Autofahrer. (独語)
A pole with two lights
for drivers. (英語)
[Hitschler+, ACL 2016]
ビジュアル質問応答
[Fukui+, EMNLP 2016]
キャプションからの画像生成
This bird is blue with white
and has a very short beak.
(この鳥は白の入った青色
で、とても短いくちばし
をもっています。)
This flower is white and
yellow in color, with petals
that are wavy and smooth.
(この花は白と黄色で、波
打った滑らかな花びらを
もっています。)
[Zhang+, 2016]
Vision-Aware Dialog
本講演の目的
視覚×言語の融合研究を俯瞰
1. 画像・動画キャプション生成
2. 言語横断
3. 画像に関する質問への応答
4. キャプションからの画像生成
5. Vision-aware Dialog
すると、Acadexitに至る道が見えてくる…?!
視覚・言語融合の最前線1
画像・動画キャプション生成
Every picture tells a story
データセット:
画像+<object, action, scene>+キャプション
1. 画像の<object, action, scene>をMRFで推定
2. <object, action, scene>が同じキャプションを検
索して利用
<Horse, Ride, Field>
[Farhadi+, ECCV 2010]
Every picture tells a story
<pet, sleep, ground>
See something unexpected.
<transportation, move, track>
A man stands next to a train
on a cloudy day.
[Farhadi+, ECCV 2010]
マルチキーフレーズ推定アプローチ
当時の問題=使用候補であるフレーズの精度が悪い
キーフレーズを独立なラベルとして扱うと…
マルチキーフレーズの推定=一般画像認識
文生成は[Ushiku+, ACM MM 2011]と同じ
[Ushiku+, ACM MM 2012]
文の終わり
深層学習登場以前の動画×言語
• 言語と動画内の物体とのグラウンディング
[Yu+Siskind, ACL 2013]
– 動画とその動画を説明する文のみから学習
– 対象物体が少なく、コントロールされた小規模デー
タセットでの実験
Deep Learning によるキャプション生成
Google NIC [Vinyals+, CVPR 2015]
Googleで開発された
• GoogLeNet [Szegedy+, CVPR 2015]
• LSTM [Sutskever+, NIPS 2014]
を直列させて文生成する。
画像𝐼への文(単語列)𝑆0 … 𝑆 𝑁は
𝑆0: スタートを意味する単語
𝑆1 = LSTM CNN 𝐼
𝑆𝑡 = LSTM St−1 , 𝑡 = 2 … 𝑁 − 1
𝑆 𝑁: ストップを意味する単語
生成された説明文の例
[https://github.com/tensorflow/models/tree/master/im2txt]
Deep Learning による動画キャプション生成
• LRCN
[Donahue+, CVPR 2015]
– CNN+RNN
• 動作認識
• 画像/動画
キャプション生成
• Video to Text
[Venugopalan+, ICCV 2015]
– CNN+RNN
• RGB画像で物体を
• オプティカルフローで
動作を
認識→キャプション生成
アテンションモデル
• 2分野が融合して新たに生まれたものの例:
– アテンションモデルの利用 [Xu+, ICML 2015]
– 画像+キャプションデータのみからの学習!
– 動画:時間方向のアテンション[Laokulrat+, COLING 2016]
ここまでの問題点1:最適化したい目的関数
学習に用いるのは Cross-Entropy
評価に用いるのは BLEUなどの評価指標
→ 生成したキャプションの評価指標を
直接最適化するべきでは?
• 評価指標の直接最適化
– 機械翻訳ではディープ以前からある [Och, ACL 2003]
• 深層学習で評価指標を直接最適化…?
– 勾配が求められないから学習できない!!
短い文へのペナルティ
N-gramのPrecision
ここまでの問題点2: Exposure Bias
通常のRNNによる系列生成モデル学習では…
• 学習時:Teacher forcing
– 入力は𝑡 − 1番目までの
教師データ
• テスト時:Free running
– 入力は𝑡 − 1番目までで
自身が推定したデータ
テスト時の生成系列が学習時から外れだすと
エラーが蓄積し続ける
強化学習の利用
• 強化学習を利用したキャプション生成
評価指標を報酬とする強化学習を導入すれば
問題点1と2が同時に解決されるはず!
– 方策勾配:評価指標の勾配が分からなくても、
出力の事後確率の勾配でOK→問題点1
– 評価指標を利用すれば、Teacher forcingしない
学習も可能→問題点2
state
RNNの状態変数
action
単語系列の推定
reward
評価指標
environment
画像特徴と生成中のキャプション
[Ranzato+, ICLR 2016][Rennie+, CVPR 2017]
視覚・言語融合の最前線2
他言語化・キャプション翻訳
他言語への展開
データセット
• IAPR TC12 [Grubinger+, 2006] 20,000画像+英独
• Multi30K [Elliot+, 2016] 30,000画像+英独
• STAIR Captions [吉川ら、 2017]
MS COCO (10万超画像+英語キャプション)
→すべてに日本語キャプションを付与
タスクとしての展開
• 英語でない画像キャプション生成
• マルチモーダル機械翻訳/言語間文書検索
1. 入力:言語Aでのキャプション+画像
2. 入力:言語Aでのキャプション
→ 出力:言語Bでのキャプション(1.と2.で同じ)
英語でない画像キャプション生成
多くは英語のキャプションを生成するが…
• 日本語 [Miyazaki+Shimizu, ACL 2016]
• 中国語 [Li+, ICMR 2016]
• トルコ語 [Unal+, SIU 2016]
Çimlerde ko¸ san bir köpek
金色头发的小女孩
柵の中にキリンが一頭
立っています
単にデータ集めを頑張るだけ?
他言語での知識を流用 [Miyazaki+Shimizu, ACL 2016]
• 他言語の視覚-言語グラウンディングの転移
• 少数のキャプション付き画像でも効率よく学習
an elephant is
an elephant
一匹の 象が 土の
一匹の 象が
言語横断型の研究
画像は機械翻訳の精度に寄与[Calixto+,2012]
• 英語でsealとあるけど、
・stampに近いsealなのか?
・sea animalのsealなのか?
がわからず誤ったポルトガル語に翻訳
• (実験してないけど)画像があれば防げるはず!
入力:言語Aのキャプション+画像
• 画像を介した言語横断キャプション翻訳
[Elliott+, 2015] [Hitschler+, ACL 2016]
– 最初に候補翻訳を複数生成(画像には非依存)
– 類似画像に付随する言語Bのキャプションを
利用して翻訳候補から出力を選択
Eine Person in
einem Anzug
und Krawatte
und einem Rock.
(独語)
画像を見ない場合の翻訳
A person in a suit and tie
and a rock.
画像を利用した場合の翻訳
A person in a suit and tie
and a skirt.
入力:言語Aのキャプション
• 画像を介した言語横断関連文書検索
[Funaki+Nakayama, EMNLP 2015]
• ゼロ対訳コーパスでのマルチモーダル翻訳
[Nakayama+Nishida, 2017]
視覚・言語融合の最前線3
画像に関する質問への応答
Visual Question Answering (VQA)
最初はユーザインタフェース分野で注目
• VizWiz [Bigham+, UIST 2010]
AMTで人力解決
• 初の自動化(ディープラーニング不使用)
[Malinowski+Fritz, NIPS 2014]
• 類似用語:Visual Turing Test [Malinowski+Fritz, 2014]
VQAを自動化する試み
VQA: Visual Question Answering
• ビジュアル質問応答を分野として確立
– ベンチマークデータセットの提供
– ベースとなるパイプラインでの実験
• ポータルサイトも運営
– http://www.visualqa.org/
– 国際コンペティションも開催
[Antol+, ICCV 2015]
What color are her eyes?
What is the mustache made of?
VQA Dataset
AMT で質問と回答を収集
• 10万超の実画像、3万超のアニメ調画像
• 計70万弱の質問+それぞれ10の模範回答
VQA=多クラス分類問題
表現ベクトル𝑍𝐼+𝑄以降は通常のクラス識別
質問文𝑄
What objects are
found on the bed?
応答𝐴
bed sheets, pillow
画像𝐼
画像特徴量
𝑥𝐼
質問特徴量
𝑥 𝑄
統合された
表現ベクトル
𝑧𝐼+𝑄
その後の展開:統合方法
「統合された表現ベクトル 𝑧𝐼+𝑄」の工夫
• VQA [Antol+, ICCV 2015]:そのまま直列に並べる
• 「和」グループ
例 Attentionで重みづけ和をとった画像特徴と
質問特徴を単純に足す [Xu+Saenko, ECCV 2016]
• 「積」グループ
例 双線形積とフーリエ変換を組み合わせる
[Fukui+, EMNLP 2016]
• 「和」と「積」のハイブリッド
例 要素毎の積と要素毎の和を直列に並べる
[Saito+, ICME 2017]
𝑧𝐼+𝑄 =
𝑥𝐼
𝑥 𝑄
𝑥𝐼 𝑥 𝑄
𝑥𝐼 𝑥 𝑄𝑧𝐼+𝑄 =
𝑧𝐼+𝑄 =
𝑧𝐼+𝑄 =
𝑥𝐼 𝑥 𝑄
𝑥𝐼 𝑥 𝑄
その後の展開:アテンション
• 2017年SOTA [Anderson+, CVPR 2018]
– これまで:Top-down領域の
画像にアテンション
– Bottom-upとTow-down領域の
両方にアテンション
• 2018年SOTA [Nguyen+Okatani, CVPR 2018]
– これまで:画像に対し
アテンション
– 質問特徴と画像特徴の
両方にアテンション
Bottom-upTop-down
視覚・言語融合の最前線4
キャプションからの画像生成
GANによる文→画像生成
Generator と Discriminator に文を加える
・自然な画像
・文に沿った画像
を生成しようとする
・不自然な画像
・文に合わない画像
を識別しようとする
[Reed+, ICML 2016]
生成できた画像の例
• 鳥(CUB)/花(Oxford-102)データセット
– 約1万の鳥/花画像と5キャプション/画像
– 200種類の鳥/102種類の花
A tiny bird, with a tiny beak,
tarsus and feet, a blue crown,
blue coverts, and black
cheek patch
Bright droopy yellow petals
with burgundy streaks, and a
yellow stigma
その後の展開
StackGAN [Zhang+, ICCV 2017]
• 2段階のGANからなるモデル
• 1段目でぼやっとした画像を生成、2段目で高解像+詳細化
キャプションからの画像生成
This bird is blue with white
and has a very short beak.
(この鳥は白の入った青色
で、とても短いくちばし
をもっています。)
This flower is white and
yellow in color, with petals
that are wavy and smooth.
(この花は白と黄色で、波
打った滑らかな花びらを
もっています。)
[Zhang+, ICCV 2017]
キャプションからの画像生成
This bird is blue with white
and has a very short beak.
(この鳥は白の入った青色
で、とても短いくちばし
をもっています。)
This flower is white and
yellow in color, with petals
that are wavy and smooth.
(この花は白と黄色で、波
打った滑らかな花びらを
もっています。)
[Zhang+, ICCV 2017]
鳥/花に特化したデータセットでの結果
→一般的な画像を生成するにはより一層のブレイクスルーが必要
視覚・言語融合の最前線5
Vision-Aware Dialog
Vision-Aware Dialog
エージェントとユーザー以外に視覚的な情報が存在
研究を大別すると…
• データセットの提供
VisDial [Das+, CVPR 2017]
• それらを利用した対話の研究
共参照解析を利用したVisDialモデル
マルチモーダル対話?
• マルチモーダル対話
– 主にユーザからの入力が複数モーダルの情報
• Vision-Aware Dialog
– 環境などに視覚情報を伴うものをさす
– マルチモダリティではある
本講演では
Vision-Aware Dialog
と呼ぶことにします
GuessWhat?!
連続するYes/No型のVQAデータ
Is it a person? No
Is it an item being worn or held? Yes
Is it a snowboard? Yes
Is it the red one? No
Is it the one being held by the Yes
person in blue?
Is it a cow? Yes
Is it the big cow in the middle? No
Is the cow on the left? No
On the right? Yes
First cow near us? Yes
[de Vries+, CVPR 2017]
Visual Dialog (VisDial)
連続する一般的なVQAデータ
Questioner Answerer
A couple of people
in the snow on skis.
[Das+, CVPR 2017]
Visual Dialog (VisDial)
Questioner Answerer
A couple of people
in the snow on skis.
What are their genders?
Are they both adults?
Do they wear goggles?
Do they have hats on?
Are there any other people?
What color is man’s hat?
Is it snowing now?
What is woman wearing?
Are they smiling?
Do you see trees?
1 man 1 woman
Yes
Looks like sunglasses
Man does
No
Black
No
Blue jacket and black pants
Yes
Yes
[Das+, CVPR 2017]
Vision-and-Language Navigation (VNL)
対話行為が移動とナビゲーション
[Anderson+, ICCV 2017]
Multimodal Dialog (MMD)
商品推薦を伴うマルチモーダル対話
[Saha+, AAAI 2018]
Talk the Walk
NYCを歩くTouristと目的地へ導くGuide
• 1万程度の発話
– 行動: 約44回
– Guide発話: 約9回
– Tourist発話: 約8回
[de Vries+, arXiv 2018]
個人適合キャプション列生成
複数のキャプションで説明しようとすると
• 個人で注目する場所によってふさわしい
キャプションも変わる
• ユーザへの質問を通じて注目個所を獲得
What is the man riding?
Motorcycle
Input image
The man is riding
Motorcycle. It is
white. The motorcycle is
honda.
[Shin+, CVPR 2018]
個人適合キャプション列生成
複数のキャプションで説明しようとすると
• 個人で注目する場所によってふさわしい
キャプションも変わる
• ユーザへの質問を通じて注目個所を獲得
What is the man riding?
Skateboard
The man is riding
skateboard. The man
is skateboarding. The
color of the jacket is red.
Input image
[Shin+, CVPR 2018]
ロボットのPick&Place
[Hatori+, ICRA 2018]
まとめ
• Deep Learning による視覚・言語融合を俯瞰
1. 画像・動画キャプション生成
2. 言語横断
3. 画像に関する質問への応答
4. キャプションからの画像生成
5. Vision-Aware Dialog
• Deep Learning の貢献
– 上記研究課題自体は Deep Learning 以前も存在
– 画像、動画、自然言語処理技術の共通化
– 認識と生成の精緻化
視覚×言語の新たなステージへ
Visual Dialog の著者陣
4機関による共著だ…
CVPR 2018 でハイライトされた論文でも
CVPR 2018 でハイライトされた論文でも
CVPR 2018 でハイライトされた論文でも
大半が複数機関による共著だ!!
自己紹介
2014.3 博士(情報理工学)、東京大学
2014.4~2016.3 NTT CS研 研究員
2016.4~2018.9 東京大学 講師 (原田・牛久研究室)
2016.9~ 産業技術総合研究所 協力研究員
2016.12~2018.9 国立国語研究所 共同研究員
2018.10~ オムロンサイニックエックス株式会社
Principal Investigator
2019.1~ 株式会社Ridge-i 社外CRO
[Ushiku+, ACMMM 2012]
[Ushiku+, ICCV 2015]
画像キャプション生成 主観的な感性表現を持つ
画像キャプション生成
動画の特定区間と
キャプションの相互検索
[Yamaguchi+, ICCV 2017]
A guy is skiing with no shirt on
and yellow snow pants.
A zebra standing in a field with
a tree in the dirty background.
[Shin+, BMVC 2016]
A yellow train on the tracks near
a train station.
自己紹介
2014.3 博士(情報理工学)、東京大学
2014.4~2016.3 NTT CS研 研究員
2016.4~2018.9 東京大学 講師 (原田・牛久研究室)
2016.9~ 産業技術総合研究所 協力研究員
2016.12~2018.9 国立国語研究所 共同研究員
2018.10~ オムロンサイニックエックス株式会社
Principal Investigator
2019.1~ 株式会社Ridge-i 社外CRO
[Ushiku+, ACMMM 2012]
[Ushiku+, ICCV 2015]
画像キャプション生成 主観的な感性表現を持つ
画像キャプション生成
動画の特定区間と
キャプションの相互検索
[Yamaguchi+, ICCV 2017]
A guy is skiing with no shirt on
and yellow snow pants.
A zebra standing in a field with
a tree in the dirty background.
[Shin+, BMVC 2016]
A yellow train on the tracks near
a train station.
4つの理由
基本的に(NTT以外)先方に誘われてjoin
→何を考えて引き受けたのか?
• 個人的なステップアップ
• 情報科学周辺の事情
• 日本の大学に対する危機感
• 日本での新たなキャリアスタイル
個人的なステップアップ
• 現在の状況
– NTT: 部長→グループリーダー→木っ端研究員
– 東大: 教授→准教授/講師—助教/ポスドク→学生
– 現職: PI→Researcher
• 研究グループを主宰するというチャレンジ
PI: Principal Investigator のある定義 by 文部科学省
• 独立した研究室を持った
• 研究グループの予算作成・執行の実質的な責任者
• 担当課題の予算作成・執行の実質的な責任者
• 特定の部下(大学院生)の指導の責任者
• 発表論文の責任者
情報科学周辺の事情
• 国際舞台に日本は居ない
• 圧倒的な劣勢を挽回するために
– 優秀な研究者が研究に専念できる環境を作る
– CV×NLPという分野の交点→コラボがとても大事
日本の論文数の世界ランクの変動
日本の大学に対する危機感
• ボロボロになりながらやっている
• 自由なき責任を負わされた15年
– 2004年から交付金は減りだしたけど収入を上げる方
法は制約あり
– 2004年から外部資金獲得に偏重化したけどインセン
ティブなし
日本での新たなキャリアスタイル
• 終身雇用崩壊の先進分野からみて
– 劣悪な環境で耐えるのはもう止めよう
– 転職=キャリアアップの絶好のチャンス
• 退職時に先生方から言われたこと
– Acadexit だけじゃなくて Academin があってよい
– そして企業も Academia を担ってよい
– 大学を労働市場の競争に巻き込み、環境が少しでも良く
なれば…
企業でバリバリやって、
また縁があったら大学に戻ってきてくれよ
OMRON SINIC X のチャレンジ
世の中に3つのコントリビューションを提供したい
• 近未来デザインとその研究開発成果
• 企業研究所の新たな在り方
• 優秀な人材の輩出
スペシャリスト+オープンイノベーション
Jiaxin Ma
栗原 聡
(慶應大)
橋本 敦史
Felix von Drigalski
片岡 裕雄
(産総研)
米谷 竜
諏訪 正樹
小西 光春
井尻 善久
牛久 祥孝
松原 崇充
(NAIST)

Weitere ähnliche Inhalte

Was ist angesagt?

Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解するAtsukiYamaguchi1
 
MS COCO Dataset Introduction
MS COCO Dataset IntroductionMS COCO Dataset Introduction
MS COCO Dataset IntroductionShinagawa Seitaro
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...Deep Learning JP
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...Deep Learning JP
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)Shota Imai
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイyohei okawa
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...Deep Learning JP
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...Deep Learning JP
 
[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with Transformers[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with TransformersDeep Learning JP
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向ohken
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformercvpaper. challenge
 
0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)MasanoriSuganuma
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 

Was ist angesagt? (20)

Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
MS COCO Dataset Introduction
MS COCO Dataset IntroductionMS COCO Dataset Introduction
MS COCO Dataset Introduction
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
 
[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with Transformers[DL輪読会]End-to-End Object Detection with Transformers
[DL輪読会]End-to-End Object Detection with Transformers
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)0から理解するニューラルネットアーキテクチャサーチ(NAS)
0から理解するニューラルネットアーキテクチャサーチ(NAS)
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 

Ähnlich wie これからの Vision & Language ~ Acadexit した4つの理由

Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Yoshitaka Ushiku
 
Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Yoshitaka Ushiku
 
視覚と対話の融合研究
視覚と対話の融合研究視覚と対話の融合研究
視覚と対話の融合研究Yoshitaka Ushiku
 
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)STAIR Lab, Chiba Institute of Technology
 
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Yoshitaka Ushiku
 
動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれから動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれからMayuOtani
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向Koichiro Mori
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )cvpaper. challenge
 
Ibm watson api サービス
Ibm watson api サービスIbm watson api サービス
Ibm watson api サービスHiroaki Komine
 
授業の活性化に繋がるかも?種々の自作ソフトウェアを紹介(口頭発表)
授業の活性化に繋がるかも?種々の自作ソフトウェアを紹介(口頭発表)授業の活性化に繋がるかも?種々の自作ソフトウェアを紹介(口頭発表)
授業の活性化に繋がるかも?種々の自作ソフトウェアを紹介(口頭発表)Kenichi Kamiya
 
Interop2017
Interop2017Interop2017
Interop2017tak9029
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 

Ähnlich wie これからの Vision & Language ~ Acadexit した4つの理由 (15)

Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
 
Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線
 
視覚と対話の融合研究
視覚と対話の融合研究視覚と対話の融合研究
視覚と対話の融合研究
 
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)
視覚×言語の最前線(ステアラボ人工知能シンポジウム2017)
 
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
 
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
 
動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれから動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれから
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
 
サポNavi
サポNaviサポNavi
サポNavi
 
Ibm watson api サービス
Ibm watson api サービスIbm watson api サービス
Ibm watson api サービス
 
大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理
 
授業の活性化に繋がるかも?種々の自作ソフトウェアを紹介(口頭発表)
授業の活性化に繋がるかも?種々の自作ソフトウェアを紹介(口頭発表)授業の活性化に繋がるかも?種々の自作ソフトウェアを紹介(口頭発表)
授業の活性化に繋がるかも?種々の自作ソフトウェアを紹介(口頭発表)
 
Interop2017
Interop2017Interop2017
Interop2017
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 

Mehr von Yoshitaka Ushiku

機械学習を民主化する取り組み
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組みYoshitaka Ushiku
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Yoshitaka Ushiku
 
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Yoshitaka Ushiku
 
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...Yoshitaka Ushiku
 
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep LearningFrontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep LearningYoshitaka Ushiku
 
今後のPRMU研究会を考える
今後のPRMU研究会を考える今後のPRMU研究会を考える
今後のPRMU研究会を考えるYoshitaka Ushiku
 
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Yoshitaka Ushiku
 
Asymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain AdaptationAsymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain AdaptationYoshitaka Ushiku
 
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MILRecognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MILYoshitaka Ushiku
 
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...Yoshitaka Ushiku
 
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...Yoshitaka Ushiku
 
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)Yoshitaka Ushiku
 
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
Generating Notifications for Missing Actions:Don’t forget to turn the lights...Generating Notifications for Missing Actions:Don’t forget to turn the lights...
Generating Notifications for Missing Actions: Don’t forget to turn the lights...Yoshitaka Ushiku
 
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...Yoshitaka Ushiku
 
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)Yoshitaka Ushiku
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 

Mehr von Yoshitaka Ushiku (16)

機械学習を民主化する取り組み
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組み
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
 
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
 
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
 
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep LearningFrontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
 
今後のPRMU研究会を考える
今後のPRMU研究会を考える今後のPRMU研究会を考える
今後のPRMU研究会を考える
 
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
 
Asymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain AdaptationAsymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain Adaptation
 
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MILRecognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
 
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
 
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
 
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
 
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
Generating Notifications for Missing Actions:Don’t forget to turn the lights...Generating Notifications for Missing Actions:Don’t forget to turn the lights...
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
 
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
 
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 

Kürzlich hochgeladen

Career introduction document of Masahiro Nishi
Career introduction document of Masahiro NishiCareer introduction document of Masahiro Nishi
Career introduction document of Masahiro NishiMasahiro Nishi
 
2023 High School Student Project in Shimanto Town
2023 High School Student Project in Shimanto Town2023 High School Student Project in Shimanto Town
2023 High School Student Project in Shimanto Townjun_suto
 
【エイカレ・サミット2023】実証実験 ファイナリスト 日本イーライリリー株式会社「Lilly Up!」
【エイカレ・サミット2023】実証実験 ファイナリスト 日本イーライリリー株式会社「Lilly Up!」【エイカレ・サミット2023】実証実験 ファイナリスト 日本イーライリリー株式会社「Lilly Up!」
【エイカレ・サミット2023】実証実験 ファイナリスト 日本イーライリリー株式会社「Lilly Up!」新世代エイジョカレッジ実行委員会
 
サイボウズの技術情報を発信するWebディレクター(開発者向けサイト)の紹介.pdf
サイボウズの技術情報を発信するWebディレクター(開発者向けサイト)の紹介.pdfサイボウズの技術情報を発信するWebディレクター(開発者向けサイト)の紹介.pdf
サイボウズの技術情報を発信するWebディレクター(開発者向けサイト)の紹介.pdfCybozu, Inc.
 
240412_HP用_AIA紹介資料 .pptx
240412_HP用_AIA紹介資料 .pptx240412_HP用_AIA紹介資料 .pptx
240412_HP用_AIA紹介資料 .pptxssuser670492
 
【エイカレ・サミット2023】実証実験 審査員特別賞 株式会社スタッフサービス「笑ってぼたもちーズ」
【エイカレ・サミット2023】実証実験 審査員特別賞 株式会社スタッフサービス「笑ってぼたもちーズ」【エイカレ・サミット2023】実証実験 審査員特別賞 株式会社スタッフサービス「笑ってぼたもちーズ」
【エイカレ・サミット2023】実証実験 審査員特別賞 株式会社スタッフサービス「笑ってぼたもちーズ」新世代エイジョカレッジ実行委員会
 
【エイカレ・サミット2023】実証実験 大賞 株式会社明治「Cinderella」
【エイカレ・サミット2023】実証実験 大賞 株式会社明治「Cinderella」【エイカレ・サミット2023】実証実験 大賞 株式会社明治「Cinderella」
【エイカレ・サミット2023】実証実験 大賞 株式会社明治「Cinderella」新世代エイジョカレッジ実行委員会
 

Kürzlich hochgeladen (7)

Career introduction document of Masahiro Nishi
Career introduction document of Masahiro NishiCareer introduction document of Masahiro Nishi
Career introduction document of Masahiro Nishi
 
2023 High School Student Project in Shimanto Town
2023 High School Student Project in Shimanto Town2023 High School Student Project in Shimanto Town
2023 High School Student Project in Shimanto Town
 
【エイカレ・サミット2023】実証実験 ファイナリスト 日本イーライリリー株式会社「Lilly Up!」
【エイカレ・サミット2023】実証実験 ファイナリスト 日本イーライリリー株式会社「Lilly Up!」【エイカレ・サミット2023】実証実験 ファイナリスト 日本イーライリリー株式会社「Lilly Up!」
【エイカレ・サミット2023】実証実験 ファイナリスト 日本イーライリリー株式会社「Lilly Up!」
 
サイボウズの技術情報を発信するWebディレクター(開発者向けサイト)の紹介.pdf
サイボウズの技術情報を発信するWebディレクター(開発者向けサイト)の紹介.pdfサイボウズの技術情報を発信するWebディレクター(開発者向けサイト)の紹介.pdf
サイボウズの技術情報を発信するWebディレクター(開発者向けサイト)の紹介.pdf
 
240412_HP用_AIA紹介資料 .pptx
240412_HP用_AIA紹介資料 .pptx240412_HP用_AIA紹介資料 .pptx
240412_HP用_AIA紹介資料 .pptx
 
【エイカレ・サミット2023】実証実験 審査員特別賞 株式会社スタッフサービス「笑ってぼたもちーズ」
【エイカレ・サミット2023】実証実験 審査員特別賞 株式会社スタッフサービス「笑ってぼたもちーズ」【エイカレ・サミット2023】実証実験 審査員特別賞 株式会社スタッフサービス「笑ってぼたもちーズ」
【エイカレ・サミット2023】実証実験 審査員特別賞 株式会社スタッフサービス「笑ってぼたもちーズ」
 
【エイカレ・サミット2023】実証実験 大賞 株式会社明治「Cinderella」
【エイカレ・サミット2023】実証実験 大賞 株式会社明治「Cinderella」【エイカレ・サミット2023】実証実験 大賞 株式会社明治「Cinderella」
【エイカレ・サミット2023】実証実験 大賞 株式会社明治「Cinderella」
 

これからの Vision & Language ~ Acadexit した4つの理由

Hinweis der Redaktion

  1. You can easily know the answer because the official site still has the information about ILSVRC 2012. Yes, the 1st team with deep learning achieved 15% error, the 2nd team without deep learning achieved 26% error … and if you scroll down this web page, the members of the second team are shown in a table. There seems to be several guys in the second team, and now please remember this name. It is hard to pronounce. Yoshitaka Ushiku.
  2. You can easily know the answer because the official site still has the information about ILSVRC 2012. Yes, the 1st team with deep learning achieved 15% error, the 2nd team without deep learning achieved 26% error … and if you scroll down this web page, the members of the second team are shown in a table. There seems to be several guys in the second team, and now please remember this name. It is hard to pronounce. Yoshitaka Ushiku.