SlideShare ist ein Scribd-Unternehmen logo
1 von 13
Downloaden Sie, um offline zu lesen
Enriching Word
Vectors with
Subword
Information (2016)
Piotr Bojanowski and Edouard Grave and
Armand Joulin and Tomas Mikolov
@Mikibear_ 논문 정리 161226
Word2Vec에서 단어의
Intrastructure를 잡아내보자
'Distributed representations of words and phrases and their
compositionality'(Mikolov et al.2013)... (너무나도 유명한)
Mikolov et al.(2013)의 한계?
“In particular, they ignore the internal structure of words, which is an important limitation for morphologically rich
languages, such as Turkish or Finnish. These languages contain many words that occur rarely, making it difficult to
learn good word-level representations.”
-> 단어의 Intrastructure를 고려하지 않아서 형태학적으로 풍부한 단어(morphologically rich languages)에 상대적으로 잘
안 먹힌다.
해결책
당연하다고 생각하는 것으로 다시 돌아가자.
구체적으로는, score function.
'Distributed representations of words and phrases and their
compositionality'(Mikolov et al.2013)
Mikolov et al.2013 Bojanowski et al.2016
w가 나타나는 n-gram set에 관련된
score function의 도입
Bojanowski et al.2016
Subword Model
왜?
"This simple model allows sharing the representations across words, thus allowing
to learn reliable representation for rare words."
다시 말해서, rare words의 embedding 위치를 잡는데 도움이
됨
For example...
주의! 완전 단순화된 예임. (w=3, n = 3) 실제 한국어 처리는 보통 이런 식으로 하지 않음.
철수는 밥을 먹었을 것 같다 먹었을 -> {밥을, 먹었을, 것}
철수는 밥을 먹었을 것 같다 먹었을 -> {철수는, 밥을, 먹었을}. {밥을, 먹었을 것}. {먹었을 것 같다}
‘N-gram을 고려하면 embedding에 도움이 될거야!’
사견으로는,
일종의 Data Argumentation이 아닌가 하는 생각.
"어떻게 하면 희귀하거나 다형적인 단어를 잘 embedding할 수 있을까?"
-> "모델이 각 단어를 한 번만 보는 게 아니라 N-gram으로 더 많이 보고 배우게 하면 된다!"
실험
전체적으로, 영어 코퍼스에서의 syntactic relation의 예측률은 약간 올라가고 semantic relation의 예측률은 하락함.
그러나 (형태학적으로 풍부한 언어인) 체코어에서의 syntactic relation은 dramatically 상승함.

Weitere ähnliche Inhalte

Andere mochten auch

Phoenix with Elm
Phoenix with ElmPhoenix with Elm
Phoenix with Elm이재철
 
1118_Seminar_Continuous_Deep Q-Learning with Model based acceleration
1118_Seminar_Continuous_Deep Q-Learning with Model based acceleration1118_Seminar_Continuous_Deep Q-Learning with Model based acceleration
1118_Seminar_Continuous_Deep Q-Learning with Model based accelerationHye-min Ahn
 
Introduction For seq2seq(sequence to sequence) and RNN
Introduction For seq2seq(sequence to sequence) and RNNIntroduction For seq2seq(sequence to sequence) and RNN
Introduction For seq2seq(sequence to sequence) and RNNHye-min Ahn
 
6장 지능형 웹 크롤링
6장 지능형 웹 크롤링6장 지능형 웹 크롤링
6장 지능형 웹 크롤링Chanil Kim
 
fastTextの実装を見てみた
fastTextの実装を見てみたfastTextの実装を見てみた
fastTextの実装を見てみたYoshihiko Shiraki
 
20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사
20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사
20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사Taejoon Yoo
 
한국어와 NLTK, Gensim의 만남
한국어와 NLTK, Gensim의 만남한국어와 NLTK, Gensim의 만남
한국어와 NLTK, Gensim의 만남Eunjeong (Lucy) Park
 
141118 최창원 웹크롤러제작
141118 최창원 웹크롤러제작141118 최창원 웹크롤러제작
141118 최창원 웹크롤러제작Changwon Choe
 
20141223 머하웃(mahout) 협업필터링_추천시스템구현
20141223 머하웃(mahout) 협업필터링_추천시스템구현20141223 머하웃(mahout) 협업필터링_추천시스템구현
20141223 머하웃(mahout) 협업필터링_추천시스템구현Tae Young Lee
 
[F2]자연어처리를 위한 기계학습 소개
[F2]자연어처리를 위한 기계학습 소개[F2]자연어처리를 위한 기계학습 소개
[F2]자연어처리를 위한 기계학습 소개NAVER D2
 
The beginner’s guide to 웹 크롤링 (스크래핑)
The beginner’s guide to 웹 크롤링 (스크래핑)The beginner’s guide to 웹 크롤링 (스크래핑)
The beginner’s guide to 웹 크롤링 (스크래핑)Eunjeong (Lucy) Park
 
2017 tensor flow dev summit
2017 tensor flow dev summit2017 tensor flow dev summit
2017 tensor flow dev summitTae Young Lee
 
추놀 5회 무엇이든 분류해 보기
추놀 5회 무엇이든 분류해 보기추놀 5회 무엇이든 분류해 보기
추놀 5회 무엇이든 분류해 보기choi kyumin
 
2015 py con word2vec이 추천시스템을 만났을때
2015 py con word2vec이 추천시스템을 만났을때 2015 py con word2vec이 추천시스템을 만났을때
2015 py con word2vec이 추천시스템을 만났을때 choi kyumin
 
제1화 추천 시스템 이란.ppt
제1화 추천 시스템 이란.ppt제1화 추천 시스템 이란.ppt
제1화 추천 시스템 이란.pptchoi kyumin
 
Visualizing data using t-SNE
Visualizing data using t-SNEVisualizing data using t-SNE
Visualizing data using t-SNE홍배 김
 
Python으로 채팅 구현하기
Python으로 채팅 구현하기Python으로 채팅 구현하기
Python으로 채팅 구현하기Tae Young Lee
 
코드품질 개선을 위한 GS SHOP 고군분투기
코드품질 개선을 위한 GS SHOP 고군분투기코드품질 개선을 위한 GS SHOP 고군분투기
코드품질 개선을 위한 GS SHOP 고군분투기Darion Kim
 

Andere mochten auch (19)

Phoenix with Elm
Phoenix with ElmPhoenix with Elm
Phoenix with Elm
 
1118_Seminar_Continuous_Deep Q-Learning with Model based acceleration
1118_Seminar_Continuous_Deep Q-Learning with Model based acceleration1118_Seminar_Continuous_Deep Q-Learning with Model based acceleration
1118_Seminar_Continuous_Deep Q-Learning with Model based acceleration
 
Introduction For seq2seq(sequence to sequence) and RNN
Introduction For seq2seq(sequence to sequence) and RNNIntroduction For seq2seq(sequence to sequence) and RNN
Introduction For seq2seq(sequence to sequence) and RNN
 
6장 지능형 웹 크롤링
6장 지능형 웹 크롤링6장 지능형 웹 크롤링
6장 지능형 웹 크롤링
 
fastTextの実装を見てみた
fastTextの実装を見てみたfastTextの実装を見てみた
fastTextの実装を見てみた
 
20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사
20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사
20160203_마인즈랩_딥러닝세미나_05 딥러닝 자연어처리와 분류엔진 황이규박사
 
한국어와 NLTK, Gensim의 만남
한국어와 NLTK, Gensim의 만남한국어와 NLTK, Gensim의 만남
한국어와 NLTK, Gensim의 만남
 
141118 최창원 웹크롤러제작
141118 최창원 웹크롤러제작141118 최창원 웹크롤러제작
141118 최창원 웹크롤러제작
 
20141223 머하웃(mahout) 협업필터링_추천시스템구현
20141223 머하웃(mahout) 협업필터링_추천시스템구현20141223 머하웃(mahout) 협업필터링_추천시스템구현
20141223 머하웃(mahout) 협업필터링_추천시스템구현
 
[F2]자연어처리를 위한 기계학습 소개
[F2]자연어처리를 위한 기계학습 소개[F2]자연어처리를 위한 기계학습 소개
[F2]자연어처리를 위한 기계학습 소개
 
The beginner’s guide to 웹 크롤링 (스크래핑)
The beginner’s guide to 웹 크롤링 (스크래핑)The beginner’s guide to 웹 크롤링 (스크래핑)
The beginner’s guide to 웹 크롤링 (스크래핑)
 
[4차]왓챠 알고리즘 분석(151106)
[4차]왓챠 알고리즘 분석(151106)[4차]왓챠 알고리즘 분석(151106)
[4차]왓챠 알고리즘 분석(151106)
 
2017 tensor flow dev summit
2017 tensor flow dev summit2017 tensor flow dev summit
2017 tensor flow dev summit
 
추놀 5회 무엇이든 분류해 보기
추놀 5회 무엇이든 분류해 보기추놀 5회 무엇이든 분류해 보기
추놀 5회 무엇이든 분류해 보기
 
2015 py con word2vec이 추천시스템을 만났을때
2015 py con word2vec이 추천시스템을 만났을때 2015 py con word2vec이 추천시스템을 만났을때
2015 py con word2vec이 추천시스템을 만났을때
 
제1화 추천 시스템 이란.ppt
제1화 추천 시스템 이란.ppt제1화 추천 시스템 이란.ppt
제1화 추천 시스템 이란.ppt
 
Visualizing data using t-SNE
Visualizing data using t-SNEVisualizing data using t-SNE
Visualizing data using t-SNE
 
Python으로 채팅 구현하기
Python으로 채팅 구현하기Python으로 채팅 구현하기
Python으로 채팅 구현하기
 
코드품질 개선을 위한 GS SHOP 고군분투기
코드품질 개선을 위한 GS SHOP 고군분투기코드품질 개선을 위한 GS SHOP 고군분투기
코드품질 개선을 위한 GS SHOP 고군분투기
 

Paper Reading : Enriching word vectors with subword information(2016)

  • 1. Enriching Word Vectors with Subword Information (2016) Piotr Bojanowski and Edouard Grave and Armand Joulin and Tomas Mikolov @Mikibear_ 논문 정리 161226
  • 3. 'Distributed representations of words and phrases and their compositionality'(Mikolov et al.2013)... (너무나도 유명한)
  • 4. Mikolov et al.(2013)의 한계? “In particular, they ignore the internal structure of words, which is an important limitation for morphologically rich languages, such as Turkish or Finnish. These languages contain many words that occur rarely, making it difficult to learn good word-level representations.” -> 단어의 Intrastructure를 고려하지 않아서 형태학적으로 풍부한 단어(morphologically rich languages)에 상대적으로 잘 안 먹힌다.
  • 5. 해결책 당연하다고 생각하는 것으로 다시 돌아가자. 구체적으로는, score function.
  • 6. 'Distributed representations of words and phrases and their compositionality'(Mikolov et al.2013)
  • 7. Mikolov et al.2013 Bojanowski et al.2016
  • 8. w가 나타나는 n-gram set에 관련된 score function의 도입
  • 10. 왜? "This simple model allows sharing the representations across words, thus allowing to learn reliable representation for rare words." 다시 말해서, rare words의 embedding 위치를 잡는데 도움이 됨
  • 11. For example... 주의! 완전 단순화된 예임. (w=3, n = 3) 실제 한국어 처리는 보통 이런 식으로 하지 않음. 철수는 밥을 먹었을 것 같다 먹었을 -> {밥을, 먹었을, 것} 철수는 밥을 먹었을 것 같다 먹었을 -> {철수는, 밥을, 먹었을}. {밥을, 먹었을 것}. {먹었을 것 같다} ‘N-gram을 고려하면 embedding에 도움이 될거야!’
  • 12. 사견으로는, 일종의 Data Argumentation이 아닌가 하는 생각. "어떻게 하면 희귀하거나 다형적인 단어를 잘 embedding할 수 있을까?" -> "모델이 각 단어를 한 번만 보는 게 아니라 N-gram으로 더 많이 보고 배우게 하면 된다!"
  • 13. 실험 전체적으로, 영어 코퍼스에서의 syntactic relation의 예측률은 약간 올라가고 semantic relation의 예측률은 하락함. 그러나 (형태학적으로 풍부한 언어인) 체코어에서의 syntactic relation은 dramatically 상승함.