7. Word Embedding의 구현방법
Co-occurrence matrix
Probabilistic model
Neural networks
Word Embedding의 구현방법
Co-occurrence matrix
Probabilistic model
Neural networks ☞ Word2Vec
8. Word Embedding 구현 알고리즘에
사용되는 기본 가정
Distributional Hypothesis
유사한 분포를 가지는 단어는
유사한 의미를 가진다
9. Word2Vec
• Google의 Tomas Mikolov가 이끄는 연구팀이 개발
• Neural Network 기반 Machine Learning 분석모델
• 단어의 등장 분포를 통해 단어의 의미를 벡터로 변환
• 모델을 생성하는 두 가지 알고리즘을 사용할 수 있음
• CBOW, Skip-gram
10. Word2Vec이 제시한 두 가지 알고리즘
: CBOW(Continuous Bag-of-Words) vs. Skip-gram
< Skip-gram >< CBOW >
多 1 1 多
11. Word2Vec이 제시한 두 가지 알고리즘 - 예제
: CBOW(Continuous Bag-of-Words) vs. Skip-gram
< CBOW >
• 주변 단어를 통해 중간에 어떤 단어가 나올지 확
률적 유추를 하는 알고리즘
< Skip-gram >
• 한 단어의 주변에 어떤 단어들이 나올지 확률적
유추를 하는 알고리즘
12. Word2Vec이 제시한 두 가지 알고리즘 - 성능평가
: CBOW(Continuous Bag-of-Words) vs. Skip-gram
다른 Neural Network 기반
Word Embedding 알고리즘
다른 알고리즘에 비해 Word2Vec 알고리즘들의
성능이 좋았고 Word2Vec의 두 알고리즘 내에서
는 Skip-gram 알고리즘이 문법적, 의미적 면에서
성능이 더 좋았음
13. Source Data
: Buzzword Data in SMD(Social Media Data) Analysis Service
수집기
형태소분석
감성분석
Buzzword
Sentimental
Score
Buzzword
Summary
Sentimental
Summary
언론사
SNS
뉴스
증권 커뮤니티
16. Word2Vec 활용
• 활용한 기술
• 단어의 의미를 벡터로 변환: Word2Vec
• 벡터의 클러스터링: K-means 알고리즘
• 사용한 Python 패키지
• 'gensim': 문서 내의 시맨틱을 추출하기 위한 다양한 기능을 제공하는 Python 라이브러리
• 'sklearn': K-means 알고리즘을 사용하기 위한 패키지
• 'tkinter': Python GUI 지원 패키지