SlideShare ist ein Scribd-Unternehmen logo
1 von 23
Word2Vec
- SMD 분석서비스에 기반하여
이찬희
2016. 12. 16
1위: 엄마. 아빠
2위: 국가지도자. 전략가
3위: 기업 CEO
4위: 교사
5위: 상담원
☞ 사람 고유의 표현수단이
중요하게 사용되는 직업
사람 고유의 표현수단
표정
행동
언어
사람의 표현수단을 데이터화 시키려는
노력에는 어떤 것이 있을까?
컴퓨터가 어떻게 언어를 인식할 수 있을까?
표정, 음성 -> 감정이 담긴 표정들과 비교
동작 -> 하드웨어의 인식
언어 -> *벡터공간과 개별 벡터*
*Word Embedding*
단어를 표현하는데 드는 벡터공간보다
보다 저차원의 벡터공간으로
표현하는 방법을 총칭
Word Embedding의 구현방법
Co-occurrence matrix
Probabilistic model
Neural networks
Word Embedding의 구현방법
Co-occurrence matrix
Probabilistic model
Neural networks ☞ Word2Vec
Word Embedding 구현 알고리즘에
사용되는 기본 가정
Distributional Hypothesis
유사한 분포를 가지는 단어는
유사한 의미를 가진다
Word2Vec
• Google의 Tomas Mikolov가 이끄는 연구팀이 개발
• Neural Network 기반 Machine Learning 분석모델
• 단어의 등장 분포를 통해 단어의 의미를 벡터로 변환
• 모델을 생성하는 두 가지 알고리즘을 사용할 수 있음
• CBOW, Skip-gram
Word2Vec이 제시한 두 가지 알고리즘
: CBOW(Continuous Bag-of-Words) vs. Skip-gram
< Skip-gram >< CBOW >
多 1 1 多
Word2Vec이 제시한 두 가지 알고리즘 - 예제
: CBOW(Continuous Bag-of-Words) vs. Skip-gram
< CBOW >
• 주변 단어를 통해 중간에 어떤 단어가 나올지 확
률적 유추를 하는 알고리즘
< Skip-gram >
• 한 단어의 주변에 어떤 단어들이 나올지 확률적
유추를 하는 알고리즘
Word2Vec이 제시한 두 가지 알고리즘 - 성능평가
: CBOW(Continuous Bag-of-Words) vs. Skip-gram
다른 Neural Network 기반
Word Embedding 알고리즘
다른 알고리즘에 비해 Word2Vec 알고리즘들의
성능이 좋았고 Word2Vec의 두 알고리즘 내에서
는 Skip-gram 알고리즘이 문법적, 의미적 면에서
성능이 더 좋았음
Source Data
: Buzzword Data in SMD(Social Media Data) Analysis Service
수집기
형태소분석
감성분석
Buzzword
Sentimental
Score
Buzzword
Summary
Sentimental
Summary
언론사
SNS
뉴스
증권 커뮤니티
Source Data
: Buzzword in SMD(Social Media Data) Analysis Service
수집기
형태소분석
감성분석
Buzzword
Sentimental
Score
Buzzword
Summary
Sentimental
Summary
언론사
SNS
뉴스
증권 커뮤니티
삼성전자, 2015년
4분기 실적발표
…
4분기는 CE부문을 중심으
로 매출은 다소 증가했지만,
…,
부품사업을 중심으로 영업
이익이 감소했다.
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로,
영업이익, 이, 감소하다 + <과
거형>
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로, 영
업이익, 이, 감소하다 + <과거
형>
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로,
영업이익, 이, 감소하다 + <과
거형>
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소, 증가하다
+ <과거형>, 만,
부품사업, 을, 중심, 으로,
영업이익, 이, 감소하다 + <과
거형>
Buzzword WordCount
2015년 1
4분기 2
실적발표 1
…
매출
부품사업 1
영업이익 1
Pattern
Sent
Score
CE부문 + 매출 + 증가하다 +1
부품사업 + 영업이익 + 감소하다 -1
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로, 영
업이익, 이, 감소하다 + <과거
형>
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로,
영업이익, 이, 감소하다 + <과
거형>
※ 이 데이터를 사용
Word2Vec 활용
• 활용한 기술
• 단어의 의미를 벡터로 변환: Word2Vec
• 벡터의 클러스터링: K-means 알고리즘
• 사용한 Python 패키지
• 'gensim': 문서 내의 시맨틱을 추출하기 위한 다양한 기능을 제공하는 Python 라이브러리
• 'sklearn': K-means 알고리즘을 사용하기 위한 패키지
• 'tkinter': Python GUI 지원 패키지
Word2Vec 활용과정
1. Buzzword의 등장 순서 원복
2. Word2Vec 모델 구축
3. 클러스터링 알고리즘 적용
4. UI 붙이기
결과 1. 관련어 검색
• 주어진 단어에 대한 관련단어 검색기능
• 여러 단어를 제공할 수록 사용자가 원하는
결과를 제공할 확률이 높아짐
• 단순히 같은 의미를 가지는 단어만 제공하는
것보다 반의어를 함께 제공할 때 성능이 더
좋음
결과 1. 관련어 검색 - 단어 필터링
기존 상위
버즈워드
주제에 따른
필터링 목록 생성
필터링 이후의
버즈워드
시점 관련 단어집합 문서 특성상 고정적으로 들어가는 단어집합 일반적으로 들어가는 명사집합
결과 2. 단어 클러스터링
• 벡터화된 단어를 클러스터링
• 클러스터링 알고리즘에 따라 결과가
달라짐
• 많은 단어들을 소수의 클러스터화를
통해 개별 의미가 아닌 Context를 찾
아낼 수 있음
: 즉, 사용자의 이해에 도움
결과 2. 단어 클러스터링 - 버즈워드 클러스터링
12/14 13:00 전체시장 버즈워드 TOP 50
너무 많은 단어들이 등장하기 때문에,
단어집합이 뜻하는 의미를 사용자가 직관적으로 이해하기 쉽지 않음
결과 2. 단어 클러스터링 - 버즈워드 클러스터링
많은 단어를 의미별로 묶어 소수의 클러스터로 보여줌으로써,
사용자의 이해에 보다 도움을 줄 수 있음
Word2Vec 개요 및 활용

Weitere ähnliche Inhalte

Was ist angesagt?

기계독해를 위한 BERT 언어처리 모델 활용
기계독해를 위한 BERT 언어처리 모델 활용기계독해를 위한 BERT 언어처리 모델 활용
기계독해를 위한 BERT 언어처리 모델 활용
Kenneth Jung
 
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
NAVER Engineering
 

Was ist angesagt? (20)

고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
 
[전득진_22년4월] AI_ML담당_Tech_seminar-emart.pdf
[전득진_22년4월] AI_ML담당_Tech_seminar-emart.pdf[전득진_22년4월] AI_ML담당_Tech_seminar-emart.pdf
[전득진_22년4월] AI_ML담당_Tech_seminar-emart.pdf
 
신뢰할 수 있는 A/B 테스트를 위해 알아야 할 것들
신뢰할 수 있는 A/B 테스트를 위해 알아야 할 것들신뢰할 수 있는 A/B 테스트를 위해 알아야 할 것들
신뢰할 수 있는 A/B 테스트를 위해 알아야 할 것들
 
Seoul (Commercial Real-Estate) Market Analysis Pipeline
Seoul (Commercial Real-Estate) Market Analysis PipelineSeoul (Commercial Real-Estate) Market Analysis Pipeline
Seoul (Commercial Real-Estate) Market Analysis Pipeline
 
카카오톡으로 여친 만들기 2013.06.29
카카오톡으로 여친 만들기 2013.06.29카카오톡으로 여친 만들기 2013.06.29
카카오톡으로 여친 만들기 2013.06.29
 
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
 
いまさら聞けないパスワードの取り扱い方
いまさら聞けないパスワードの取り扱い方いまさら聞けないパスワードの取り扱い方
いまさら聞けないパスワードの取り扱い方
 
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018
 
AB Test Platform - 우종호
AB Test Platform - 우종호AB Test Platform - 우종호
AB Test Platform - 우종호
 
코딩 테스트 및 알고리즘 문제해결 공부 방법 (고려대학교 KUCC, 2022년 4월)
코딩 테스트 및 알고리즘 문제해결 공부 방법 (고려대학교 KUCC, 2022년 4월)코딩 테스트 및 알고리즘 문제해결 공부 방법 (고려대학교 KUCC, 2022년 4월)
코딩 테스트 및 알고리즘 문제해결 공부 방법 (고려대학교 KUCC, 2022년 4월)
 
기계독해를 위한 BERT 언어처리 모델 활용
기계독해를 위한 BERT 언어처리 모델 활용기계독해를 위한 BERT 언어처리 모델 활용
기계독해를 위한 BERT 언어처리 모델 활용
 
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기 [데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축
 
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
 
[216]네이버 검색 사용자를 만족시켜라! 의도파악과 의미검색
[216]네이버 검색 사용자를 만족시켜라!   의도파악과 의미검색[216]네이버 검색 사용자를 만족시켜라!   의도파악과 의미검색
[216]네이버 검색 사용자를 만족시켜라! 의도파악과 의미검색
 
NLU / Intent Detection Benchmark by Intento, August 2017
NLU / Intent Detection Benchmark by Intento, August 2017NLU / Intent Detection Benchmark by Intento, August 2017
NLU / Intent Detection Benchmark by Intento, August 2017
 
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
 
Unit testing & TDD concepts with best practice guidelines.
Unit testing & TDD concepts with best practice guidelines.Unit testing & TDD concepts with best practice guidelines.
Unit testing & TDD concepts with best practice guidelines.
 
La data science au service du consultant SEO | SEO Campus 2023
La data science au service du consultant SEO | SEO Campus 2023La data science au service du consultant SEO | SEO Campus 2023
La data science au service du consultant SEO | SEO Campus 2023
 
식습관 스몰데이터 분석을 통한 장트러블 극복기
식습관 스몰데이터 분석을 통한 장트러블 극복기식습관 스몰데이터 분석을 통한 장트러블 극복기
식습관 스몰데이터 분석을 통한 장트러블 극복기
 

Ähnlich wie Word2Vec 개요 및 활용

2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브
2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브
2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브
민 허
 

Ähnlich wie Word2Vec 개요 및 활용 (20)

GloVe:Global vectors for word representation
GloVe:Global vectors for word representationGloVe:Global vectors for word representation
GloVe:Global vectors for word representation
 
2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브
2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브
2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브
 
파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석
 
Clou(python searh system)
Clou(python searh system)Clou(python searh system)
Clou(python searh system)
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System
 
개발자, 성장하는 '척' 말고, 진짜 성장하기
개발자, 성장하는 '척' 말고, 진짜 성장하기개발자, 성장하는 '척' 말고, 진짜 성장하기
개발자, 성장하는 '척' 말고, 진짜 성장하기
 
예비 개발자를 위한 소프트웨어 세상 이야기
예비 개발자를 위한 소프트웨어 세상 이야기예비 개발자를 위한 소프트웨어 세상 이야기
예비 개발자를 위한 소프트웨어 세상 이야기
 
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
 
[IT교육/IT학원]Develope를 위한 IT실무교육
[IT교육/IT학원]Develope를 위한 IT실무교육[IT교육/IT학원]Develope를 위한 IT실무교육
[IT교육/IT학원]Develope를 위한 IT실무교육
 
MongoDB in Banksalad [Rainist]
MongoDB in Banksalad [Rainist]MongoDB in Banksalad [Rainist]
MongoDB in Banksalad [Rainist]
 
마인즈랩 회사소개서 V1.5
마인즈랩 회사소개서 V1.5마인즈랩 회사소개서 V1.5
마인즈랩 회사소개서 V1.5
 
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
 
BS501 발표자료
BS501 발표자료BS501 발표자료
BS501 발표자료
 
마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030
 
The platform 2011
The platform 2011The platform 2011
The platform 2011
 
Ep msession3
Ep msession3Ep msession3
Ep msession3
 
『풀스택 개발자를 위한 MEAN 스택 입문』 - 미리보기
『풀스택 개발자를 위한 MEAN 스택 입문』 - 미리보기『풀스택 개발자를 위한 MEAN 스택 입문』 - 미리보기
『풀스택 개발자를 위한 MEAN 스택 입문』 - 미리보기
 
응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈
 
프로젝트관리­ 3회
프로젝트관리­ 3회프로젝트관리­ 3회
프로젝트관리­ 3회
 
EMOCON 2015 - 품질과 테스트는 다르다
EMOCON 2015 - 품질과 테스트는 다르다EMOCON 2015 - 품질과 테스트는 다르다
EMOCON 2015 - 품질과 테스트는 다르다
 

Mehr von 찬희 이

Mehr von 찬희 이 (10)

의존 구조 분석기, Dependency parser
의존 구조 분석기, Dependency parser의존 구조 분석기, Dependency parser
의존 구조 분석기, Dependency parser
 
mecab-ko-dic 사용자 사전
mecab-ko-dic 사용자 사전mecab-ko-dic 사용자 사전
mecab-ko-dic 사용자 사전
 
PySpark 배우기 Ch 06. ML 패키지 소개하기
PySpark 배우기 Ch 06. ML 패키지 소개하기PySpark 배우기 Ch 06. ML 패키지 소개하기
PySpark 배우기 Ch 06. ML 패키지 소개하기
 
파이썬을 활용한 금융 분석 Ch 14. The FXCM Trading Platform
파이썬을 활용한 금융 분석 Ch 14. The FXCM Trading Platform파이썬을 활용한 금융 분석 Ch 14. The FXCM Trading Platform
파이썬을 활용한 금융 분석 Ch 14. The FXCM Trading Platform
 
파이썬을 활용한 금융 분석 Ch 9. Input Output Operation
파이썬을 활용한 금융 분석 Ch 9. Input Output Operation파이썬을 활용한 금융 분석 Ch 9. Input Output Operation
파이썬을 활용한 금융 분석 Ch 9. Input Output Operation
 
은닉 마르코프 모델, Hidden Markov Model(HMM)
은닉 마르코프 모델, Hidden Markov Model(HMM)은닉 마르코프 모델, Hidden Markov Model(HMM)
은닉 마르코프 모델, Hidden Markov Model(HMM)
 
단어 의미 중의성 해소, Word Sense Disambiguation(WSD)
단어 의미 중의성 해소, Word Sense Disambiguation(WSD)단어 의미 중의성 해소, Word Sense Disambiguation(WSD)
단어 의미 중의성 해소, Word Sense Disambiguation(WSD)
 
Dependency Parser, 의존 구조 분석기
Dependency Parser, 의존 구조 분석기Dependency Parser, 의존 구조 분석기
Dependency Parser, 의존 구조 분석기
 
Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거
 
프로젝트용 PC 환경구성 이찬희
프로젝트용 PC 환경구성   이찬희프로젝트용 PC 환경구성   이찬희
프로젝트용 PC 환경구성 이찬희
 

Word2Vec 개요 및 활용

  • 1. Word2Vec - SMD 분석서비스에 기반하여 이찬희 2016. 12. 16
  • 2. 1위: 엄마. 아빠 2위: 국가지도자. 전략가 3위: 기업 CEO 4위: 교사 5위: 상담원 ☞ 사람 고유의 표현수단이 중요하게 사용되는 직업
  • 4. 사람의 표현수단을 데이터화 시키려는 노력에는 어떤 것이 있을까?
  • 5. 컴퓨터가 어떻게 언어를 인식할 수 있을까? 표정, 음성 -> 감정이 담긴 표정들과 비교 동작 -> 하드웨어의 인식 언어 -> *벡터공간과 개별 벡터*
  • 6. *Word Embedding* 단어를 표현하는데 드는 벡터공간보다 보다 저차원의 벡터공간으로 표현하는 방법을 총칭
  • 7. Word Embedding의 구현방법 Co-occurrence matrix Probabilistic model Neural networks Word Embedding의 구현방법 Co-occurrence matrix Probabilistic model Neural networks ☞ Word2Vec
  • 8. Word Embedding 구현 알고리즘에 사용되는 기본 가정 Distributional Hypothesis 유사한 분포를 가지는 단어는 유사한 의미를 가진다
  • 9. Word2Vec • Google의 Tomas Mikolov가 이끄는 연구팀이 개발 • Neural Network 기반 Machine Learning 분석모델 • 단어의 등장 분포를 통해 단어의 의미를 벡터로 변환 • 모델을 생성하는 두 가지 알고리즘을 사용할 수 있음 • CBOW, Skip-gram
  • 10. Word2Vec이 제시한 두 가지 알고리즘 : CBOW(Continuous Bag-of-Words) vs. Skip-gram < Skip-gram >< CBOW > 多 1 1 多
  • 11. Word2Vec이 제시한 두 가지 알고리즘 - 예제 : CBOW(Continuous Bag-of-Words) vs. Skip-gram < CBOW > • 주변 단어를 통해 중간에 어떤 단어가 나올지 확 률적 유추를 하는 알고리즘 < Skip-gram > • 한 단어의 주변에 어떤 단어들이 나올지 확률적 유추를 하는 알고리즘
  • 12. Word2Vec이 제시한 두 가지 알고리즘 - 성능평가 : CBOW(Continuous Bag-of-Words) vs. Skip-gram 다른 Neural Network 기반 Word Embedding 알고리즘 다른 알고리즘에 비해 Word2Vec 알고리즘들의 성능이 좋았고 Word2Vec의 두 알고리즘 내에서 는 Skip-gram 알고리즘이 문법적, 의미적 면에서 성능이 더 좋았음
  • 13. Source Data : Buzzword Data in SMD(Social Media Data) Analysis Service 수집기 형태소분석 감성분석 Buzzword Sentimental Score Buzzword Summary Sentimental Summary 언론사 SNS 뉴스 증권 커뮤니티
  • 14.
  • 15. Source Data : Buzzword in SMD(Social Media Data) Analysis Service 수집기 형태소분석 감성분석 Buzzword Sentimental Score Buzzword Summary Sentimental Summary 언론사 SNS 뉴스 증권 커뮤니티 삼성전자, 2015년 4분기 실적발표 … 4분기는 CE부문을 중심으 로 매출은 다소 증가했지만, …, 부품사업을 중심으로 영업 이익이 감소했다. 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영업이익, 이, 감소하다 + <과 거형> 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영 업이익, 이, 감소하다 + <과거 형> 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영업이익, 이, 감소하다 + <과 거형> 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영업이익, 이, 감소하다 + <과 거형> Buzzword WordCount 2015년 1 4분기 2 실적발표 1 … 매출 부품사업 1 영업이익 1 Pattern Sent Score CE부문 + 매출 + 증가하다 +1 부품사업 + 영업이익 + 감소하다 -1 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영 업이익, 이, 감소하다 + <과거 형> 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영업이익, 이, 감소하다 + <과 거형> ※ 이 데이터를 사용
  • 16. Word2Vec 활용 • 활용한 기술 • 단어의 의미를 벡터로 변환: Word2Vec • 벡터의 클러스터링: K-means 알고리즘 • 사용한 Python 패키지 • 'gensim': 문서 내의 시맨틱을 추출하기 위한 다양한 기능을 제공하는 Python 라이브러리 • 'sklearn': K-means 알고리즘을 사용하기 위한 패키지 • 'tkinter': Python GUI 지원 패키지
  • 17. Word2Vec 활용과정 1. Buzzword의 등장 순서 원복 2. Word2Vec 모델 구축 3. 클러스터링 알고리즘 적용 4. UI 붙이기
  • 18. 결과 1. 관련어 검색 • 주어진 단어에 대한 관련단어 검색기능 • 여러 단어를 제공할 수록 사용자가 원하는 결과를 제공할 확률이 높아짐 • 단순히 같은 의미를 가지는 단어만 제공하는 것보다 반의어를 함께 제공할 때 성능이 더 좋음
  • 19. 결과 1. 관련어 검색 - 단어 필터링 기존 상위 버즈워드 주제에 따른 필터링 목록 생성 필터링 이후의 버즈워드 시점 관련 단어집합 문서 특성상 고정적으로 들어가는 단어집합 일반적으로 들어가는 명사집합
  • 20. 결과 2. 단어 클러스터링 • 벡터화된 단어를 클러스터링 • 클러스터링 알고리즘에 따라 결과가 달라짐 • 많은 단어들을 소수의 클러스터화를 통해 개별 의미가 아닌 Context를 찾 아낼 수 있음 : 즉, 사용자의 이해에 도움
  • 21. 결과 2. 단어 클러스터링 - 버즈워드 클러스터링 12/14 13:00 전체시장 버즈워드 TOP 50 너무 많은 단어들이 등장하기 때문에, 단어집합이 뜻하는 의미를 사용자가 직관적으로 이해하기 쉽지 않음
  • 22. 결과 2. 단어 클러스터링 - 버즈워드 클러스터링 많은 단어를 의미별로 묶어 소수의 클러스터로 보여줌으로써, 사용자의 이해에 보다 도움을 줄 수 있음

Hinweis der Redaktion

  1. http://blog.naver.com/wnchany/220672207131
  2. 사실 사람을 비롯한 살아있는 것들이 할 수 있는 것들을 데이터, 컴퓨터가 인식할 수 있게 바꾸는 노력들이 활발히 이루어지고 있다 각 섹션에 기술의 이름을 적을 것