SlideShare ist ein Scribd-Unternehmen logo
1 von 37
Dynamic Word Cloud
Reflecting Flow of Time
Using Word2Vec
4팀 : 장민욱, 장하진, 김범수
목차
• 1부 : Word2Vec Reproduce
• Hierarchical softmax
• Negative Sampling
• SubSampling
• 2부 : Dynamic Word Cloud reflecting Flow of Time
• What is Dynamic Word Cloud?
• How to Collect Big Data?
팀원 소개
• 장민욱 : 데이터 수집, 응용 아이디어 제시 및 구체화, 기획 담당
• 김범수 : Word2Vec 구현 담당
• 장하진 : 데이터 시각화, 다이나믹스 담당
Implementing word2vec
• CBOW, Skip gram
• Hierarchical softmax, Negative sampling, Subsampling
CBOW, Skip gram
CBOW Skipgram
CBOW
• Hidden layer는
• Error propagation시 1번의 output->hidden,
1번의 hidden->input weight update가 일어난다.
Skip gram
• Hidden layer는 propagation layer
즉 activation function이 없다.
• Error propagation시 C번의 output->hidden,
1번의 hidden->input weight update가 일어난다.
Hierarchical softmax
• 일일이 weight를 업데이트 하는 대신에 Huffman tree를 사용한다.
Hierarchical softmax
• 연산은 root node로부터 단어노드까지만 이루어지므로 O(V) ->
O(lnV)로 연산량이 줄어든다.
Negative sampling
• 1개의 Positive sample과 n개의 negative sample에 대해서만 weight
update
• 어떤기준으로 negative sample을 선정할것인가?
Negative sampling
• Unigram distribution
• 많이 등장할수록, negative sample로 선택될 확률이 높다.
Negative sampling
Negative sampling
• P(wi)에 따라서 unigram table을 단어들로 채운다.
Negative sampling
• Negative sample을 뽑을때 table에서 랜덤으로 뽑는다.
Subsampling
• 많이 등장한 단어는 너무 많이 학습되어 정확도를 해칠 수 있다
• z(wi) 는 corpus내에서 wi가 등장하는 비율
• P(wi) 는 wi를 subsampling 하지않고 keep할 비율
Subsampling
Subsampling
• ran에 P(wi)를 계산한다.
• next_random에 0~1사이의 값을 랜덤으로 저장
• ran < next_random 일 경우 subsample
구현 결과
Developing issues
• Window size를 dynamic하게 설정하는 technique은 사용x
• Multithread환경에서 weight(공유 자원)에대한 컨트롤이 없다.
Advanced error propagation
• Resilent back propagation – one of the fastest error propagation
algorithm.
• Partial deravative of error 이 양수 일때
• new weight = old weight * 0.5
• else
• new weight = old weight * 1.2
Reference
• https://arxiv.org/pdf/1411.2738.pdf
• http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-
gram-model/
• http://mccormickml.com/2017/01/11/word2vec-tutorial-part-2-
negative-sampling/
Dynamic Word Cloud
Reflecting Flow of Time
Using Word2Vec
What is Word Cloud?
A word cloud is a graphical representation of word frequency
What is Dynamic?
• 목표 : 키워드과 시간축에 따른 동적 Word Cloud 시각화
• 키워드 -> 시간의 흐름에 따른 데이터 시각화(Word Cloud)
• 키워드 데이터라는 가치가 살아있는 생물처럼
• 시간 순서에 따라 단어의 크기와 색이 변화
• Ex) 성장하는 키워드는 빨간 색, 줄어드는 키워드는 파란 색
Why and where to use?
• 시간에 따른 트렌드 변화상 분석
• Ex) CNN – 트럼프가 어느 시점을 중심으로 주목받기 시작하였는가?
• 한 주제의 시간에 따른 연관 단어의 변화상 분석
• Ex) Wikipedia – USB와 ThunderBolt는 언제부터 연관되어 언급되기 시작하
였나?
• 과거를 통한 미래의 변화상 예측
Visualization
• 키워드과 시간 지정 후
Word Cloud 출력
• 크기 = 중요도
• 색 = 시간에 따른 변화량
Visualization
• 시간축의 조절에 따른
Word Cloud 변화 나타냄
• 웹 인터페이스와
Javascript API (Ex d3.js)
등을 활용하여 구현
How to generate Word Cloud
• 1. 데이터 수집 후 월 단위로 학습
• 2. 유저가 Keyword 입력
• 3. 시간대에 따라 동적으로 변화하는 Word Cloud 출력
How many?
• 데이터를 얼마나 모을 것인가?
• 정보 검색 시간에 다루었던 55만 건의 문서들
• 목표는 억 단위 Web Pages
How to collect Big Data?
• 1번째 제안 : Selinium과 beautifulSoup을 이용한 CNN URL Crawling
- 기사 페이지에는 다른 기사 링크들이 있다.
- 동적으로 URL을 수집하며 분석하는 프로그램을 장시간 돌린다.
- CNN만으로 될까? 태그가 뉴스마다 다르다. 도움이 필요하다.
How to collect Big Data?
• 2번째 제안 : Dump 파일을 제공하는 DataSet을 사용하자.
- 대표적으로 Wiki는 한 달에 두 번 dump를 만들고 xml 형식으로 배포한다.
- Dump 파일로 시간대별 학습할 경우, 방향성이 달라진다.
- 이것 또한 빅 데이터일까?
How to collect Big Data?
• 3번째 제안 : Google Search Engine API를 이용
- 기간 검색을 사용하여 나오는 본문을 크롤링한다.
- 원하는 기간을 선택할 수 있고 본문을 자동 추출한다.
- 원하는 양과 기간을 선택할 수 있다는 점에서 긍정적
How to collect Big Data?
• 4번째 제안 : 공개된 DataSet을 이용
- Carnegie Mellon University에서 제공하는 clueweb09의 경우 09년도 1월-2
월 사이의 십억 web page를 제공
- 이처럼 공개된 데이터셋을 사용하는 방법이 있으나 기간이 제한된다.
How to collect Big Data?
• 현재 상황
• Google Search Engine API를 이용하는 3안을 재고
• 4안의 경우 범위와 활용성을 줄이게 될 것
Which data for where?
• 시간에 따른 트렌드 변화상 분석
• 일회성인 콘텐츠가 필요하다.
• Ex) Crawling한 뉴스 기사
• Ex) Google Search API
• 한 주제의 시간에 따른 연관 단어의 변화상 분석
• 시간에 따라 누적되는 데이터가 필요하다.
• Ex) Wikipedia Dump
Q&A
감사합니다

Weitere ähnliche Inhalte

Ähnlich wie Dynamic Word Cloud Using Word2Vec - 1st Presentation

Dynamic Word Cloud Using Word2Vec - Final Presentation
Dynamic Word Cloud Using Word2Vec - Final PresentationDynamic Word Cloud Using Word2Vec - Final Presentation
Dynamic Word Cloud Using Word2Vec - Final PresentationMinwook Chang
 
Private PaaS with Docker, spring cloud and mesos
Private PaaS with Docker, spring cloud and mesos Private PaaS with Docker, spring cloud and mesos
Private PaaS with Docker, spring cloud and mesos uEngine Solutions
 
Scalable web architecture and distributed systems
Scalable web architecture and distributed systemsScalable web architecture and distributed systems
Scalable web architecture and distributed systemseva
 
Scalable web architecture and distributed systems
Scalable web architecture and distributed systemsScalable web architecture and distributed systems
Scalable web architecture and distributed systems현종 김
 
Twitter의 대규모 시스템 운용 기술 어느 고래의 배속에서
Twitter의 대규모 시스템 운용 기술 어느 고래의 배속에서Twitter의 대규모 시스템 운용 기술 어느 고래의 배속에서
Twitter의 대규모 시스템 운용 기술 어느 고래의 배속에서흥배 최
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data OverviewKeeyong Han
 
Image Deep Learning 실무적용
Image Deep Learning 실무적용Image Deep Learning 실무적용
Image Deep Learning 실무적용Youngjae Kim
 
Posco ai challenge with RSCNN
Posco ai challenge with RSCNNPosco ai challenge with RSCNN
Posco ai challenge with RSCNN용우 조
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning Systemhoondong kim
 
클라우드 이야기1 2 20160823-신인철_slideshare
클라우드 이야기1 2 20160823-신인철_slideshare클라우드 이야기1 2 20160823-신인철_slideshare
클라우드 이야기1 2 20160823-신인철_slideshareIn Chul Shin
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)Channy Yun
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Channy Yun
 
Dropbox와 같은 시스템은 파일을 어떻게 저장할까?
Dropbox와 같은 시스템은 파일을 어떻게 저장할까?Dropbox와 같은 시스템은 파일을 어떻게 저장할까?
Dropbox와 같은 시스템은 파일을 어떻게 저장할까?nexusz99
 
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20Amazon Web Services Korea
 
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & SparkDeep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Sparkhoondong kim
 
파이썬을 활용한 웹 크롤링
파이썬을 활용한 웹 크롤링파이썬을 활용한 웹 크롤링
파이썬을 활용한 웹 크롤링HWANGTAEYONG
 
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
CUBRIDInside_5th_CUBRID_Migration Process_DHLeeCUBRIDInside_5th_CUBRID_Migration Process_DHLee
CUBRIDInside_5th_CUBRID_Migration Process_DHLeeLaura Oh
 
Cubrid Inside 5th Session 3 Migration
Cubrid Inside 5th Session 3 MigrationCubrid Inside 5th Session 3 Migration
Cubrid Inside 5th Session 3 MigrationCUBRID
 
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)hkh
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Channy Yun
 

Ähnlich wie Dynamic Word Cloud Using Word2Vec - 1st Presentation (20)

Dynamic Word Cloud Using Word2Vec - Final Presentation
Dynamic Word Cloud Using Word2Vec - Final PresentationDynamic Word Cloud Using Word2Vec - Final Presentation
Dynamic Word Cloud Using Word2Vec - Final Presentation
 
Private PaaS with Docker, spring cloud and mesos
Private PaaS with Docker, spring cloud and mesos Private PaaS with Docker, spring cloud and mesos
Private PaaS with Docker, spring cloud and mesos
 
Scalable web architecture and distributed systems
Scalable web architecture and distributed systemsScalable web architecture and distributed systems
Scalable web architecture and distributed systems
 
Scalable web architecture and distributed systems
Scalable web architecture and distributed systemsScalable web architecture and distributed systems
Scalable web architecture and distributed systems
 
Twitter의 대규모 시스템 운용 기술 어느 고래의 배속에서
Twitter의 대규모 시스템 운용 기술 어느 고래의 배속에서Twitter의 대규모 시스템 운용 기술 어느 고래의 배속에서
Twitter의 대규모 시스템 운용 기술 어느 고래의 배속에서
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data Overview
 
Image Deep Learning 실무적용
Image Deep Learning 실무적용Image Deep Learning 실무적용
Image Deep Learning 실무적용
 
Posco ai challenge with RSCNN
Posco ai challenge with RSCNNPosco ai challenge with RSCNN
Posco ai challenge with RSCNN
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System
 
클라우드 이야기1 2 20160823-신인철_slideshare
클라우드 이야기1 2 20160823-신인철_slideshare클라우드 이야기1 2 20160823-신인철_slideshare
클라우드 이야기1 2 20160823-신인철_slideshare
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
 
Dropbox와 같은 시스템은 파일을 어떻게 저장할까?
Dropbox와 같은 시스템은 파일을 어떻게 저장할까?Dropbox와 같은 시스템은 파일을 어떻게 저장할까?
Dropbox와 같은 시스템은 파일을 어떻게 저장할까?
 
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20
 
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & SparkDeep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
 
파이썬을 활용한 웹 크롤링
파이썬을 활용한 웹 크롤링파이썬을 활용한 웹 크롤링
파이썬을 활용한 웹 크롤링
 
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
CUBRIDInside_5th_CUBRID_Migration Process_DHLeeCUBRIDInside_5th_CUBRID_Migration Process_DHLee
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
 
Cubrid Inside 5th Session 3 Migration
Cubrid Inside 5th Session 3 MigrationCubrid Inside 5th Session 3 Migration
Cubrid Inside 5th Session 3 Migration
 
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
 

Kürzlich hochgeladen

실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석JMP Korea
 
JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP Korea
 
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP Korea
 
데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법JMP Korea
 
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?Jay Park
 
JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP Korea
 
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP Korea
 
공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화JMP Korea
 

Kürzlich hochgeladen (8)

실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
 
JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!
 
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
 
데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법
 
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
 
JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례
 
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
 
공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화
 

Dynamic Word Cloud Using Word2Vec - 1st Presentation

  • 1. Dynamic Word Cloud Reflecting Flow of Time Using Word2Vec 4팀 : 장민욱, 장하진, 김범수
  • 2. 목차 • 1부 : Word2Vec Reproduce • Hierarchical softmax • Negative Sampling • SubSampling • 2부 : Dynamic Word Cloud reflecting Flow of Time • What is Dynamic Word Cloud? • How to Collect Big Data?
  • 3. 팀원 소개 • 장민욱 : 데이터 수집, 응용 아이디어 제시 및 구체화, 기획 담당 • 김범수 : Word2Vec 구현 담당 • 장하진 : 데이터 시각화, 다이나믹스 담당
  • 4. Implementing word2vec • CBOW, Skip gram • Hierarchical softmax, Negative sampling, Subsampling
  • 6. CBOW • Hidden layer는 • Error propagation시 1번의 output->hidden, 1번의 hidden->input weight update가 일어난다.
  • 7. Skip gram • Hidden layer는 propagation layer 즉 activation function이 없다. • Error propagation시 C번의 output->hidden, 1번의 hidden->input weight update가 일어난다.
  • 8. Hierarchical softmax • 일일이 weight를 업데이트 하는 대신에 Huffman tree를 사용한다.
  • 9. Hierarchical softmax • 연산은 root node로부터 단어노드까지만 이루어지므로 O(V) -> O(lnV)로 연산량이 줄어든다.
  • 10. Negative sampling • 1개의 Positive sample과 n개의 negative sample에 대해서만 weight update • 어떤기준으로 negative sample을 선정할것인가?
  • 11. Negative sampling • Unigram distribution • 많이 등장할수록, negative sample로 선택될 확률이 높다.
  • 13. Negative sampling • P(wi)에 따라서 unigram table을 단어들로 채운다.
  • 14. Negative sampling • Negative sample을 뽑을때 table에서 랜덤으로 뽑는다.
  • 15. Subsampling • 많이 등장한 단어는 너무 많이 학습되어 정확도를 해칠 수 있다 • z(wi) 는 corpus내에서 wi가 등장하는 비율 • P(wi) 는 wi를 subsampling 하지않고 keep할 비율
  • 17. Subsampling • ran에 P(wi)를 계산한다. • next_random에 0~1사이의 값을 랜덤으로 저장 • ran < next_random 일 경우 subsample
  • 19. Developing issues • Window size를 dynamic하게 설정하는 technique은 사용x • Multithread환경에서 weight(공유 자원)에대한 컨트롤이 없다.
  • 20. Advanced error propagation • Resilent back propagation – one of the fastest error propagation algorithm. • Partial deravative of error 이 양수 일때 • new weight = old weight * 0.5 • else • new weight = old weight * 1.2
  • 22. Dynamic Word Cloud Reflecting Flow of Time Using Word2Vec
  • 23. What is Word Cloud? A word cloud is a graphical representation of word frequency
  • 24. What is Dynamic? • 목표 : 키워드과 시간축에 따른 동적 Word Cloud 시각화 • 키워드 -> 시간의 흐름에 따른 데이터 시각화(Word Cloud) • 키워드 데이터라는 가치가 살아있는 생물처럼 • 시간 순서에 따라 단어의 크기와 색이 변화 • Ex) 성장하는 키워드는 빨간 색, 줄어드는 키워드는 파란 색
  • 25. Why and where to use? • 시간에 따른 트렌드 변화상 분석 • Ex) CNN – 트럼프가 어느 시점을 중심으로 주목받기 시작하였는가? • 한 주제의 시간에 따른 연관 단어의 변화상 분석 • Ex) Wikipedia – USB와 ThunderBolt는 언제부터 연관되어 언급되기 시작하 였나? • 과거를 통한 미래의 변화상 예측
  • 26. Visualization • 키워드과 시간 지정 후 Word Cloud 출력 • 크기 = 중요도 • 색 = 시간에 따른 변화량
  • 27. Visualization • 시간축의 조절에 따른 Word Cloud 변화 나타냄 • 웹 인터페이스와 Javascript API (Ex d3.js) 등을 활용하여 구현
  • 28. How to generate Word Cloud • 1. 데이터 수집 후 월 단위로 학습 • 2. 유저가 Keyword 입력 • 3. 시간대에 따라 동적으로 변화하는 Word Cloud 출력
  • 29. How many? • 데이터를 얼마나 모을 것인가? • 정보 검색 시간에 다루었던 55만 건의 문서들 • 목표는 억 단위 Web Pages
  • 30. How to collect Big Data? • 1번째 제안 : Selinium과 beautifulSoup을 이용한 CNN URL Crawling - 기사 페이지에는 다른 기사 링크들이 있다. - 동적으로 URL을 수집하며 분석하는 프로그램을 장시간 돌린다. - CNN만으로 될까? 태그가 뉴스마다 다르다. 도움이 필요하다.
  • 31. How to collect Big Data? • 2번째 제안 : Dump 파일을 제공하는 DataSet을 사용하자. - 대표적으로 Wiki는 한 달에 두 번 dump를 만들고 xml 형식으로 배포한다. - Dump 파일로 시간대별 학습할 경우, 방향성이 달라진다. - 이것 또한 빅 데이터일까?
  • 32. How to collect Big Data? • 3번째 제안 : Google Search Engine API를 이용 - 기간 검색을 사용하여 나오는 본문을 크롤링한다. - 원하는 기간을 선택할 수 있고 본문을 자동 추출한다. - 원하는 양과 기간을 선택할 수 있다는 점에서 긍정적
  • 33. How to collect Big Data? • 4번째 제안 : 공개된 DataSet을 이용 - Carnegie Mellon University에서 제공하는 clueweb09의 경우 09년도 1월-2 월 사이의 십억 web page를 제공 - 이처럼 공개된 데이터셋을 사용하는 방법이 있으나 기간이 제한된다.
  • 34. How to collect Big Data? • 현재 상황 • Google Search Engine API를 이용하는 3안을 재고 • 4안의 경우 범위와 활용성을 줄이게 될 것
  • 35. Which data for where? • 시간에 따른 트렌드 변화상 분석 • 일회성인 콘텐츠가 필요하다. • Ex) Crawling한 뉴스 기사 • Ex) Google Search API • 한 주제의 시간에 따른 연관 단어의 변화상 분석 • 시간에 따라 누적되는 데이터가 필요하다. • Ex) Wikipedia Dump
  • 36. Q&A

Hinweis der Redaktion

  1. F(wi)^3/4 를 쓴이유는 empirical