SlideShare a Scribd company logo
1 of 78
Download to read offline
News Big Data Analytics
Methodology
박대민
한국언론진흥재단 미디어연구센터
선임연구위원
1
뉴스 빅데이터 개념
빅카인즈 데이터
목차
분석절차
뉴스 빅데이터 분석 방법론
뉴스 의미연결망 분석
뉴스 의미연결망 분석 유형
2
뉴스 빅데이터 개념
3
VS
Data Journalism vs. News Big Data
4
빅데이터=무구정광대다라니경?
5
https://namu.wiki/w/무구정광대다라니경
=
빅데이터는 살아있다
6
http://www.imdb.com/title/tt0477347/mediaindex?ref_=tt_pv_mi_sm
Dynamic
7
Data Driven
8
http://www.agencypja.com/blog/the-rise-of-the-marketing-machines-controlling-the-data-driven-future/
Quantization
9
Centrality
A) Betweenness centrality, B) Closeness centrality, C) Eigenvector centrality, D) Degree centrality, E) Harmonic centrality and F) Katz
centrality of the same graph.
10
https://en.wikipedia.org/wiki/Centrality
Small, Scale Free, Fat-tailed
11
γ<0: Poisson distribution
0<γ<2: fat tailed
2<γ<3: scale free, ultra small world
3<γ: scale free & small world
news source network: γ≃1.6
Burst
12
Barabasi, A. L. (2005). The origin of bursts and heavy tails in human dynamics. Nature, 435(7039), 207-211.
Three Degrees of Influence Rule
13
http://www.slideshare.net/jbradfo4/topic-4-social-networks
Opinion Dynamics
14
Castellano, C., Fortunato, S., & Loreto, V. (2009). Statistical physics of social dynamics. Reviews of modern physics, 81(2), 591.
Visibility & Value
15
http://www.slideshare.net/AndersQuitzauIbm/big-data-analyticsin-energy-utilities
분석 절차
16
- 형태소분석, NER
- 구문분석, 의미분석
- data cleansing
- 프로그램 기획 개발
- Visualization
- 정보원 분석
- 인용문 분석
- 담론분석
- 구조 파악
- Transpose, Diagonal,
Dichotomize
- centrality
01
02
03
04
Crawling NLP, Data cleansing
Semantic Network
Analysis
Discourse Analysis
17
- 데이터 모델링
- 수작업, Crawler, 계약
- 자료는 충분히 많아야
함
Procedure of News Big Data Analytics
빅카인즈
Data Modeling
18
Meta data
NLP data
Network data
결점(node)
개체명: PLOT(인명, 장소, 기관명, 특수용어), 직함, 직업명, 상품명 등, 주제
결점이 너무 많으면 하위유목으로 분석, 너무 적으면 상위유목으로 종합
1 mode/2 mode/N-mode
연결선(edge)
관련도(relevance): 공동출현(기사, 문장, 속성), 유사도
완전연결망이 과도하게 나타나면 관련도를 보다 엄격하게 정의
절대적 연결정도 중앙성 (degree centrality)
- CD(v)=deg(v), 공동인용된 정보원/기관 수, 또는 함께 거론된 주제 수,
- 논쟁성, 의제중심성
결점
연결선
순위화
19
Data Modeling
20
Data Modeling
NLP Data
21
Edge list
22
Semantic Network Data
Linked list Matrix
Semantic Network Data
박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261.
23
Visualization
Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the network fundamentals of the news sources associated with a specific topic.
Information Sciences..
39 Barack Obama
22 Jay Carney
15 Ban Kimoon
13 John Kerry
12 Victoria Nuland
10 Kim Hyunwook
10 Susan Rice
24
RANKING
25
빅카인즈 데이터
26
27
빅카인즈 프로(http://tools.kinds.or.kr/adam/login.do)
시스템 기획안
박대민 등(2015). <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단.
28
뉴스 NLP
토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화
문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어 한글 표
기), 개체명 인식
대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인, 이명동인)
분류, 군집, 중복, 요약, 가중치, 순위화, 토픽 모델링, 이슈 트래킹, 평판분석, 감성분
석, 복합논증분석,
형태소분석
구문분석
의미분석
담론분석
박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.
29
LEA(Language Engineering & Analysis)
모든 형태소(44개) 지원, F1 기준 98%
SSVM
주요 개체명: PS(F1 기준 85.51%), LC(93.82%), OG(88.96%), OC(82.62%)
SSVM
graph based dependency parsing
데이터 수집 → 주관성 탐지 → 극성 탐지
document/sentence/feature level
- document/sentence level: dictionary/corpus based
- feature level: LSSVM
형태소분석
개체명인식
구문분석
감성분석
솔트룩스(2015.3.). LEA 기술백서
30
빅카인즈 DB: Cassandra + RDB
31
솔트룩스(2015.8.). 테이블사양서(인프라)_V1.6
빅카인즈 데이터: article_news
32
article_news_01100101_20150101_20151231(1)
빅카인즈 데이터: reference_news
33
reference_news_경향신문_정치_20150101_20151231
NLP 성능: 개체명 인식
34
솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5
NLP 성능: 지면 분류
35
솔트룩스(2015.10.). 자동분류 정확도 평가결과_1008
NLP 성능: 인용구 추출
36
솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5
NLP 성능: 사건 사고 분류
37
솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5
NLP 성능: 감성인식
38
솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5
NLP 성능: Tag 추출
39
Berlocher, I., Lee, K. I., & Kim, K. (2008, July). TopicRank: bringing insight to users. In Proceedings of the 31st annual international ACM SIGIR conference on
Research and development in information retrieval (pp. 703-704). ACM. ISO 690
TopicRank Algorithm: a Word Clustering
based approach that automatically and
dynamically generates an interactive Tag
Cloud related to the user query where the
layout of presented keywords relies on a
semantic closeness metric.
The result of a survey of 100 users asking
for the usability, usefulness of the interface
and the quality of extracted words, reports
that more than 80% of them were very
satisfied.
뉴스 의미연결망 분석
40
Network Types: Nodes & Edges
41
Network
Social
Network
Semantic
Network
Actor
Network
Sensor
Network
Network Types: Modes
42
Network
1 mode
network
2 mode
network
N-mode
network
News Source Network
박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261.
21
1
2 3
1
4 5
2 3
1
4 5
43
- 같은 기사에 두 정보원이 직접인용문으로 함께 인용됐을 경우 이 정보원들 간에 서로 의미론적인 관계가 있는 것으로 보고 간접적으로 만드는
준연결망(quasi network)
- 기사공동출현에 의한 관계로 관계 방향이 양방향 내지 무방향인 연결망(undirected graph)
프로그램
44
프로그램 활용 절차
45
빅카인즈: 데이터 수집
뉴스젤리: 파일럿
-형태소분석
- 워드클라우드
넷마이너: 정보원연결망 matrix 변환
- file > import
- transform > 2 mode
- comembership-correlation-inner product
- transform > value > diagnal
- analyze > neighbor > degree
UCINET: 파일 포맷 변환
- data > data editor > DL editor
- data format > matirix > save
프로그램 활용 절차
46
NETDRAW: 정보원연결망 시각화
- file > open > ucinet dl text file > network
(1-mode)
- analysis > centrality measures > set node
sizes by: degree
- properties > nodes > label > size
- properties > lines > size > tie strength
- properties > lines > arrow heads > arrow
heads off, apply to all
- layout > graphic theoretic layout
NETDRAW: 중심어 연결망
- layout > ego network
- geodesic distance from ego: 1 or 2
Bursts in Topics & Media
연결정도(x축)에 따른 연결정도지수(y축)의 추이
박대민(2014). 뉴스 정보원 인용에서의 폭발성과 언론의 편향성. <커뮤니케이션 이론>, 10권 1호, 295-324.
연결정도(x축)에 따른 연결정도지수(y축)의 추이
47
Dimension Reduction
Nouns Net News Sources Net
48
mature
49
Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the network fundamentals of the news sources associated with a specific topic.
Information Sciences..
의미연결망 분석 모듈
50
Degree analyzer
Edge_list converter
Statistics & Rank
Media system fragmentation index
Degree exponent
Media uniqueness index
뉴스 의미연결망 분석 유형
51
News Semantic Networks
박대민 등(2015) <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단.
52
Word Cloud: 청년담론
형태소 단위의 단어클라우드 개념 단위의 단어클라우드
53
News Source Network: 4대강
한겨레동아
박대민(2015). 사실기사의 직접인용에 대한 이중의 타당성 문제의 검토: 동아일보와 한겨레신문의 4대강 추진 논란 기사에 대한 뉴스 정보원 연결망 및 인용문 분석. <한국언론학
보>, 59권 5호, 121-151.
54
Keyword-centric Network: 청년실업
박대민, 김선호(2015.9.). 청년실업 언론보도와 국민인식. <미디어이슈>, 1권 14호. 서울: 한국언론진흥재단.
55
Source-Topic Network: 망언
박대민(2015.8). 망언의 네트워크: 신문뉴스 빅데이터 분석으로 본 일본 망언보도 10년사. <미디어이슈>, 1권 12호. 서울: 한국언론진흥재단.
56
57
Organization-Topic Network: 청년담론
박대민, 김선호(2015.9.). 청년실업 언론보도와 국민인식. <미디어이슈>, 1권 14호. 서울: 한국언론진흥재단.
News Sentence Network: 분단
박대민(2016). 토론기계를 향하여: 유사도와 공동출현에 기초한 뉴스 문장 연결망 분석 알고리즘 제안. 한국HCI학회 학술대회. 하이원리조트 컨벤션센터, 정선.
58
검색어: ‘분단’
분석매체: 경향, 국민, 문화, 서울, 세계, 한겨레, 한국, 동아
분석기간: 2011년 1년치
인용문 수: 인용문 949개(중복 포함, 기사 405건)
main component
News Media Network: 4대강
Media Uniqueness = 1 – (Σ(Cosine Similarity-1)) / (number of media-1)
59
박대민(2015). News media network analysis: Comparing media systems mathematically by news sources. 사이버커뮤니케이션 가을철 정기학술대회. 서울대학교, 서울.
검색어: 4대강
매체: 국민, 경향, 동아, 문화, 서울, 세계, 한겨레, 한국(<KINDS> 수록 8대 중앙지)
분석기간: 2008.11.28.-12.31., 2009.6.2.-7.30., 2009.11.13.-12.31.
자연어처리: <뉴스소스 베타>
Time-series Content Analysis
박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.
60
Time-series Content Analysis
박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.
61
Synchronization & Fragmentation
62
Discourse Analysis (Governmentality Studies)
박대민(2014) <담론의 금융화: 서민주택담론을 통해 본 한국 금융통치성의 대두>. 서울대학교 사회과학대학원 박사학위논문.
63
Q & A
64
Appendix: Rule Based NLP
65
Word Sense Disambiguation
같은 날짜에 이명동인, 즉 이름 소속
직함이 같은 서로 다른 두 사람은 존
재할 수 없다.
다른 날짜에 인명이 다른 경우 이름을
바꾸는 드문 경우가 아닌 한 동일인이
아니기 때문에 이름이 다르면 근사적
으로 다른 인물이다.
인명은 같지만 기관과 직함이 다르면
서도 실제로 동일인일 경우에도 조작
적으로 다른 정보원으로 정의한다.
. 예) ‘홍길동 XX그룹 회장’과 ‘OO당
국회의원 홍길동’은 설사 동일 인물일
지라도 다른 소속이기 때문에 다른 출
입기자가 담당을 맡아 서로 다른 주제
로 인용하는 기능적으로 다른 정보원
이다.
인명, 기관, 직함이 같은 정보
원은 근사적으로 동일 인물로
볼 수 있다.
- 단기적으로 다른 매체 다른
기사에 등장했어도 동일인
- 장기적으로도 동명이인 드묾
동명동인, 동명이인 이명이인 이명동인
01
02
03
박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를
중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.
66
Similarity
기사/문장에 대해 전체 기
사에 출현하는 n개의 단어
(명사, 수치, 동사)로 이루
어진 n차원 벡터 공간을 가
정한 뒤 각 기사/문장를 해
당 단어가 출현하는지 여부
에 따라 값을 부여한 단어
벡터로 나타낸다.
비교 대상인 두 기사의 단
어벡터 간 각도를 θ라고 할
때, 이 각도에 대한 코사인
값을 계산하여 유사도를 계
산한다. 임계값을 정하여
이 값을 넘으면 유사한 것
으로, 그렇지 않으면 유사
하지 않은 것으로 판정한다.
비교 대상 기사 전체에 등
장하는 횟수(IDF)에 비해
특정 기사에 등장하는 빈도
(TF)가 높다면 그 단어는
다른 단어에 비해 그 문서
를 더 많이 대표하므로 더
높은 가중치를 부여 받는다.
전체 기사 각각에 어떤 주요
단어, 즉 색인어가 있는지를
나타내는 색인 작업과, 각 색
인어가 어느 기사에 있는지,
즉 역색인 작업을 함께 수행
한다.
01
02
03
04
Inverted Indexing VSM TD-IDF Cosine Similarity
박대민(2016). 뉴스 기사의 자연어처리:
<뉴스소스 베타>를 중심으로. <커뮤니케이션
이론>, 12권 1호, 4-52.
67
Classification & Clustering
15개 카인즈 지면 분류를
정치/경제/사회(종합)/문
화/국제로 사상
기계학습(단순 베이지안),
75% 정확도
단어 유사도에 따라 기사
군집화
개인 실명 정보원을 노드로
하고,
공기 여부에 따라 엣지를
부여한 뉴스 정보원 연결망
개체명 분류에 따른 문장 분
류
- 대분류: 인용문, 수치문,
기타문
- 인용문 다중 분류: 개인실
명/집단/익명
01
02
03
04
문장분류 기사분류 정보원연결망분석 기사 군집화
박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를
중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.
68
Ranking Algorithm
규칙
- 정보원 순위에 따른 문장 순위
- 같은 소속 분류 정보원은 순위
하락
뉴스 기사 연결망 분석
-공동 정보원을 중심으로 연결
망 그린 뒤 연결정도 중앙성 계산
(유사 문장 기준으로 수정 필요)
규칙과 NSNA
- 개인실명>집단>익명
- NSNA: 개인실명정보원
내에서는 연결정도 중앙성
에 따른 순위
정보원 순위화 문장 순위화 기사 순위화
01
02
03
박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.
69
Appendix: Why necessary?
70
News Media as Internet Corporations
71
The End of Paper Platforms
허브
언론사
독자 광고주
플랫폼
기능 흡수
콘텐츠 공급자 분화 콘텐츠
사업자
UGC
네이티브
광고
박대민, 양정애, 김선호(2014). <스마트 미디어 뉴스 생태계의 혁신 전략>. 서울: 한국언론진흥재단.
금준경(2016.4.26.). 네이버-매경 합작법인, 중앙·한겨레와는 공동사업. <미디어오늘>.
72
사용자의 생산, 유통 참여
취재
편집
유통
판매
광고
부가
사업
편집국
광고
사업국
CP
취재
플랫폼
판매
유통
광고
부가
사업
편집
독자 사용자
박대민, 양정애, 김선호(2014). <스마트 미디어 뉴스 생태계의 혁신 전략>. 서울: 한국언론진흥재단.
73
공적 소통 영역의 확장
공적 커뮤니케이션 영역
공적 커뮤니케이션 영역
언론사
독자
뉴스
블로그
SNS, 챗
언론사
독자
뉴스
사적
대화
사적
대화
과거 현재
74
언론사가 중시하는 뉴스
내가 선호하는 뉴스
친구가 선호하는 뉴스
대중이 선호하는 뉴스
뉴스 개념의 확장
75
Appendix: Future
76
뉴스 빅데이터 분석의 수직적 확장
77
박대민, 백영민, 김선호(2015). <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단.
뉴스 빅데이터 분석의 수평적 확장
78
텍스트
음성
동영상
다국어분석
자연어처리
음성인식
영상처리
딥러닝
보고서
논문
소설
가요
사진
영화
드라마
토론기계
신문
라디오
TV

More Related Content

What's hot

News Media Network Analysis: Comparing Media Systems Mathematically
News Media Network Analysis: Comparing Media Systems MathematicallyNews Media Network Analysis: Comparing Media Systems Mathematically
News Media Network Analysis: Comparing Media Systems Mathematically
Daemin Park
 
제1장 정보검색소개
제1장 정보검색소개제1장 정보검색소개
제1장 정보검색소개
Chang-yong Jung
 
13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구
Daemin Park
 
[정보검색론] 전문자료정보검색 준사서E 5조
[정보검색론] 전문자료정보검색 준사서E 5조[정보검색론] 전문자료정보검색 준사서E 5조
[정보검색론] 전문자료정보검색 준사서E 5조
SSePhi
 
온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법
온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

Sun-young Kim
 

What's hot (20)

News Media Network Analysis: Comparing Media Systems Mathematically
News Media Network Analysis: Comparing Media Systems MathematicallyNews Media Network Analysis: Comparing Media Systems Mathematically
News Media Network Analysis: Comparing Media Systems Mathematically
 
News Big Data Analytics
News Big Data AnalyticsNews Big Data Analytics
News Big Data Analytics
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
 
2016 경주지진 트위터 네트워크 분석
2016 경주지진 트위터 네트워크 분석2016 경주지진 트위터 네트워크 분석
2016 경주지진 트위터 네트워크 분석
 
Automated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network AnalyzerAutomated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network Analyzer
 
SNS 빅데이터 분석을 위한 연구문제와 통계
SNS 빅데이터 분석을 위한 연구문제와 통계SNS 빅데이터 분석을 위한 연구문제와 통계
SNS 빅데이터 분석을 위한 연구문제와 통계
 
텍스톰을 이용한 SNA 분석 -전채남
텍스톰을 이용한 SNA 분석 -전채남텍스톰을 이용한 SNA 분석 -전채남
텍스톰을 이용한 SNA 분석 -전채남
 
방송기자협회 - 데이터 저널리즘팀 본격 가동
방송기자협회 - 데이터 저널리즘팀 본격 가동방송기자협회 - 데이터 저널리즘팀 본격 가동
방송기자협회 - 데이터 저널리즘팀 본격 가동
 
뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1
 
데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석
데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석
데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석
 
2016년 촛불집회의 페이스북 댓글 데이터를 통해 본 하이브리드 미디어 현상
2016년 촛불집회의 페이스북 댓글 데이터를 통해 본 하이브리드 미디어 현상2016년 촛불집회의 페이스북 댓글 데이터를 통해 본 하이브리드 미디어 현상
2016년 촛불집회의 페이스북 댓글 데이터를 통해 본 하이브리드 미디어 현상
 
제1장 정보검색소개
제1장 정보검색소개제1장 정보검색소개
제1장 정보검색소개
 
Twitaddons mobilization(15mar2011)jy
Twitaddons mobilization(15mar2011)jyTwitaddons mobilization(15mar2011)jy
Twitaddons mobilization(15mar2011)jy
 
빅데이터와 저널리즘의 만남, 빅데이터 저널리즘
빅데이터와 저널리즘의 만남, 빅데이터 저널리즘빅데이터와 저널리즘의 만남, 빅데이터 저널리즘
빅데이터와 저널리즘의 만남, 빅데이터 저널리즘
 
13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구13주차 뉴스 빅데이터 기반 저널리즘 연구
13주차 뉴스 빅데이터 기반 저널리즘 연구
 
[정보검색론] 전문자료정보검색 준사서E 5조
[정보검색론] 전문자료정보검색 준사서E 5조[정보검색론] 전문자료정보검색 준사서E 5조
[정보검색론] 전문자료정보검색 준사서E 5조
 
온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법
온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

 
뉴스젤리 - 데이터 저널리즘 비즈니스 모델
뉴스젤리 - 데이터 저널리즘 비즈니스 모델뉴스젤리 - 데이터 저널리즘 비즈니스 모델
뉴스젤리 - 데이터 저널리즘 비즈니스 모델
 
방송기자협회 - 데이터 저널리즘과 발로 뛴 리포팅의 환상적 결합
방송기자협회 - 데이터 저널리즘과  발로 뛴 리포팅의 환상적 결합방송기자협회 - 데이터 저널리즘과  발로 뛴 리포팅의 환상적 결합
방송기자협회 - 데이터 저널리즘과 발로 뛴 리포팅의 환상적 결합
 
[LLG_Module 1] 데이터 저널리즘
[LLG_Module 1] 데이터 저널리즘[LLG_Module 1] 데이터 저널리즘
[LLG_Module 1] 데이터 저널리즘
 

Viewers also liked

alex sheppard security cv[1]
alex sheppard security cv[1]alex sheppard security cv[1]
alex sheppard security cv[1]
alexis sheppard
 
Curriculum Vitae Celest Hajek
Curriculum Vitae Celest HajekCurriculum Vitae Celest Hajek
Curriculum Vitae Celest Hajek
Celest Hajek
 
Resume_S M Mahmudul Huq
Resume_S M Mahmudul HuqResume_S M Mahmudul Huq
Resume_S M Mahmudul Huq
Mahmudul Huq
 
ShowUsYourQOPoNContestWrapUp
ShowUsYourQOPoNContestWrapUpShowUsYourQOPoNContestWrapUp
ShowUsYourQOPoNContestWrapUp
Luz Maria Ronse
 

Viewers also liked (18)

Toward a news data science
Toward a news data scienceToward a news data science
Toward a news data science
 
Debating Machine: Rule Based News Sentence Network Analysis
Debating Machine: Rule Based News Sentence Network AnalysisDebating Machine: Rule Based News Sentence Network Analysis
Debating Machine: Rule Based News Sentence Network Analysis
 
Natural language processing of news
Natural language processing of newsNatural language processing of news
Natural language processing of news
 
디지털 언론정보학 2차完(27 aug2013)
디지털 언론정보학 2차完(27 aug2013)디지털 언론정보학 2차完(27 aug2013)
디지털 언론정보학 2차完(27 aug2013)
 
[분석] 모바일 sns 사용자들의 감성 용어 사전 제작 및 공인대상 감성...
[분석] 모바일 sns 사용자들의 감성 용어 사전 제작 및 공인대상 감성...[분석] 모바일 sns 사용자들의 감성 용어 사전 제작 및 공인대상 감성...
[분석] 모바일 sns 사용자들의 감성 용어 사전 제작 및 공인대상 감성...
 
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용
 
빅 데이터 분석을 위한 AWS 활용 사례 - 최정욱 솔루션즈 아키텍트:: AWS Cloud Track 1 Intro
빅 데이터 분석을 위한 AWS 활용 사례 - 최정욱 솔루션즈 아키텍트:: AWS Cloud Track 1 Intro빅 데이터 분석을 위한 AWS 활용 사례 - 최정욱 솔루션즈 아키텍트:: AWS Cloud Track 1 Intro
빅 데이터 분석을 위한 AWS 활용 사례 - 최정욱 솔루션즈 아키텍트:: AWS Cloud Track 1 Intro
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
 
박사논문 본심사 PPT 예제
박사논문 본심사 PPT 예제박사논문 본심사 PPT 예제
박사논문 본심사 PPT 예제
 
금융 데이터 이해와 분석 PyCon 2014
금융 데이터 이해와 분석 PyCon 2014금융 데이터 이해와 분석 PyCon 2014
금융 데이터 이해와 분석 PyCon 2014
 
CS201- Introduction to Programming- Lecture 38
CS201- Introduction to Programming- Lecture 38CS201- Introduction to Programming- Lecture 38
CS201- Introduction to Programming- Lecture 38
 
Happy_Company_Adam_2015
Happy_Company_Adam_2015Happy_Company_Adam_2015
Happy_Company_Adam_2015
 
alex sheppard security cv[1]
alex sheppard security cv[1]alex sheppard security cv[1]
alex sheppard security cv[1]
 
Curriculum Vitae Celest Hajek
Curriculum Vitae Celest HajekCurriculum Vitae Celest Hajek
Curriculum Vitae Celest Hajek
 
Resume_S M Mahmudul Huq
Resume_S M Mahmudul HuqResume_S M Mahmudul Huq
Resume_S M Mahmudul Huq
 
LA GIMNASIA
LA GIMNASIALA GIMNASIA
LA GIMNASIA
 
ShowUsYourQOPoNContestWrapUp
ShowUsYourQOPoNContestWrapUpShowUsYourQOPoNContestWrapUp
ShowUsYourQOPoNContestWrapUp
 
Üretim Yönetim Sisteminde Temel Adımlar
Üretim Yönetim Sisteminde Temel AdımlarÜretim Yönetim Sisteminde Temel Adımlar
Üretim Yönetim Sisteminde Temel Adımlar
 

Similar to News Big Data Analytics with 'Big Kinds'

데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
Han Woo PARK
 
갈등과 네트워크 소통 전략 (29 july2010)sm
갈등과 네트워크 소통 전략 (29 july2010)sm갈등과 네트워크 소통 전략 (29 july2010)sm
갈등과 네트워크 소통 전략 (29 july2010)sm
Han Woo PARK
 
빅데이터전문가교육 2학기
빅데이터전문가교육 2학기빅데이터전문가교육 2학기
빅데이터전문가교육 2학기
Kangwook Lee
 
웹보메트릭스09 1
웹보메트릭스09 1웹보메트릭스09 1
웹보메트릭스09 1
Inho Cho
 
웹보메트릭스와 계량정보학09 1
웹보메트릭스와 계량정보학09 1웹보메트릭스와 계량정보학09 1
웹보메트릭스와 계량정보학09 1
Han Woo PARK
 
초연결사회의 인간관계와 조직관리 - 트리플헬릭스 접근법
초연결사회의 인간관계와 조직관리 - 트리플헬릭스 접근법초연결사회의 인간관계와 조직관리 - 트리플헬릭스 접근법
초연결사회의 인간관계와 조직관리 - 트리플헬릭스 접근법
Han Woo PARK
 
초연결사회 인간관계와 조직관리 범어도서관(2015년강의용)1 june2015
초연결사회 인간관계와 조직관리 범어도서관(2015년강의용)1 june2015초연결사회 인간관계와 조직관리 범어도서관(2015년강의용)1 june2015
초연결사회 인간관계와 조직관리 범어도서관(2015년강의용)1 june2015
Han Woo PARK
 
사회연결망 분석과 혁신연구 권기석
사회연결망 분석과 혁신연구 권기석사회연결망 분석과 혁신연구 권기석
사회연결망 분석과 혁신연구 권기석
Hanbat National Univerisity
 
효율적 언론 Pr 및 대외협상 역량 강화 방안
효율적 언론 Pr 및 대외협상 역량 강화 방안효율적 언론 Pr 및 대외협상 역량 강화 방안
효율적 언론 Pr 및 대외협상 역량 강화 방안
Han Woo PARK
 

Similar to News Big Data Analytics with 'Big Kinds' (20)

6주차 의미 연결망 분석 이론
6주차 의미 연결망 분석 이론6주차 의미 연결망 분석 이론
6주차 의미 연결망 분석 이론
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
 
코로나 이후, 반중정서는 과연 심화되었을까 - 강태영(언더스코어)
코로나 이후, 반중정서는 과연 심화되었을까 - 강태영(언더스코어)코로나 이후, 반중정서는 과연 심화되었을까 - 강태영(언더스코어)
코로나 이후, 반중정서는 과연 심화되었을까 - 강태영(언더스코어)
 
빅데이터
빅데이터빅데이터
빅데이터
 
응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈
 
[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)
 
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
 
갈등과 네트워크 소통 전략 (29 july2010)sm
갈등과 네트워크 소통 전략 (29 july2010)sm갈등과 네트워크 소통 전략 (29 july2010)sm
갈등과 네트워크 소통 전략 (29 july2010)sm
 
고려대 교육정보서비스 시스템 4-5주
고려대 교육정보서비스 시스템 4-5주 고려대 교육정보서비스 시스템 4-5주
고려대 교육정보서비스 시스템 4-5주
 
쇠고기수입반대에나타난정부 시민갈등메커니즘 및_네트워크소통전략(25_nov2010)final
쇠고기수입반대에나타난정부 시민갈등메커니즘 및_네트워크소통전략(25_nov2010)final쇠고기수입반대에나타난정부 시민갈등메커니즘 및_네트워크소통전략(25_nov2010)final
쇠고기수입반대에나타난정부 시민갈등메커니즘 및_네트워크소통전략(25_nov2010)final
 
빅데이터전문가교육 2학기
빅데이터전문가교육 2학기빅데이터전문가교육 2학기
빅데이터전문가교육 2학기
 
웹보메트릭스09 1
웹보메트릭스09 1웹보메트릭스09 1
웹보메트릭스09 1
 
웹보메트릭스와 계량정보학09 1
웹보메트릭스와 계량정보학09 1웹보메트릭스와 계량정보학09 1
웹보메트릭스와 계량정보학09 1
 
초연결사회의 인간관계와 조직관리 - 트리플헬릭스 접근법
초연결사회의 인간관계와 조직관리 - 트리플헬릭스 접근법초연결사회의 인간관계와 조직관리 - 트리플헬릭스 접근법
초연결사회의 인간관계와 조직관리 - 트리플헬릭스 접근법
 
초연결사회 인간관계와 조직관리 범어도서관(2015년강의용)1 june2015
초연결사회 인간관계와 조직관리 범어도서관(2015년강의용)1 june2015초연결사회 인간관계와 조직관리 범어도서관(2015년강의용)1 june2015
초연결사회 인간관계와 조직관리 범어도서관(2015년강의용)1 june2015
 
고대8 9주 빅데이터
고대8 9주 빅데이터고대8 9주 빅데이터
고대8 9주 빅데이터
 
사회연결망 분석과 혁신연구 권기석
사회연결망 분석과 혁신연구 권기석사회연결망 분석과 혁신연구 권기석
사회연결망 분석과 혁신연구 권기석
 
효율적 언론 Pr 및 대외협상 역량 강화 방안
효율적 언론 Pr 및 대외협상 역량 강화 방안효율적 언론 Pr 및 대외협상 역량 강화 방안
효율적 언론 Pr 및 대외협상 역량 강화 방안
 
검색의 미래와 새로운 역할
검색의 미래와 새로운 역할검색의 미래와 새로운 역할
검색의 미래와 새로운 역할
 

More from Daemin Park

박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석
Daemin Park
 

More from Daemin Park (20)

박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석박대민(2019) 미디어 스타트업 투자 연결망 분석
박대민(2019) 미디어 스타트업 투자 연결망 분석
 
8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain8 week: Technology of Platformless Media Blockchain
8 week: Technology of Platformless Media Blockchain
 
7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형7주차: 플랫폼리스 미디어 블록체인 모형
7주차: 플랫폼리스 미디어 블록체인 모형
 
Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)Steemit and Governance for Creators (2019-S: Media Blockchain)
Steemit and Governance for Creators (2019-S: Media Blockchain)
 
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
6 week: Cryptoeconomics over the mechanism design (2019-S: Media Blockchain)
 
4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인4주차: 플랫폼리스 미디어 블록체인
4주차: 플랫폼리스 미디어 블록체인
 
Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain) Platformless Mediablockchain (2019-S: Media Blockchain)
Platformless Mediablockchain (2019-S: Media Blockchain)
 
Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain) Media Innovation Ecosystem (2019-S: Media Blockchain)
Media Innovation Ecosystem (2019-S: Media Blockchain)
 
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)세션 3-2: 도시에도 OS가 필요하다 (홍주석)
세션 3-2: 도시에도 OS가 필요하다 (홍주석)
 
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
세션 3-3 로컬 크리에이터, 힙스터인가 혁신가인가 (김혁주)
 
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
세션 3-1: 지역방송의 크로스미디어 전략 (하현제)
 
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
세션 2-2: 블록체인 기반 미디어 유통을 위한 메타데이터 표준의 중요성 (박춘원)
 
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
세션 2-3: 블록체인이 콘텐츠 딜리버리 시스템에 미치는 영향과 그 변화에 관하여 (남현우)
 
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
세션 2-4: 자유 없는 블록체인은 디스토피아의 BIG (BR)Other (유성훈)
 
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
세션 1-1: 블록체인 환경에서 미디어의 미래전략연구(김상호)
 
11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석11주차 뉴스 중심어 연결망 분석
11주차 뉴스 중심어 연결망 분석
 
10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석10주차 뉴스 정보원-주제 연결망 분석
10주차 뉴스 정보원-주제 연결망 분석
 
9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석9주차 뉴스 주제 연결망 분석
9주차 뉴스 주제 연결망 분석
 
7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석7주차 뉴스 정보원 연결망 분석
7주차 뉴스 정보원 연결망 분석
 
5주차 인용문 수준의 뉴스 자연어처리와 시각화
5주차 인용문 수준의 뉴스 자연어처리와 시각화5주차 인용문 수준의 뉴스 자연어처리와 시각화
5주차 인용문 수준의 뉴스 자연어처리와 시각화
 

News Big Data Analytics with 'Big Kinds'

  • 1. News Big Data Analytics Methodology 박대민 한국언론진흥재단 미디어연구센터 선임연구위원 1
  • 2. 뉴스 빅데이터 개념 빅카인즈 데이터 목차 분석절차 뉴스 빅데이터 분석 방법론 뉴스 의미연결망 분석 뉴스 의미연결망 분석 유형 2
  • 4. VS Data Journalism vs. News Big Data 4
  • 10. Centrality A) Betweenness centrality, B) Closeness centrality, C) Eigenvector centrality, D) Degree centrality, E) Harmonic centrality and F) Katz centrality of the same graph. 10 https://en.wikipedia.org/wiki/Centrality
  • 11. Small, Scale Free, Fat-tailed 11 γ<0: Poisson distribution 0<γ<2: fat tailed 2<γ<3: scale free, ultra small world 3<γ: scale free & small world news source network: γ≃1.6
  • 12. Burst 12 Barabasi, A. L. (2005). The origin of bursts and heavy tails in human dynamics. Nature, 435(7039), 207-211.
  • 13. Three Degrees of Influence Rule 13 http://www.slideshare.net/jbradfo4/topic-4-social-networks
  • 14. Opinion Dynamics 14 Castellano, C., Fortunato, S., & Loreto, V. (2009). Statistical physics of social dynamics. Reviews of modern physics, 81(2), 591.
  • 17. - 형태소분석, NER - 구문분석, 의미분석 - data cleansing - 프로그램 기획 개발 - Visualization - 정보원 분석 - 인용문 분석 - 담론분석 - 구조 파악 - Transpose, Diagonal, Dichotomize - centrality 01 02 03 04 Crawling NLP, Data cleansing Semantic Network Analysis Discourse Analysis 17 - 데이터 모델링 - 수작업, Crawler, 계약 - 자료는 충분히 많아야 함 Procedure of News Big Data Analytics 빅카인즈
  • 18. Data Modeling 18 Meta data NLP data Network data
  • 19. 결점(node) 개체명: PLOT(인명, 장소, 기관명, 특수용어), 직함, 직업명, 상품명 등, 주제 결점이 너무 많으면 하위유목으로 분석, 너무 적으면 상위유목으로 종합 1 mode/2 mode/N-mode 연결선(edge) 관련도(relevance): 공동출현(기사, 문장, 속성), 유사도 완전연결망이 과도하게 나타나면 관련도를 보다 엄격하게 정의 절대적 연결정도 중앙성 (degree centrality) - CD(v)=deg(v), 공동인용된 정보원/기관 수, 또는 함께 거론된 주제 수, - 논쟁성, 의제중심성 결점 연결선 순위화 19 Data Modeling
  • 22. Edge list 22 Semantic Network Data Linked list Matrix
  • 23. Semantic Network Data 박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261. 23
  • 24. Visualization Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the network fundamentals of the news sources associated with a specific topic. Information Sciences.. 39 Barack Obama 22 Jay Carney 15 Ban Kimoon 13 John Kerry 12 Victoria Nuland 10 Kim Hyunwook 10 Susan Rice 24
  • 28. 시스템 기획안 박대민 등(2015). <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단. 28
  • 29. 뉴스 NLP 토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화 문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어 한글 표 기), 개체명 인식 대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인, 이명동인) 분류, 군집, 중복, 요약, 가중치, 순위화, 토픽 모델링, 이슈 트래킹, 평판분석, 감성분 석, 복합논증분석, 형태소분석 구문분석 의미분석 담론분석 박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52. 29
  • 30. LEA(Language Engineering & Analysis) 모든 형태소(44개) 지원, F1 기준 98% SSVM 주요 개체명: PS(F1 기준 85.51%), LC(93.82%), OG(88.96%), OC(82.62%) SSVM graph based dependency parsing 데이터 수집 → 주관성 탐지 → 극성 탐지 document/sentence/feature level - document/sentence level: dictionary/corpus based - feature level: LSSVM 형태소분석 개체명인식 구문분석 감성분석 솔트룩스(2015.3.). LEA 기술백서 30
  • 31. 빅카인즈 DB: Cassandra + RDB 31 솔트룩스(2015.8.). 테이블사양서(인프라)_V1.6
  • 34. NLP 성능: 개체명 인식 34 솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5
  • 35. NLP 성능: 지면 분류 35 솔트룩스(2015.10.). 자동분류 정확도 평가결과_1008
  • 36. NLP 성능: 인용구 추출 36 솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5
  • 37. NLP 성능: 사건 사고 분류 37 솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5
  • 38. NLP 성능: 감성인식 38 솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5
  • 39. NLP 성능: Tag 추출 39 Berlocher, I., Lee, K. I., & Kim, K. (2008, July). TopicRank: bringing insight to users. In Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval (pp. 703-704). ACM. ISO 690 TopicRank Algorithm: a Word Clustering based approach that automatically and dynamically generates an interactive Tag Cloud related to the user query where the layout of presented keywords relies on a semantic closeness metric. The result of a survey of 100 users asking for the usability, usefulness of the interface and the quality of extracted words, reports that more than 80% of them were very satisfied.
  • 41. Network Types: Nodes & Edges 41 Network Social Network Semantic Network Actor Network Sensor Network
  • 42. Network Types: Modes 42 Network 1 mode network 2 mode network N-mode network
  • 43. News Source Network 박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261. 21 1 2 3 1 4 5 2 3 1 4 5 43 - 같은 기사에 두 정보원이 직접인용문으로 함께 인용됐을 경우 이 정보원들 간에 서로 의미론적인 관계가 있는 것으로 보고 간접적으로 만드는 준연결망(quasi network) - 기사공동출현에 의한 관계로 관계 방향이 양방향 내지 무방향인 연결망(undirected graph)
  • 45. 프로그램 활용 절차 45 빅카인즈: 데이터 수집 뉴스젤리: 파일럿 -형태소분석 - 워드클라우드 넷마이너: 정보원연결망 matrix 변환 - file > import - transform > 2 mode - comembership-correlation-inner product - transform > value > diagnal - analyze > neighbor > degree UCINET: 파일 포맷 변환 - data > data editor > DL editor - data format > matirix > save
  • 46. 프로그램 활용 절차 46 NETDRAW: 정보원연결망 시각화 - file > open > ucinet dl text file > network (1-mode) - analysis > centrality measures > set node sizes by: degree - properties > nodes > label > size - properties > lines > size > tie strength - properties > lines > arrow heads > arrow heads off, apply to all - layout > graphic theoretic layout NETDRAW: 중심어 연결망 - layout > ego network - geodesic distance from ego: 1 or 2
  • 47. Bursts in Topics & Media 연결정도(x축)에 따른 연결정도지수(y축)의 추이 박대민(2014). 뉴스 정보원 인용에서의 폭발성과 언론의 편향성. <커뮤니케이션 이론>, 10권 1호, 295-324. 연결정도(x축)에 따른 연결정도지수(y축)의 추이 47
  • 48. Dimension Reduction Nouns Net News Sources Net 48
  • 49. mature 49 Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the network fundamentals of the news sources associated with a specific topic. Information Sciences..
  • 50. 의미연결망 분석 모듈 50 Degree analyzer Edge_list converter Statistics & Rank Media system fragmentation index Degree exponent Media uniqueness index
  • 52. News Semantic Networks 박대민 등(2015) <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단. 52
  • 53. Word Cloud: 청년담론 형태소 단위의 단어클라우드 개념 단위의 단어클라우드 53
  • 54. News Source Network: 4대강 한겨레동아 박대민(2015). 사실기사의 직접인용에 대한 이중의 타당성 문제의 검토: 동아일보와 한겨레신문의 4대강 추진 논란 기사에 대한 뉴스 정보원 연결망 및 인용문 분석. <한국언론학 보>, 59권 5호, 121-151. 54
  • 55. Keyword-centric Network: 청년실업 박대민, 김선호(2015.9.). 청년실업 언론보도와 국민인식. <미디어이슈>, 1권 14호. 서울: 한국언론진흥재단. 55
  • 56. Source-Topic Network: 망언 박대민(2015.8). 망언의 네트워크: 신문뉴스 빅데이터 분석으로 본 일본 망언보도 10년사. <미디어이슈>, 1권 12호. 서울: 한국언론진흥재단. 56
  • 57. 57 Organization-Topic Network: 청년담론 박대민, 김선호(2015.9.). 청년실업 언론보도와 국민인식. <미디어이슈>, 1권 14호. 서울: 한국언론진흥재단.
  • 58. News Sentence Network: 분단 박대민(2016). 토론기계를 향하여: 유사도와 공동출현에 기초한 뉴스 문장 연결망 분석 알고리즘 제안. 한국HCI학회 학술대회. 하이원리조트 컨벤션센터, 정선. 58 검색어: ‘분단’ 분석매체: 경향, 국민, 문화, 서울, 세계, 한겨레, 한국, 동아 분석기간: 2011년 1년치 인용문 수: 인용문 949개(중복 포함, 기사 405건) main component
  • 59. News Media Network: 4대강 Media Uniqueness = 1 – (Σ(Cosine Similarity-1)) / (number of media-1) 59 박대민(2015). News media network analysis: Comparing media systems mathematically by news sources. 사이버커뮤니케이션 가을철 정기학술대회. 서울대학교, 서울. 검색어: 4대강 매체: 국민, 경향, 동아, 문화, 서울, 세계, 한겨레, 한국(<KINDS> 수록 8대 중앙지) 분석기간: 2008.11.28.-12.31., 2009.6.2.-7.30., 2009.11.13.-12.31. 자연어처리: <뉴스소스 베타>
  • 60. Time-series Content Analysis 박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단. 60
  • 61. Time-series Content Analysis 박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단. 61
  • 63. Discourse Analysis (Governmentality Studies) 박대민(2014) <담론의 금융화: 서민주택담론을 통해 본 한국 금융통치성의 대두>. 서울대학교 사회과학대학원 박사학위논문. 63
  • 66. Word Sense Disambiguation 같은 날짜에 이명동인, 즉 이름 소속 직함이 같은 서로 다른 두 사람은 존 재할 수 없다. 다른 날짜에 인명이 다른 경우 이름을 바꾸는 드문 경우가 아닌 한 동일인이 아니기 때문에 이름이 다르면 근사적 으로 다른 인물이다. 인명은 같지만 기관과 직함이 다르면 서도 실제로 동일인일 경우에도 조작 적으로 다른 정보원으로 정의한다. . 예) ‘홍길동 XX그룹 회장’과 ‘OO당 국회의원 홍길동’은 설사 동일 인물일 지라도 다른 소속이기 때문에 다른 출 입기자가 담당을 맡아 서로 다른 주제 로 인용하는 기능적으로 다른 정보원 이다. 인명, 기관, 직함이 같은 정보 원은 근사적으로 동일 인물로 볼 수 있다. - 단기적으로 다른 매체 다른 기사에 등장했어도 동일인 - 장기적으로도 동명이인 드묾 동명동인, 동명이인 이명이인 이명동인 01 02 03 박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52. 66
  • 67. Similarity 기사/문장에 대해 전체 기 사에 출현하는 n개의 단어 (명사, 수치, 동사)로 이루 어진 n차원 벡터 공간을 가 정한 뒤 각 기사/문장를 해 당 단어가 출현하는지 여부 에 따라 값을 부여한 단어 벡터로 나타낸다. 비교 대상인 두 기사의 단 어벡터 간 각도를 θ라고 할 때, 이 각도에 대한 코사인 값을 계산하여 유사도를 계 산한다. 임계값을 정하여 이 값을 넘으면 유사한 것 으로, 그렇지 않으면 유사 하지 않은 것으로 판정한다. 비교 대상 기사 전체에 등 장하는 횟수(IDF)에 비해 특정 기사에 등장하는 빈도 (TF)가 높다면 그 단어는 다른 단어에 비해 그 문서 를 더 많이 대표하므로 더 높은 가중치를 부여 받는다. 전체 기사 각각에 어떤 주요 단어, 즉 색인어가 있는지를 나타내는 색인 작업과, 각 색 인어가 어느 기사에 있는지, 즉 역색인 작업을 함께 수행 한다. 01 02 03 04 Inverted Indexing VSM TD-IDF Cosine Similarity 박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션 이론>, 12권 1호, 4-52. 67
  • 68. Classification & Clustering 15개 카인즈 지면 분류를 정치/경제/사회(종합)/문 화/국제로 사상 기계학습(단순 베이지안), 75% 정확도 단어 유사도에 따라 기사 군집화 개인 실명 정보원을 노드로 하고, 공기 여부에 따라 엣지를 부여한 뉴스 정보원 연결망 개체명 분류에 따른 문장 분 류 - 대분류: 인용문, 수치문, 기타문 - 인용문 다중 분류: 개인실 명/집단/익명 01 02 03 04 문장분류 기사분류 정보원연결망분석 기사 군집화 박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52. 68
  • 69. Ranking Algorithm 규칙 - 정보원 순위에 따른 문장 순위 - 같은 소속 분류 정보원은 순위 하락 뉴스 기사 연결망 분석 -공동 정보원을 중심으로 연결 망 그린 뒤 연결정도 중앙성 계산 (유사 문장 기준으로 수정 필요) 규칙과 NSNA - 개인실명>집단>익명 - NSNA: 개인실명정보원 내에서는 연결정도 중앙성 에 따른 순위 정보원 순위화 문장 순위화 기사 순위화 01 02 03 박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52. 69
  • 71. News Media as Internet Corporations 71
  • 72. The End of Paper Platforms 허브 언론사 독자 광고주 플랫폼 기능 흡수 콘텐츠 공급자 분화 콘텐츠 사업자 UGC 네이티브 광고 박대민, 양정애, 김선호(2014). <스마트 미디어 뉴스 생태계의 혁신 전략>. 서울: 한국언론진흥재단. 금준경(2016.4.26.). 네이버-매경 합작법인, 중앙·한겨레와는 공동사업. <미디어오늘>. 72
  • 73. 사용자의 생산, 유통 참여 취재 편집 유통 판매 광고 부가 사업 편집국 광고 사업국 CP 취재 플랫폼 판매 유통 광고 부가 사업 편집 독자 사용자 박대민, 양정애, 김선호(2014). <스마트 미디어 뉴스 생태계의 혁신 전략>. 서울: 한국언론진흥재단. 73
  • 74. 공적 소통 영역의 확장 공적 커뮤니케이션 영역 공적 커뮤니케이션 영역 언론사 독자 뉴스 블로그 SNS, 챗 언론사 독자 뉴스 사적 대화 사적 대화 과거 현재 74
  • 75. 언론사가 중시하는 뉴스 내가 선호하는 뉴스 친구가 선호하는 뉴스 대중이 선호하는 뉴스 뉴스 개념의 확장 75
  • 77. 뉴스 빅데이터 분석의 수직적 확장 77 박대민, 백영민, 김선호(2015). <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단.
  • 78. 뉴스 빅데이터 분석의 수평적 확장 78 텍스트 음성 동영상 다국어분석 자연어처리 음성인식 영상처리 딥러닝 보고서 논문 소설 가요 사진 영화 드라마 토론기계 신문 라디오 TV