SlideShare ist ein Scribd-Unternehmen logo
1 von 38
한국탐사저널리즘센터(KCIJ)
데이터저널리즘연구소
2
“Data journalism is not graphics and
visualisations. It's about telling the story in the
best way possible.”
“Sometimes that will be a visualisation or a
map But sometimes it's a news story.
Sometimes, just publishing the number is
enough.”
Data Driven Journalism
Gun violence in America: How many years of life have been lost?
“Data Journalism?
It's just journalism”
Simon Rogers
(Twitter Data editor, 전 Guardian Data editor)
DJA Prize : 4 categories
• Data-driven investigative journalism:
using data to uncover facts
• Data storytelling (text, visualisation, video…)
• Data-driven applications (mobile or web):
serving data to your public
• Data journalism website or section
Guardian : Data Store
예산 감시 : Where does my money go?
Open Knowledge Foundation 의
Open Spending project
영국 Guardian 지의 예산 감시 보도
우리 동네 살인 지도
ICIJ : 조세피난처 탐사보도
• 260 기가바이트 데이터 : 위키릭스 160배, 비정형 데이터)
• (2.5 million files, including more than 2 million e-mails)
• 시각화 도구 : IBM® i2 Analyst's Notebook
• 데이터 구조화, 네트워크 분석 : NUIX
• dtSearch : free text retrieval(FTR) systems
• unreadable files : OCR
• 프로그래머 : 독일, 영국, 코스타리카 (Long-Distance Investigation)
ICIJ : 조세피난처 데이터
• 한국탐사저널리즘센터(KCIJ)
– 비영리 비정파 독립 탐사보도 단체
– 대표 김용진(전 KBS 탐사보도팀장), 앵커 최승호(전 MBC PD수첩 PD),
데이터저널리즘연구소 권혜진(전 동아일보 CAR 전문기자)
• 뉴스타파
– 한국탐사저널리즘센터의 탐사프로그램
– 데이터저널리즘에 기반한 탐사보도 추구
• 데이터저널리즘 프로젝트
– 박근혜 정부 초기 내각 검증
– 2013 고위공직자 재산 변동 및 공개 현황
– 조세피난처의 한국 기업들
– 국정원 연루 의혹 트위터 네트워크 분석
– 1990년 이후 고위공직자 재산 공개 자료
– 18대 대통령 선거비용
– 환경 GIS 지도 : 불산 등 유해물질 지도
뉴스타파 데이터저널리즘 프로젝트
• 뉴스타파 웹 2013.03.01
• 초기 내각 후보자들의 재산, 연령, 성별, 예금, 부동산, 학위 등을 인터렉티브 그래픽으로 제작.
• 인사청문회에 제출한 재산 신고액 정보를 인터렉티브 시각화 도구인 태블로(Tableau) 로 표현.
박근혜 정부 초기 내각 정보
2013 고위공직자 재산 변동 및 공개 현황
• 정부공직자윤리위원회가 정부 고위공무원과
지방자치단체장 등 1,933명을 대상으로 집계
한 재산총액 상위 10명은 대부분 지방자치
단체나 지방의회 공직자들.
• 뉴스타파가 법원과 헌법재판소, 선거관리위
원회 공직자 171명을 추가해 모두 2106명을
대상으로 분석한 결과 법조계가 과반수.
뉴스타파 N 2013.04.05
( http://newstapa.com/495 )
• 뉴스타파 N 2013.04.12
뉴스타파 조세 피난처 집중 해부
• 뉴스타파N 2013.4.19
국정원 연루 의혹 트위터 네트워크 분석
목 차
1. 데이터 수집
2. 리트윗 네트워크 분석
3. 키워드 분석
4. 분석의 한계와 제언
데이터 수집
데이터 수집
의심정황 포착 의심계정 확보 수집 데이터 개요데이터 크롤링
가설 확인
국정원이 인터넷 여론에 조직적으로 개
입했다면,
‘오늘의 유머’사이트에 게재된 것과
같은 내용의 글이 다른 사이트에서도 확
인될 것이다.
데이터 수집
의심정황 포착 의심계정 확보 수집 데이터 개요데이터 크롤링
의심계정 확보 방법
1. 오유 사이트 국정원 글의 내용으로 인터넷
검색
2. 유사한 글을 작성하는 계정 확인
3. 2의 계정의 Following, Follower, RT한 계
정 등을 확인
4. 3의 계정이 ‘일정한 특성’을 충족할 경
우, 국정원 연루 의혹 계정으로 추정함
의심계정의 특성
• 12월 10일 또는 11일 일제히 활동 정지 또
는 계정 삭제 (이른바 ‘국정원녀 사건’이
터진 다음날)
• 내용 면에서 천편일률적으로 북한·종북
비판, 정부 정책 찬양, 야당 비판
• 계정들의 시기별 트윗 활용 패턴 일치
• 보도에서 노출된 계정은 이틀 이내에 삭제
총 661개의 국정원 의심계정 확보!
트위터에서 사라진 ID 흔적 찾기
데이터 수집
데이터 수집
수집 대상: 웹로그 제공 사이트
의심정황 포착 의심계정 확보 수집 데이터 개요데이터 크롤링
수집 방법: 웹 크롤링(Crawling)
데이터 수집
데이터 크롤러의 로직과 수집 항목
의심정황 포착 의심계정 확보 수집 데이터 개요데이터 크롤링
①트위터 아이디: 확보한 의
심계정 사용
②페이지 넘버: 수집을 완료
하면 다음페이지로
③개별 트윗 상세 내용 확인
④트윗 원본 작성자
⑤트윗 날짜
⑥리트윗 횟수
⑦리트윗한 계정들
① ②
③
④
⑤
⑥
⑦
데이터 수집
의심정황 포착 의심계정 확보 수집 데이터 개요데이터 크롤링
데이터 개요 데이터에 관한 평가
수집 대상 의심계정의 프로필에 올라온 트윗 정보
수집 기간 2013년 4월 초
계정 수 454개 계정 (661개 중)
트윗 수 288,643개*
컨텐츠 수 36,122개**
관계 수 110,591개***
• 데이터가 실시간으로 삭제되고 있는 등 수집상의 한
계가 존재. (661 계정 중 454개 수집)
• 그러나 ‘리트윗’등의 방법으로 커뮤니케이션이
오가는 SNS 공간의 특성으로 인하여, 주요 컨텐츠
제 공 자 들 은 빠 짐 없 이 확 인 할 수 있 었 음 .
(그 계정의 프로필 페이지를 긁지 못하더라도, 다른
계정들의 프로필 페이지에서 다수 등장하게 됨)
*직접 작성한 트윗과 리트윗을 구분하지 않고, 계산한 총 트
윗의 수
**리트윗을 제외하고 계산한 컨텐츠의 양
***리트윗 관계에 등장한 노드 쌍(node pairs)의 수
리트윗 네트워크 분석
리트윗 네트워크 분석
관계 데이터 정의 기초 분석 네트워크 지도커뮤니티 분석
Raw Data 관계 데이터 개념도
항목 설명
Status ID 해당 트윗의 고유번호
Screen name 트윗을 올린 계정 (프로필 페이지의 계정 이름)
Author 해당 트윗의 원글 작성자 (즉, 리트윗의 경우 Screen name과
Author가 달라짐)
Created at 트윗을 올린 날짜
# of Retweets 트윗이 리트윗된 횟수
Text 트윗 내용
Retweeted by 트윗을 리트윗한 계정 목록
sourcetarget
yoonju***
maru***
Target이 Source의 글을 리트윗
한 관계
= Source로부터 Target으로 컨
텐츠(정보, 지식)가 전파된 관계
리트윗 네트워크 분석
관계 데이터 정의 기초 분석 네트워크 지도커뮤니티 분석
Link Weight Distribution
Weight Frequency
1 78,003
2 18,035
3 5,923
4 2,646
5 1,296
6 835
7 551
8 406
9 335
10 247
11 205
12 165
…… ……
233 1
Total 110,591 0
10000
20000
30000
40000
50000
60000
70000
80000
90000
1
6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
82
87
93
100
114
127
140
152
171
188
209
219
233
Cut-off value = 10
총 24만 개 상당의 RT 관계
리트윗 네트워크 분석
관계 데이터 정의 기초 분석 네트워크 지도커뮤니티 분석
Identifying Node-type
ACCOUNT 전체 작성글 수 RT한 횟수 RT글의 비율
shore0987 473 0 0%
taesan4 399 0 0%
nudlenudle 395 0 0%
harpesang 339 0 0%
jogisic 325 0 0%
type0789 303 0 0%
humordelivery89 252 0 0%
snailcharm 211 0 0%
sungmin489 1365 100%
kupapa584 1355 100%
kimpoongsu 1383 100%
kim_donga 1356 100%
trustme070 1306 100%
bonjujung 1354 100%
생산자
전달자
리트윗 네트워크 분석
관계 데이터 정의 기초 분석 네트워크 지도커뮤니티 분석
Degree Distribution
0
20
40
60
80
100
120
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
In-Degree (RT함)
0
50
100
150
200
250
0 2 4 6 8 11 17 23 27 30 40 56 70
Out-Degree (RT받음)
대부분의 계정은 하나의 계정으로
부터 컨텐츠를 공급받았다
대부분의 계정은 컨텐츠를 생산하지 않으며,
극소수 계정이 다수의 전달자계정에
컨텐츠를 공급한다
리트윗 네트워크 분석
관계 데이터 정의 기초 분석 네트워크 지도커뮤니티 분석
Modularity 그룹별 통계 분석
Modularity = 0.63
Modularity를 극대화하는 그룹 8개 발견
Out-Degree 계정 수
0 30
1 3
2 1
3 1
5 1
27 1
28 1
54 1
합계 39
각 그룹은 소수의 생산자와 다수의 전달자로 구성
생산자 3
전달자 36
• -1 과 1 사이의 스칼라 값을 가짐
• 그룹 내부의 링크 밀도(density)와 서로 다른
그룹 간의 링크 수를 비교하여 측정.
• 그룹 내부의 링크 밀도가 더 높아지면,
Modularity값도 높아짐
*분석 소프트웨어: Gephi 0.8.2
*사용된 알고리즘: Blondel V.D. et al.(2008), Fast unfolding of
communities in large networks, J. Stat. Mech. (2008) P10008
리트윗 네트워크 분석
관계 데이터 정의 기초 분석 네트워크 지도커뮤니티 분석
① 매우 뚜렷하게 모듈화
된 네트워크 구조를 보
임.
② 각 그룹마다 핵심적인
컨텐츠 생산자가 1-2
계정 존재하며, 전달자
계정들이 생산된 컨텐
츠를 퍼 나르는 양상을
보임.
③ 핵심계정들 사이에 긴
밀한 관계가 없는 것으
로 보아, 조직적인 업무
분담 가능성을 의심할
수 있음.
결과 해석
• 색상: 소속그룹
• 크기: Out-Degree
범례
키워드 분석
키워드 분석
형태소 분석 트윗 내용 분류 대선관련 트윗
분석 개요 형태소 분석 결과
• 리트윗을 제외하고, 고유한 컨텐츠 36,000
여 개를 활용하여 컨텐츠 내용 분석
• 자연어 처리(NLP) 기법 중 형태소 분석 적용
순위 단어 언급횟수 순위 단어 언급횟수
1 북한 13,189 14 미사일 1,466
2 대한민국 3,288 15 종북세력 1,425
3 국민 2,495 16 천안 1,346
4 김정은 2,442 17 주민 1,338
5 일본 2,052 18 미국 1,311
6 대통령 1,916 19 연평도 1,274
7 한국 1,840 20 도발 1,161
8 안 1,762 21 남한 1,144
9 대한 1,705 22 대선 1,126
10 정부 1,624 23 발사 1,106
11 중국 1,615 24 문재인 1,091
12 김정일 1,597 25 우리나라 1,080
13 종북 1,520 26 안철수 1,023
키워드 분석
형태소 분석 트윗 내용 분류 대선관련 트윗
트윗 분류 및 ‘오늘의유머’게시글과의 비교
• 키워드의 등장패턴을 중심으로 트윗 분류
• 예시) ‘세계자연보전총회’+ ‘이명박’ = ‘MB정부 홍보’
분류 컨텐츠 수 컨텐츠 비율
MB정부 홍보 1,990 8.70%
국내정치 비판(종북) 6,831 29.80%
대선 3,475 15.20%
북한 비판 9,472 41.40%
기타 1,128 4.90%
총합계 22,896 100.00%
키워드 분석
형태소 분석 트윗 내용 분류 대선관련 트윗
0
50
100
150
200
250
300
350
400
450
500
대선 관련 트윗 추이
• 시간은 5일 단위로 합산
• 8월부터 12월 11일까지의 컨텐츠만을 정리
• 리트윗 양은 고려되지 않음
이슈 발생에 따른 컨텐츠의 증감이 뚜렷이 나타남
• 9월 민주당 경선, 안후보 출마선언, 박후보 인혁당 사과
• 12월 대선후보 토론
분석의 한계와 제안
키워드 분석
한계
• 트위터 ID의 삭제로 팔로잉과 팔로워 관계 데이터 부재.
• Topsy 데이터 구조의 한계
제안
• 국내 다수 업체가 수집하고 있는 트위터 DB를 분석하면 팔로잉 팔로워
관계 분석을 통해 보다 정밀한 네트워크 분석 가능.
• Topsy 데이터의 한계로 메시지가 전파된 경로를 볼 수 없으나 트위터
DB를 분석하면 전파 경로를 자세히 분석할 수 있음.
분석의 한계와 제안
Data Journalism 참고 사이트
• Data Journalism Blog
• Data Journalism Awards - Global Editors Network
• The Data Journalism Handbook
• School of Data
• Source
• Open Refine
• Gephi
• Hashtagify
• Investigative Dashboard
• Tabula
• Topsy
• International Consortium of Investigative Journalists
• ProPublica
• NPR Elections Big Board
• Investigative Reporters and Editors
데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석

Weitere ähnliche Inhalte

Was ist angesagt?

뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1Newsjelly
 
How to do things with 'BigKinds'
How to do things with 'BigKinds'How to do things with 'BigKinds'
How to do things with 'BigKinds'Daemin Park
 
데이터 거래와 유통에 대하여 (논문)
데이터 거래와 유통에 대하여 (논문)데이터 거래와 유통에 대하여 (논문)
데이터 거래와 유통에 대하여 (논문)Konkuk University
 
News Big Data Analytics 101
News Big Data Analytics 101News Big Data Analytics 101
News Big Data Analytics 101Daemin Park
 
뉴스젤리 - 데이터저널리즘 이해하기 2
뉴스젤리 - 데이터저널리즘 이해하기 2뉴스젤리 - 데이터저널리즘 이해하기 2
뉴스젤리 - 데이터저널리즘 이해하기 2Newsjelly
 
News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'Daemin Park
 
박한우 교수 프로파일 (31 oct2017)
박한우 교수 프로파일 (31 oct2017)박한우 교수 프로파일 (31 oct2017)
박한우 교수 프로파일 (31 oct2017)Han Woo PARK
 
빅데이터와 저널리즘의 만남, 빅데이터 저널리즘
빅데이터와 저널리즘의 만남, 빅데이터 저널리즘빅데이터와 저널리즘의 만남, 빅데이터 저널리즘
빅데이터와 저널리즘의 만남, 빅데이터 저널리즘영제 임
 
소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석
소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석
소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석Han Woo PARK
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원datasciencekorea
 
시맨틱 소셜 네트워크 분석 사례 소개
시맨틱 소셜 네트워크 분석 사례 소개시맨틱 소셜 네트워크 분석 사례 소개
시맨틱 소셜 네트워크 분석 사례 소개webscikorea
 
디지털 및 모바일 혁신을 위한 제안
디지털 및 모바일 혁신을 위한 제안디지털 및 모바일 혁신을 위한 제안
디지털 및 모바일 혁신을 위한 제안Daemin Park
 
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로Han Woo PARK
 
Toward a debating machine: A news sentence network analysis algorithm based o...
Toward a debating machine: A news sentence network analysis algorithm based o...Toward a debating machine: A news sentence network analysis algorithm based o...
Toward a debating machine: A news sentence network analysis algorithm based o...Daemin Park
 
방송기자협회 - 데이터 저널리즘과 발로 뛴 리포팅의 환상적 결합
방송기자협회 - 데이터 저널리즘과  발로 뛴 리포팅의 환상적 결합방송기자협회 - 데이터 저널리즘과  발로 뛴 리포팅의 환상적 결합
방송기자협회 - 데이터 저널리즘과 발로 뛴 리포팅의 환상적 결합Han Woo PARK
 
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)Han Woo PARK
 
[LLG_Module 1] 데이터 저널리즘
[LLG_Module 1] 데이터 저널리즘[LLG_Module 1] 데이터 저널리즘
[LLG_Module 1] 데이터 저널리즘Newsjelly
 
Natural language processing of News (intermediate): rule based model
Natural language processing of News (intermediate): rule based modelNatural language processing of News (intermediate): rule based model
Natural language processing of News (intermediate): rule based modelDaemin Park
 
News Semantic Network Analysis of Named Entities
News Semantic Network Analysis of Named EntitiesNews Semantic Network Analysis of Named Entities
News Semantic Network Analysis of Named EntitiesDaemin Park
 
20140602 module2 presentation bm
20140602 module2 presentation bm20140602 module2 presentation bm
20140602 module2 presentation bmweowoonbae
 

Was ist angesagt? (20)

뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1
 
How to do things with 'BigKinds'
How to do things with 'BigKinds'How to do things with 'BigKinds'
How to do things with 'BigKinds'
 
데이터 거래와 유통에 대하여 (논문)
데이터 거래와 유통에 대하여 (논문)데이터 거래와 유통에 대하여 (논문)
데이터 거래와 유통에 대하여 (논문)
 
News Big Data Analytics 101
News Big Data Analytics 101News Big Data Analytics 101
News Big Data Analytics 101
 
뉴스젤리 - 데이터저널리즘 이해하기 2
뉴스젤리 - 데이터저널리즘 이해하기 2뉴스젤리 - 데이터저널리즘 이해하기 2
뉴스젤리 - 데이터저널리즘 이해하기 2
 
News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'
 
박한우 교수 프로파일 (31 oct2017)
박한우 교수 프로파일 (31 oct2017)박한우 교수 프로파일 (31 oct2017)
박한우 교수 프로파일 (31 oct2017)
 
빅데이터와 저널리즘의 만남, 빅데이터 저널리즘
빅데이터와 저널리즘의 만남, 빅데이터 저널리즘빅데이터와 저널리즘의 만남, 빅데이터 저널리즘
빅데이터와 저널리즘의 만남, 빅데이터 저널리즘
 
소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석
소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석
소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
 
시맨틱 소셜 네트워크 분석 사례 소개
시맨틱 소셜 네트워크 분석 사례 소개시맨틱 소셜 네트워크 분석 사례 소개
시맨틱 소셜 네트워크 분석 사례 소개
 
디지털 및 모바일 혁신을 위한 제안
디지털 및 모바일 혁신을 위한 제안디지털 및 모바일 혁신을 위한 제안
디지털 및 모바일 혁신을 위한 제안
 
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
 
Toward a debating machine: A news sentence network analysis algorithm based o...
Toward a debating machine: A news sentence network analysis algorithm based o...Toward a debating machine: A news sentence network analysis algorithm based o...
Toward a debating machine: A news sentence network analysis algorithm based o...
 
방송기자협회 - 데이터 저널리즘과 발로 뛴 리포팅의 환상적 결합
방송기자협회 - 데이터 저널리즘과  발로 뛴 리포팅의 환상적 결합방송기자협회 - 데이터 저널리즘과  발로 뛴 리포팅의 환상적 결합
방송기자협회 - 데이터 저널리즘과 발로 뛴 리포팅의 환상적 결합
 
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
데이터저널리즘과 선거 웹보메트릭스연구사례(24 oc2011)
 
[LLG_Module 1] 데이터 저널리즘
[LLG_Module 1] 데이터 저널리즘[LLG_Module 1] 데이터 저널리즘
[LLG_Module 1] 데이터 저널리즘
 
Natural language processing of News (intermediate): rule based model
Natural language processing of News (intermediate): rule based modelNatural language processing of News (intermediate): rule based model
Natural language processing of News (intermediate): rule based model
 
News Semantic Network Analysis of Named Entities
News Semantic Network Analysis of Named EntitiesNews Semantic Network Analysis of Named Entities
News Semantic Network Analysis of Named Entities
 
20140602 module2 presentation bm
20140602 module2 presentation bm20140602 module2 presentation bm
20140602 module2 presentation bm
 

Andere mochten auch

Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중
Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중
Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중datasciencekorea
 
R의 이해와 활용_데이터사이언스학회
R의 이해와 활용_데이터사이언스학회R의 이해와 활용_데이터사이언스학회
R의 이해와 활용_데이터사이언스학회datasciencekorea
 
데이터시장의 트렌드와 예측 - 이영환
데이터시장의 트렌드와 예측 - 이영환 데이터시장의 트렌드와 예측 - 이영환
데이터시장의 트렌드와 예측 - 이영환 datasciencekorea
 
소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점
소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점
소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점datasciencekorea
 
텍스톰을 이용한 SNA 분석 -전채남
텍스톰을 이용한 SNA 분석 -전채남텍스톰을 이용한 SNA 분석 -전채남
텍스톰을 이용한 SNA 분석 -전채남datasciencekorea
 
국가의 신성장 동력으로서 공간정보의 가치와 활용 2016-0603
국가의 신성장 동력으로서 공간정보의 가치와 활용 2016-0603국가의 신성장 동력으로서 공간정보의 가치와 활용 2016-0603
국가의 신성장 동력으로서 공간정보의 가치와 활용 2016-0603datasciencekorea
 
도시의 마음, 그 발현 - Emergent Mind of City
도시의 마음, 그 발현 - Emergent Mind of City도시의 마음, 그 발현 - Emergent Mind of City
도시의 마음, 그 발현 - Emergent Mind of Citydatasciencekorea
 
International Collaboration Networks in the Emerging (Big) Data Science
International Collaboration Networks in the Emerging (Big) Data ScienceInternational Collaboration Networks in the Emerging (Big) Data Science
International Collaboration Networks in the Emerging (Big) Data Sciencedatasciencekorea
 
Data-driven biomedical science: implications for human disease and public health
Data-driven biomedical science: implications for human disease and public healthData-driven biomedical science: implications for human disease and public health
Data-driven biomedical science: implications for human disease and public healthdatasciencekorea
 
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선datasciencekorea
 
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...Structures of Twitter Crowds and Conversations Six distinct types of crowds t...
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...datasciencekorea
 
DATA CENTRIC EDUCATION & LEARNING
 DATA CENTRIC EDUCATION & LEARNING DATA CENTRIC EDUCATION & LEARNING
DATA CENTRIC EDUCATION & LEARNINGdatasciencekorea
 
Data Centric Art, Science, and Humanities
Data Centric Art, Science, and HumanitiesData Centric Art, Science, and Humanities
Data Centric Art, Science, and Humanitiesdatasciencekorea
 
Studying Social Selection vs Social Influence in Virtual Financial Communities
Studying Social Selection vs Social Influence in Virtual Financial CommunitiesStudying Social Selection vs Social Influence in Virtual Financial Communities
Studying Social Selection vs Social Influence in Virtual Financial Communitiesdatasciencekorea
 
온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호
온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호
온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호datasciencekorea
 
Analyzing Big Data to Discover Honest Signals of Innovation
Analyzing Big Data to Discover Honest Signals of InnovationAnalyzing Big Data to Discover Honest Signals of Innovation
Analyzing Big Data to Discover Honest Signals of Innovationdatasciencekorea
 
A Unified Music Recommender System Using Listening Habits and Semantics of Tags
A Unified Music Recommender System Using Listening Habits and Semantics of TagsA Unified Music Recommender System Using Listening Habits and Semantics of Tags
A Unified Music Recommender System Using Listening Habits and Semantics of Tagsdatasciencekorea
 
데이터 시각화의 글로벌 동향 20140819 - 고영혁
데이터 시각화의 글로벌 동향   20140819 - 고영혁데이터 시각화의 글로벌 동향   20140819 - 고영혁
데이터 시각화의 글로벌 동향 20140819 - 고영혁datasciencekorea
 
스마트 시티의 빅데이터 분석론 - 최준영
스마트 시티의 빅데이터 분석론 - 최준영스마트 시티의 빅데이터 분석론 - 최준영
스마트 시티의 빅데이터 분석론 - 최준영datasciencekorea
 
Bayesian Network 을 활용한 예측 분석
Bayesian Network 을 활용한 예측 분석Bayesian Network 을 활용한 예측 분석
Bayesian Network 을 활용한 예측 분석datasciencekorea
 

Andere mochten auch (20)

Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중
Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중
Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중
 
R의 이해와 활용_데이터사이언스학회
R의 이해와 활용_데이터사이언스학회R의 이해와 활용_데이터사이언스학회
R의 이해와 활용_데이터사이언스학회
 
데이터시장의 트렌드와 예측 - 이영환
데이터시장의 트렌드와 예측 - 이영환 데이터시장의 트렌드와 예측 - 이영환
데이터시장의 트렌드와 예측 - 이영환
 
소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점
소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점
소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점
 
텍스톰을 이용한 SNA 분석 -전채남
텍스톰을 이용한 SNA 분석 -전채남텍스톰을 이용한 SNA 분석 -전채남
텍스톰을 이용한 SNA 분석 -전채남
 
국가의 신성장 동력으로서 공간정보의 가치와 활용 2016-0603
국가의 신성장 동력으로서 공간정보의 가치와 활용 2016-0603국가의 신성장 동력으로서 공간정보의 가치와 활용 2016-0603
국가의 신성장 동력으로서 공간정보의 가치와 활용 2016-0603
 
도시의 마음, 그 발현 - Emergent Mind of City
도시의 마음, 그 발현 - Emergent Mind of City도시의 마음, 그 발현 - Emergent Mind of City
도시의 마음, 그 발현 - Emergent Mind of City
 
International Collaboration Networks in the Emerging (Big) Data Science
International Collaboration Networks in the Emerging (Big) Data ScienceInternational Collaboration Networks in the Emerging (Big) Data Science
International Collaboration Networks in the Emerging (Big) Data Science
 
Data-driven biomedical science: implications for human disease and public health
Data-driven biomedical science: implications for human disease and public healthData-driven biomedical science: implications for human disease and public health
Data-driven biomedical science: implications for human disease and public health
 
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
 
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...Structures of Twitter Crowds and Conversations Six distinct types of crowds t...
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...
 
DATA CENTRIC EDUCATION & LEARNING
 DATA CENTRIC EDUCATION & LEARNING DATA CENTRIC EDUCATION & LEARNING
DATA CENTRIC EDUCATION & LEARNING
 
Data Centric Art, Science, and Humanities
Data Centric Art, Science, and HumanitiesData Centric Art, Science, and Humanities
Data Centric Art, Science, and Humanities
 
Studying Social Selection vs Social Influence in Virtual Financial Communities
Studying Social Selection vs Social Influence in Virtual Financial CommunitiesStudying Social Selection vs Social Influence in Virtual Financial Communities
Studying Social Selection vs Social Influence in Virtual Financial Communities
 
온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호
온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호
온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호
 
Analyzing Big Data to Discover Honest Signals of Innovation
Analyzing Big Data to Discover Honest Signals of InnovationAnalyzing Big Data to Discover Honest Signals of Innovation
Analyzing Big Data to Discover Honest Signals of Innovation
 
A Unified Music Recommender System Using Listening Habits and Semantics of Tags
A Unified Music Recommender System Using Listening Habits and Semantics of TagsA Unified Music Recommender System Using Listening Habits and Semantics of Tags
A Unified Music Recommender System Using Listening Habits and Semantics of Tags
 
데이터 시각화의 글로벌 동향 20140819 - 고영혁
데이터 시각화의 글로벌 동향   20140819 - 고영혁데이터 시각화의 글로벌 동향   20140819 - 고영혁
데이터 시각화의 글로벌 동향 20140819 - 고영혁
 
스마트 시티의 빅데이터 분석론 - 최준영
스마트 시티의 빅데이터 분석론 - 최준영스마트 시티의 빅데이터 분석론 - 최준영
스마트 시티의 빅데이터 분석론 - 최준영
 
Bayesian Network 을 활용한 예측 분석
Bayesian Network 을 활용한 예측 분석Bayesian Network 을 활용한 예측 분석
Bayesian Network 을 활용한 예측 분석
 

Ähnlich wie 데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석

빅데이터와 저널리즘
빅데이터와 저널리즘빅데이터와 저널리즘
빅데이터와 저널리즘Sungkyu Lee
 
[UDIS_6_2nd] Data Journalism_20140712
[UDIS_6_2nd] Data Journalism_20140712[UDIS_6_2nd] Data Journalism_20140712
[UDIS_6_2nd] Data Journalism_20140712Sunghun Bae
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제8호(20180205)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제8호(20180205)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제8호(20180205)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제8호(20180205)DOMOBRODEUR
 
LLG Data Journalism Module2 Review
LLG Data Journalism Module2 ReviewLLG Data Journalism Module2 Review
LLG Data Journalism Module2 Reviewneuroassociates
 
디지털시대 뉴미디어 이야기
디지털시대 뉴미디어 이야기디지털시대 뉴미디어 이야기
디지털시대 뉴미디어 이야기Sungkyu Lee
 
웹의 진화와 지식 구조화 Ver 1 1
웹의 진화와 지식 구조화 Ver 1 1웹의 진화와 지식 구조화 Ver 1 1
웹의 진화와 지식 구조화 Ver 1 1Konkuk University
 
인터넷정치연구소개(27 Sep2009)
인터넷정치연구소개(27 Sep2009)인터넷정치연구소개(27 Sep2009)
인터넷정치연구소개(27 Sep2009)Han Woo PARK
 
Digital curation
Digital curationDigital curation
Digital curationiron han
 
정부 3.0 공공(빅)데이터 플랫폼거버넌스(29 may2014)3rd edition
정부 3.0 공공(빅)데이터 플랫폼거버넌스(29 may2014)3rd edition정부 3.0 공공(빅)데이터 플랫폼거버넌스(29 may2014)3rd edition
정부 3.0 공공(빅)데이터 플랫폼거버넌스(29 may2014)3rd editionHan Woo PARK
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data AnalysisMyunggoon Choi
 
리트윗을 통한 sns 확산경로
리트윗을 통한 sns 확산경로리트윗을 통한 sns 확산경로
리트윗을 통한 sns 확산경로Gori Communication
 
커뮤니케이션 패러다임을 바꾸다 (17 march2014)경북대
커뮤니케이션 패러다임을 바꾸다 (17 march2014)경북대커뮤니케이션 패러다임을 바꾸다 (17 march2014)경북대
커뮤니케이션 패러다임을 바꾸다 (17 march2014)경북대Han Woo PARK
 
[Week1] 데이터의 접근과 법률
[Week1] 데이터의 접근과 법률 [Week1] 데이터의 접근과 법률
[Week1] 데이터의 접근과 법률 neuroassociates
 
[Week1] 데이터의 접근과 법률 bm
[Week1] 데이터의 접근과 법률 bm[Week1] 데이터의 접근과 법률 bm
[Week1] 데이터의 접근과 법률 bmneuroassociates
 
대한민국을 위한 Open Linked Political Data 플랫폼, "정치in" 제안
대한민국을 위한 Open Linked Political Data 플랫폼, "정치in" 제안대한민국을 위한 Open Linked Political Data 플랫폼, "정치in" 제안
대한민국을 위한 Open Linked Political Data 플랫폼, "정치in" 제안Eunjeong (Lucy) Park
 
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"Tae Young Kang
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제7호(20180104)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제7호(20180104)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제7호(20180104)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제7호(20180104)DOMOBRODEUR
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제3호(20170905)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제3호(20170905)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제3호(20170905)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제3호(20170905)DOMOBRODEUR
 
글로벌 트위터 유력자 분석
글로벌 트위터 유력자 분석글로벌 트위터 유력자 분석
글로벌 트위터 유력자 분석Han Woo PARK
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해수보 김
 

Ähnlich wie 데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석 (20)

빅데이터와 저널리즘
빅데이터와 저널리즘빅데이터와 저널리즘
빅데이터와 저널리즘
 
[UDIS_6_2nd] Data Journalism_20140712
[UDIS_6_2nd] Data Journalism_20140712[UDIS_6_2nd] Data Journalism_20140712
[UDIS_6_2nd] Data Journalism_20140712
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제8호(20180205)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제8호(20180205)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제8호(20180205)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제8호(20180205)
 
LLG Data Journalism Module2 Review
LLG Data Journalism Module2 ReviewLLG Data Journalism Module2 Review
LLG Data Journalism Module2 Review
 
디지털시대 뉴미디어 이야기
디지털시대 뉴미디어 이야기디지털시대 뉴미디어 이야기
디지털시대 뉴미디어 이야기
 
웹의 진화와 지식 구조화 Ver 1 1
웹의 진화와 지식 구조화 Ver 1 1웹의 진화와 지식 구조화 Ver 1 1
웹의 진화와 지식 구조화 Ver 1 1
 
인터넷정치연구소개(27 Sep2009)
인터넷정치연구소개(27 Sep2009)인터넷정치연구소개(27 Sep2009)
인터넷정치연구소개(27 Sep2009)
 
Digital curation
Digital curationDigital curation
Digital curation
 
정부 3.0 공공(빅)데이터 플랫폼거버넌스(29 may2014)3rd edition
정부 3.0 공공(빅)데이터 플랫폼거버넌스(29 may2014)3rd edition정부 3.0 공공(빅)데이터 플랫폼거버넌스(29 may2014)3rd edition
정부 3.0 공공(빅)데이터 플랫폼거버넌스(29 may2014)3rd edition
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 
리트윗을 통한 sns 확산경로
리트윗을 통한 sns 확산경로리트윗을 통한 sns 확산경로
리트윗을 통한 sns 확산경로
 
커뮤니케이션 패러다임을 바꾸다 (17 march2014)경북대
커뮤니케이션 패러다임을 바꾸다 (17 march2014)경북대커뮤니케이션 패러다임을 바꾸다 (17 march2014)경북대
커뮤니케이션 패러다임을 바꾸다 (17 march2014)경북대
 
[Week1] 데이터의 접근과 법률
[Week1] 데이터의 접근과 법률 [Week1] 데이터의 접근과 법률
[Week1] 데이터의 접근과 법률
 
[Week1] 데이터의 접근과 법률 bm
[Week1] 데이터의 접근과 법률 bm[Week1] 데이터의 접근과 법률 bm
[Week1] 데이터의 접근과 법률 bm
 
대한민국을 위한 Open Linked Political Data 플랫폼, "정치in" 제안
대한민국을 위한 Open Linked Political Data 플랫폼, "정치in" 제안대한민국을 위한 Open Linked Political Data 플랫폼, "정치in" 제안
대한민국을 위한 Open Linked Political Data 플랫폼, "정치in" 제안
 
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
2022.07.01 불평등연구회 특강 "계량모형과 자연어 분석을 결합하기"
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제7호(20180104)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제7호(20180104)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제7호(20180104)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제7호(20180104)
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제3호(20170905)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제3호(20170905)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제3호(20170905)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제3호(20170905)
 
글로벌 트위터 유력자 분석
글로벌 트위터 유력자 분석글로벌 트위터 유력자 분석
글로벌 트위터 유력자 분석
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해
 

데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석

  • 2. 2 “Data journalism is not graphics and visualisations. It's about telling the story in the best way possible.” “Sometimes that will be a visualisation or a map But sometimes it's a news story. Sometimes, just publishing the number is enough.” Data Driven Journalism
  • 3. Gun violence in America: How many years of life have been lost?
  • 4. “Data Journalism? It's just journalism” Simon Rogers (Twitter Data editor, 전 Guardian Data editor)
  • 5. DJA Prize : 4 categories • Data-driven investigative journalism: using data to uncover facts • Data storytelling (text, visualisation, video…) • Data-driven applications (mobile or web): serving data to your public • Data journalism website or section
  • 7. 예산 감시 : Where does my money go? Open Knowledge Foundation 의 Open Spending project 영국 Guardian 지의 예산 감시 보도
  • 9. ICIJ : 조세피난처 탐사보도
  • 10. • 260 기가바이트 데이터 : 위키릭스 160배, 비정형 데이터) • (2.5 million files, including more than 2 million e-mails) • 시각화 도구 : IBM® i2 Analyst's Notebook • 데이터 구조화, 네트워크 분석 : NUIX • dtSearch : free text retrieval(FTR) systems • unreadable files : OCR • 프로그래머 : 독일, 영국, 코스타리카 (Long-Distance Investigation) ICIJ : 조세피난처 데이터
  • 11. • 한국탐사저널리즘센터(KCIJ) – 비영리 비정파 독립 탐사보도 단체 – 대표 김용진(전 KBS 탐사보도팀장), 앵커 최승호(전 MBC PD수첩 PD), 데이터저널리즘연구소 권혜진(전 동아일보 CAR 전문기자) • 뉴스타파 – 한국탐사저널리즘센터의 탐사프로그램 – 데이터저널리즘에 기반한 탐사보도 추구 • 데이터저널리즘 프로젝트 – 박근혜 정부 초기 내각 검증 – 2013 고위공직자 재산 변동 및 공개 현황 – 조세피난처의 한국 기업들 – 국정원 연루 의혹 트위터 네트워크 분석 – 1990년 이후 고위공직자 재산 공개 자료 – 18대 대통령 선거비용 – 환경 GIS 지도 : 불산 등 유해물질 지도 뉴스타파 데이터저널리즘 프로젝트
  • 12. • 뉴스타파 웹 2013.03.01 • 초기 내각 후보자들의 재산, 연령, 성별, 예금, 부동산, 학위 등을 인터렉티브 그래픽으로 제작. • 인사청문회에 제출한 재산 신고액 정보를 인터렉티브 시각화 도구인 태블로(Tableau) 로 표현. 박근혜 정부 초기 내각 정보
  • 13. 2013 고위공직자 재산 변동 및 공개 현황 • 정부공직자윤리위원회가 정부 고위공무원과 지방자치단체장 등 1,933명을 대상으로 집계 한 재산총액 상위 10명은 대부분 지방자치 단체나 지방의회 공직자들. • 뉴스타파가 법원과 헌법재판소, 선거관리위 원회 공직자 171명을 추가해 모두 2106명을 대상으로 분석한 결과 법조계가 과반수. 뉴스타파 N 2013.04.05 ( http://newstapa.com/495 )
  • 14. • 뉴스타파 N 2013.04.12 뉴스타파 조세 피난처 집중 해부
  • 15. • 뉴스타파N 2013.4.19 국정원 연루 의혹 트위터 네트워크 분석
  • 16. 목 차 1. 데이터 수집 2. 리트윗 네트워크 분석 3. 키워드 분석 4. 분석의 한계와 제언
  • 18. 데이터 수집 의심정황 포착 의심계정 확보 수집 데이터 개요데이터 크롤링 가설 확인 국정원이 인터넷 여론에 조직적으로 개 입했다면, ‘오늘의 유머’사이트에 게재된 것과 같은 내용의 글이 다른 사이트에서도 확 인될 것이다.
  • 19. 데이터 수집 의심정황 포착 의심계정 확보 수집 데이터 개요데이터 크롤링 의심계정 확보 방법 1. 오유 사이트 국정원 글의 내용으로 인터넷 검색 2. 유사한 글을 작성하는 계정 확인 3. 2의 계정의 Following, Follower, RT한 계 정 등을 확인 4. 3의 계정이 ‘일정한 특성’을 충족할 경 우, 국정원 연루 의혹 계정으로 추정함 의심계정의 특성 • 12월 10일 또는 11일 일제히 활동 정지 또 는 계정 삭제 (이른바 ‘국정원녀 사건’이 터진 다음날) • 내용 면에서 천편일률적으로 북한·종북 비판, 정부 정책 찬양, 야당 비판 • 계정들의 시기별 트윗 활용 패턴 일치 • 보도에서 노출된 계정은 이틀 이내에 삭제 총 661개의 국정원 의심계정 확보!
  • 20. 트위터에서 사라진 ID 흔적 찾기 데이터 수집
  • 21. 데이터 수집 수집 대상: 웹로그 제공 사이트 의심정황 포착 의심계정 확보 수집 데이터 개요데이터 크롤링 수집 방법: 웹 크롤링(Crawling)
  • 22. 데이터 수집 데이터 크롤러의 로직과 수집 항목 의심정황 포착 의심계정 확보 수집 데이터 개요데이터 크롤링 ①트위터 아이디: 확보한 의 심계정 사용 ②페이지 넘버: 수집을 완료 하면 다음페이지로 ③개별 트윗 상세 내용 확인 ④트윗 원본 작성자 ⑤트윗 날짜 ⑥리트윗 횟수 ⑦리트윗한 계정들 ① ② ③ ④ ⑤ ⑥ ⑦
  • 23. 데이터 수집 의심정황 포착 의심계정 확보 수집 데이터 개요데이터 크롤링 데이터 개요 데이터에 관한 평가 수집 대상 의심계정의 프로필에 올라온 트윗 정보 수집 기간 2013년 4월 초 계정 수 454개 계정 (661개 중) 트윗 수 288,643개* 컨텐츠 수 36,122개** 관계 수 110,591개*** • 데이터가 실시간으로 삭제되고 있는 등 수집상의 한 계가 존재. (661 계정 중 454개 수집) • 그러나 ‘리트윗’등의 방법으로 커뮤니케이션이 오가는 SNS 공간의 특성으로 인하여, 주요 컨텐츠 제 공 자 들 은 빠 짐 없 이 확 인 할 수 있 었 음 . (그 계정의 프로필 페이지를 긁지 못하더라도, 다른 계정들의 프로필 페이지에서 다수 등장하게 됨) *직접 작성한 트윗과 리트윗을 구분하지 않고, 계산한 총 트 윗의 수 **리트윗을 제외하고 계산한 컨텐츠의 양 ***리트윗 관계에 등장한 노드 쌍(node pairs)의 수
  • 25. 리트윗 네트워크 분석 관계 데이터 정의 기초 분석 네트워크 지도커뮤니티 분석 Raw Data 관계 데이터 개념도 항목 설명 Status ID 해당 트윗의 고유번호 Screen name 트윗을 올린 계정 (프로필 페이지의 계정 이름) Author 해당 트윗의 원글 작성자 (즉, 리트윗의 경우 Screen name과 Author가 달라짐) Created at 트윗을 올린 날짜 # of Retweets 트윗이 리트윗된 횟수 Text 트윗 내용 Retweeted by 트윗을 리트윗한 계정 목록 sourcetarget yoonju*** maru*** Target이 Source의 글을 리트윗 한 관계 = Source로부터 Target으로 컨 텐츠(정보, 지식)가 전파된 관계
  • 26. 리트윗 네트워크 분석 관계 데이터 정의 기초 분석 네트워크 지도커뮤니티 분석 Link Weight Distribution Weight Frequency 1 78,003 2 18,035 3 5,923 4 2,646 5 1,296 6 835 7 551 8 406 9 335 10 247 11 205 12 165 …… …… 233 1 Total 110,591 0 10000 20000 30000 40000 50000 60000 70000 80000 90000 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 82 87 93 100 114 127 140 152 171 188 209 219 233 Cut-off value = 10 총 24만 개 상당의 RT 관계
  • 27. 리트윗 네트워크 분석 관계 데이터 정의 기초 분석 네트워크 지도커뮤니티 분석 Identifying Node-type ACCOUNT 전체 작성글 수 RT한 횟수 RT글의 비율 shore0987 473 0 0% taesan4 399 0 0% nudlenudle 395 0 0% harpesang 339 0 0% jogisic 325 0 0% type0789 303 0 0% humordelivery89 252 0 0% snailcharm 211 0 0% sungmin489 1365 100% kupapa584 1355 100% kimpoongsu 1383 100% kim_donga 1356 100% trustme070 1306 100% bonjujung 1354 100% 생산자 전달자
  • 28. 리트윗 네트워크 분석 관계 데이터 정의 기초 분석 네트워크 지도커뮤니티 분석 Degree Distribution 0 20 40 60 80 100 120 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 In-Degree (RT함) 0 50 100 150 200 250 0 2 4 6 8 11 17 23 27 30 40 56 70 Out-Degree (RT받음) 대부분의 계정은 하나의 계정으로 부터 컨텐츠를 공급받았다 대부분의 계정은 컨텐츠를 생산하지 않으며, 극소수 계정이 다수의 전달자계정에 컨텐츠를 공급한다
  • 29. 리트윗 네트워크 분석 관계 데이터 정의 기초 분석 네트워크 지도커뮤니티 분석 Modularity 그룹별 통계 분석 Modularity = 0.63 Modularity를 극대화하는 그룹 8개 발견 Out-Degree 계정 수 0 30 1 3 2 1 3 1 5 1 27 1 28 1 54 1 합계 39 각 그룹은 소수의 생산자와 다수의 전달자로 구성 생산자 3 전달자 36 • -1 과 1 사이의 스칼라 값을 가짐 • 그룹 내부의 링크 밀도(density)와 서로 다른 그룹 간의 링크 수를 비교하여 측정. • 그룹 내부의 링크 밀도가 더 높아지면, Modularity값도 높아짐 *분석 소프트웨어: Gephi 0.8.2 *사용된 알고리즘: Blondel V.D. et al.(2008), Fast unfolding of communities in large networks, J. Stat. Mech. (2008) P10008
  • 30. 리트윗 네트워크 분석 관계 데이터 정의 기초 분석 네트워크 지도커뮤니티 분석 ① 매우 뚜렷하게 모듈화 된 네트워크 구조를 보 임. ② 각 그룹마다 핵심적인 컨텐츠 생산자가 1-2 계정 존재하며, 전달자 계정들이 생산된 컨텐 츠를 퍼 나르는 양상을 보임. ③ 핵심계정들 사이에 긴 밀한 관계가 없는 것으 로 보아, 조직적인 업무 분담 가능성을 의심할 수 있음. 결과 해석 • 색상: 소속그룹 • 크기: Out-Degree 범례
  • 32. 키워드 분석 형태소 분석 트윗 내용 분류 대선관련 트윗 분석 개요 형태소 분석 결과 • 리트윗을 제외하고, 고유한 컨텐츠 36,000 여 개를 활용하여 컨텐츠 내용 분석 • 자연어 처리(NLP) 기법 중 형태소 분석 적용 순위 단어 언급횟수 순위 단어 언급횟수 1 북한 13,189 14 미사일 1,466 2 대한민국 3,288 15 종북세력 1,425 3 국민 2,495 16 천안 1,346 4 김정은 2,442 17 주민 1,338 5 일본 2,052 18 미국 1,311 6 대통령 1,916 19 연평도 1,274 7 한국 1,840 20 도발 1,161 8 안 1,762 21 남한 1,144 9 대한 1,705 22 대선 1,126 10 정부 1,624 23 발사 1,106 11 중국 1,615 24 문재인 1,091 12 김정일 1,597 25 우리나라 1,080 13 종북 1,520 26 안철수 1,023
  • 33. 키워드 분석 형태소 분석 트윗 내용 분류 대선관련 트윗 트윗 분류 및 ‘오늘의유머’게시글과의 비교 • 키워드의 등장패턴을 중심으로 트윗 분류 • 예시) ‘세계자연보전총회’+ ‘이명박’ = ‘MB정부 홍보’ 분류 컨텐츠 수 컨텐츠 비율 MB정부 홍보 1,990 8.70% 국내정치 비판(종북) 6,831 29.80% 대선 3,475 15.20% 북한 비판 9,472 41.40% 기타 1,128 4.90% 총합계 22,896 100.00%
  • 34. 키워드 분석 형태소 분석 트윗 내용 분류 대선관련 트윗 0 50 100 150 200 250 300 350 400 450 500 대선 관련 트윗 추이 • 시간은 5일 단위로 합산 • 8월부터 12월 11일까지의 컨텐츠만을 정리 • 리트윗 양은 고려되지 않음 이슈 발생에 따른 컨텐츠의 증감이 뚜렷이 나타남 • 9월 민주당 경선, 안후보 출마선언, 박후보 인혁당 사과 • 12월 대선후보 토론
  • 36. 키워드 분석 한계 • 트위터 ID의 삭제로 팔로잉과 팔로워 관계 데이터 부재. • Topsy 데이터 구조의 한계 제안 • 국내 다수 업체가 수집하고 있는 트위터 DB를 분석하면 팔로잉 팔로워 관계 분석을 통해 보다 정밀한 네트워크 분석 가능. • Topsy 데이터의 한계로 메시지가 전파된 경로를 볼 수 없으나 트위터 DB를 분석하면 전파 경로를 자세히 분석할 수 있음. 분석의 한계와 제안
  • 37. Data Journalism 참고 사이트 • Data Journalism Blog • Data Journalism Awards - Global Editors Network • The Data Journalism Handbook • School of Data • Source • Open Refine • Gephi • Hashtagify • Investigative Dashboard • Tabula • Topsy • International Consortium of Investigative Journalists • ProPublica • NPR Elections Big Board • Investigative Reporters and Editors