Analyzing Big Data to Discover Honest Signals of Innovation
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
1. 데이터에 포함된 동적 패턴의 탐색과 해
석을 위한 협업적 탐험 플랫폼
Collaborative and Exploratory Platform for Data
Dynamics Interpretation - CoDIP
2014.11.7
한국데이터사이언스 학회 연례학술대회
최진혁 Ph.D.
주식회사 인포리언스 (Inforience Inc.)
1
2. Contents
들어가는 말
빅 데이터 시대
데이터 활용 과정
생각해볼 문제
Why dynamic?
Why exploration?
Why interpretation?
Why collaboration?
A preliminary solution
The Concept of CoDIP
2
3. 빅 데이터 시대
데이터는 있는데, 무엇을 할 수 있을까요?
커뮤니티
센서
웹 로그
문서 모음
SNS
멀티미디어
데이터가 꼭 커야 하나요?
복잡한 통계, 기계학습 지식이 꼭 필요한가요?
관련 툴 사용법을 꼭 배워야 하나요?
제가 직접 관찰, 분석해볼 수는 없나요?
3
4. 데이터 활용 과정
Jiawei Han, Micheline Kamber, and Jian Pei, Data Mining:
Concepts and Techniques, 3rd edition, Morgan Kaufmann,
2011
CRISP 데이터 마이닝 프로세스 모델
4
5. 생각해볼 문제
Why dynamic?
Labor Market Conditions Index 코스피 지수 기후
뇌파 가속도 센서
http://www.kidca.com/
http://www.withrobot.com
http://skyobserver.net/aurora_gallery/26799
http://blog.daum.net/allthatvalue/11
Topic Chains for Understanding a News Corpus
(CICLING 2011)
5
7. 생각해볼 문제
Why exploration?
여러 가지 데이터 multiple domain
도메인 지식, 경험의 부족
복잡한, 정리되지 않은 질문과 가설
탐험 방법론의 부재
http://www.ndm.net/datawarehouse/IB
M/big-data-uses-cases
데이터 분석의 초기 단계
http://www.biofortis.com/pro
ducts/qiagram/
7
??
12. A Preliminary Solution
Requirements
Dynamic data
Exploration
Interpretation
Collaboration
Application
Easy to use
해석 결과 공유
해석 결과 공유
해석 결과 공유
해석 결과 공유
시각화 해석
시각화
해석
해석
해석
시각화
시각화
DATA DATA
DATA
DATA
12
13. A Preliminary Solution
The Concept of CoDIP
Dynamics exploration
Replay & Automatic exploration
Start, stop, rewind, FF
Clustering, classification,
(temporal) rule mining,
correlation, causality, etc.
Exploration by User interaction
Pattern setting & finding
matched
Programming for new methods
Visualization of exploration
results as well as raw data
Collaborative
Domain beginner as well as
domain expert
Mining beginner as well as
mining expert
Find & interpretation & sharing
toward final agreement
T_a T_b T_c
Preprocessing
Data mining
library
User rule
processing
engine
Visualization
Interpretation
& sharing
User User User User User
Interaction
handling
Data storage & DBMS
13
14. A Preliminary Solution
The Concept of CoDIP
데이터 업로드
데이터 확인 및 핸들링
전문적인 알고리즘 선택 활용
원하는 패턴의 탐색
발견된 패턴의 해석과 기록
분석 및 해석 결과의 공유와 협업
최종 결과의 활용
14