SlideShare ist ein Scribd-Unternehmen logo
1 von 28
Downloaden Sie, um offline zu lesen
유은
• 경영학 + 전자공학
• 인터넷 개인방송, 소셜 미디어, 영화, 미디어 규제, 통신, …
• 공공 데이터, 웹 스크래핑, 인터넷 서비스 로그, 설문조사, …
Contact
• eunyu1031@gmail.com
오리엔테이션
This course covers the foundational skills required of a visual data
journalist or anyone who seeks to present numbers visually. Students will
learn how to evaluate, analyze and present data. It enables students to
become literate about data so that you avoid common mistakes made
with visualization. Students will explore various datasets using Python
(which is used most extensively at current workplaces) especially
visualization packages. Basic programming knowledge is a prerequisite
for using the tool.
오리엔테이션: 개요
오리엔테이션
오리엔테이션
오리엔테이션
1. Scrutinize tables, charts and data visualizations.
• Communicate numbers and basic statistics
2. Identify reliable sources of data and understand their limitations.
• Evaluate quality of data and reflect it on interpretations.
3. Understand data to find patterns and insights.
• Analyze and present data to answer questions.
4. Learn visualization techniques to data.
• Apply Python-based data visualization techniques and methods to
explore data
오리엔테이션: 목표와 성과
Data visualization literacy (데이터 기반 시각적 문해력):
데이터 시각화를 읽고, 만들고, 설명할 수 있는 능력.
• 데이터(data)
✓ 정보를 나타내는 수치로, 가공되지 않고 아직 의미를 가지지 않은 상태의 개체이다.
✓ 수집/측정/분석되어 새로운 가치를 창출할 수 있다.
• 시각화(visualization)
✓ 추상적인 수량 데이터에 인지적 메커니즘을 적용하여 데이터의 관련된 형태나 순서, 또는 예외사
항을 확인하는 데 유용하다.
✓ 원 데이터(raw data)를 바탕으로 직접적인 관점을 제공하며 정보를 효과적으로 전달하기 위한
방법이다.
오리엔테이션
조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
Data visualization literacy (데이터 기반 시각적 문해력):
데이터 시각화를 읽고, 만들고, 설명할 수 있는 능력으로 아래의 능력을 포함한다.
① 문해력 (textual literacy): 글을 읽고 이해하여 지식을 쌓고 목표를 이루는 데 사용할 수
있는 능력
② 수리력/산술능력(mathematical literacy/numeracy): 수직선, 시간, 비율, 확률 등 수학
적인 개념을 다양한 상황에서 해석하고 적용할 수 있는 능력
오리엔테이션
https://www.pnas.org/content/pnas/116/6/1857.full.pdf
https://www.news1.kr/articles/?3823172
http://www.inven.co.kr/board/webzine/2097/1342455
http://journal.kiso.or.kr/?p=7012
Data visualization literacy (데이터 기반 시각적 문해력):
데이터 시각화를 읽고, 만들고, 설명할 수 있는 능력으로 아래의 능력을 포함한다.
① 문해력 (textual literacy): 글을 읽고 이해하여 지식을 쌓고 목표를 이루는 데 사용할 수
있는 능력
② 수리력/산술능력(mathematical literacy/numeracy): 수직선, 시간, 비율, 확률 등 수학
적인 개념을 다양한 상황에서 해석하고 적용할 수 있는 능력
③ 시각적 문해력 (visual literacy): 시각적 미디어를 해석하고 평가할 수 있으며 이를 만들
어 사용할 수 있는 능력
오리엔테이션
Data visualization literacy (데이터 기반 시각적 문해력):
데이터 시각화를 읽고, 만들고, 설명할 수 있는 능력으로 아래의 능력을 포함한다.
① 문해력 (textual literacy): 글을 읽고 이해하여 지식을 쌓고 목표를 이루는 데 사용할 수
있는 능력
② 수리력/산술능력(mathematical literacy/numeracy): 수직선, 시간, 비율, 확률 등 수학
적인 개념을 다양한 상황에서 해석하고 적용할 수 있는 능력
③ 시각적 문해력 (visual literacy): 시각적 미디어를 해석하고 평가할 수 있으며 이를 만들
어 사용할 수 있는 능력
④ 데이터 리터러시 (data literacy):다양한 상황에서 데이터를 읽고, 쓰고, 분석하여 소통할
수 있는 능력
오리엔테이션
데이터 리터러시 (data literacy)
• 다양한 상황에서 데이터를 읽고, 쓰고, 분석하여 소통할 수 있는 능력
• 데이터의 출처를 평가하고 데이터의 구조, 적용된 분석 방법과 기법, 사용/적용/결과값을 설
명하는 능력을 이해하는 것을 포함
• 데이터 리터러시의 전통적 관점은 통계 그래프나 차트를 읽고 이해하는 능력, 즉 데이터의
수량적-통계적 측면만을 강조
• 하지만 단순히 ‘통계적 읽고 쓰기’에만 국한되는 것이 아니라,
데이터를 통계적, 기술적으로 처리하는 능력과 함께
다양한 데이터에서 가치를 뽑아내고
그것을 해석, 시각화, 전달하는 능력을 요구
오리엔테이션
왜 파이썬 (Python)?
• 초기 학습이 쉬우며 이용자 커뮤니티가 넓다
✓ 예: 파이콘 https://www.pycon.kr/program/talks
• 무료이다.
✓ 유료 시각화 툴이 많으나, 무료이고 널리 쓰이는 툴을 선택
• 다양한 시각화 도구를 제공한다.
✓ Matplotlib, seaborn, pywaffle, plotly, pyecharts…
오리엔테이션
왜 파이썬 (Python)?
• 다양한 확장 기능을 제공하며, 머신 러닝을 비롯한 전문 분야에서 널리 활용된다
✓ 예: 텐서플로우, 유튜브, 인스타그램, 문명 4 …
✓ 필요한 경우 데이터베이스, 수치연산등 다른 분야로 이해를 넓힐 수 있다.
✓ 대용량/다수의 파일을 처리하고 과정을 자동화할 수 있다.
오리엔테이션
https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-
consuming-least-enjoyable-data-science-task-survey-says/#66636cd26f63
https://www.tiobe.com/tiobe-index/
https://en.wikipedia.org/wiki/List_of_Python_software
원시
데이터
수집
데이터
처리
데이터
클리닝
탐색적
데이터
분석
통계분석
기계학습
알고리즘
데이터
상품개발
커뮤니케이션
시각화
결과보고
• 질문에 대한 답을 데이터에서 끌어내어 시각화
• 클리닝의 비중이 크고 분석은 일부분만 다룰 예정
오리엔테이션: 범위
<데이터 과학의 과정> Cathy O’Neil & Rachel Schutt (2013), Doing Data Science, O’REILLY.
• 질문과 시각화: 분포, 순서, 구성, 추세, 관계, 프로파일링
• 한국미디어패널 데이터 외 (https://stat.kisdi.re.kr/)
오리엔테이션: 범위
질문의 분류 예시 차트
분포 distribution 표본의 연령별 분포는 어떠한가? 히스토그램(histogram), 상자수염 도표(box-and-whisker
plot) 등
이론: 데이터 출처, 조사방법, 변수의 종류
질문: 한국미디어패널의 인구 구성, 디지털 콘텐츠 유료이용 등
순서order, 정렬sort, 순위rank 사람들은 어떤 종류의 앱을 가장 많이 사용
하는가?
막대그래프(bar plot), 스트립 도표(strip plot), 막대사탕 도표
(lollipop chart) 등
이론: 요약통계치, 결측치와 이상치, 막대그래프의 주의점
질문: 스마트폰 앱 사용 순위, 온라인쇼핑몰 구매경험 등
구성 composition 각 이동통신사의 한국시장점유율은 어느 정
도인가?
원그래프(pie chart, donut chart), 트리맵(treemap) 등
이론: 백분율, 원그래프(pie chart)의 장단점과 대안
질문: 이동통신사, 핸드폰 제조사, 소셜미디어 뉴스 점유율 등
추세 growth/trend 이동통신사의 시장점유율은 시간에 따라 높
아지고 있는가?
선그래프(line plot), 기울기 차트(slope chart) 등
이론: 패널 데이터, 선 차트의 주의점
• 질문과 시각화: 분포, 순서, 구성, 추세, 관계, 프로파일링
• 한국미디어패널 데이터 외 (https://stat.kisdi.re.kr/)
오리엔테이션: 범위
질문의 분류 예시 차트
분포 distribution 표본의 연령별 분포는 어떠한가? 히스토그램(histogram), 상자수염 도표(box-and-whisker
plot) 등
이론: 데이터 출처, 조사방법, 변수의 종류
질문: 한국미디어패널의 인구 구성, 디지털 콘텐츠 유료이용 등
순서order, 정렬sort, 순위rank 사람들은 어떤 종류의 앱을 가장 많이 사용
하는가?
막대그래프(bar plot), 스트립 도표(strip plot), 막대사탕 도표
(lollipop chart) 등
이론: 요약통계치, 결측치와 이상치, 막대그래프의 주의점
질문: 스마트폰 앱 사용 순위, 온라인쇼핑몰 구매경험 등
구성 composition 각 이동통신사의 한국시장점유율은 어느 정
도인가?
원그래프(pie chart, donut chart), 트리맵(treemap) 등
이론: 백분율, 원그래프(pie chart)의 장단점과 대안
질문: 이동통신사, 핸드폰 제조사, 소셜미디어 뉴스 점유율 등
추세 growth/trend 이동통신사의 시장점유율은 시간에 따라 높
아지고 있는가?
선그래프(line plot), 기울기 차트(slope chart) 등
질문: 한국미디어패널의 인구 구성, 디지털 콘텐츠 유료이용 등
순서order, 정렬sort, 순위rank 사람들은 어떤 종류의 앱을 가장 많이 사용
하는가?
막대그래프(bar plot), 스트립 도표(strip plot), 막대사탕 도표
(lollipop chart) 등
이론: 요약통계치, 결측치와 이상치, 막대그래프의 주의점
질문: 스마트폰 앱 사용 순위, 온라인쇼핑몰 구매경험 등
구성 composition 각 이동통신사의 한국시장점유율은 어느 정
도인가?
원그래프(pie chart, donut chart), 트리맵(treemap) 등
이론: 백분율, 원그래프(pie chart)의 장단점과 대안
질문: 이동통신사, 핸드폰 제조사, 소셜미디어 뉴스 점유율 등
추세 growth/trend 이동통신사의 시장점유율은 시간에 따라 높
아지고 있는가?
선그래프(line plot), 기울기 차트(slope chart) 등
이론: 패널 데이터, 선 차트의 주의점
질문: 소셜 미디어의 변화
프로파일링 Profiling 연령별 온라인 커뮤니티 사용에 차이는 무엇
인가?
많은 관측치의 시각 표현
질문: 그 많은 댓글은 누가 쓰는가
지역별 분포 distribution 서울의 각 지역(구)별로 범죄율 분포는 어떠
한가?
지도에 표현하기
이론: 위도와 경도
관계 relation 소셜 미디어와 정치 성향의 변화에 관계가
있는가?
산점도(scatter plot), 클러스터링(clustering), 버블 차트
(bubble chart) 등
이론: 상관관계와 인과관계, 클러스터링
강의자료
• Google is our textbook.
• 강의자료는 PPT와 파이썬 코드(.ipynb)로 구성
• 수업 후반부에 추가로 참고하는 책이 있을 경우 따로 공지
• 파이썬 기초 참고: https://python.bakyeono.net/
오리엔테이션
1. Google Colaboratory
• 컴퓨터에 설치할 필요 없이 구글 드라이브에서 Python 코드를 작성/실행/공유
• 네트워크에 따라 시간 지연이 발생할 수 있으며, 일정 시간이 지나면 초기화
• 크롬 (Chrome) 권장
• 공식 F&Q: https://research.google.com/colaboratory/faq.html
2. Jupyter notebook (Anaconda)
• 개인 컴퓨터에 설치 가능한 경우 권장하며, 강의실에서 수업을 진행할 경우 함께 설치할 예
정
• 크롬 (Chrome) 권장
3. 그 외
• 데이터 분석에는 적합하지 않아 권장하지 않으나 상식선에서 소개
프로그램 안내 및 설치
1. Google Colaboratory: 드라이브에 업로드한 ipynb 파일 열기
• drive.google.com
• 드라이브 내에서 작업 및 다른 사람과 공유 가능
• 다른 곳에서 작성한 파일 읽기/쓰기/실행 가능
프로그램 안내 및 설치
1. Google Colaboratory: 드라이브에 업로드한 ipynb 파일 열기
• 연결 앱 선택지에 없을 경우 ‘연결할 앱 더보기’로 검색
• 한 번 연결한 후에는 선택지를 계속 볼 수 있음
프로그램 안내 및 설치
1. Google Colaboratory: 드라이브에서 ipynb 파일 만들기
프로그램 안내 및 설치
1. Google Colaboratory
2. Jupyter notebook (Anaconda)
• 프로그램 개발과 관련된 모든 작업을 지원하는 프로그램(IDE; Integrated Development
Environment)으로, Python과 함께 설치됨
• 다운로드: https://www.anaconda.com/distribution/#download-section
• 기존에 파이썬이 설치되어 있다면 삭제하고 설치하는 것을 권장
• 온라인(접근성은 좋으나 속도가 느려 피치 못할 경우에만 사용할 것)
https://jupyter.org/try
• 결과를 바로 확인할 수 있어 데이터 분석에 사용하기에 매우 편리
• Jupyter notebook은 문법 오류 교정 및 프로젝트 관리 기능은 떨어지는 편
• 파일 확장자 .ipynb
3. 그 외
프로그램 안내 및 설치
2. Jupyter notebook (Anaconda)
• Jupyter notebook 열기
• 크롬, 인터넷 익스플로러 등 브라우저에서 실행됨
• 실행되지 않는 경우 브라우저에 직접 입력: http://localhost:8888/tree
프로그램 안내 및 설치
2. Jupyter notebook (Anaconda)
• 함께 실행되는 콘솔 창은 닫지 말 것
• 설치한 컴퓨터에 따라 다를 수 있으나, 보통 ‘C:Users(사용자 계정이름)’폴더와 연결
프로그램 안내 및 설치
2. Jupyter notebook (Anaconda)
프로그램 안내 및 설치
Enter
Shift + Enter
• 한 셀 내에서 작성
• 새로운 셀(cell) 만들기
• 다음 셀로 이동
2. Jupyter notebook (Anaconda)
프로그램 안내 및 설치
Ctrl+Enter
• 코드의 출력결과 보기
• a, b값 저장
3. 그 외
① Python idle
• 기본 에디터
• 파일 확장자 .py가 기본
• 아래 링크에서 Python을 받을 수 있으나, Anaconda를 설치한 경우 재설치할 필요 없음
• https://www.python.org/downloads/
② 파이참(Pycharm)
• 코드 작성 시 자동완성, 문법체크 등 편리한 기능들을 제공
• 널리 쓰이는 IDE 중 하나
• Professional edition(유료)과 community edition(무료) 제공
• https://www.jetbrains.com/pycharm/
③ Python online interpreter
• 급할 때 검색해서 가장 편한 것을 이용
• 보통 코드 작성 창과 결과 창으로 구성
• https://repl.it/languages/python3
프로그램 안내 및 설치
End of document
유 은
eunyu1031@gmail.com

Weitere ähnliche Inhalte

Ähnlich wie Week1 ot

실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루Jaimie Kwon (권재명)
 
분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질Sun Young Kim
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data AnalysisMyunggoon Choi
 
UI/UX 개선을 위한 빠른 프로토타이핑
UI/UX 개선을 위한 빠른 프로토타이핑UI/UX 개선을 위한 빠른 프로토타이핑
UI/UX 개선을 위한 빠른 프로토타이핑Dongsik Yang
 
How to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyHow to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyDataya Nolja
 
소프트웨어교육론 전체
소프트웨어교육론 전체소프트웨어교육론 전체
소프트웨어교육론 전체YoungSik Jeong
 
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례Core.Today
 
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)Han Woo PARK
 
AWS 사업계획서 pt- Yoon Dong Jin
AWS 사업계획서 pt- Yoon Dong JinAWS 사업계획서 pt- Yoon Dong Jin
AWS 사업계획서 pt- Yoon Dong Jin윤 동진
 
빅데이터를 활용한 소셜 큐레이션과 로컬 서비스 플랫폼 에트리_특강_자문
빅데이터를 활용한 소셜 큐레이션과 로컬 서비스 플랫폼 에트리_특강_자문빅데이터를 활용한 소셜 큐레이션과 로컬 서비스 플랫폼 에트리_특강_자문
빅데이터를 활용한 소셜 큐레이션과 로컬 서비스 플랫폼 에트리_특강_자문JM code group
 
[티그리스]성공한 기업의 협업과 소통
[티그리스]성공한 기업의 협업과 소통[티그리스]성공한 기업의 협업과 소통
[티그리스]성공한 기업의 협업과 소통socialware
 
꿈꾸는 데이터 디자이너 시즌2 교육설명회
꿈꾸는 데이터 디자이너 시즌2 교육설명회꿈꾸는 데이터 디자이너 시즌2 교육설명회
꿈꾸는 데이터 디자이너 시즌2 교육설명회neuroassociates
 
대학생 It전공자를 위한 소프트웨어특강
대학생 It전공자를 위한 소프트웨어특강 대학생 It전공자를 위한 소프트웨어특강
대학생 It전공자를 위한 소프트웨어특강 병석 양
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScienceNAVER D2
 
1.introduction(epoch#2)
1.introduction(epoch#2)1.introduction(epoch#2)
1.introduction(epoch#2)Haesun Park
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요Hosung Lee
 
예비 개발자를 위한 소프트웨어 세상 이야기
예비 개발자를 위한 소프트웨어 세상 이야기예비 개발자를 위한 소프트웨어 세상 이야기
예비 개발자를 위한 소프트웨어 세상 이야기수보 김
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드kosena
 

Ähnlich wie Week1 ot (20)

실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루
 
분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 
UI/UX 개선을 위한 빠른 프로토타이핑
UI/UX 개선을 위한 빠른 프로토타이핑UI/UX 개선을 위한 빠른 프로토타이핑
UI/UX 개선을 위한 빠른 프로토타이핑
 
How to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyHow to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its Difficulty
 
소프트웨어교육론 전체
소프트웨어교육론 전체소프트웨어교육론 전체
소프트웨어교육론 전체
 
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
 
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
 
AWS 사업계획서 pt- Yoon Dong Jin
AWS 사업계획서 pt- Yoon Dong JinAWS 사업계획서 pt- Yoon Dong Jin
AWS 사업계획서 pt- Yoon Dong Jin
 
빅데이터를 활용한 소셜 큐레이션과 로컬 서비스 플랫폼 에트리_특강_자문
빅데이터를 활용한 소셜 큐레이션과 로컬 서비스 플랫폼 에트리_특강_자문빅데이터를 활용한 소셜 큐레이션과 로컬 서비스 플랫폼 에트리_특강_자문
빅데이터를 활용한 소셜 큐레이션과 로컬 서비스 플랫폼 에트리_특강_자문
 
Research
ResearchResearch
Research
 
[티그리스]성공한 기업의 협업과 소통
[티그리스]성공한 기업의 협업과 소통[티그리스]성공한 기업의 협업과 소통
[티그리스]성공한 기업의 협업과 소통
 
꿈꾸는 데이터 디자이너 시즌2 교육설명회
꿈꾸는 데이터 디자이너 시즌2 교육설명회꿈꾸는 데이터 디자이너 시즌2 교육설명회
꿈꾸는 데이터 디자이너 시즌2 교육설명회
 
대학생 It전공자를 위한 소프트웨어특강
대학생 It전공자를 위한 소프트웨어특강 대학생 It전공자를 위한 소프트웨어특강
대학생 It전공자를 위한 소프트웨어특강
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience
 
1.introduction(epoch#2)
1.introduction(epoch#2)1.introduction(epoch#2)
1.introduction(epoch#2)
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요
 
사업계획서
사업계획서사업계획서
사업계획서
 
예비 개발자를 위한 소프트웨어 세상 이야기
예비 개발자를 위한 소프트웨어 세상 이야기예비 개발자를 위한 소프트웨어 세상 이야기
예비 개발자를 위한 소프트웨어 세상 이야기
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드
 

Mehr von Eun Yu

Week9 data vis(5)
Week9 data vis(5)Week9 data vis(5)
Week9 data vis(5)Eun Yu
 
Week7 data vis(4)
Week7 data vis(4)Week7 data vis(4)
Week7 data vis(4)Eun Yu
 
Week6 data vis(3)
Week6 data vis(3)Week6 data vis(3)
Week6 data vis(3)Eun Yu
 
Week5 data vis(2)
Week5 data vis(2)Week5 data vis(2)
Week5 data vis(2)Eun Yu
 
Week14 wrapup
Week14 wrapupWeek14 wrapup
Week14 wrapupEun Yu
 
Week13 cluster(2)
Week13 cluster(2)Week13 cluster(2)
Week13 cluster(2)Eun Yu
 
Week12 cluster(1)
Week12 cluster(1)Week12 cluster(1)
Week12 cluster(1)Eun Yu
 
Week11 map
Week11 mapWeek11 map
Week11 mapEun Yu
 
Week4 data visualization
Week4 data visualization Week4 data visualization
Week4 data visualization Eun Yu
 
Week2-3 review
Week2-3 reviewWeek2-3 review
Week2-3 reviewEun Yu
 

Mehr von Eun Yu (10)

Week9 data vis(5)
Week9 data vis(5)Week9 data vis(5)
Week9 data vis(5)
 
Week7 data vis(4)
Week7 data vis(4)Week7 data vis(4)
Week7 data vis(4)
 
Week6 data vis(3)
Week6 data vis(3)Week6 data vis(3)
Week6 data vis(3)
 
Week5 data vis(2)
Week5 data vis(2)Week5 data vis(2)
Week5 data vis(2)
 
Week14 wrapup
Week14 wrapupWeek14 wrapup
Week14 wrapup
 
Week13 cluster(2)
Week13 cluster(2)Week13 cluster(2)
Week13 cluster(2)
 
Week12 cluster(1)
Week12 cluster(1)Week12 cluster(1)
Week12 cluster(1)
 
Week11 map
Week11 mapWeek11 map
Week11 map
 
Week4 data visualization
Week4 data visualization Week4 data visualization
Week4 data visualization
 
Week2-3 review
Week2-3 reviewWeek2-3 review
Week2-3 review
 

Week1 ot

  • 1. 유은 • 경영학 + 전자공학 • 인터넷 개인방송, 소셜 미디어, 영화, 미디어 규제, 통신, … • 공공 데이터, 웹 스크래핑, 인터넷 서비스 로그, 설문조사, … Contact • eunyu1031@gmail.com 오리엔테이션
  • 2. This course covers the foundational skills required of a visual data journalist or anyone who seeks to present numbers visually. Students will learn how to evaluate, analyze and present data. It enables students to become literate about data so that you avoid common mistakes made with visualization. Students will explore various datasets using Python (which is used most extensively at current workplaces) especially visualization packages. Basic programming knowledge is a prerequisite for using the tool. 오리엔테이션: 개요
  • 6. 1. Scrutinize tables, charts and data visualizations. • Communicate numbers and basic statistics 2. Identify reliable sources of data and understand their limitations. • Evaluate quality of data and reflect it on interpretations. 3. Understand data to find patterns and insights. • Analyze and present data to answer questions. 4. Learn visualization techniques to data. • Apply Python-based data visualization techniques and methods to explore data 오리엔테이션: 목표와 성과
  • 7. Data visualization literacy (데이터 기반 시각적 문해력): 데이터 시각화를 읽고, 만들고, 설명할 수 있는 능력. • 데이터(data) ✓ 정보를 나타내는 수치로, 가공되지 않고 아직 의미를 가지지 않은 상태의 개체이다. ✓ 수집/측정/분석되어 새로운 가치를 창출할 수 있다. • 시각화(visualization) ✓ 추상적인 수량 데이터에 인지적 메커니즘을 적용하여 데이터의 관련된 형태나 순서, 또는 예외사 항을 확인하는 데 유용하다. ✓ 원 데이터(raw data)를 바탕으로 직접적인 관점을 제공하며 정보를 효과적으로 전달하기 위한 방법이다. 오리엔테이션 조르즈 카몽이스(2017). 데이터 시각화 원리. 에이콘출판사
  • 8. Data visualization literacy (데이터 기반 시각적 문해력): 데이터 시각화를 읽고, 만들고, 설명할 수 있는 능력으로 아래의 능력을 포함한다. ① 문해력 (textual literacy): 글을 읽고 이해하여 지식을 쌓고 목표를 이루는 데 사용할 수 있는 능력 ② 수리력/산술능력(mathematical literacy/numeracy): 수직선, 시간, 비율, 확률 등 수학 적인 개념을 다양한 상황에서 해석하고 적용할 수 있는 능력 오리엔테이션 https://www.pnas.org/content/pnas/116/6/1857.full.pdf https://www.news1.kr/articles/?3823172 http://www.inven.co.kr/board/webzine/2097/1342455 http://journal.kiso.or.kr/?p=7012
  • 9. Data visualization literacy (데이터 기반 시각적 문해력): 데이터 시각화를 읽고, 만들고, 설명할 수 있는 능력으로 아래의 능력을 포함한다. ① 문해력 (textual literacy): 글을 읽고 이해하여 지식을 쌓고 목표를 이루는 데 사용할 수 있는 능력 ② 수리력/산술능력(mathematical literacy/numeracy): 수직선, 시간, 비율, 확률 등 수학 적인 개념을 다양한 상황에서 해석하고 적용할 수 있는 능력 ③ 시각적 문해력 (visual literacy): 시각적 미디어를 해석하고 평가할 수 있으며 이를 만들 어 사용할 수 있는 능력 오리엔테이션
  • 10. Data visualization literacy (데이터 기반 시각적 문해력): 데이터 시각화를 읽고, 만들고, 설명할 수 있는 능력으로 아래의 능력을 포함한다. ① 문해력 (textual literacy): 글을 읽고 이해하여 지식을 쌓고 목표를 이루는 데 사용할 수 있는 능력 ② 수리력/산술능력(mathematical literacy/numeracy): 수직선, 시간, 비율, 확률 등 수학 적인 개념을 다양한 상황에서 해석하고 적용할 수 있는 능력 ③ 시각적 문해력 (visual literacy): 시각적 미디어를 해석하고 평가할 수 있으며 이를 만들 어 사용할 수 있는 능력 ④ 데이터 리터러시 (data literacy):다양한 상황에서 데이터를 읽고, 쓰고, 분석하여 소통할 수 있는 능력 오리엔테이션
  • 11. 데이터 리터러시 (data literacy) • 다양한 상황에서 데이터를 읽고, 쓰고, 분석하여 소통할 수 있는 능력 • 데이터의 출처를 평가하고 데이터의 구조, 적용된 분석 방법과 기법, 사용/적용/결과값을 설 명하는 능력을 이해하는 것을 포함 • 데이터 리터러시의 전통적 관점은 통계 그래프나 차트를 읽고 이해하는 능력, 즉 데이터의 수량적-통계적 측면만을 강조 • 하지만 단순히 ‘통계적 읽고 쓰기’에만 국한되는 것이 아니라, 데이터를 통계적, 기술적으로 처리하는 능력과 함께 다양한 데이터에서 가치를 뽑아내고 그것을 해석, 시각화, 전달하는 능력을 요구 오리엔테이션
  • 12. 왜 파이썬 (Python)? • 초기 학습이 쉬우며 이용자 커뮤니티가 넓다 ✓ 예: 파이콘 https://www.pycon.kr/program/talks • 무료이다. ✓ 유료 시각화 툴이 많으나, 무료이고 널리 쓰이는 툴을 선택 • 다양한 시각화 도구를 제공한다. ✓ Matplotlib, seaborn, pywaffle, plotly, pyecharts… 오리엔테이션
  • 13. 왜 파이썬 (Python)? • 다양한 확장 기능을 제공하며, 머신 러닝을 비롯한 전문 분야에서 널리 활용된다 ✓ 예: 텐서플로우, 유튜브, 인스타그램, 문명 4 … ✓ 필요한 경우 데이터베이스, 수치연산등 다른 분야로 이해를 넓힐 수 있다. ✓ 대용량/다수의 파일을 처리하고 과정을 자동화할 수 있다. 오리엔테이션 https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time- consuming-least-enjoyable-data-science-task-survey-says/#66636cd26f63 https://www.tiobe.com/tiobe-index/ https://en.wikipedia.org/wiki/List_of_Python_software
  • 14. 원시 데이터 수집 데이터 처리 데이터 클리닝 탐색적 데이터 분석 통계분석 기계학습 알고리즘 데이터 상품개발 커뮤니케이션 시각화 결과보고 • 질문에 대한 답을 데이터에서 끌어내어 시각화 • 클리닝의 비중이 크고 분석은 일부분만 다룰 예정 오리엔테이션: 범위 <데이터 과학의 과정> Cathy O’Neil & Rachel Schutt (2013), Doing Data Science, O’REILLY.
  • 15. • 질문과 시각화: 분포, 순서, 구성, 추세, 관계, 프로파일링 • 한국미디어패널 데이터 외 (https://stat.kisdi.re.kr/) 오리엔테이션: 범위 질문의 분류 예시 차트 분포 distribution 표본의 연령별 분포는 어떠한가? 히스토그램(histogram), 상자수염 도표(box-and-whisker plot) 등 이론: 데이터 출처, 조사방법, 변수의 종류 질문: 한국미디어패널의 인구 구성, 디지털 콘텐츠 유료이용 등 순서order, 정렬sort, 순위rank 사람들은 어떤 종류의 앱을 가장 많이 사용 하는가? 막대그래프(bar plot), 스트립 도표(strip plot), 막대사탕 도표 (lollipop chart) 등 이론: 요약통계치, 결측치와 이상치, 막대그래프의 주의점 질문: 스마트폰 앱 사용 순위, 온라인쇼핑몰 구매경험 등 구성 composition 각 이동통신사의 한국시장점유율은 어느 정 도인가? 원그래프(pie chart, donut chart), 트리맵(treemap) 등 이론: 백분율, 원그래프(pie chart)의 장단점과 대안 질문: 이동통신사, 핸드폰 제조사, 소셜미디어 뉴스 점유율 등 추세 growth/trend 이동통신사의 시장점유율은 시간에 따라 높 아지고 있는가? 선그래프(line plot), 기울기 차트(slope chart) 등 이론: 패널 데이터, 선 차트의 주의점
  • 16. • 질문과 시각화: 분포, 순서, 구성, 추세, 관계, 프로파일링 • 한국미디어패널 데이터 외 (https://stat.kisdi.re.kr/) 오리엔테이션: 범위 질문의 분류 예시 차트 분포 distribution 표본의 연령별 분포는 어떠한가? 히스토그램(histogram), 상자수염 도표(box-and-whisker plot) 등 이론: 데이터 출처, 조사방법, 변수의 종류 질문: 한국미디어패널의 인구 구성, 디지털 콘텐츠 유료이용 등 순서order, 정렬sort, 순위rank 사람들은 어떤 종류의 앱을 가장 많이 사용 하는가? 막대그래프(bar plot), 스트립 도표(strip plot), 막대사탕 도표 (lollipop chart) 등 이론: 요약통계치, 결측치와 이상치, 막대그래프의 주의점 질문: 스마트폰 앱 사용 순위, 온라인쇼핑몰 구매경험 등 구성 composition 각 이동통신사의 한국시장점유율은 어느 정 도인가? 원그래프(pie chart, donut chart), 트리맵(treemap) 등 이론: 백분율, 원그래프(pie chart)의 장단점과 대안 질문: 이동통신사, 핸드폰 제조사, 소셜미디어 뉴스 점유율 등 추세 growth/trend 이동통신사의 시장점유율은 시간에 따라 높 아지고 있는가? 선그래프(line plot), 기울기 차트(slope chart) 등 질문: 한국미디어패널의 인구 구성, 디지털 콘텐츠 유료이용 등 순서order, 정렬sort, 순위rank 사람들은 어떤 종류의 앱을 가장 많이 사용 하는가? 막대그래프(bar plot), 스트립 도표(strip plot), 막대사탕 도표 (lollipop chart) 등 이론: 요약통계치, 결측치와 이상치, 막대그래프의 주의점 질문: 스마트폰 앱 사용 순위, 온라인쇼핑몰 구매경험 등 구성 composition 각 이동통신사의 한국시장점유율은 어느 정 도인가? 원그래프(pie chart, donut chart), 트리맵(treemap) 등 이론: 백분율, 원그래프(pie chart)의 장단점과 대안 질문: 이동통신사, 핸드폰 제조사, 소셜미디어 뉴스 점유율 등 추세 growth/trend 이동통신사의 시장점유율은 시간에 따라 높 아지고 있는가? 선그래프(line plot), 기울기 차트(slope chart) 등 이론: 패널 데이터, 선 차트의 주의점 질문: 소셜 미디어의 변화 프로파일링 Profiling 연령별 온라인 커뮤니티 사용에 차이는 무엇 인가? 많은 관측치의 시각 표현 질문: 그 많은 댓글은 누가 쓰는가 지역별 분포 distribution 서울의 각 지역(구)별로 범죄율 분포는 어떠 한가? 지도에 표현하기 이론: 위도와 경도 관계 relation 소셜 미디어와 정치 성향의 변화에 관계가 있는가? 산점도(scatter plot), 클러스터링(clustering), 버블 차트 (bubble chart) 등 이론: 상관관계와 인과관계, 클러스터링
  • 17. 강의자료 • Google is our textbook. • 강의자료는 PPT와 파이썬 코드(.ipynb)로 구성 • 수업 후반부에 추가로 참고하는 책이 있을 경우 따로 공지 • 파이썬 기초 참고: https://python.bakyeono.net/ 오리엔테이션
  • 18. 1. Google Colaboratory • 컴퓨터에 설치할 필요 없이 구글 드라이브에서 Python 코드를 작성/실행/공유 • 네트워크에 따라 시간 지연이 발생할 수 있으며, 일정 시간이 지나면 초기화 • 크롬 (Chrome) 권장 • 공식 F&Q: https://research.google.com/colaboratory/faq.html 2. Jupyter notebook (Anaconda) • 개인 컴퓨터에 설치 가능한 경우 권장하며, 강의실에서 수업을 진행할 경우 함께 설치할 예 정 • 크롬 (Chrome) 권장 3. 그 외 • 데이터 분석에는 적합하지 않아 권장하지 않으나 상식선에서 소개 프로그램 안내 및 설치
  • 19. 1. Google Colaboratory: 드라이브에 업로드한 ipynb 파일 열기 • drive.google.com • 드라이브 내에서 작업 및 다른 사람과 공유 가능 • 다른 곳에서 작성한 파일 읽기/쓰기/실행 가능 프로그램 안내 및 설치
  • 20. 1. Google Colaboratory: 드라이브에 업로드한 ipynb 파일 열기 • 연결 앱 선택지에 없을 경우 ‘연결할 앱 더보기’로 검색 • 한 번 연결한 후에는 선택지를 계속 볼 수 있음 프로그램 안내 및 설치
  • 21. 1. Google Colaboratory: 드라이브에서 ipynb 파일 만들기 프로그램 안내 및 설치
  • 22. 1. Google Colaboratory 2. Jupyter notebook (Anaconda) • 프로그램 개발과 관련된 모든 작업을 지원하는 프로그램(IDE; Integrated Development Environment)으로, Python과 함께 설치됨 • 다운로드: https://www.anaconda.com/distribution/#download-section • 기존에 파이썬이 설치되어 있다면 삭제하고 설치하는 것을 권장 • 온라인(접근성은 좋으나 속도가 느려 피치 못할 경우에만 사용할 것) https://jupyter.org/try • 결과를 바로 확인할 수 있어 데이터 분석에 사용하기에 매우 편리 • Jupyter notebook은 문법 오류 교정 및 프로젝트 관리 기능은 떨어지는 편 • 파일 확장자 .ipynb 3. 그 외 프로그램 안내 및 설치
  • 23. 2. Jupyter notebook (Anaconda) • Jupyter notebook 열기 • 크롬, 인터넷 익스플로러 등 브라우저에서 실행됨 • 실행되지 않는 경우 브라우저에 직접 입력: http://localhost:8888/tree 프로그램 안내 및 설치
  • 24. 2. Jupyter notebook (Anaconda) • 함께 실행되는 콘솔 창은 닫지 말 것 • 설치한 컴퓨터에 따라 다를 수 있으나, 보통 ‘C:Users(사용자 계정이름)’폴더와 연결 프로그램 안내 및 설치
  • 25. 2. Jupyter notebook (Anaconda) 프로그램 안내 및 설치 Enter Shift + Enter • 한 셀 내에서 작성 • 새로운 셀(cell) 만들기 • 다음 셀로 이동
  • 26. 2. Jupyter notebook (Anaconda) 프로그램 안내 및 설치 Ctrl+Enter • 코드의 출력결과 보기 • a, b값 저장
  • 27. 3. 그 외 ① Python idle • 기본 에디터 • 파일 확장자 .py가 기본 • 아래 링크에서 Python을 받을 수 있으나, Anaconda를 설치한 경우 재설치할 필요 없음 • https://www.python.org/downloads/ ② 파이참(Pycharm) • 코드 작성 시 자동완성, 문법체크 등 편리한 기능들을 제공 • 널리 쓰이는 IDE 중 하나 • Professional edition(유료)과 community edition(무료) 제공 • https://www.jetbrains.com/pycharm/ ③ Python online interpreter • 급할 때 검색해서 가장 편한 것을 이용 • 보통 코드 작성 창과 결과 창으로 구성 • https://repl.it/languages/python3 프로그램 안내 및 설치
  • 28. End of document 유 은 eunyu1031@gmail.com