SlideShare ist ein Scribd-Unternehmen logo
1 von 22
웹보메트릭스와 계량정보학
6주차 계량정보학의 수학적 기반
1강. 계량정보학의 수학적 기반(1)
2강. 계량정보학의 수학적 기반(2)

영남대학교 문과대학 언론정보학과
교수 박한우
1. 계량정보학의 수학적 기반에 대해 이해한다.

1. 수학적 치우침: “정성적”통찰
1. 수학적 치우침: “정성적”통찰
가. 통계적 분석과 확률적 일반화 장점
1. 경쟁모형과 비교할 수 있고 투명성을 높이기 위해 부정확한
실험공식을 정확한 수학적 개념으로 바꾸어준다. “완전한 계량서지학
이론”으로 발전하기 위한 제 1단계에 불과함
2. 특정데이터 집합을 분석하기 위해 표준적인 통계 도구를 사용하기
위한 조건을 명시함으로써 정보흐름을 측정할 때 발생하는 무작위
오차를 추정하는데 도움이 됨.
3. 계량서지학적 과정의 수학적 구조와 비계량서지학적 현상의 수학적
구조를 연결함으로써 공통된 특징을 규명하고 공통적으로 사용할 수
있는 방법론을 개발할 수 있음. 비계량서지학적 현상이란 경제적,
생물학적으로 복잡한 시스템에 대한 연구결과로 나타난 특정한 패턴을
의미.
1. 수학적 치우침: “정성적”통찰
나. 수학적 치우침
로트카, 브래드퍼드, 지프는 정보의 출처와 그들의 연구 주제 사이에
있는 관계를 표현하기 위해서 간단한 수학적 표현법과 그래프를 사용.

이러한 관찰 과정에서 얻어진 공통된 결과는?

정보의 패턴이 한쪽으로 치우치는 불균형이
두드러지게 발견되었다는 것.
1) 소수의 저자가 발표한 문헌이 특정 연구 분야에서 대부분을 차지
2) 이용자 요구를 충족시키는데 필요한 문헌이 소수의 학술지에
집중적으로 수록
3) 상대적으로 소수의 단어가 반복적으로 나타남
1. 수학적 치우침: “정성적”통찰
나. 수학적 치우침
정보의 특징이 평균을
중심으로 한 정규분포를
따르지 않는다는
공통점으로 가짐
생산성이 낮은 다수의
학술지가 생산성이 높은
소수의 학술지와 공존하기
때문에 전체 „학술지-논문‟에
대한 빈도분포 곡선이
한쪽으로 현저하게 치우치게
되며, 멱함수법칙(Power
law)으로 설명 가능한 쌍곡선
패턴을 따름
출처 : 니콜라 드 벨리스(2010), 계량서지학과 인용분석,
한국과학기술정보연구원.
1. 수학적 치우침: “정성적”통찰

출처 - http://website-experts.ca/how-to-usegoogle-analytics-for-long-tail-analysis/
출처 : 니콜라 드 벨리스(2010), 계량서지학과
인용분석, 한국과학기술정보연구원
1. 수학적 치우침: “정성적”통찰
칼 프리드리히 가우스(Carl Friedrich Gauss)와 피에르 시몽
라플라스(Pierre Simon Laplace)는 보편타당하고 쉽게 이해할 수
있으며 계산하기 쉬운 종모양의 그래프를 제시

종모양의 그래프에서는 평균값이 다른 값보다 중앙에 위치할
확률이 높으며 나머지 변량은 평균을 중심으로 대칭적으로 분포.
1. 수학적 치우침: “정성적”통찰
물리량을 측정할 때마다 산술평균은 다른 어떤 값보다 데이터의 특성을
잘 표현한다는 가정 아래에 있기 때문에 통계학 교과서에서는 이러한
분포의 특징을 “오차법칙(Law of error)”이라 함.
전반적으로 치우친 형태의 데이터 집합을 추적하는데 전체 분포 중에서
강화된 대칭성을 가리키거나 정규성 가정을 무시하는 여러 기법을 사용.
가장 기초적인 방법은 로그변형으로 표본의 분산을 안정화시켜 비교적
다루기 쉬운 표준 정규분포와 유사하게 하는 것.
서열척도로 측정된 두 변수의 상관계수를 구할 경우 명확한 수치 해석이
불가능하기 때문에 스피어만(Spearman)의 순위 상관계수 또는 켄들의
타우(Kendall의 τ)와 같은 순위 상관계수를 이용.
1. 수학적 치우침: “정성적”통찰

로지스틱 회귀모형
포아송
회귀분석의
방법

일반화된 선형회귀모형에서 파생된
이분형 결과를 다루는 모형
횟수를 모형화하기 위한 방법

이항 회귀모형
비선형회귀모형
비모수 회귀모형

종속변수가 독립변수에 종속되어
있다면 선형이든 비선형이든 특정한
함수로 표현이 불가능하기 때문에
사용
1. 수학적 치우침: “정성적”통찰
상관분석
• 두 변수 사이에 선형관계가 성립될 때 두 변수 사이에는 상관관계가
있다고 함. 즉 하나의 변수가 커지면 다른 변수도 일정한 비율로
커지거나 작아지는 것.
• 직선에 가까운 정로를 나타내는 값으로 상관계수로 표현. 일반적으로
피어슨(Pearson)의 r값을 사용하는 것이 일반적이며 -1~1사이의 값으로
표현.

• 상관관계는 인과관계를 나타내지 않음:
- 두 개의 변수가 양의 상관관계에 있다고 해서 하나의 변수가 다른
변수의 변화를 초래하는 것은 아니며, 두 변수는 알려져 있지 않은 제
3의 요인에 의해 영향을 받을 수 있음.

- 인과관계에 대한 충분한 근거가 없을지라도 상관관계는 인과관계가
존재함을 암시하는 것으로 해석.
1. 수학적 치우침: “정성적”통찰
회귀분석
• 상관관계가 가진 예측 능력의 한계는 사회과학 및 행동과학에서 널리
사용되고 있는 기법인 회귀분석을 도입함으로써 부분적으로 극복할 수
있음.
• 현실에서는 많은 설명변수가 존재하며 이들 변수를 선형으로 결합하여
하나의 결과를 만들어 낼 수 있음. 따라서 단순선형회귀보다는
다중회귀를 사용.

• 다중회귀분석 기법을 통해 해당 논문집합의 피인용횟수를 예측하기
위해 저자의 명성, 학술지의 영향력, 참고문헌 수 등과 같이 서로 다른
요인의 상대적 중요도를 평가하고자 함.
1. 수학적 치우침: “정성적”통찰
정규 분포의 패러다임
• 스티븐 벤스만(Stephen Bensman): 정규분포의 패러다임 이라고
일컫던 것을 뒤엎고 왜곡된 세계를 다룰 수 있는 새로운 수학적
방법론과 개념을 제시.
• 꼬리확률(probability tail)
1. 수학적 치우침: “정성적”통찰
파레토(Vilfredo Pareto)의 법칙
• 파레토는 개미를 관찰하는 중, 전체 개미의 20%만 실질적인 일을 하고
나머지 80%는 빈둥댄다는 사실을 발견.
• 80/20 법칙, 경험적으로 20%의 사람들이 전체 부의 약 80%를
차지한다는 부의 분포에 대한 특성.
• 하지만 중간수준의 부를 누리고 있는 사람들에 대한 적절한 모형을
제시하는데 실패하여, 경제학자들이 받아들이기까지는 오랜 시간이
걸림.
1. 수학적 치우침: “정성적”통찰

출처 - http://depressedd.egloos.com/2976242
1. 수학적 치우침: “정성적”통찰

출처 - http://hanjum.tistory.com/270
1. 수학적 치우침: “정성적”통찰
사회과학분야
• 데이터 집합의 양극화는 빈도분포의 머리 부분은
표준통계기법으로 해석할 수 있지만, 꼬리 부분에서 발생빈도가
낮은 사건(극단값;extreme value)이 일어나므로 다른 기법을
적용해야한다고 제시.
• 대부분의 표준통계기법에서는 극단값을 이상값(Outlier)으로 간주.
1. 수학적 치우침: “정성적”통찰
포아송 모형
• 확률과정은 특정 시점 t까지 발생한 사건 수 전체를 집계하는
과정.
• 포아송 분포는 연속(continuous) 시간축 상에서 임의로
(또는, random하게) 발생하는 이산(discrete) 사건을 묘사할 때
활용.
• 가장많이 사용되는 분포는 음이항 분포(negative binominal
distribution), 웨어링 분포(Waring distribution), 일반화된 역
가우스-포아송 분포(GIGPD, generalized inverse-GaussianPoisson distribution)
1. 수학적 치우침: “정성적”통찰
포아송 분포 예제

출처 - http://godrag77.blogspot.kr/2011/07/poisson-distribution.html
1. 수학적 치우침: “정성적”통찰

성공이 성공을 낳는다
• 포아송 과정은 특정 순간에 어떤 사건이 발생할 기회가 이미 발생한
사건의 수에 따라 결정되는 방식으로 자연스럽게 일반화되었다.
이를 확률적 탄생(stochastic birth)라 부르며 살아있는 유기체의
재생산을 통해 완벽하게 실증할 수 있음.
• 게오르게 폴리야(George Polya)와 플로리안 에겐버거(Florian
Eggenberger)의 항아리 모형(Um model)패턴에 근거해 데릭
프라이스의 성공이 성공을 낳는다는 원칙을 개념화함.
• 프라이스(Price) - 누적이득분포(CAD, Cumulative Advantage
Distribution): 사이먼/율의 확률분포로부텉 수학식이 어떻게
도출되었는지를 보여줌.
QUIZ.
80/20 법칙이라고도 하며, 경험적으로 20%의 사람들이 전체 부의 약
80%를 차지한다는 부의 분포에 대한 특성은 무엇인가?

파레토 법칙
정리하기.
 로트카, 브래드퍼드, 지프는 정보의 출처와 그들의 연구 주제 사이에
있는 관계를 표현하기 위해서 간단한 수학적 표현법과 그래프를
사용하였다.
 정보의 특징이 평균으로 중심으로 한 정규분포를 따르지 않는다는
공통점으로 가지고, 생산성이 낮은 다수의 학술지가 생산성이 높은
소수의 학술지와 공존하기 때문에 전체 „학술지-논문‟에 대한 빈도분포
곡선이 한쪽으로 현저하게 치우치게 되며, 멱함수법칙(Power
law)으로 설명 가능한 쌍곡선 패턴을 따른다.
 전반적으로 치우친 형태의 데이터 집합을 추적하는데 전체 분포
중에서 강화된 대칭성을 가리키거나 정규성 가정을 무시하는 여러
기법을 사용하거나, 가장 기초적인 방법으로 로그변형을 통해 표본의
분산을 안정화시켜 비교적 다루기 쉬운 표준 정규분포와 유사하게 할
수 있다.
차시예고.

6주 2차시 계량정보학의 수학적 기반(2)

Weitere ähnliche Inhalte

Ähnlich wie 웹보메트릭스와 계량정보학06 1

230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf
230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf
230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdfJong-Ki Lee
 
체계적 문헌고찰과 메타분석
체계적 문헌고찰과 메타분석체계적 문헌고찰과 메타분석
체계적 문헌고찰과 메타분석mothersafe
 
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석Kwang Woo NAM
 
11_통계 자료분석 입문
11_통계 자료분석 입문11_통계 자료분석 입문
11_통계 자료분석 입문noerror
 
웹보메트릭스02 1
웹보메트릭스02 1웹보메트릭스02 1
웹보메트릭스02 1Inho Cho
 
웹보메트릭스와 계량정보학02 1
웹보메트릭스와 계량정보학02 1웹보메트릭스와 계량정보학02 1
웹보메트릭스와 계량정보학02 1Han Woo PARK
 
데이터분석의 길 4: “고수는 통계학습의 달인이다”
데이터분석의 길 4:  “고수는 통계학습의 달인이다”데이터분석의 길 4:  “고수는 통계학습의 달인이다”
데이터분석의 길 4: “고수는 통계학습의 달인이다”Jaimie Kwon (권재명)
 
연구학교 데이터분석
연구학교 데이터분석 연구학교 데이터분석
연구학교 데이터분석 성훈 김
 
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Haezoom Inc.
 
Open 180503 terminology for the analysis of indicators and analysis of curren...
Open 180503 terminology for the analysis of indicators and analysis of curren...Open 180503 terminology for the analysis of indicators and analysis of curren...
Open 180503 terminology for the analysis of indicators and analysis of curren...jihoon jung
 

Ähnlich wie 웹보메트릭스와 계량정보학06 1 (10)

230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf
230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf
230601이종기-시장조사론특강교안-신뢰성과 타당성-요인분석-최종.pdf
 
체계적 문헌고찰과 메타분석
체계적 문헌고찰과 메타분석체계적 문헌고찰과 메타분석
체계적 문헌고찰과 메타분석
 
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
 
11_통계 자료분석 입문
11_통계 자료분석 입문11_통계 자료분석 입문
11_통계 자료분석 입문
 
웹보메트릭스02 1
웹보메트릭스02 1웹보메트릭스02 1
웹보메트릭스02 1
 
웹보메트릭스와 계량정보학02 1
웹보메트릭스와 계량정보학02 1웹보메트릭스와 계량정보학02 1
웹보메트릭스와 계량정보학02 1
 
데이터분석의 길 4: “고수는 통계학습의 달인이다”
데이터분석의 길 4:  “고수는 통계학습의 달인이다”데이터분석의 길 4:  “고수는 통계학습의 달인이다”
데이터분석의 길 4: “고수는 통계학습의 달인이다”
 
연구학교 데이터분석
연구학교 데이터분석 연구학교 데이터분석
연구학교 데이터분석
 
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
 
Open 180503 terminology for the analysis of indicators and analysis of curren...
Open 180503 terminology for the analysis of indicators and analysis of curren...Open 180503 terminology for the analysis of indicators and analysis of curren...
Open 180503 terminology for the analysis of indicators and analysis of curren...
 

Mehr von Han Woo PARK

소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석
소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석
소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석Han Woo PARK
 
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로Han Woo PARK
 
WATEF 2018 신년 세미나(수정)
WATEF 2018 신년 세미나(수정)WATEF 2018 신년 세미나(수정)
WATEF 2018 신년 세미나(수정)Han Woo PARK
 
세계트리플헬릭스미래전략학회 WATEF 2018 신년 세미나
세계트리플헬릭스미래전략학회 WATEF 2018 신년 세미나세계트리플헬릭스미래전략학회 WATEF 2018 신년 세미나
세계트리플헬릭스미래전략학회 WATEF 2018 신년 세미나Han Woo PARK
 
Disc 2015 보도자료 (휴대폰번호 삭제-수정)
Disc 2015 보도자료 (휴대폰번호 삭제-수정)Disc 2015 보도자료 (휴대폰번호 삭제-수정)
Disc 2015 보도자료 (휴대폰번호 삭제-수정)Han Woo PARK
 
Another Interdisciplinary Transformation: Beyond an Area-studies Journal
Another Interdisciplinary Transformation: Beyond an Area-studies JournalAnother Interdisciplinary Transformation: Beyond an Area-studies Journal
Another Interdisciplinary Transformation: Beyond an Area-studies JournalHan Woo PARK
 
4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등
4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등
4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등Han Woo PARK
 
KISTI-WATEF-BK21Plus-사이버감성연구소 2017 동계세미나 자료집
KISTI-WATEF-BK21Plus-사이버감성연구소 2017 동계세미나 자료집KISTI-WATEF-BK21Plus-사이버감성연구소 2017 동계세미나 자료집
KISTI-WATEF-BK21Plus-사이버감성연구소 2017 동계세미나 자료집Han Woo PARK
 
박한우 교수 프로파일 (31 oct2017)
박한우 교수 프로파일 (31 oct2017)박한우 교수 프로파일 (31 oct2017)
박한우 교수 프로파일 (31 oct2017)Han Woo PARK
 
Global mapping of artificial intelligence in Google and Google Scholar
Global mapping of artificial intelligence in Google and Google ScholarGlobal mapping of artificial intelligence in Google and Google Scholar
Global mapping of artificial intelligence in Google and Google ScholarHan Woo PARK
 
박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용
박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용
박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용Han Woo PARK
 
향기담은 하루찻집
향기담은 하루찻집향기담은 하루찻집
향기담은 하루찻집Han Woo PARK
 
Twitter network map of #ACPC2017 1st day using NodeXL
Twitter network map of #ACPC2017 1st day using NodeXLTwitter network map of #ACPC2017 1st day using NodeXL
Twitter network map of #ACPC2017 1st day using NodeXLHan Woo PARK
 
페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회
페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회
페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회Han Woo PARK
 
Facebook bigdata to understand regime change and migration patterns during ca...
Facebook bigdata to understand regime change and migration patterns during ca...Facebook bigdata to understand regime change and migration patterns during ca...
Facebook bigdata to understand regime change and migration patterns during ca...Han Woo PARK
 
세계산학관협력총회 Watef 패널을 공지합니다
세계산학관협력총회 Watef 패널을 공지합니다세계산학관협력총회 Watef 패널을 공지합니다
세계산학관협력총회 Watef 패널을 공지합니다Han Woo PARK
 
2017 대통령선거 후보수락 유튜브 후보수락 동영상 김찬우 박효찬 박한우
2017 대통령선거 후보수락 유튜브 후보수락 동영상 김찬우 박효찬 박한우2017 대통령선거 후보수락 유튜브 후보수락 동영상 김찬우 박효찬 박한우
2017 대통령선거 후보수락 유튜브 후보수락 동영상 김찬우 박효찬 박한우Han Woo PARK
 
2017년 인포그래픽스 과제모음
2017년 인포그래픽스 과제모음2017년 인포그래픽스 과제모음
2017년 인포그래픽스 과제모음Han Woo PARK
 
SNS 매개 학습공동체의 학습네트워크 탐색 : 페이스북 그룹을 중심으로
SNS 매개 학습공동체의 학습네트워크 탐색 : 페이스북 그룹을 중심으로SNS 매개 학습공동체의 학습네트워크 탐색 : 페이스북 그룹을 중심으로
SNS 매개 학습공동체의 학습네트워크 탐색 : 페이스북 그룹을 중심으로Han Woo PARK
 
2016년 촛불집회의 페이스북 댓글 데이터를 통해 본 하이브리드 미디어 현상
2016년 촛불집회의 페이스북 댓글 데이터를 통해 본 하이브리드 미디어 현상2016년 촛불집회의 페이스북 댓글 데이터를 통해 본 하이브리드 미디어 현상
2016년 촛불집회의 페이스북 댓글 데이터를 통해 본 하이브리드 미디어 현상Han Woo PARK
 

Mehr von Han Woo PARK (20)

소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석
소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석
소셜 빅데이터를 활용한_페이스북_이용자들의_반응과_관계_분석
 
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
 
WATEF 2018 신년 세미나(수정)
WATEF 2018 신년 세미나(수정)WATEF 2018 신년 세미나(수정)
WATEF 2018 신년 세미나(수정)
 
세계트리플헬릭스미래전략학회 WATEF 2018 신년 세미나
세계트리플헬릭스미래전략학회 WATEF 2018 신년 세미나세계트리플헬릭스미래전략학회 WATEF 2018 신년 세미나
세계트리플헬릭스미래전략학회 WATEF 2018 신년 세미나
 
Disc 2015 보도자료 (휴대폰번호 삭제-수정)
Disc 2015 보도자료 (휴대폰번호 삭제-수정)Disc 2015 보도자료 (휴대폰번호 삭제-수정)
Disc 2015 보도자료 (휴대폰번호 삭제-수정)
 
Another Interdisciplinary Transformation: Beyond an Area-studies Journal
Another Interdisciplinary Transformation: Beyond an Area-studies JournalAnother Interdisciplinary Transformation: Beyond an Area-studies Journal
Another Interdisciplinary Transformation: Beyond an Area-studies Journal
 
4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등
4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등
4차산업혁명 린든달러 비트코인 알트코인 암호화폐 가상화폐 등
 
KISTI-WATEF-BK21Plus-사이버감성연구소 2017 동계세미나 자료집
KISTI-WATEF-BK21Plus-사이버감성연구소 2017 동계세미나 자료집KISTI-WATEF-BK21Plus-사이버감성연구소 2017 동계세미나 자료집
KISTI-WATEF-BK21Plus-사이버감성연구소 2017 동계세미나 자료집
 
박한우 교수 프로파일 (31 oct2017)
박한우 교수 프로파일 (31 oct2017)박한우 교수 프로파일 (31 oct2017)
박한우 교수 프로파일 (31 oct2017)
 
Global mapping of artificial intelligence in Google and Google Scholar
Global mapping of artificial intelligence in Google and Google ScholarGlobal mapping of artificial intelligence in Google and Google Scholar
Global mapping of artificial intelligence in Google and Google Scholar
 
박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용
박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용
박한우 영어 이력서 Curriculum vitae 경희대 행사 제출용
 
향기담은 하루찻집
향기담은 하루찻집향기담은 하루찻집
향기담은 하루찻집
 
Twitter network map of #ACPC2017 1st day using NodeXL
Twitter network map of #ACPC2017 1st day using NodeXLTwitter network map of #ACPC2017 1st day using NodeXL
Twitter network map of #ACPC2017 1st day using NodeXL
 
페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회
페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회
페이스북 댓글을 통해 살펴본 대구·경북(TK) 촛불집회
 
Facebook bigdata to understand regime change and migration patterns during ca...
Facebook bigdata to understand regime change and migration patterns during ca...Facebook bigdata to understand regime change and migration patterns during ca...
Facebook bigdata to understand regime change and migration patterns during ca...
 
세계산학관협력총회 Watef 패널을 공지합니다
세계산학관협력총회 Watef 패널을 공지합니다세계산학관협력총회 Watef 패널을 공지합니다
세계산학관협력총회 Watef 패널을 공지합니다
 
2017 대통령선거 후보수락 유튜브 후보수락 동영상 김찬우 박효찬 박한우
2017 대통령선거 후보수락 유튜브 후보수락 동영상 김찬우 박효찬 박한우2017 대통령선거 후보수락 유튜브 후보수락 동영상 김찬우 박효찬 박한우
2017 대통령선거 후보수락 유튜브 후보수락 동영상 김찬우 박효찬 박한우
 
2017년 인포그래픽스 과제모음
2017년 인포그래픽스 과제모음2017년 인포그래픽스 과제모음
2017년 인포그래픽스 과제모음
 
SNS 매개 학습공동체의 학습네트워크 탐색 : 페이스북 그룹을 중심으로
SNS 매개 학습공동체의 학습네트워크 탐색 : 페이스북 그룹을 중심으로SNS 매개 학습공동체의 학습네트워크 탐색 : 페이스북 그룹을 중심으로
SNS 매개 학습공동체의 학습네트워크 탐색 : 페이스북 그룹을 중심으로
 
2016년 촛불집회의 페이스북 댓글 데이터를 통해 본 하이브리드 미디어 현상
2016년 촛불집회의 페이스북 댓글 데이터를 통해 본 하이브리드 미디어 현상2016년 촛불집회의 페이스북 댓글 데이터를 통해 본 하이브리드 미디어 현상
2016년 촛불집회의 페이스북 댓글 데이터를 통해 본 하이브리드 미디어 현상
 

웹보메트릭스와 계량정보학06 1

  • 1. 웹보메트릭스와 계량정보학 6주차 계량정보학의 수학적 기반 1강. 계량정보학의 수학적 기반(1) 2강. 계량정보학의 수학적 기반(2) 영남대학교 문과대학 언론정보학과 교수 박한우
  • 2. 1. 계량정보학의 수학적 기반에 대해 이해한다. 1. 수학적 치우침: “정성적”통찰
  • 3. 1. 수학적 치우침: “정성적”통찰 가. 통계적 분석과 확률적 일반화 장점 1. 경쟁모형과 비교할 수 있고 투명성을 높이기 위해 부정확한 실험공식을 정확한 수학적 개념으로 바꾸어준다. “완전한 계량서지학 이론”으로 발전하기 위한 제 1단계에 불과함 2. 특정데이터 집합을 분석하기 위해 표준적인 통계 도구를 사용하기 위한 조건을 명시함으로써 정보흐름을 측정할 때 발생하는 무작위 오차를 추정하는데 도움이 됨. 3. 계량서지학적 과정의 수학적 구조와 비계량서지학적 현상의 수학적 구조를 연결함으로써 공통된 특징을 규명하고 공통적으로 사용할 수 있는 방법론을 개발할 수 있음. 비계량서지학적 현상이란 경제적, 생물학적으로 복잡한 시스템에 대한 연구결과로 나타난 특정한 패턴을 의미.
  • 4. 1. 수학적 치우침: “정성적”통찰 나. 수학적 치우침 로트카, 브래드퍼드, 지프는 정보의 출처와 그들의 연구 주제 사이에 있는 관계를 표현하기 위해서 간단한 수학적 표현법과 그래프를 사용. 이러한 관찰 과정에서 얻어진 공통된 결과는? 정보의 패턴이 한쪽으로 치우치는 불균형이 두드러지게 발견되었다는 것. 1) 소수의 저자가 발표한 문헌이 특정 연구 분야에서 대부분을 차지 2) 이용자 요구를 충족시키는데 필요한 문헌이 소수의 학술지에 집중적으로 수록 3) 상대적으로 소수의 단어가 반복적으로 나타남
  • 5. 1. 수학적 치우침: “정성적”통찰 나. 수학적 치우침 정보의 특징이 평균을 중심으로 한 정규분포를 따르지 않는다는 공통점으로 가짐 생산성이 낮은 다수의 학술지가 생산성이 높은 소수의 학술지와 공존하기 때문에 전체 „학술지-논문‟에 대한 빈도분포 곡선이 한쪽으로 현저하게 치우치게 되며, 멱함수법칙(Power law)으로 설명 가능한 쌍곡선 패턴을 따름 출처 : 니콜라 드 벨리스(2010), 계량서지학과 인용분석, 한국과학기술정보연구원.
  • 6. 1. 수학적 치우침: “정성적”통찰 출처 - http://website-experts.ca/how-to-usegoogle-analytics-for-long-tail-analysis/ 출처 : 니콜라 드 벨리스(2010), 계량서지학과 인용분석, 한국과학기술정보연구원
  • 7. 1. 수학적 치우침: “정성적”통찰 칼 프리드리히 가우스(Carl Friedrich Gauss)와 피에르 시몽 라플라스(Pierre Simon Laplace)는 보편타당하고 쉽게 이해할 수 있으며 계산하기 쉬운 종모양의 그래프를 제시 종모양의 그래프에서는 평균값이 다른 값보다 중앙에 위치할 확률이 높으며 나머지 변량은 평균을 중심으로 대칭적으로 분포.
  • 8. 1. 수학적 치우침: “정성적”통찰 물리량을 측정할 때마다 산술평균은 다른 어떤 값보다 데이터의 특성을 잘 표현한다는 가정 아래에 있기 때문에 통계학 교과서에서는 이러한 분포의 특징을 “오차법칙(Law of error)”이라 함. 전반적으로 치우친 형태의 데이터 집합을 추적하는데 전체 분포 중에서 강화된 대칭성을 가리키거나 정규성 가정을 무시하는 여러 기법을 사용. 가장 기초적인 방법은 로그변형으로 표본의 분산을 안정화시켜 비교적 다루기 쉬운 표준 정규분포와 유사하게 하는 것. 서열척도로 측정된 두 변수의 상관계수를 구할 경우 명확한 수치 해석이 불가능하기 때문에 스피어만(Spearman)의 순위 상관계수 또는 켄들의 타우(Kendall의 τ)와 같은 순위 상관계수를 이용.
  • 9. 1. 수학적 치우침: “정성적”통찰 로지스틱 회귀모형 포아송 회귀분석의 방법 일반화된 선형회귀모형에서 파생된 이분형 결과를 다루는 모형 횟수를 모형화하기 위한 방법 이항 회귀모형 비선형회귀모형 비모수 회귀모형 종속변수가 독립변수에 종속되어 있다면 선형이든 비선형이든 특정한 함수로 표현이 불가능하기 때문에 사용
  • 10. 1. 수학적 치우침: “정성적”통찰 상관분석 • 두 변수 사이에 선형관계가 성립될 때 두 변수 사이에는 상관관계가 있다고 함. 즉 하나의 변수가 커지면 다른 변수도 일정한 비율로 커지거나 작아지는 것. • 직선에 가까운 정로를 나타내는 값으로 상관계수로 표현. 일반적으로 피어슨(Pearson)의 r값을 사용하는 것이 일반적이며 -1~1사이의 값으로 표현. • 상관관계는 인과관계를 나타내지 않음: - 두 개의 변수가 양의 상관관계에 있다고 해서 하나의 변수가 다른 변수의 변화를 초래하는 것은 아니며, 두 변수는 알려져 있지 않은 제 3의 요인에 의해 영향을 받을 수 있음. - 인과관계에 대한 충분한 근거가 없을지라도 상관관계는 인과관계가 존재함을 암시하는 것으로 해석.
  • 11. 1. 수학적 치우침: “정성적”통찰 회귀분석 • 상관관계가 가진 예측 능력의 한계는 사회과학 및 행동과학에서 널리 사용되고 있는 기법인 회귀분석을 도입함으로써 부분적으로 극복할 수 있음. • 현실에서는 많은 설명변수가 존재하며 이들 변수를 선형으로 결합하여 하나의 결과를 만들어 낼 수 있음. 따라서 단순선형회귀보다는 다중회귀를 사용. • 다중회귀분석 기법을 통해 해당 논문집합의 피인용횟수를 예측하기 위해 저자의 명성, 학술지의 영향력, 참고문헌 수 등과 같이 서로 다른 요인의 상대적 중요도를 평가하고자 함.
  • 12. 1. 수학적 치우침: “정성적”통찰 정규 분포의 패러다임 • 스티븐 벤스만(Stephen Bensman): 정규분포의 패러다임 이라고 일컫던 것을 뒤엎고 왜곡된 세계를 다룰 수 있는 새로운 수학적 방법론과 개념을 제시. • 꼬리확률(probability tail)
  • 13. 1. 수학적 치우침: “정성적”통찰 파레토(Vilfredo Pareto)의 법칙 • 파레토는 개미를 관찰하는 중, 전체 개미의 20%만 실질적인 일을 하고 나머지 80%는 빈둥댄다는 사실을 발견. • 80/20 법칙, 경험적으로 20%의 사람들이 전체 부의 약 80%를 차지한다는 부의 분포에 대한 특성. • 하지만 중간수준의 부를 누리고 있는 사람들에 대한 적절한 모형을 제시하는데 실패하여, 경제학자들이 받아들이기까지는 오랜 시간이 걸림.
  • 14. 1. 수학적 치우침: “정성적”통찰 출처 - http://depressedd.egloos.com/2976242
  • 15. 1. 수학적 치우침: “정성적”통찰 출처 - http://hanjum.tistory.com/270
  • 16. 1. 수학적 치우침: “정성적”통찰 사회과학분야 • 데이터 집합의 양극화는 빈도분포의 머리 부분은 표준통계기법으로 해석할 수 있지만, 꼬리 부분에서 발생빈도가 낮은 사건(극단값;extreme value)이 일어나므로 다른 기법을 적용해야한다고 제시. • 대부분의 표준통계기법에서는 극단값을 이상값(Outlier)으로 간주.
  • 17. 1. 수학적 치우침: “정성적”통찰 포아송 모형 • 확률과정은 특정 시점 t까지 발생한 사건 수 전체를 집계하는 과정. • 포아송 분포는 연속(continuous) 시간축 상에서 임의로 (또는, random하게) 발생하는 이산(discrete) 사건을 묘사할 때 활용. • 가장많이 사용되는 분포는 음이항 분포(negative binominal distribution), 웨어링 분포(Waring distribution), 일반화된 역 가우스-포아송 분포(GIGPD, generalized inverse-GaussianPoisson distribution)
  • 18. 1. 수학적 치우침: “정성적”통찰 포아송 분포 예제 출처 - http://godrag77.blogspot.kr/2011/07/poisson-distribution.html
  • 19. 1. 수학적 치우침: “정성적”통찰 성공이 성공을 낳는다 • 포아송 과정은 특정 순간에 어떤 사건이 발생할 기회가 이미 발생한 사건의 수에 따라 결정되는 방식으로 자연스럽게 일반화되었다. 이를 확률적 탄생(stochastic birth)라 부르며 살아있는 유기체의 재생산을 통해 완벽하게 실증할 수 있음. • 게오르게 폴리야(George Polya)와 플로리안 에겐버거(Florian Eggenberger)의 항아리 모형(Um model)패턴에 근거해 데릭 프라이스의 성공이 성공을 낳는다는 원칙을 개념화함. • 프라이스(Price) - 누적이득분포(CAD, Cumulative Advantage Distribution): 사이먼/율의 확률분포로부텉 수학식이 어떻게 도출되었는지를 보여줌.
  • 20. QUIZ. 80/20 법칙이라고도 하며, 경험적으로 20%의 사람들이 전체 부의 약 80%를 차지한다는 부의 분포에 대한 특성은 무엇인가? 파레토 법칙
  • 21. 정리하기.  로트카, 브래드퍼드, 지프는 정보의 출처와 그들의 연구 주제 사이에 있는 관계를 표현하기 위해서 간단한 수학적 표현법과 그래프를 사용하였다.  정보의 특징이 평균으로 중심으로 한 정규분포를 따르지 않는다는 공통점으로 가지고, 생산성이 낮은 다수의 학술지가 생산성이 높은 소수의 학술지와 공존하기 때문에 전체 „학술지-논문‟에 대한 빈도분포 곡선이 한쪽으로 현저하게 치우치게 되며, 멱함수법칙(Power law)으로 설명 가능한 쌍곡선 패턴을 따른다.  전반적으로 치우친 형태의 데이터 집합을 추적하는데 전체 분포 중에서 강화된 대칭성을 가리키거나 정규성 가정을 무시하는 여러 기법을 사용하거나, 가장 기초적인 방법으로 로그변형을 통해 표본의 분산을 안정화시켜 비교적 다루기 쉬운 표준 정규분포와 유사하게 할 수 있다.