1. R & Rstudio
데이터셋 다루기
Table 1 만들기
R을 이용한 보건학 통계분석
1주차 : R & Rstudio 설치 및 Table1 작성
김진섭
서울대학교 보건대학원 예방의학교실 전임의, 유전체역학교실 박사과정
March 11, 2014
김진섭 R을 이용한 보건학 통계분석
2. R & Rstudio
데이터셋 다루기
Table 1 만들기
목차
1 R & Rstudio
2 데이터셋 다루기
3 Table 1 만들기
김진섭 R을 이용한 보건학 통계분석
3. R & Rstudio
데이터셋 다루기
Table 1 만들기
1.1 R의 특징
1 오픈 소스 소프트웨어(무료)
2 수많은 패키지 : 최신 분석방법이 가장 빠르게 적용된다.
3 완성된 프로그래밍 언어: 뭐든 가능.
4 숫자 하나하나를 추출할 수 있다.
5 그림의 퀄리티가 뛰어나다.
6 미국에서는 이미 대세(빅데이터)
김진섭 R을 이용한 보건학 통계분석
4. R & Rstudio
데이터셋 다루기
Table 1 만들기
1.2 R의 설치
1 구글에서 R 검색 : 가장 위에 나온다.
2 http://r-project.kr/wiki/R-basic/installation :
설치 도움말
김진섭 R을 이용한 보건학 통계분석
5. R & Rstudio
데이터셋 다루기
Table 1 만들기
1.3 Rstudio의 설치
1 Rstudio.org
2 http://r-project.kr/wiki/R-basic/editors : 설치
도움말
김진섭 R을 이용한 보건학 통계분석
6. R & Rstudio
데이터셋 다루기
Table 1 만들기
1.4 R 갖고 놀기: Data set 아님.
1 도움말 보기
2 기초 계산하기
3 여러가지 숫자열 지정
김진섭 R을 이용한 보건학 통계분석
7. R & Rstudio
데이터셋 다루기
Table 1 만들기
1.5 for, if, else, ifelse
for (i in 1:6) print(i)
## [1] 1
## [1] 2
## [1] 3
## [1] 4
## [1] 5
## [1] 6
1 if, else if 주의!! : 반드시 줄이 이어지게 해야 함.
2 ifelse(조건, 참일때, 거짓일때)
김진섭 R을 이용한 보건학 통계분석
8. R & Rstudio
데이터셋 다루기
Table 1 만들기
목표
1 데이터 정리는 Excel, 통계만 R로 돌린다.(Rcommander)
2 Data 정리 및 통계를 R로 돌린다.
3 자주쓰는 것들을 함수로 만들어 쓴다.
4 논문 테이블 및 그림을 R로 만든다.
5 논문을 R로 쓴다.
6 R 패키지 개발
김진섭 R을 이용한 보건학 통계분석
9. R & Rstudio
데이터셋 다루기
Table 1 만들기
2.1 디렉토리 설정
getwd()
setwd("/home/secondmath/Dropbox/GSPH/myteaching/orientation/") #set dir
김진섭 R을 이용한 보건학 통계분석
10. R & Rstudio
데이터셋 다루기
Table 1 만들기
2.2 데이터 읽어오기
핵심!!!! : 가급적 CSV(comma separate)파일로 읽자!!! 표준.
getwd()
## [1] "/home/secondmath/Dropbox/GSPH/myteaching/orientation"
setwd("/home/secondmath/Dropbox/GSPH/myteaching/orientation/") #set dir
getwd()
## [1] "/home/secondmath/Dropbox/GSPH/myteaching/orientation"
a = read.csv("week2.csv")
a = read.table("week2.csv", sep = ",", header = T)
기타 : 엑셀, SAS, SPSS, STATA 파일도 읽는것 가능
김진섭 R을 이용한 보건학 통계분석
11. R & Rstudio
데이터셋 다루기
Table 1 만들기
2.3 데이터 저장하기
핵심!!!! : 가급적 CSV(comma separate)파일로 쓰자!!! 표준.
write.csv(a, "write.csv", row.names = FALSE, quote = F)
write.table(a, "write.txt", sep = "t", row.names = FALSE)
기타 : 엑셀, SAS, SPSS, STATA 파일도 쓰는것 가능. 절대 그럴
필요 없다.
김진섭 R을 이용한 보건학 통계분석
12. R & Rstudio
데이터셋 다루기
Table 1 만들기
2.4 데이터 살펴보기 및 예제 데이터 소개
R 코드 참고.
1 혈압, BMI, TG, LDL 등..
2 가족 ID
3 특정 gene locus information: allele count 0,1,2
김진섭 R을 이용한 보건학 통계분석
13. R & Rstudio
데이터셋 다루기
Table 1 만들기
2.5 새로운 변수 만들기
1 직접 만들기
2 ifelse 문 이용하기
3 행렬 직접 지목하여 집어넣기
김진섭 R을 이용한 보건학 통계분석
14. R & Rstudio
데이터셋 다루기
Table 1 만들기
2.6 정렬, Subset, Merge
head(order(a$TG))
e = a[order(a$TG), ] ## low value first
head(e)
e = a[order(-a$TG), ] ## Large value first
head(e)
g = subset(a, sex == 0) ## only men
g = a[which(a$sex == 0), ] ## same
head(g)
aa = a[, c("ID", "TG")] ##example
head(aa)
c = merge(a, aa, by = "ID", all = F) ##all=F VS all=T
김진섭 R을 이용한 보건학 통계분석
15. R & Rstudio
데이터셋 다루기
Table 1 만들기
2.7 간단한 함수 만들기
twomean = function(x1, x2) {
a = (x1 + x2)/2
a
}
twomean(4, 6)
## [1] 5
김진섭 R을 이용한 보건학 통계분석