SlideShare ist ein Scribd-Unternehmen logo
1 von 18
Downloaden Sie, um offline zu lesen
Doing Data Science 

chapter7
데이터에서 의미 추출하기
2015/06/27
이남영(onlywis@gmail.com)
어떤 방식으로 기업들은
데이터에서 의미를 추출할까?
배경1; 데이터과학 경진대회
• 데이터과학 경진대회 역사가 존재
• 지식발견과 데이터마이닝(KDD) 연례 대회
• 넷플릭스 대회(2년에 걸쳐 개최)
• 캐글 대회 등등...
• 데이터 과학 생태계의 일부이자 문화적 힘
• 데이터 과학 체계화에 일조
배경2; 크라우드 소싱
• 전세계 많은 사람들이 문제 해결에 참여
• 역사적으로 오래 된 아이디어
• 1714년 영국 해군의 경도 측정 방법을 공모하여 해결
• 공정한 평가척도, 적절한 상금, 흥미로운 난이도가 필요
캐글Kaggle 모형
•수수료를 받고
• 기업의 문제를 크라우드 소싱으로 해결하기 위해
•경진대회를 개최
사고 실험
• 로봇 평가자의 에세이 채점은 옳은가? 윤리적인가?
1. 인간 채점자들이 항상 공정한 것은 아니다.
2. 기계는 상황을 구조화하고, 이것은 창의성을 억제하는가?
3. 에세이의 목적은 훌륭한 에세이를 쓰는 것인가?

아니면 표준화된 시험을 잘 보는 것인가?
특징 선택feature selection
• 모형에 넣을 데이터의 부분 집합 선택
• 알고리즘과 통계 모형 구축의 중요한 부분
• 중복되거나 상관이 높은 변수 제거
• “때로는, 더 많은 데이터는 단지 더 많은 데이터에 불과하다”
사례: 체이싱 드래곤
• 체이싱 드래곤이라는 애플리케이션을 설계하였다고 가정
• 첫 달이 지난 후 신규 사용자의 10%만 유지
• 신규 사용자 유치보다는 기존 사용자 유지가 비용적 유리
• 어떻게 기존 사용자를 유지할 것인가?
사용자 유지
1. 데이터 수집
• 사용자의 모든 행동을 time-stamped event log로 저장
2. 데이터 세트로 변환
• 각 행은 사용자, 각 열은 특징으로 구성
• 특징들에 대한 브레인스토밍이 필요(특징 추출feature extraction)
✤ 첫 달에 사용자가 방문한 날의 횟수
✤ 두 번째 방문까지 소요된 총 시간
✤ 사용자의 프로필 작성 유무 등등..
• 특징들 간에 중복과 연관성에 주의
사용자 유지
3. 로지스틱 회귀 분석
• 첫 달 사용자 활동의 조건 아래에서 두 번째 달 사용자가
돌아올 확률 계산
• logit(P(ci =1|xi)) = α + βτ
・xi
• 특징을 선택하여 로지스틱 회귀에 입력
• 특징 선택 방법: 필터, 래퍼, 임베디드
특징 선택 방법; 필터filter
• Model의 성능을 고려하지 않고 특징 선택
• 모든 특징을 척도에 따라 순위를 정하고, 가장 높은 순위의
특징들로 선택
• 특징 간의 중복을 고려하지 않는다
특징 선택 방법; 래퍼wrapper
• Model이 최고의 성능을 내는 특징 선택
• 시간이 오래 걸린다
• 부분집합의 수가 기하급수적으로 늘어 과적합의 위험 발생
• 특징 선택을 위한 알고리즘과 선택기준을 결정해야 함
특징 선택을 위한 알고리즘
1. 전진 선택forward selection
•비어 있는 상태에서 시작
•모형을 가장 많이 향상시키는 특징을 하나씩 점진적으로 추가
•추가 시 선택기준이 향상되지 않을 때 추가를 중단
2. 후진 제거backward elimination
•모두 포함된 상태에서 시작
•제거 시 가장 큰 향상을 가져왔느냐에 따라 점진적으로 제거
•특징 제거가 선택기준을 나쁘게 할 때 추가를 중단
3. 혼합형 접근
•전진 선택과 후진 제거를 함께 사용
특징 선택을 위한 선택기준
• 다수의 선택기준이 존재
• R-제곱값(R
2
)
• P-값
• 아카이케 정보 기준
• 베이지안 정보 기준
• 엔트로피
• 선택기준에 따라 다른 모형이 제작
• 여러 선택기준을 적용 후 결과를 관찰하여 선택
특징 선택 방법; 임베디드 방법
• 의사 결정 나무decision tree
• 분류classification 알고리즘
• 높은 해석가능성의 장점
• 각 단계의 특징을 어떻게 배치할 것인가가 관건
• 데이터에 기반한 특징 배치: 엔트로피
엔트로피entropy
• 무엇이 얼마나 혼합되어 있는지에 대한 척도
• H(X) =−p(X=1)log2(p(X=1)) −p(X=0)log2(p(X=0))
• p(X=1)=0 또는 p(X=0)=0 일 경우 

H(X) = 0
• H(X|a) = Σai p(a=ai)・H(X|a=ai)
• 속성 a의 값을 알 때 X에 대해 얼마나 많은 정보를 알게 되는
가?
가지치기pruning
• 특정한 깊이 아래를 잘라내는 작업
• 방대한 데이터를 학습할 경우 과적합이 발생
• 가지치기를 통해 과적합을 방지하고 정확도 향상
랜덤 포리스트random forest
1. 배깅bagging을 통해 의사결정나무를 일반화
• 학습 데이터에 따라 결과가 크가 달라지는 의사결정나무의 단점을 보완
• 연속 학습을 수행하는 동안 이전 학습에서 틀린 답에 좀 더 초점을 맞춰 학습하는 기법
• 월등히 높은 정확성. 간편하고 빠른 학습 및 테스트
• 해석가능성을 희생. 이해하기가 매우 어렵다
2. 부트스트래핑
•복원추출 표본으로 같은 데이터 포인터를 반복 추출
3. 가지치기를 하지 않는다
• 특이한 잡음을 포함할 수 있는 것이 큰 장점

Weitere ähnliche Inhalte

Andere mochten auch

Standardizing +113 million Merchant Names in Financial Services with Greenplu...
Standardizing +113 million Merchant Names in Financial Services with Greenplu...Standardizing +113 million Merchant Names in Financial Services with Greenplu...
Standardizing +113 million Merchant Names in Financial Services with Greenplu...Data Science London
 
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출 NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출 정주 김
 
An introduction to open data
An introduction to open dataAn introduction to open data
An introduction to open dataSally Lait
 
How to Create Surveys to Read Your Audience's Minds
How to Create Surveys to Read Your Audience's MindsHow to Create Surveys to Read Your Audience's Minds
How to Create Surveys to Read Your Audience's MindsLeslie Samuel
 
The What, Why and How of (Web) Analytics Testing (Web, IoT, Big Data)
The What, Why and How of (Web) Analytics Testing (Web, IoT, Big Data)The What, Why and How of (Web) Analytics Testing (Web, IoT, Big Data)
The What, Why and How of (Web) Analytics Testing (Web, IoT, Big Data)Anand Bagmar
 
Data Culture Keynote and Exec Track Birm Dec 8th
Data Culture Keynote and Exec Track Birm Dec 8thData Culture Keynote and Exec Track Birm Dec 8th
Data Culture Keynote and Exec Track Birm Dec 8thJonathan Woodward
 
Data Gravity, IoT, and Time Series - ThingMonk 2015
Data Gravity, IoT, and Time Series - ThingMonk 2015Data Gravity, IoT, and Time Series - ThingMonk 2015
Data Gravity, IoT, and Time Series - ThingMonk 2015dave.m
 
Automating Big Data (Dec-2016)
Automating Big Data  (Dec-2016)Automating Big Data  (Dec-2016)
Automating Big Data (Dec-2016)Seth Familian
 
Digital marketing — an overview
Digital marketing — an overviewDigital marketing — an overview
Digital marketing — an overviewSeth Familian
 
기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf효근 윤
 

Andere mochten auch (10)

Standardizing +113 million Merchant Names in Financial Services with Greenplu...
Standardizing +113 million Merchant Names in Financial Services with Greenplu...Standardizing +113 million Merchant Names in Financial Services with Greenplu...
Standardizing +113 million Merchant Names in Financial Services with Greenplu...
 
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출 NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
 
An introduction to open data
An introduction to open dataAn introduction to open data
An introduction to open data
 
How to Create Surveys to Read Your Audience's Minds
How to Create Surveys to Read Your Audience's MindsHow to Create Surveys to Read Your Audience's Minds
How to Create Surveys to Read Your Audience's Minds
 
The What, Why and How of (Web) Analytics Testing (Web, IoT, Big Data)
The What, Why and How of (Web) Analytics Testing (Web, IoT, Big Data)The What, Why and How of (Web) Analytics Testing (Web, IoT, Big Data)
The What, Why and How of (Web) Analytics Testing (Web, IoT, Big Data)
 
Data Culture Keynote and Exec Track Birm Dec 8th
Data Culture Keynote and Exec Track Birm Dec 8thData Culture Keynote and Exec Track Birm Dec 8th
Data Culture Keynote and Exec Track Birm Dec 8th
 
Data Gravity, IoT, and Time Series - ThingMonk 2015
Data Gravity, IoT, and Time Series - ThingMonk 2015Data Gravity, IoT, and Time Series - ThingMonk 2015
Data Gravity, IoT, and Time Series - ThingMonk 2015
 
Automating Big Data (Dec-2016)
Automating Big Data  (Dec-2016)Automating Big Data  (Dec-2016)
Automating Big Data (Dec-2016)
 
Digital marketing — an overview
Digital marketing — an overviewDigital marketing — an overview
Digital marketing — an overview
 
기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf
 

Ähnlich wie 데이터에서 의미 추출하기

Deep Learning for AI (1)
Deep Learning for AI (1)Deep Learning for AI (1)
Deep Learning for AI (1)Dongheon Lee
 
T ka kr_4th
T ka kr_4thT ka kr_4th
T ka kr_4thSubin An
 
데이터과학 입문 8장
데이터과학 입문 8장데이터과학 입문 8장
데이터과학 입문 8장Jinpil Chung
 
Bigdate & R programming
Bigdate & R programmingBigdate & R programming
Bigdate & R programmingSeongWan Son
 
"Dataset and metrics for predicting local visible differences" Paper Review
"Dataset and metrics for predicting local visible differences" Paper Review"Dataset and metrics for predicting local visible differences" Paper Review
"Dataset and metrics for predicting local visible differences" Paper ReviewLEE HOSEONG
 
데이터를 얻으려는 노오오력
데이터를 얻으려는 노오오력데이터를 얻으려는 노오오력
데이터를 얻으려는 노오오력Youngjae Kim
 
Meetup history
Meetup historyMeetup history
Meetup historyMk Kim
 
How to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyHow to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyDataya Nolja
 
[부스트캠프 Tech Talk] 구건모_모델링 자동화와 실험 검증 전략
[부스트캠프 Tech Talk] 구건모_모델링 자동화와 실험 검증 전략[부스트캠프 Tech Talk] 구건모_모델링 자동화와 실험 검증 전략
[부스트캠프 Tech Talk] 구건모_모델링 자동화와 실험 검증 전략CONNECT FOUNDATION
 
분석과 설계
분석과 설계분석과 설계
분석과 설계Haeil Yi
 
Loss function discovery for object detection via convergence simulation drive...
Loss function discovery for object detection via convergence simulation drive...Loss function discovery for object detection via convergence simulation drive...
Loss function discovery for object detection via convergence simulation drive...taeseon ryu
 
[코세나, kosena] 금융권의 머신러닝 활용사례
[코세나, kosena] 금융권의 머신러닝 활용사례[코세나, kosena] 금융권의 머신러닝 활용사례
[코세나, kosena] 금융권의 머신러닝 활용사례kosena
 
Human-Machine Interaction and AI
Human-Machine Interaction and AIHuman-Machine Interaction and AI
Human-Machine Interaction and AIDataya Nolja
 
Workshop 210417 dhlee
Workshop 210417 dhleeWorkshop 210417 dhlee
Workshop 210417 dhleeDongheon Lee
 
DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks
DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks
DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks pko89403
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝Haesun Park
 
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimDeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimGruter
 
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)Curt Park
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical MethodologyKyeongUkJang
 
Image data augmentatiion
Image data augmentatiionImage data augmentatiion
Image data augmentatiionSubin An
 

Ähnlich wie 데이터에서 의미 추출하기 (20)

Deep Learning for AI (1)
Deep Learning for AI (1)Deep Learning for AI (1)
Deep Learning for AI (1)
 
T ka kr_4th
T ka kr_4thT ka kr_4th
T ka kr_4th
 
데이터과학 입문 8장
데이터과학 입문 8장데이터과학 입문 8장
데이터과학 입문 8장
 
Bigdate & R programming
Bigdate & R programmingBigdate & R programming
Bigdate & R programming
 
"Dataset and metrics for predicting local visible differences" Paper Review
"Dataset and metrics for predicting local visible differences" Paper Review"Dataset and metrics for predicting local visible differences" Paper Review
"Dataset and metrics for predicting local visible differences" Paper Review
 
데이터를 얻으려는 노오오력
데이터를 얻으려는 노오오력데이터를 얻으려는 노오오력
데이터를 얻으려는 노오오력
 
Meetup history
Meetup historyMeetup history
Meetup history
 
How to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyHow to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its Difficulty
 
[부스트캠프 Tech Talk] 구건모_모델링 자동화와 실험 검증 전략
[부스트캠프 Tech Talk] 구건모_모델링 자동화와 실험 검증 전략[부스트캠프 Tech Talk] 구건모_모델링 자동화와 실험 검증 전략
[부스트캠프 Tech Talk] 구건모_모델링 자동화와 실험 검증 전략
 
분석과 설계
분석과 설계분석과 설계
분석과 설계
 
Loss function discovery for object detection via convergence simulation drive...
Loss function discovery for object detection via convergence simulation drive...Loss function discovery for object detection via convergence simulation drive...
Loss function discovery for object detection via convergence simulation drive...
 
[코세나, kosena] 금융권의 머신러닝 활용사례
[코세나, kosena] 금융권의 머신러닝 활용사례[코세나, kosena] 금융권의 머신러닝 활용사례
[코세나, kosena] 금융권의 머신러닝 활용사례
 
Human-Machine Interaction and AI
Human-Machine Interaction and AIHuman-Machine Interaction and AI
Human-Machine Interaction and AI
 
Workshop 210417 dhlee
Workshop 210417 dhleeWorkshop 210417 dhlee
Workshop 210417 dhlee
 
DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks
DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks
DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
 
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimDeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
 
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN)
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical Methodology
 
Image data augmentatiion
Image data augmentatiionImage data augmentatiion
Image data augmentatiion
 

데이터에서 의미 추출하기

  • 1. Doing Data Science 
 chapter7 데이터에서 의미 추출하기 2015/06/27 이남영(onlywis@gmail.com)
  • 3. 배경1; 데이터과학 경진대회 • 데이터과학 경진대회 역사가 존재 • 지식발견과 데이터마이닝(KDD) 연례 대회 • 넷플릭스 대회(2년에 걸쳐 개최) • 캐글 대회 등등... • 데이터 과학 생태계의 일부이자 문화적 힘 • 데이터 과학 체계화에 일조
  • 4. 배경2; 크라우드 소싱 • 전세계 많은 사람들이 문제 해결에 참여 • 역사적으로 오래 된 아이디어 • 1714년 영국 해군의 경도 측정 방법을 공모하여 해결 • 공정한 평가척도, 적절한 상금, 흥미로운 난이도가 필요
  • 5. 캐글Kaggle 모형 •수수료를 받고 • 기업의 문제를 크라우드 소싱으로 해결하기 위해 •경진대회를 개최
  • 6. 사고 실험 • 로봇 평가자의 에세이 채점은 옳은가? 윤리적인가? 1. 인간 채점자들이 항상 공정한 것은 아니다. 2. 기계는 상황을 구조화하고, 이것은 창의성을 억제하는가? 3. 에세이의 목적은 훌륭한 에세이를 쓰는 것인가?
 아니면 표준화된 시험을 잘 보는 것인가?
  • 7. 특징 선택feature selection • 모형에 넣을 데이터의 부분 집합 선택 • 알고리즘과 통계 모형 구축의 중요한 부분 • 중복되거나 상관이 높은 변수 제거 • “때로는, 더 많은 데이터는 단지 더 많은 데이터에 불과하다”
  • 8. 사례: 체이싱 드래곤 • 체이싱 드래곤이라는 애플리케이션을 설계하였다고 가정 • 첫 달이 지난 후 신규 사용자의 10%만 유지 • 신규 사용자 유치보다는 기존 사용자 유지가 비용적 유리 • 어떻게 기존 사용자를 유지할 것인가?
  • 9. 사용자 유지 1. 데이터 수집 • 사용자의 모든 행동을 time-stamped event log로 저장 2. 데이터 세트로 변환 • 각 행은 사용자, 각 열은 특징으로 구성 • 특징들에 대한 브레인스토밍이 필요(특징 추출feature extraction) ✤ 첫 달에 사용자가 방문한 날의 횟수 ✤ 두 번째 방문까지 소요된 총 시간 ✤ 사용자의 프로필 작성 유무 등등.. • 특징들 간에 중복과 연관성에 주의
  • 10. 사용자 유지 3. 로지스틱 회귀 분석 • 첫 달 사용자 활동의 조건 아래에서 두 번째 달 사용자가 돌아올 확률 계산 • logit(P(ci =1|xi)) = α + βτ ・xi • 특징을 선택하여 로지스틱 회귀에 입력 • 특징 선택 방법: 필터, 래퍼, 임베디드
  • 11. 특징 선택 방법; 필터filter • Model의 성능을 고려하지 않고 특징 선택 • 모든 특징을 척도에 따라 순위를 정하고, 가장 높은 순위의 특징들로 선택 • 특징 간의 중복을 고려하지 않는다
  • 12. 특징 선택 방법; 래퍼wrapper • Model이 최고의 성능을 내는 특징 선택 • 시간이 오래 걸린다 • 부분집합의 수가 기하급수적으로 늘어 과적합의 위험 발생 • 특징 선택을 위한 알고리즘과 선택기준을 결정해야 함
  • 13. 특징 선택을 위한 알고리즘 1. 전진 선택forward selection •비어 있는 상태에서 시작 •모형을 가장 많이 향상시키는 특징을 하나씩 점진적으로 추가 •추가 시 선택기준이 향상되지 않을 때 추가를 중단 2. 후진 제거backward elimination •모두 포함된 상태에서 시작 •제거 시 가장 큰 향상을 가져왔느냐에 따라 점진적으로 제거 •특징 제거가 선택기준을 나쁘게 할 때 추가를 중단 3. 혼합형 접근 •전진 선택과 후진 제거를 함께 사용
  • 14. 특징 선택을 위한 선택기준 • 다수의 선택기준이 존재 • R-제곱값(R 2 ) • P-값 • 아카이케 정보 기준 • 베이지안 정보 기준 • 엔트로피 • 선택기준에 따라 다른 모형이 제작 • 여러 선택기준을 적용 후 결과를 관찰하여 선택
  • 15. 특징 선택 방법; 임베디드 방법 • 의사 결정 나무decision tree • 분류classification 알고리즘 • 높은 해석가능성의 장점 • 각 단계의 특징을 어떻게 배치할 것인가가 관건 • 데이터에 기반한 특징 배치: 엔트로피
  • 16. 엔트로피entropy • 무엇이 얼마나 혼합되어 있는지에 대한 척도 • H(X) =−p(X=1)log2(p(X=1)) −p(X=0)log2(p(X=0)) • p(X=1)=0 또는 p(X=0)=0 일 경우 
 H(X) = 0 • H(X|a) = Σai p(a=ai)・H(X|a=ai) • 속성 a의 값을 알 때 X에 대해 얼마나 많은 정보를 알게 되는 가?
  • 17. 가지치기pruning • 특정한 깊이 아래를 잘라내는 작업 • 방대한 데이터를 학습할 경우 과적합이 발생 • 가지치기를 통해 과적합을 방지하고 정확도 향상
  • 18. 랜덤 포리스트random forest 1. 배깅bagging을 통해 의사결정나무를 일반화 • 학습 데이터에 따라 결과가 크가 달라지는 의사결정나무의 단점을 보완 • 연속 학습을 수행하는 동안 이전 학습에서 틀린 답에 좀 더 초점을 맞춰 학습하는 기법 • 월등히 높은 정확성. 간편하고 빠른 학습 및 테스트 • 해석가능성을 희생. 이해하기가 매우 어렵다 2. 부트스트래핑 •복원추출 표본으로 같은 데이터 포인터를 반복 추출 3. 가지치기를 하지 않는다 • 특이한 잡음을 포함할 수 있는 것이 큰 장점