29. Decision Tree, Regression
RSS, Residual Sum of Squares: 잔차 제곱의 합
1. Select predictor(변수) X and cutpoint(분할 기준점) t
that split the predictor space into the regions
{ X | X < t } and { X | X >= t }
2. Select the ones that leads to the greatest possible reduction in RSS
RSS를 가장 크게 감소시키는 X와 t를 고르자
== Select the one among the resulting trees that has the lowest RSS
어떤 X와 어떤 t를 고르는지에 따라 다양한 tree시나리오가 만들어질텐데
그 중에서 RSS가 가장 작게 나오는 tree시나리오를 고르는 알고리즘
38. Splitting criterion, Classification
Gini index: measure of impurity 불순도
The proportion of training observations in
the m-th region that are from the k-th class
‘영역 m’에서 ‘분류 k’에 해당하는 데이터의 비율
‘영역 m’에서 ‘분류 k’에 해당하지 않는
데이터의 비율
42. Splitting criterion, Classification
Gini index: measure of impurity 불순도
‘영역 m’에서 ‘분류 k’에 해당하지 않는
데이터의 비율
The proportion of training observations in
the m-th region that are from the k-th class
‘영역 m’에서 ‘분류 k’에 해당하는 데이터의 비율
57. Overfitting
Algorithm becoming too specific to the data
you used to train it. It cannot generalize very
well to the data you haven’t given it before.
72. Tree
& advantages
1. 이해하기 쉽다: 씹고 뜯고 맛보고 즐기고 [White box]
2. 데이터 정제가 크게 필요하지 않다: 바로 넣자
3. numerical, categorical 가리지 않는다: 그냥 넣자
4. 데이터가 어떤 패턴인지 볼 때 편하다: 넣어봐