From maching learning to deep learning

From Machine Learning
To Deep Learning
김용대
nukko72@gmail.com

오늘 우리는...
• 머신러닝 개요
• 인공지능? 머신러닝? 딥러닝?
• 지도학습? 비지도학습? 강화학습?
• Linear Regression
• Multi-variable Linear Regression
• Logistic Classification
• Multinomial Classification
• Learning Rate/ Overfitting / Regularization

다음번에 우리는...
• 비지도학습
• Clustering
• K-means
• Deep Learning
• Neural Network
• CNN
• RNN
• 강화학습

인공지능, 머신러닝, 딥러닝
• 딥러닝은 머신러닝의 일종이고,
• 머신러닝은 인공지능의 일종이다.

머신러닝
• 데이터를 통하여 기계가 모델을 스
스로 찾아내는 과정
• 데이터에서 모델을 찾아내는 과정이
마치 기계가 데이터를 학습해 모델
을 알아내는 것과 비슷해서 붙은 이
름
• 모델을 통하여 입력값에 대한 예상
되는 출력값을 반환한다.
데이터
머신러닝
모델입력값 출력값

지도학습, 비지도학습, 강화학습
• 지도학습 (Supervised Learning)
• 정답이 있는 데이터(훈련데이터)로 학습을 시켜 모델을 찾는 방법
• 회귀분석 (Regression) : 연속적인 값을 예측
• 분류 (Classiﬁcation) : 어떤 종류의 값인지 표시
• 비지도학습 (Unsupervised Learning)
• 데이터로부터 데이터간 어떤 관계가 있는지를 찾는 방법
• 훈련데이터를 이용하지 않기 때문에 ‘비지도학습’
• 클러스터링 (Clustering) : 비슷한 특성을 가진것들끼리 묶는것

지도학습, 비지도학습, 강화학습
• 강화학습 (Reinforce Learning)
• 에이전트가 어떠한 행위를 하였을때 칭찬 or 벌을 받음으로써 보상의 가중치를 최대
화 하는 기반 학습
• 게임(알파고) or 자율주행

Linear Regression
5 ➔ ??
2 3 9 10
30
50
80
90
5
?
100

Linear Regression
2 3 9 10
30
50
80
90
5
?
y = ax + b
5시간을 공부 했을때 예측되는 점수?
• 주어진 점(데이터)들과 가장 가까운 직선을 찾는
다
• 기울기 (a) 와 절편 (b)
100
기울기(a) = W (weight)으로 표기
y는 예측되는 x에 대한 가설 (Hypothesis)의 결과값
y = H(x) = Wx + b

Cost
2 3 9 10
30
50
80
90
5
100 • 랜덤하게 주어지는 W 와 b 에 따른 무수히
많은 직선
• 주어진 점들(데이터)과 가장 가까움을 만족
하는 하나의 직선을 찾아라
• 점과 직선사이의 거리 => 편차
• 가설(H)과 실제 값(y)과의 차이
d = H(x) - y

Cost
2 3 9 10
30
50
80
5
• 점과 직선사이의 거리가 멀면 나쁜것
• 가중치를 준다 (제곱)
• 거리에 제곱한것을 모두 더하고, x 항목의
개수로 나눠서 평균을 구한다. => 분산

Cost function
• cost 가 가장 작을 때의
W를 구하라

Gradient Descent Algorithm
• 피할수 없는 길 -> 미분
• 최소 비용에 수렴할때 까지 반복
Learning Rate
반복 크기

Multi-variable Linear
Regression

Multi-variable Linear
Regression
cost(W) =
1
m
m
∑
I=1
(XW − Y)2

Recap
데이터 x
랜덤값 W, b
Wx + b
1
m
m
∑
I=1
(Wx − y)2 Gradient
descent
W, b
완성된 모델
Wx + b

Logistics Regression
• Binary Classiﬁcation
• 1 (True) or 0 (False)
• 악성 파일(1) or 정상 파일(0)
• 데이터를 이항 분류할 수 있는 이상적인 그래프를 찾는것

New cost function for
Logistics

Multinomial Logistic
Regression
• Multi Classiﬁcation
• 0 ~ N 까지 클래스별 분류
• 정상 파일(0), 트로이목마(1), 백도어(2), 하이재커(3), …
• 데이터를 클래스별로 분류할 수 있는 이상적인 여러 그래프를 찾는것

Multinomial Logistic
Regression

Softmax
• i번째 y값의 중요도를 지수적으로 증가시켜 각 값 사이의 편차를 늘린
다음 정규화 하는 함수
• 지수적으로 증가시켜 각 값의 편차를 확대시켜 큰 값은 상대적으로
더 크게, 작은값은 더 작게 만든 다음 Normalization 시키는 함수
• 전체 합은 1

One-hot Encoding
강아지
고양이
백설기
0.2
0.1
0.7
예측값
1
0
0
실제값
One-hot Encoding

Cross Entropy Cost Function
cost(W) =
1
m
m
∑
I=1
(XW − Y)2

Overshooting
• Learning rate 크기가 너무 커서 Bowl을 탈출하는 현상
• Learning rate 크기가 너무 작으면 최소점에 도달하기 전에 끝남

Overﬁtting
• Overﬁtting 해결 방법은
• 더 많은 Training Data를 학습시킨다.
• 변수의 개수를 줄인다
• 일반화(Regularization) 한다.

Regularization
• 람다는 Regularization 비중을 조절하기 위한 Hyper Parameter
• W값이 클 경우 작게 만들어준다.
• 굴곡이 큰 특정 부분들에 대해서 굴곡을 완만하게 하거나 펴 준다

비지도학습
• 라벨링이 되어있지 않은 데이터로부터 데이터들의 속성을 찾는것
• Clustering
• 특성에 따라 데이터의 패턴이나 규칙을 통해 여러 집단으로 나누는것
• 데이터가 분리되어있는지 (Categorial data)
• 연속적인지(Continuous data)
• 차원축소(Dimentionality Reduction)
• Hidden Markov Model 등

K-means
1. K개의 파라미터를 선택
• K개의 클러스터가 생성
2. 랜덤한 K 위치와 데이터들의 거리를
구한다.
• 모든 데이터들이 K개의 클러스터 중
가까운 클러스터에 할당한다
3. 클러스터의 중심을 재설정한다.
• 클러스터 내 데이터들의 평균점이
클러스터의 중심이 된다.
4. 2~3번의 과정을 반복한다.

Neural Network
• Perceptron : 신경망을 이루는 가장 중요한 기본단위
• 입력 값과 활성화 함수를 사용해 출력 값을 다음으로 넘기는 가장 작은 신
경망 단위
• 여러 층의 퍼셉트론을 서로 연결시키고 복잡하게 조합하여 주어진 입력 값에
대한 판단을 하게 하는것이 신경망의 기본 구조

Deep Learning
• 다 계층 neural network를 통하여 학습하는것
• 이렇게 많은 W(weight)들을 어떻게 학습 시킬 것인가?

XOR Problem
• 선 하나로 해결이 안됨
• Marvin Minsky 교수
• 멀티레이어로 구성해서 처리 가능
• 각 레이어별 W의 학습이 어렵다

Neural Network
Multinomial
Logistic Regression

Derivation
• 여러 계층의 W들을 어떻게 구할 것인가

Back Propagation
• 결과 값을 가지고 거꾸로 각 뉴론들의 W를 조절
• 각 뉴론들의 W값이 결과값에 미치는 영향도를 계산

Big Problem
• Deep & Wide 하게 Layer를 구성
• XOR 문제를 도전

Vanishing Gradient
• 낮은 단계의 Layer 구성은 좋은 결과값을 내지만
• Layer가 깊어 지면 결과값이 낮아짐

wrong type of non-linearity
• Sigmoid 의 문제점

Restricted Boltzmann Machine
RBM
• x와 W로 계산된 값 y
• 거꾸로 y와 W로 x을 예측 (x hat)
• x와 x hat 의 차이가 가장 작은 W를 선정

Dropout
• 일부 뉴론들만 가지고 학습을 강화
• 실제 추론할 때는 모든 뉴론들을 사용

Ensemble
• 모델을 여러개를 만들어서 조합

Convolutional Neural
Networks (CNN)
• 이미지를 작은 타일로 나누고, 작은 네트워크를 통해 타일에서 특징을 추출
• 다음 타일로 이동하면서 같은 방법으로 특징을 추출
• 다른 특징을 추출하는 네트워크를 추가로 만들고 위와 같은 방법을 반복
• 추출된 특징들을 조합하여 최종적으로 이미지를 판단

Convolutional Neural
Networks (CNN)

Recurrent Neural Networks
(RNN)
• 순차적으로 일어나는 사건 분석
• 과거에 입력받았던 데이터를 동시에 고려
• t-1 시점의 RNN 출력값은 t 시점의 RNN 출력값에 영향을 줌

Recurrent Neural Networks
(RNN)
• 음성인식
• 기계번역
• 이미지/비디오 캡션

참고자료
• 모두를 위한 딥러닝 강좌 시즌 1
• https://www.youtube.com/watch?
v=BS6O0zOGX4E&list=PLlMkM4tgfjnLSOjrEJN31gZATbcj_MpUm
• 갓 고등학교 1학년도 이해하는 머신러닝&딥러닝 (고재형)
• https://drive.google.com/drive/folders/
0BwwNF6qNzpOLNXA2OGZ4TW9NNEE
• 인공지능을 위한 머신러닝 알고리즘 | T아카데미
• https://www.youtube.com/watch?v=0bcATLm-
ylk&list=PL9mhQYIlKEheuxhyGbUIpKR1EFM-o0Br1

결론
• 책으로 먼저 공부하지 마시오!!!
• 진짜 공부하고 싶으면?
• 수식에 쫄지 마시오
• 용어는 외워야 됨
• 학습데이터

From maching learning to deep learning

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie From maching learning to deep learning

Ähnlich wie From maching learning to deep learning (20)

From maching learning to deep learning