SlideShare ist ein Scribd-Unternehmen logo
1 von 26
Downloaden Sie, um offline zu lesen
뉴럴넷은
PDF 즉,
확률분포 모델이 될 수 있는가.
The particular characteristic of the method is that the output of the network is not a pdf, therefore, the computation of the network’s integral is required.
이 방법의 특별한 특징은 네트워크의 출력이 pdf가 아니므로 네트워크의 적분 계산이 필요하다는 것입니다.
It turns out that this is quite tricky when coupled with subsequent training procedures.
후속 교육 과정과 결합 될 때 이것이 매우 까다로운 것으로 판명됩니다.
Several modifications of the original approach (Modha and Fainman, 1994) are proposed,
most of them related to the numerical treatment of the integral and the employment of a preprocessing phase where the network parameters are initialized using supervised training.
최초 접근법 (Modha and Fainman, 1994)의 몇 가지 수정안이 제안되었는데, 대부분은 통합의 수치 적 처리 및 감독 된 훈련을 사용하여 네트워크 매개 변수가 초기화되는 전처리 단계의
련됩니다.
Experimental results using several test problems indicate that the proposed method is very effective and in most cases superior to the method of Gaussian mixtures.
몇 가지 테스트 문제를 사용한 실험 결과는 제안 된 방법이 매우 효과적이며 대부분의 경우 가우시안 혼합물의 방법보다 우수함을 나타냅니다.
두개의 가우시안과
유니폼 커널들의 믹스츄어
Probability density function estimation from a given set of observations constitutes an important computa- tional problem with applications to many areas of ex- perimental physics (high
energy, spectroscopy, etc.).
주어진 관측치로부터 확률 밀도 함수를 추정하는 것은 많은 물리학 분야 (고 에너지, 분광기 등)에 적용 할 때 중요한 계산상의 문제를 구성합니다.
Parametric techniques for probability density function (pdf) estimation assume a model of suitable functional form with parameters to be adjusted so that it approx- imates the distribution of
the data.
확률 밀도 함수 (pdf) 추정을위한 파라 메트릭 기법은 데이터의 분포를 대략적으로 조정할 수있는 매개 변수가있는 적합한 함수 형식의 모델을 가정합니다.
This adjustment is usually achieved through the maximization of the likelihood of the data with respect to the parameters of the model.
이 조정은 일반적으로 모델의 매개 변수와 관련하여 데이터의 가능성을 극대화하여 이루어집니다.
The most widely used parametric ap- proach for density estimation is based on Gaussian mixtures, which has been shown to exhibit the univer-sal approximation property and efficient procedures for likelihood
maximization have been developed for this model (EM algorithm) [2–4].
밀도 추정을 위해 가장 널리 사용되는 파라 메트릭 어프로치는이 모델 (EM 알고리즘)을 위해 개발 된 가우시안 혼합물에 기반을두고 있으며,이 모델은 유니버설 근사 특성을 나타내며 우도 최대
화를위한 효율적인 절차가 개발되었다 [2-4] .
EM 알고리즘을 통한
가우시안 믹스츄어 모델의 approximation
It must be noted that, in analogy with the case of Gaussian mixtures, most parametric approaches assume that the model function is a pdf by construction.
가우스 혼합의 경우와 유사하게, 대부분의 파라 메트릭 접근법은 모델 함수가 구조에 의해 pdf라고 가정해야합니다.
파라메트릭 방법을 통해서는 모델 함수의 구조가 pdf라고 가정되어야 함.
In [1] the use of feedforward neural networks with sigmoid hidden units called multilayer perceptrons (MLPs) as models for pdf estimation is proposed, along with a training procedure for
adjusting the pa- rameters of the MLP(weights and biases) so that the likelihood is maximized.
[1]에서 MLP (weight and biases)의 파라미터를 조정하는 훈련 과정과 함께 pdf 추정을위한 모델로서 MLP (multilayer perceptrons)라고 불리는 Sigmoid 숨겨진 단위를 가진 피드
포워드 신경망의 사용이 제안되었다. 우도가 최대화됩니다.
그러니까 가우시안 믹스츄어 모델에서 파라미터를 likelihood를 최대화하는 방식으로 최적화 하듯이
MLP에서 파라미터인 bias와 weights를 likelihood가 최대화되는 방식으로 최적화.
Moreover, theoretical results are presented in [5], concerning the rate of conver- gence of such techniques.
또한 이론적 인 결과가 [5]에서 제시되었는데, 이러한 기법의 수렴 속도에 관한 것이다.
In this work we elaborate on the use of MLPs as models for pdf estimation.
이 작업에서 우리는 MLP를 pdf 추정 모델로 사용하는 것에 대해 자세히 설명합니다.
S는 Sample space
x 는 input
p 는 파라미터 벡터
어떤 파라미터 벡터에 대한 가우시안에 대해,
Input x에 대한 가우시안 값이 => 0이고,
Pdf는 그 가우시안을
Sample 전영역에 대한 pdf 넓이로 나눈 것.
이런 식의 모델이 확률분포로써의 가우시안으로 볼 수 있나?
확률분포는 단지 직위같은 것이고 가우시안은 그 함수의 형태일 뿐일까?
Sample space는 연속적인가? 연속적이라고 가정하고서 풀어내는 것인가?
결국의 모델 pdf term의 분모 부분과 p 파라미터를 찾아내는 것?
그리고 후에 사용할 input x 는 sample space S에 속할 때, 유용한 것?
It is well known that the Gaussian mixture approach encounters difficulties in approximating the uniform distribution.
가우스 혼합 접근법은 균일 분포를 근사화하는 데 어려움을 겪는다는 것은 잘 알려져있다.
This is not the case for the MLP model. We conducted experiments that demonstrate the adapt- ability of the MLP model and its superiority in ap- proximating the uniform distribution.
MLP 모델의 경우는 그렇지 않습니다. 우리는 MLP 모델의 적응성과 균일 분포를 근사하는 우월성을 입증하는 실험을 수행했다.
However, MLPs do not integrate analytically and, hence, numerical quadrature has to be employed.
그러나 MLP는 분석적으로 통합되지 않으므로 수치 쿼드 러처를 사용해야합니다.
MLP는 해석적으로 적분될 수 없으므로,
Numerical quadrature을 통해서 모델을 만들어야 한다.
Numerical quadrature
This is a disadvan- tage and in addition, as it will be shown, incorporates salient difficulties in the optimization procedure that is used for training.
이것은 단점이며 또한 보여지는대로 교육에 사용되는 최적화 절차에 큰 어려움이 있습니다.
We propose first a preprocessing stage where super- vised training is used to obtain a coarse approximation of the unknown pdf and force the network output in the domain of interest.
우리는 우선 알려지지 않은 pdf의 대략적인 근사를 얻고 관심 도메인에서 네트워크 출력을 강제하기 위해 숙련 된 훈련이 사용되는 전처리 단계를 제안합니다.
For the quadrature we propose a moving grid approach. This is very important since, if a constant grid is used instead, it amounts to weight- ing the importance of the grid points in the
optimiza- tion procedure and hence producing artifacts.
직교에 대해 우리는 움직이는 그리드 방식을 제안합니다. 이것은 상수 그리드가 대신 사용되는 경우 최적화 절차에서 그리드 점의 중요도를 가중시키고 결과적으로 인공물을 생성하기 때문에 매
우 중요합니다.
We will see this point in detail, since to the best of our knowl- edge, it has not been discussed in the literature, most likely because it went by unobserved due to its salient character.
우리가 알고있는 바에 따르면 그것은 현저한 성격 때문에 관찰되지 않았기 때문에 문헌에서 논의되지 않았기 때문에이 점을 자세히 볼 것입니다.
전처리 단계에서 대략적인 근사를 얻는 것이 전체 과정에서 어떤 과정인지 알아야 하고
Moving grid approach를 이해하기 위해서는 quadrature를 이해해야 하고.
https://helloworldpark.github.io/jekyll/update/2017/02/04/Gaussian-Quadrature.html
Quadrature에 대한 정리 하고. Numerical..
It must also be noted that except for the ordinary approaches to density estimation that are based on the maximization of the data likelihood, a very interest- ing different approach has been
suggested that em- ploys classification neural networks [6].
데이터 가능성의 극대화를 기반으로 한 밀도 추정에 대한 일반적인 접근법을 제외하면, 분류 신경망을 사용하는 매우 흥미로운 다른 접근 방법이 제안되었다 [6].
data에 대한 알려지지 않은 pdf를 얻기 위해서, user specified 된 pdf_ref로부터 데이터를 인공적으로 생성해서 이용한다.
그리고 나서 feedforward 분류 네트워크로, data에 대한 알려지지 않은 pdf에서 나온 sample x 인지,
User defined 한 pdf에서 나온 데이터인지 분류하게 트레이닝한다.
이 아이디어가 중요해보인다.
뉴럴넷을 활용하는데,
적절하게 supervised하게 학습되면
잘 분류해내는 특성을 이용하자.
한쪽은 수학적으로 구조화된 것
그래서 수학적 정보를 잘 알고 있는 generator model.
다른 한쪽은 unknown.
From this brief description it is clear that this method is fundamentally different from the proposed one.
이 간단한 설명에서이 방법이 제안 된 방법과 근본적으로 다르다는 것은 분명합니다.
The Garrido and Juste method transforms the density esti- mation problem to a classification problem, while our method treats the density estimation method in the reg- ular way as a
maximization problem of the data likeli- hood.
Garrido and Juste 방법은 밀도 추정 문제를 분류 문제로 변환하는 반면, 본 방법은 밀도 추정 방법을 일반적인 방법으로 데이터 우도의 최대화 문제로 취급한다.
Due to this crucial difference, many other differ- ences between the two methods also arise that concern the network architecture, the objective function to be optimized and the numerical treatment and
implemen- tation of the training methods.
이 중요한 차이로 인해 네트워크 구조, 최적화 할 목표 기능 및 교육 방법의 수치 처리 및 구현과 관련된 두 가지 방법 간의 다른 많은 차이점도 발생합니다.
PDF를
분류문제로 얻는 방법과 회귀 문제로 얻는 방법
The remainder of the paper is organized as follows: Section 2 describes the basic approach to pdf estima- tion using MLPs, while Section 3 deals with issues of numerical integration.
본 논문의 나머지 부분은 다음과 같이 구성된다. 2 절에서는 MLP를 사용한 pdf 추정에 대한 기본 접근법을 설명하고, 3 절에서는 수치 적 통합의 문제를 다룬다.
The proposed approach is de- scribed in detail in Section 4. Section 5 provides com- parative experimental results with the Gaussian mix- ture method on several test problems and, finally,
Sec- tion 6 provides conclusions and future research direc- tions.
제안 된 접근법은 4 장에서 자세하게 설명한다. 5 장에서는 몇 가지 시험 문제에 대한 가우시안 혼합 방법을 사용하여 비교 실험 결과를 제공하고, 마지막으로 6 장에서는 결론과 향후 연구 방향을
제시한다.
여기까지가 인트로덕션
https://www.cs.toronto.edu/~duvenaud/courses/csc2541/index.html
CSC2541: Differentiable Inference and Generative Models
https://csc2541-f17.github.io/
CSC2541: Scalable and Flexible Models of Uncertainty
Topic Readings
9/15
Overview

[Slides]
Overview

• Ghahramani, 2015. Probabilistic machine learning and artificial intelligence.

Bayesian regression

• MacKay, 1992. Bayesian interpolation.

• Rasmussen and Ghahramani, 2001. Occam's razor.

• Review: Bayesian parameter estimation, Bayesian linear regression

Calibration

• Guo et al., 2017. On calibration of modern neural networks.
9/22
Gaussian Processes

[Slides]
Foundations

• GPML, Chapter 2

Structured kernels

• skim GPML sections 4.1-4.2

• GPML, Chapter 5

• David Duvenaud's kernel cookbook

• We did not get to the following two, so they will be covered in a later lecture:

◦ Duvenaud et al., 2013. Structure discovery in nonparametric regression through compositional kernel
search

◦ Wilson and Adams, 2013. Gaussian process kernels for pattern discovery and extrapolation
Calendar:
9/29
Bayesian Neural
Nets
[Slides]
Background
• backpropagation
• Metropolis-Hastings
Foundations
• MacKay, 1992. A practical Bayesian framework for
backpropagation networks.
• Neal, 1995. Bayesian learning for neural networks. Chapter 2.
Hamiltonian Monte Carlo
• Neal, 2012. MCMC using Hamiltonian dynamics. (focus on
sections 1-3)
Stochastic gradient Langevin dynamics
• Welling and Teh, 2011. Bayesian learning via stochastic
gradient Langevin dynamics.
• Balan et al., 2015. Bayesian dark knowledge
10/6
Variational
Inference for
BNNs
[Slides]
Background
• variational Bayes
• Kingma and Welling, 2014. Auto-encoding variational Bayes.
Variational inference for BNNs
• Hinton and van Camp, 1993. Keeping the neural networks
simple by minimizing the description length of the weights.
• Graves, 2011. Practical variational inference for neural networks
• Kingma, Salimans, and Welling, 2015. Variational dropout and
the local reparameterization trick.
• (optional) Gal and Ghahramani, 2016. Dropout as Bayesian
approximation: representing model uncertainty in deep learning
Sparsification
• Louizos et al., 2017. Bayesian compression for deep learning.
10/13
Variational
Inference for GPs
[Slides: 1, 2]
Note: this is among the most mathematically demanding
sessions, and the rest of the course doesn't build much on it, so
don't get bogged down in the details.
Natural gradient and stochastic variational inference
• Natural gradient tutorial: see Piazza under "Resources"
• Hoffman, Blei, Wang, and Paisley, 2013. Stochastic
variational inference
• Note: this material is included because it's used by Hensman
et al., and also because natural gradient and SVI are just
good things to know about.
Sparse GPs
• Titsias, 2009. Variational learning of inducing variables in
sparse Gaussian processes
• Bauer, van der Wilk, and Ghahramani, 2016. Understanding
10/20
Exploration I:
Active Learning
and Bandits
[Slides]
Active Learning
• MacKay, 1992. Information-based objective functions for
active data selection.
• Graves et al., 2017. Automated curriculum learning for neural
networks.
Bandits
• Auer et al., 2002. Finite-time analysis of the multiarmed
bandit problem.
• (optional) Kocsis and Szepesvari, 2006. Bandit based
Monte-Carlo planning.
• Russo et al., 2017. A tutorial on Thompson sampling.
10/27
Exploration II:
Bayesian
Optimization
[Slides]
Bayesian optimization
• Snoek, Larochelle, and Adams, 2012. Practical Bayesian
optimization of machine learning algorithms.
• Srinivas et al., 2010. Gaussian process optimization in
the bandit setting: no regret and experimental design.
• (optional) Snoek et al., 2015. Scalable Bayesian
optimization using deep neural networks.
Exploiting structure
• Swersky, Snoek, and Adams, 2013. Multi-task Bayesian
optimization
• Swersky, Snoek, and Adams, 2014. Freeze-thaw
Bayesian optimization
• (optional) Gardner et al., 2017. Discovering and exploiting
additive structure for Bayesian optimization.
11/3
Exploration III:
Reinforcement
Learning
[Slides]
Model-free
• Osband et al., 2016. Deep exploration via bootstrapped
DQN.
• Houthooft et al., 2016. VIME: Variational information
maximizing exploration.
• (optional) Fortunato et al., 2017. Noisy networks for
exploration.
Model-based
• Deisenroth and Rasmussen, 2011. PILCO: a model-
based and data-efficient approach to policy search
• Depeweg et al., 2016. Learning and policy search in
stochastic dynamical systems with Bayesian neural
networks
11/10
Adversarial
Robustness
[Slides]
•Goodfellow, Shlens, and Szegedy, 2014. Explaining and
harnessing adversarial examples.
•(recommended) Ian Goodfellow's NIPS tutorial
•Papernot et al., 2016. Practical black-box attacks against
machine learning systems using adversarial examples
•Kos, Fischer, and Song, 2017. Adversarial examples for
generative models
•Papernot et al., 2015. The limitations of deep learning in
adversarial settings
•Bradshaw, Matthews, and Ghahramani, 2017. Adversarial
Examples, Uncertainty, and Transfer Testing Robustness in
Gaussian Process Hybrid Deep Networks
11/17
Optimization
[Slides]
Martens and Grosse, 2015. Optimizing neural networks with
Kronecker-factored approximate curvature.
NN and PDF
NN and PDF
NN and PDF
NN and PDF
NN and PDF
NN and PDF
NN and PDF

Weitere ähnliche Inhalte

Ähnlich wie NN and PDF

5일차.map reduce 활용
5일차.map reduce 활용5일차.map reduce 활용
5일차.map reduce 활용
주영 송
 
MOReL: Model-Based Offline Reinforcement Learning
MOReL: Model-Based Offline Reinforcement LearningMOReL: Model-Based Offline Reinforcement Learning
MOReL: Model-Based Offline Reinforcement Learning
taeseon ryu
 

Ähnlich wie NN and PDF (20)

[Paper] auto ml part 1
[Paper] auto ml part 1[Paper] auto ml part 1
[Paper] auto ml part 1
 
230720_NS
230720_NS230720_NS
230720_NS
 
파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)
 
5일차.map reduce 활용
5일차.map reduce 활용5일차.map reduce 활용
5일차.map reduce 활용
 
PaLM Paper Review
PaLM Paper ReviewPaLM Paper Review
PaLM Paper Review
 
Chapter 8 - optimization for training deep models
Chapter 8 - optimization for training deep modelsChapter 8 - optimization for training deep models
Chapter 8 - optimization for training deep models
 
Technical Report on "Lecture Quality Prediction using Graph Neural Networks"
Technical Report on "Lecture Quality Prediction using Graph Neural Networks"Technical Report on "Lecture Quality Prediction using Graph Neural Networks"
Technical Report on "Lecture Quality Prediction using Graph Neural Networks"
 
PR-383: Solving ImageNet: a Unified Scheme for Training any Backbone to Top R...
PR-383: Solving ImageNet: a Unified Scheme for Training any Backbone to Top R...PR-383: Solving ImageNet: a Unified Scheme for Training any Backbone to Top R...
PR-383: Solving ImageNet: a Unified Scheme for Training any Backbone to Top R...
 
REALM
REALMREALM
REALM
 
Metric Learning 세미나.pptx
Metric Learning 세미나.pptxMetric Learning 세미나.pptx
Metric Learning 세미나.pptx
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical Methodology
 
생체 광학 데이터 분석 AI 경진대회 9위 수상작
생체 광학 데이터 분석 AI 경진대회 9위 수상작생체 광학 데이터 분석 AI 경진대회 9위 수상작
생체 광학 데이터 분석 AI 경진대회 9위 수상작
 
Metric learning 세미나
Metric learning 세미나Metric learning 세미나
Metric learning 세미나
 
MOReL: Model-Based Offline Reinforcement Learning
MOReL: Model-Based Offline Reinforcement LearningMOReL: Model-Based Offline Reinforcement Learning
MOReL: Model-Based Offline Reinforcement Learning
 
S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"
S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"
S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"
 
딥러닝 논문읽기 efficient netv2 논문리뷰
딥러닝 논문읽기 efficient netv2  논문리뷰딥러닝 논문읽기 efficient netv2  논문리뷰
딥러닝 논문읽기 efficient netv2 논문리뷰
 
Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)Introduction to SAC(Soft Actor-Critic)
Introduction to SAC(Soft Actor-Critic)
 
DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks
DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks
DeepAR:Probabilistic Forecasting with Autogressive Recurrent Networks
 
Review of the Paper on Capabilities of Gemini Models in Medicine
Review of the Paper on Capabilities of Gemini Models in MedicineReview of the Paper on Capabilities of Gemini Models in Medicine
Review of the Paper on Capabilities of Gemini Models in Medicine
 
Chapter 17 monte carlo methods
Chapter 17 monte carlo methodsChapter 17 monte carlo methods
Chapter 17 monte carlo methods
 

Mehr von 민석 김

off-policy methods with approximation
off-policy methods with approximationoff-policy methods with approximation
off-policy methods with approximation
민석 김
 

Mehr von 민석 김 (15)

pt
ptpt
pt
 
off-policy methods with approximation
off-policy methods with approximationoff-policy methods with approximation
off-policy methods with approximation
 
Multi armed bandit
Multi armed banditMulti armed bandit
Multi armed bandit
 
Kanerva machine
Kanerva machineKanerva machine
Kanerva machine
 
Shouting at gwanghwamun
Shouting at gwanghwamunShouting at gwanghwamun
Shouting at gwanghwamun
 
ML 60'~80' new paradigm 1
ML 60'~80' new paradigm 1ML 60'~80' new paradigm 1
ML 60'~80' new paradigm 1
 
Internet speed 인터넷 속도를 측정해보자
Internet speed 인터넷 속도를 측정해보자Internet speed 인터넷 속도를 측정해보자
Internet speed 인터넷 속도를 측정해보자
 
벽 생성기 Wall generator
벽 생성기 Wall generator 벽 생성기 Wall generator
벽 생성기 Wall generator
 
복소수와 오일러 공식
복소수와 오일러 공식복소수와 오일러 공식
복소수와 오일러 공식
 
Bayesian nets 발표 3
Bayesian nets 발표 3Bayesian nets 발표 3
Bayesian nets 발표 3
 
Bayesian nets 발표 1
Bayesian nets 발표 1Bayesian nets 발표 1
Bayesian nets 발표 1
 
Bayesian nets 발표 2
Bayesian nets 발표 2Bayesian nets 발표 2
Bayesian nets 발표 2
 
AI 인공지능이란 단어 읽기
AI 인공지능이란 단어 읽기AI 인공지능이란 단어 읽기
AI 인공지능이란 단어 읽기
 
Hopfield network 처음부터 공부해보기
Hopfield network 처음부터 공부해보기Hopfield network 처음부터 공부해보기
Hopfield network 처음부터 공부해보기
 
VAE 처음부터 알아보기
VAE 처음부터 알아보기VAE 처음부터 알아보기
VAE 처음부터 알아보기
 

Kürzlich hochgeladen

Kürzlich hochgeladen (8)

공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화
 
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
 
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
 
JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례
 
데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법
 
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
 
JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!
 
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
 

NN and PDF

  • 2. The particular characteristic of the method is that the output of the network is not a pdf, therefore, the computation of the network’s integral is required. 이 방법의 특별한 특징은 네트워크의 출력이 pdf가 아니므로 네트워크의 적분 계산이 필요하다는 것입니다. It turns out that this is quite tricky when coupled with subsequent training procedures. 후속 교육 과정과 결합 될 때 이것이 매우 까다로운 것으로 판명됩니다. Several modifications of the original approach (Modha and Fainman, 1994) are proposed, most of them related to the numerical treatment of the integral and the employment of a preprocessing phase where the network parameters are initialized using supervised training. 최초 접근법 (Modha and Fainman, 1994)의 몇 가지 수정안이 제안되었는데, 대부분은 통합의 수치 적 처리 및 감독 된 훈련을 사용하여 네트워크 매개 변수가 초기화되는 전처리 단계의 련됩니다. Experimental results using several test problems indicate that the proposed method is very effective and in most cases superior to the method of Gaussian mixtures. 몇 가지 테스트 문제를 사용한 실험 결과는 제안 된 방법이 매우 효과적이며 대부분의 경우 가우시안 혼합물의 방법보다 우수함을 나타냅니다.
  • 4. Probability density function estimation from a given set of observations constitutes an important computa- tional problem with applications to many areas of ex- perimental physics (high energy, spectroscopy, etc.). 주어진 관측치로부터 확률 밀도 함수를 추정하는 것은 많은 물리학 분야 (고 에너지, 분광기 등)에 적용 할 때 중요한 계산상의 문제를 구성합니다. Parametric techniques for probability density function (pdf) estimation assume a model of suitable functional form with parameters to be adjusted so that it approx- imates the distribution of the data. 확률 밀도 함수 (pdf) 추정을위한 파라 메트릭 기법은 데이터의 분포를 대략적으로 조정할 수있는 매개 변수가있는 적합한 함수 형식의 모델을 가정합니다. This adjustment is usually achieved through the maximization of the likelihood of the data with respect to the parameters of the model. 이 조정은 일반적으로 모델의 매개 변수와 관련하여 데이터의 가능성을 극대화하여 이루어집니다. The most widely used parametric ap- proach for density estimation is based on Gaussian mixtures, which has been shown to exhibit the univer-sal approximation property and efficient procedures for likelihood maximization have been developed for this model (EM algorithm) [2–4]. 밀도 추정을 위해 가장 널리 사용되는 파라 메트릭 어프로치는이 모델 (EM 알고리즘)을 위해 개발 된 가우시안 혼합물에 기반을두고 있으며,이 모델은 유니버설 근사 특성을 나타내며 우도 최대 화를위한 효율적인 절차가 개발되었다 [2-4] . EM 알고리즘을 통한 가우시안 믹스츄어 모델의 approximation It must be noted that, in analogy with the case of Gaussian mixtures, most parametric approaches assume that the model function is a pdf by construction. 가우스 혼합의 경우와 유사하게, 대부분의 파라 메트릭 접근법은 모델 함수가 구조에 의해 pdf라고 가정해야합니다. 파라메트릭 방법을 통해서는 모델 함수의 구조가 pdf라고 가정되어야 함.
  • 5. In [1] the use of feedforward neural networks with sigmoid hidden units called multilayer perceptrons (MLPs) as models for pdf estimation is proposed, along with a training procedure for adjusting the pa- rameters of the MLP(weights and biases) so that the likelihood is maximized. [1]에서 MLP (weight and biases)의 파라미터를 조정하는 훈련 과정과 함께 pdf 추정을위한 모델로서 MLP (multilayer perceptrons)라고 불리는 Sigmoid 숨겨진 단위를 가진 피드 포워드 신경망의 사용이 제안되었다. 우도가 최대화됩니다. 그러니까 가우시안 믹스츄어 모델에서 파라미터를 likelihood를 최대화하는 방식으로 최적화 하듯이 MLP에서 파라미터인 bias와 weights를 likelihood가 최대화되는 방식으로 최적화. Moreover, theoretical results are presented in [5], concerning the rate of conver- gence of such techniques. 또한 이론적 인 결과가 [5]에서 제시되었는데, 이러한 기법의 수렴 속도에 관한 것이다. In this work we elaborate on the use of MLPs as models for pdf estimation. 이 작업에서 우리는 MLP를 pdf 추정 모델로 사용하는 것에 대해 자세히 설명합니다. S는 Sample space x 는 input p 는 파라미터 벡터 어떤 파라미터 벡터에 대한 가우시안에 대해, Input x에 대한 가우시안 값이 => 0이고, Pdf는 그 가우시안을 Sample 전영역에 대한 pdf 넓이로 나눈 것. 이런 식의 모델이 확률분포로써의 가우시안으로 볼 수 있나? 확률분포는 단지 직위같은 것이고 가우시안은 그 함수의 형태일 뿐일까? Sample space는 연속적인가? 연속적이라고 가정하고서 풀어내는 것인가? 결국의 모델 pdf term의 분모 부분과 p 파라미터를 찾아내는 것? 그리고 후에 사용할 input x 는 sample space S에 속할 때, 유용한 것?
  • 6. It is well known that the Gaussian mixture approach encounters difficulties in approximating the uniform distribution. 가우스 혼합 접근법은 균일 분포를 근사화하는 데 어려움을 겪는다는 것은 잘 알려져있다. This is not the case for the MLP model. We conducted experiments that demonstrate the adapt- ability of the MLP model and its superiority in ap- proximating the uniform distribution. MLP 모델의 경우는 그렇지 않습니다. 우리는 MLP 모델의 적응성과 균일 분포를 근사하는 우월성을 입증하는 실험을 수행했다. However, MLPs do not integrate analytically and, hence, numerical quadrature has to be employed. 그러나 MLP는 분석적으로 통합되지 않으므로 수치 쿼드 러처를 사용해야합니다. MLP는 해석적으로 적분될 수 없으므로, Numerical quadrature을 통해서 모델을 만들어야 한다. Numerical quadrature This is a disadvan- tage and in addition, as it will be shown, incorporates salient difficulties in the optimization procedure that is used for training. 이것은 단점이며 또한 보여지는대로 교육에 사용되는 최적화 절차에 큰 어려움이 있습니다. We propose first a preprocessing stage where super- vised training is used to obtain a coarse approximation of the unknown pdf and force the network output in the domain of interest. 우리는 우선 알려지지 않은 pdf의 대략적인 근사를 얻고 관심 도메인에서 네트워크 출력을 강제하기 위해 숙련 된 훈련이 사용되는 전처리 단계를 제안합니다. For the quadrature we propose a moving grid approach. This is very important since, if a constant grid is used instead, it amounts to weight- ing the importance of the grid points in the optimiza- tion procedure and hence producing artifacts. 직교에 대해 우리는 움직이는 그리드 방식을 제안합니다. 이것은 상수 그리드가 대신 사용되는 경우 최적화 절차에서 그리드 점의 중요도를 가중시키고 결과적으로 인공물을 생성하기 때문에 매 우 중요합니다. We will see this point in detail, since to the best of our knowl- edge, it has not been discussed in the literature, most likely because it went by unobserved due to its salient character. 우리가 알고있는 바에 따르면 그것은 현저한 성격 때문에 관찰되지 않았기 때문에 문헌에서 논의되지 않았기 때문에이 점을 자세히 볼 것입니다. 전처리 단계에서 대략적인 근사를 얻는 것이 전체 과정에서 어떤 과정인지 알아야 하고 Moving grid approach를 이해하기 위해서는 quadrature를 이해해야 하고.
  • 7. https://helloworldpark.github.io/jekyll/update/2017/02/04/Gaussian-Quadrature.html Quadrature에 대한 정리 하고. Numerical.. It must also be noted that except for the ordinary approaches to density estimation that are based on the maximization of the data likelihood, a very interest- ing different approach has been suggested that em- ploys classification neural networks [6]. 데이터 가능성의 극대화를 기반으로 한 밀도 추정에 대한 일반적인 접근법을 제외하면, 분류 신경망을 사용하는 매우 흥미로운 다른 접근 방법이 제안되었다 [6]. data에 대한 알려지지 않은 pdf를 얻기 위해서, user specified 된 pdf_ref로부터 데이터를 인공적으로 생성해서 이용한다. 그리고 나서 feedforward 분류 네트워크로, data에 대한 알려지지 않은 pdf에서 나온 sample x 인지, User defined 한 pdf에서 나온 데이터인지 분류하게 트레이닝한다. 이 아이디어가 중요해보인다. 뉴럴넷을 활용하는데, 적절하게 supervised하게 학습되면 잘 분류해내는 특성을 이용하자. 한쪽은 수학적으로 구조화된 것 그래서 수학적 정보를 잘 알고 있는 generator model. 다른 한쪽은 unknown.
  • 8. From this brief description it is clear that this method is fundamentally different from the proposed one. 이 간단한 설명에서이 방법이 제안 된 방법과 근본적으로 다르다는 것은 분명합니다. The Garrido and Juste method transforms the density esti- mation problem to a classification problem, while our method treats the density estimation method in the reg- ular way as a maximization problem of the data likeli- hood. Garrido and Juste 방법은 밀도 추정 문제를 분류 문제로 변환하는 반면, 본 방법은 밀도 추정 방법을 일반적인 방법으로 데이터 우도의 최대화 문제로 취급한다. Due to this crucial difference, many other differ- ences between the two methods also arise that concern the network architecture, the objective function to be optimized and the numerical treatment and implemen- tation of the training methods. 이 중요한 차이로 인해 네트워크 구조, 최적화 할 목표 기능 및 교육 방법의 수치 처리 및 구현과 관련된 두 가지 방법 간의 다른 많은 차이점도 발생합니다. PDF를 분류문제로 얻는 방법과 회귀 문제로 얻는 방법 The remainder of the paper is organized as follows: Section 2 describes the basic approach to pdf estima- tion using MLPs, while Section 3 deals with issues of numerical integration. 본 논문의 나머지 부분은 다음과 같이 구성된다. 2 절에서는 MLP를 사용한 pdf 추정에 대한 기본 접근법을 설명하고, 3 절에서는 수치 적 통합의 문제를 다룬다. The proposed approach is de- scribed in detail in Section 4. Section 5 provides com- parative experimental results with the Gaussian mix- ture method on several test problems and, finally, Sec- tion 6 provides conclusions and future research direc- tions. 제안 된 접근법은 4 장에서 자세하게 설명한다. 5 장에서는 몇 가지 시험 문제에 대한 가우시안 혼합 방법을 사용하여 비교 실험 결과를 제공하고, 마지막으로 6 장에서는 결론과 향후 연구 방향을 제시한다. 여기까지가 인트로덕션
  • 9.
  • 11.
  • 12.
  • 14. Topic Readings 9/15 Overview [Slides] Overview • Ghahramani, 2015. Probabilistic machine learning and artificial intelligence. Bayesian regression • MacKay, 1992. Bayesian interpolation. • Rasmussen and Ghahramani, 2001. Occam's razor. • Review: Bayesian parameter estimation, Bayesian linear regression Calibration • Guo et al., 2017. On calibration of modern neural networks. 9/22 Gaussian Processes [Slides] Foundations • GPML, Chapter 2 Structured kernels • skim GPML sections 4.1-4.2 • GPML, Chapter 5 • David Duvenaud's kernel cookbook • We did not get to the following two, so they will be covered in a later lecture: ◦ Duvenaud et al., 2013. Structure discovery in nonparametric regression through compositional kernel search ◦ Wilson and Adams, 2013. Gaussian process kernels for pattern discovery and extrapolation Calendar:
  • 15. 9/29 Bayesian Neural Nets [Slides] Background • backpropagation • Metropolis-Hastings Foundations • MacKay, 1992. A practical Bayesian framework for backpropagation networks. • Neal, 1995. Bayesian learning for neural networks. Chapter 2. Hamiltonian Monte Carlo • Neal, 2012. MCMC using Hamiltonian dynamics. (focus on sections 1-3) Stochastic gradient Langevin dynamics • Welling and Teh, 2011. Bayesian learning via stochastic gradient Langevin dynamics. • Balan et al., 2015. Bayesian dark knowledge 10/6 Variational Inference for BNNs [Slides] Background • variational Bayes • Kingma and Welling, 2014. Auto-encoding variational Bayes. Variational inference for BNNs • Hinton and van Camp, 1993. Keeping the neural networks simple by minimizing the description length of the weights. • Graves, 2011. Practical variational inference for neural networks • Kingma, Salimans, and Welling, 2015. Variational dropout and the local reparameterization trick. • (optional) Gal and Ghahramani, 2016. Dropout as Bayesian approximation: representing model uncertainty in deep learning Sparsification • Louizos et al., 2017. Bayesian compression for deep learning.
  • 16.
  • 17. 10/13 Variational Inference for GPs [Slides: 1, 2] Note: this is among the most mathematically demanding sessions, and the rest of the course doesn't build much on it, so don't get bogged down in the details. Natural gradient and stochastic variational inference • Natural gradient tutorial: see Piazza under "Resources" • Hoffman, Blei, Wang, and Paisley, 2013. Stochastic variational inference • Note: this material is included because it's used by Hensman et al., and also because natural gradient and SVI are just good things to know about. Sparse GPs • Titsias, 2009. Variational learning of inducing variables in sparse Gaussian processes • Bauer, van der Wilk, and Ghahramani, 2016. Understanding 10/20 Exploration I: Active Learning and Bandits [Slides] Active Learning • MacKay, 1992. Information-based objective functions for active data selection. • Graves et al., 2017. Automated curriculum learning for neural networks. Bandits • Auer et al., 2002. Finite-time analysis of the multiarmed bandit problem. • (optional) Kocsis and Szepesvari, 2006. Bandit based Monte-Carlo planning. • Russo et al., 2017. A tutorial on Thompson sampling.
  • 18. 10/27 Exploration II: Bayesian Optimization [Slides] Bayesian optimization • Snoek, Larochelle, and Adams, 2012. Practical Bayesian optimization of machine learning algorithms. • Srinivas et al., 2010. Gaussian process optimization in the bandit setting: no regret and experimental design. • (optional) Snoek et al., 2015. Scalable Bayesian optimization using deep neural networks. Exploiting structure • Swersky, Snoek, and Adams, 2013. Multi-task Bayesian optimization • Swersky, Snoek, and Adams, 2014. Freeze-thaw Bayesian optimization • (optional) Gardner et al., 2017. Discovering and exploiting additive structure for Bayesian optimization. 11/3 Exploration III: Reinforcement Learning [Slides] Model-free • Osband et al., 2016. Deep exploration via bootstrapped DQN. • Houthooft et al., 2016. VIME: Variational information maximizing exploration. • (optional) Fortunato et al., 2017. Noisy networks for exploration. Model-based • Deisenroth and Rasmussen, 2011. PILCO: a model- based and data-efficient approach to policy search • Depeweg et al., 2016. Learning and policy search in stochastic dynamical systems with Bayesian neural networks
  • 19. 11/10 Adversarial Robustness [Slides] •Goodfellow, Shlens, and Szegedy, 2014. Explaining and harnessing adversarial examples. •(recommended) Ian Goodfellow's NIPS tutorial •Papernot et al., 2016. Practical black-box attacks against machine learning systems using adversarial examples •Kos, Fischer, and Song, 2017. Adversarial examples for generative models •Papernot et al., 2015. The limitations of deep learning in adversarial settings •Bradshaw, Matthews, and Ghahramani, 2017. Adversarial Examples, Uncertainty, and Transfer Testing Robustness in Gaussian Process Hybrid Deep Networks 11/17 Optimization [Slides] Martens and Grosse, 2015. Optimizing neural networks with Kronecker-factored approximate curvature.