2. The particular characteristic of the method is that the output of the network is not a pdf, therefore, the computation of the network’s integral is required.
이 방법의 특별한 특징은 네트워크의 출력이 pdf가 아니므로 네트워크의 적분 계산이 필요하다는 것입니다.
It turns out that this is quite tricky when coupled with subsequent training procedures.
후속 교육 과정과 결합 될 때 이것이 매우 까다로운 것으로 판명됩니다.
Several modifications of the original approach (Modha and Fainman, 1994) are proposed,
most of them related to the numerical treatment of the integral and the employment of a preprocessing phase where the network parameters are initialized using supervised training.
최초 접근법 (Modha and Fainman, 1994)의 몇 가지 수정안이 제안되었는데, 대부분은 통합의 수치 적 처리 및 감독 된 훈련을 사용하여 네트워크 매개 변수가 초기화되는 전처리 단계의
련됩니다.
Experimental results using several test problems indicate that the proposed method is very effective and in most cases superior to the method of Gaussian mixtures.
몇 가지 테스트 문제를 사용한 실험 결과는 제안 된 방법이 매우 효과적이며 대부분의 경우 가우시안 혼합물의 방법보다 우수함을 나타냅니다.
4. Probability density function estimation from a given set of observations constitutes an important computa- tional problem with applications to many areas of ex- perimental physics (high
energy, spectroscopy, etc.).
주어진 관측치로부터 확률 밀도 함수를 추정하는 것은 많은 물리학 분야 (고 에너지, 분광기 등)에 적용 할 때 중요한 계산상의 문제를 구성합니다.
Parametric techniques for probability density function (pdf) estimation assume a model of suitable functional form with parameters to be adjusted so that it approx- imates the distribution of
the data.
확률 밀도 함수 (pdf) 추정을위한 파라 메트릭 기법은 데이터의 분포를 대략적으로 조정할 수있는 매개 변수가있는 적합한 함수 형식의 모델을 가정합니다.
This adjustment is usually achieved through the maximization of the likelihood of the data with respect to the parameters of the model.
이 조정은 일반적으로 모델의 매개 변수와 관련하여 데이터의 가능성을 극대화하여 이루어집니다.
The most widely used parametric ap- proach for density estimation is based on Gaussian mixtures, which has been shown to exhibit the univer-sal approximation property and efficient procedures for likelihood
maximization have been developed for this model (EM algorithm) [2–4].
밀도 추정을 위해 가장 널리 사용되는 파라 메트릭 어프로치는이 모델 (EM 알고리즘)을 위해 개발 된 가우시안 혼합물에 기반을두고 있으며,이 모델은 유니버설 근사 특성을 나타내며 우도 최대
화를위한 효율적인 절차가 개발되었다 [2-4] .
EM 알고리즘을 통한
가우시안 믹스츄어 모델의 approximation
It must be noted that, in analogy with the case of Gaussian mixtures, most parametric approaches assume that the model function is a pdf by construction.
가우스 혼합의 경우와 유사하게, 대부분의 파라 메트릭 접근법은 모델 함수가 구조에 의해 pdf라고 가정해야합니다.
파라메트릭 방법을 통해서는 모델 함수의 구조가 pdf라고 가정되어야 함.
5. In [1] the use of feedforward neural networks with sigmoid hidden units called multilayer perceptrons (MLPs) as models for pdf estimation is proposed, along with a training procedure for
adjusting the pa- rameters of the MLP(weights and biases) so that the likelihood is maximized.
[1]에서 MLP (weight and biases)의 파라미터를 조정하는 훈련 과정과 함께 pdf 추정을위한 모델로서 MLP (multilayer perceptrons)라고 불리는 Sigmoid 숨겨진 단위를 가진 피드
포워드 신경망의 사용이 제안되었다. 우도가 최대화됩니다.
그러니까 가우시안 믹스츄어 모델에서 파라미터를 likelihood를 최대화하는 방식으로 최적화 하듯이
MLP에서 파라미터인 bias와 weights를 likelihood가 최대화되는 방식으로 최적화.
Moreover, theoretical results are presented in [5], concerning the rate of conver- gence of such techniques.
또한 이론적 인 결과가 [5]에서 제시되었는데, 이러한 기법의 수렴 속도에 관한 것이다.
In this work we elaborate on the use of MLPs as models for pdf estimation.
이 작업에서 우리는 MLP를 pdf 추정 모델로 사용하는 것에 대해 자세히 설명합니다.
S는 Sample space
x 는 input
p 는 파라미터 벡터
어떤 파라미터 벡터에 대한 가우시안에 대해,
Input x에 대한 가우시안 값이 => 0이고,
Pdf는 그 가우시안을
Sample 전영역에 대한 pdf 넓이로 나눈 것.
이런 식의 모델이 확률분포로써의 가우시안으로 볼 수 있나?
확률분포는 단지 직위같은 것이고 가우시안은 그 함수의 형태일 뿐일까?
Sample space는 연속적인가? 연속적이라고 가정하고서 풀어내는 것인가?
결국의 모델 pdf term의 분모 부분과 p 파라미터를 찾아내는 것?
그리고 후에 사용할 input x 는 sample space S에 속할 때, 유용한 것?
6. It is well known that the Gaussian mixture approach encounters difficulties in approximating the uniform distribution.
가우스 혼합 접근법은 균일 분포를 근사화하는 데 어려움을 겪는다는 것은 잘 알려져있다.
This is not the case for the MLP model. We conducted experiments that demonstrate the adapt- ability of the MLP model and its superiority in ap- proximating the uniform distribution.
MLP 모델의 경우는 그렇지 않습니다. 우리는 MLP 모델의 적응성과 균일 분포를 근사하는 우월성을 입증하는 실험을 수행했다.
However, MLPs do not integrate analytically and, hence, numerical quadrature has to be employed.
그러나 MLP는 분석적으로 통합되지 않으므로 수치 쿼드 러처를 사용해야합니다.
MLP는 해석적으로 적분될 수 없으므로,
Numerical quadrature을 통해서 모델을 만들어야 한다.
Numerical quadrature
This is a disadvan- tage and in addition, as it will be shown, incorporates salient difficulties in the optimization procedure that is used for training.
이것은 단점이며 또한 보여지는대로 교육에 사용되는 최적화 절차에 큰 어려움이 있습니다.
We propose first a preprocessing stage where super- vised training is used to obtain a coarse approximation of the unknown pdf and force the network output in the domain of interest.
우리는 우선 알려지지 않은 pdf의 대략적인 근사를 얻고 관심 도메인에서 네트워크 출력을 강제하기 위해 숙련 된 훈련이 사용되는 전처리 단계를 제안합니다.
For the quadrature we propose a moving grid approach. This is very important since, if a constant grid is used instead, it amounts to weight- ing the importance of the grid points in the
optimiza- tion procedure and hence producing artifacts.
직교에 대해 우리는 움직이는 그리드 방식을 제안합니다. 이것은 상수 그리드가 대신 사용되는 경우 최적화 절차에서 그리드 점의 중요도를 가중시키고 결과적으로 인공물을 생성하기 때문에 매
우 중요합니다.
We will see this point in detail, since to the best of our knowl- edge, it has not been discussed in the literature, most likely because it went by unobserved due to its salient character.
우리가 알고있는 바에 따르면 그것은 현저한 성격 때문에 관찰되지 않았기 때문에 문헌에서 논의되지 않았기 때문에이 점을 자세히 볼 것입니다.
전처리 단계에서 대략적인 근사를 얻는 것이 전체 과정에서 어떤 과정인지 알아야 하고
Moving grid approach를 이해하기 위해서는 quadrature를 이해해야 하고.
7. https://helloworldpark.github.io/jekyll/update/2017/02/04/Gaussian-Quadrature.html
Quadrature에 대한 정리 하고. Numerical..
It must also be noted that except for the ordinary approaches to density estimation that are based on the maximization of the data likelihood, a very interest- ing different approach has been
suggested that em- ploys classification neural networks [6].
데이터 가능성의 극대화를 기반으로 한 밀도 추정에 대한 일반적인 접근법을 제외하면, 분류 신경망을 사용하는 매우 흥미로운 다른 접근 방법이 제안되었다 [6].
data에 대한 알려지지 않은 pdf를 얻기 위해서, user specified 된 pdf_ref로부터 데이터를 인공적으로 생성해서 이용한다.
그리고 나서 feedforward 분류 네트워크로, data에 대한 알려지지 않은 pdf에서 나온 sample x 인지,
User defined 한 pdf에서 나온 데이터인지 분류하게 트레이닝한다.
이 아이디어가 중요해보인다.
뉴럴넷을 활용하는데,
적절하게 supervised하게 학습되면
잘 분류해내는 특성을 이용하자.
한쪽은 수학적으로 구조화된 것
그래서 수학적 정보를 잘 알고 있는 generator model.
다른 한쪽은 unknown.
8. From this brief description it is clear that this method is fundamentally different from the proposed one.
이 간단한 설명에서이 방법이 제안 된 방법과 근본적으로 다르다는 것은 분명합니다.
The Garrido and Juste method transforms the density esti- mation problem to a classification problem, while our method treats the density estimation method in the reg- ular way as a
maximization problem of the data likeli- hood.
Garrido and Juste 방법은 밀도 추정 문제를 분류 문제로 변환하는 반면, 본 방법은 밀도 추정 방법을 일반적인 방법으로 데이터 우도의 최대화 문제로 취급한다.
Due to this crucial difference, many other differ- ences between the two methods also arise that concern the network architecture, the objective function to be optimized and the numerical treatment and
implemen- tation of the training methods.
이 중요한 차이로 인해 네트워크 구조, 최적화 할 목표 기능 및 교육 방법의 수치 처리 및 구현과 관련된 두 가지 방법 간의 다른 많은 차이점도 발생합니다.
PDF를
분류문제로 얻는 방법과 회귀 문제로 얻는 방법
The remainder of the paper is organized as follows: Section 2 describes the basic approach to pdf estima- tion using MLPs, while Section 3 deals with issues of numerical integration.
본 논문의 나머지 부분은 다음과 같이 구성된다. 2 절에서는 MLP를 사용한 pdf 추정에 대한 기본 접근법을 설명하고, 3 절에서는 수치 적 통합의 문제를 다룬다.
The proposed approach is de- scribed in detail in Section 4. Section 5 provides com- parative experimental results with the Gaussian mix- ture method on several test problems and, finally,
Sec- tion 6 provides conclusions and future research direc- tions.
제안 된 접근법은 4 장에서 자세하게 설명한다. 5 장에서는 몇 가지 시험 문제에 대한 가우시안 혼합 방법을 사용하여 비교 실험 결과를 제공하고, 마지막으로 6 장에서는 결론과 향후 연구 방향을
제시한다.
여기까지가 인트로덕션
14. Topic Readings
9/15
Overview
[Slides]
Overview
• Ghahramani, 2015. Probabilistic machine learning and artificial intelligence.
Bayesian regression
• MacKay, 1992. Bayesian interpolation.
• Rasmussen and Ghahramani, 2001. Occam's razor.
• Review: Bayesian parameter estimation, Bayesian linear regression
Calibration
• Guo et al., 2017. On calibration of modern neural networks.
9/22
Gaussian Processes
[Slides]
Foundations
• GPML, Chapter 2
Structured kernels
• skim GPML sections 4.1-4.2
• GPML, Chapter 5
• David Duvenaud's kernel cookbook
• We did not get to the following two, so they will be covered in a later lecture:
◦ Duvenaud et al., 2013. Structure discovery in nonparametric regression through compositional kernel
search
◦ Wilson and Adams, 2013. Gaussian process kernels for pattern discovery and extrapolation
Calendar:
15. 9/29
Bayesian Neural
Nets
[Slides]
Background
• backpropagation
• Metropolis-Hastings
Foundations
• MacKay, 1992. A practical Bayesian framework for
backpropagation networks.
• Neal, 1995. Bayesian learning for neural networks. Chapter 2.
Hamiltonian Monte Carlo
• Neal, 2012. MCMC using Hamiltonian dynamics. (focus on
sections 1-3)
Stochastic gradient Langevin dynamics
• Welling and Teh, 2011. Bayesian learning via stochastic
gradient Langevin dynamics.
• Balan et al., 2015. Bayesian dark knowledge
10/6
Variational
Inference for
BNNs
[Slides]
Background
• variational Bayes
• Kingma and Welling, 2014. Auto-encoding variational Bayes.
Variational inference for BNNs
• Hinton and van Camp, 1993. Keeping the neural networks
simple by minimizing the description length of the weights.
• Graves, 2011. Practical variational inference for neural networks
• Kingma, Salimans, and Welling, 2015. Variational dropout and
the local reparameterization trick.
• (optional) Gal and Ghahramani, 2016. Dropout as Bayesian
approximation: representing model uncertainty in deep learning
Sparsification
• Louizos et al., 2017. Bayesian compression for deep learning.
16.
17. 10/13
Variational
Inference for GPs
[Slides: 1, 2]
Note: this is among the most mathematically demanding
sessions, and the rest of the course doesn't build much on it, so
don't get bogged down in the details.
Natural gradient and stochastic variational inference
• Natural gradient tutorial: see Piazza under "Resources"
• Hoffman, Blei, Wang, and Paisley, 2013. Stochastic
variational inference
• Note: this material is included because it's used by Hensman
et al., and also because natural gradient and SVI are just
good things to know about.
Sparse GPs
• Titsias, 2009. Variational learning of inducing variables in
sparse Gaussian processes
• Bauer, van der Wilk, and Ghahramani, 2016. Understanding
10/20
Exploration I:
Active Learning
and Bandits
[Slides]
Active Learning
• MacKay, 1992. Information-based objective functions for
active data selection.
• Graves et al., 2017. Automated curriculum learning for neural
networks.
Bandits
• Auer et al., 2002. Finite-time analysis of the multiarmed
bandit problem.
• (optional) Kocsis and Szepesvari, 2006. Bandit based
Monte-Carlo planning.
• Russo et al., 2017. A tutorial on Thompson sampling.
18. 10/27
Exploration II:
Bayesian
Optimization
[Slides]
Bayesian optimization
• Snoek, Larochelle, and Adams, 2012. Practical Bayesian
optimization of machine learning algorithms.
• Srinivas et al., 2010. Gaussian process optimization in
the bandit setting: no regret and experimental design.
• (optional) Snoek et al., 2015. Scalable Bayesian
optimization using deep neural networks.
Exploiting structure
• Swersky, Snoek, and Adams, 2013. Multi-task Bayesian
optimization
• Swersky, Snoek, and Adams, 2014. Freeze-thaw
Bayesian optimization
• (optional) Gardner et al., 2017. Discovering and exploiting
additive structure for Bayesian optimization.
11/3
Exploration III:
Reinforcement
Learning
[Slides]
Model-free
• Osband et al., 2016. Deep exploration via bootstrapped
DQN.
• Houthooft et al., 2016. VIME: Variational information
maximizing exploration.
• (optional) Fortunato et al., 2017. Noisy networks for
exploration.
Model-based
• Deisenroth and Rasmussen, 2011. PILCO: a model-
based and data-efficient approach to policy search
• Depeweg et al., 2016. Learning and policy search in
stochastic dynamical systems with Bayesian neural
networks
19. 11/10
Adversarial
Robustness
[Slides]
•Goodfellow, Shlens, and Szegedy, 2014. Explaining and
harnessing adversarial examples.
•(recommended) Ian Goodfellow's NIPS tutorial
•Papernot et al., 2016. Practical black-box attacks against
machine learning systems using adversarial examples
•Kos, Fischer, and Song, 2017. Adversarial examples for
generative models
•Papernot et al., 2015. The limitations of deep learning in
adversarial settings
•Bradshaw, Matthews, and Ghahramani, 2017. Adversarial
Examples, Uncertainty, and Transfer Testing Robustness in
Gaussian Process Hybrid Deep Networks
11/17
Optimization
[Slides]
Martens and Grosse, 2015. Optimizing neural networks with
Kronecker-factored approximate curvature.