Generalization of Principal Component Analysis, presentation, 2012

•Télécharger en tant que PPTX, PDF•

0 j'aime•644 vues

Lorsque l'on dispose d'un échantillon de n observations, distribuées sur p features (donc une matrice de design n * p), il est possible qu'il existe un sous-espace, qui "décrive convenablement" (cette notion sera définie dans la suite) les données, en ayant diminué la dimension, donc en ayant simplifié l'analyse. L'Analyse en Composantes Principales consiste en la recherche de ce sous-espace. La connaissance sur les données est quantifiée par la variance empirique. Plus cette variance est importante, plus les points de l'espace sont éloignés, et donc distinguables. On va donc chercher à réduire la dimension du problème, en général pour en simplifier l'étude, sous la contrainte de maximiser la variance obtenue dans l'espace sous-dimensionnel.

Technologie

ACP GÉNÉRALISÉE
• ACP : recherche d’un sous-espace, décrivant les
données, en perdant "un minimum" d’information.

• Autre approche : un ensemble de données est
parasité par un bruit gaussien. On souhaite
remonter aux données initiales.
Log-vraisemblance :
On se ramène à un problème de maximisation.

POURQUOI GÉNÉRALISER L’ACP ?
• Inutilisable pour des distributions discrètes (entières ou binaires). Le
bruit suivrait plutôt respectivement une loi de Poisson ou de Bernoulli.
• Si le bruit n’est pas gaussien, par exemple s’il est imposé strictement
positif (analyse textuelle, analyse d’images).
 On l’étend à tout type de bruit appartenant à la famille
exponentielle.
 Le prix sera de rendre plus complexe la distance : on n'utilise plus la
distance euclidienne mais la distance de Bregman.
On l'étend de la même manière qu'on étend régression GLM.

FAMILLE EXPONENTIELLE
Famille définie par :
• Theta est le paramètre naturel (cherché)
• P0 Est constant en θ(donc n’intervient pas dans les calculs)
• G caractérise le type de distribution.

 Un résultat très important :
• Une distribution gaussienne est un cas particulier d’une famille
exponentielle,

• Donc tous les résultats coïncideront avec l’ACP "classique",
puisqu’elle sera un cas particulier de l’ACP généralisée.

DISTANCE DE BREGMAN
• Définition :
• Intuition : elle mesure "à quel point F est convexe".
• Généralisation :
• f peut être remplacée par un grad.
• La distance de Bregman de 2 matrices/vecteurs est la somme
des distances terme à terme.

Utilité : on lie la log-vraisemblance à cette distance.

Donc maximiser la vraisemblance revient à minimiser cette distance.

LIEN AVEC LE PROBLÈME
ACP classique

maximiser la
vraisemblance

projeter en norme
euclidienne

ACP généralisée

maximiser la
vraisemblance

projeter en norme de
Bregman

Pour un bruit gaussien

Pour un bruit de loi
appartenant à la famille
exponentielle

CONCEPT DE L’ACP GÉNÉRALISÉE
• Dans la "nouvelle base" V…
• … on cherche les "nouveaux vecteurs" Θ…
• … de coordonnées A.
 On cherche A et V dans Θ=AV.

• Tels que la distance de Bregman entre les données observées (x) et
les données déduites (θ) soit minimale.

ALGORITHME
• V est choisi aléatoirement,
• On minimise successivement A et V :

Tout point limite est un point stationnaire.

Contenu connexe

En vedette

3 principal components analysisDmitry Grapov

Pca pptDheeraj Dwivedi

Steps for Principal Component Analysis (pca) using ERDAS softwareSwetha A

Principal Component AnalysisRicardo Wendell Rodrigues da Silveira

Pps julian beeverDominique Pongi

Cours sur les Suites par WinAkademy Soutien ScolaireWinAkademy Soutien Scolaire

testOpaTatyana Remayeva

Fair Trade (French)Sindyanna of Galilee Fair Trade

Mosqueterossegonceippaucasals

Shay enfant_autiste_Dominique Pongi

6ème les aires séquence n°1javaudinb

Expressions faire (4)MattBroderick

Présentation oral mémoire nicolas puigmal m1 mef svt (2)Nicolas Frigola

¿Cómo nos preparamos para estudiar?eliza1510

Paris 1900Dominique Pongi

06 avion-ou-bateau-pour-vos-prochaines-vacancesDominique Pongi

IordaniaStildeviata .com

La corde -13-Dominique Pongi

La route des pharaonsDominique Pongi

el amor celiita

En vedette (20)

3 principal components analysis

Pca ppt

Steps for Principal Component Analysis (pca) using ERDAS software

Principal Component Analysis

Pps julian beever

Cours sur les Suites par WinAkademy Soutien Scolaire

testOpa

Fair Trade (French)

Mosqueteros

Shay enfant_autiste_

6ème les aires séquence n°1

Expressions faire (4)

Présentation oral mémoire nicolas puigmal m1 mef svt (2)

¿Cómo nos preparamos para estudiar?

Paris 1900

06 avion-ou-bateau-pour-vos-prochaines-vacances

Iordania

La corde -13-

La route des pharaons

el amor

Plus de Florent Renucci

Leveraging Community Engagement for Brand Engagement, 2012, presentationFlorent Renucci

Data Analytics Intro Session 1, 2013Florent Renucci

Corporate valuation linked in, 2011Florent Renucci

Etude de cas : "Comment valoriser la publicité en milieu public ?"Florent Renucci

Etude de cas : "Comment augmenter la rentabilité de DN de 500 MSEK d’ici 3 an...Florent Renucci

Leveraging Community Engagement for Brand Engagement, 2012, reportFlorent Renucci

Manifold Blurring Mean Shift algorithms for manifold denoising, report, 2012Florent Renucci

TIPE - Code correcteur de Hamming, 2009Florent Renucci

Polynomial Regression on Riemannian Manifolds, presentation, 2012Florent Renucci

Reinforcement learning for e-marketing, report, 2012Florent Renucci

Polynomial Regression on Riemannian Manifolds, report, 2012Florent Renucci

Reinforcement learning for e-marketing, presentation, 2012Florent Renucci

Manifold Blurring Mean Shift algorithms for manifold denoising, presentation,...Florent Renucci

Open source softwares, 2011Florent Renucci

Plus de Florent Renucci (14)

Leveraging Community Engagement for Brand Engagement, 2012, presentation

Data Analytics Intro Session 1, 2013

Corporate valuation linked in, 2011

Etude de cas : "Comment valoriser la publicité en milieu public ?"

Etude de cas : "Comment augmenter la rentabilité de DN de 500 MSEK d’ici 3 an...

Leveraging Community Engagement for Brand Engagement, 2012, report

Manifold Blurring Mean Shift algorithms for manifold denoising, report, 2012

TIPE - Code correcteur de Hamming, 2009

Polynomial Regression on Riemannian Manifolds, presentation, 2012

Reinforcement learning for e-marketing, report, 2012

Polynomial Regression on Riemannian Manifolds, report, 2012

Reinforcement learning for e-marketing, presentation, 2012

Manifold Blurring Mean Shift algorithms for manifold denoising, presentation,...

Open source softwares, 2011

Generalization of Principal Component Analysis, presentation, 2012

1. ACP GÉNÉRALISÉE • ACP : recherche d’un sous-espace, décrivant les données, en perdant "un minimum" d’information. • Autre approche : un ensemble de données est parasité par un bruit gaussien. On souhaite remonter aux données initiales. Log-vraisemblance : On se ramène à un problème de maximisation.

2. POURQUOI GÉNÉRALISER L’ACP ? • Inutilisable pour des distributions discrètes (entières ou binaires). Le bruit suivrait plutôt respectivement une loi de Poisson ou de Bernoulli. • Si le bruit n’est pas gaussien, par exemple s’il est imposé strictement positif (analyse textuelle, analyse d’images).  On l’étend à tout type de bruit appartenant à la famille exponentielle.  Le prix sera de rendre plus complexe la distance : on n'utilise plus la distance euclidienne mais la distance de Bregman. On l'étend de la même manière qu'on étend régression GLM.

3. FAMILLE EXPONENTIELLE Famille définie par : • Theta est le paramètre naturel (cherché) • P0 Est constant en θ(donc n’intervient pas dans les calculs) • G caractérise le type de distribution.  Un résultat très important : • Une distribution gaussienne est un cas particulier d’une famille exponentielle, • Donc tous les résultats coïncideront avec l’ACP "classique", puisqu’elle sera un cas particulier de l’ACP généralisée.

4. DISTANCE DE BREGMAN • Définition : • Intuition : elle mesure "à quel point F est convexe". • Généralisation : • f peut être remplacée par un grad. • La distance de Bregman de 2 matrices/vecteurs est la somme des distances terme à terme. Utilité : on lie la log-vraisemblance à cette distance. Donc maximiser la vraisemblance revient à minimiser cette distance.

5. LIEN AVEC LE PROBLÈME ACP classique  maximiser la vraisemblance  projeter en norme euclidienne ACP généralisée  maximiser la vraisemblance  projeter en norme de Bregman Pour un bruit gaussien Pour un bruit de loi appartenant à la famille exponentielle

6. CONCEPT DE L’ACP GÉNÉRALISÉE • Dans la "nouvelle base" V… • … on cherche les "nouveaux vecteurs" Θ… • … de coordonnées A.  On cherche A et V dans Θ=AV. • Tels que la distance de Bregman entre les données observées (x) et les données déduites (θ) soit minimale.

7. ALGORITHME • V est choisi aléatoirement, • On minimise successivement A et V : Tout point limite est un point stationnaire.

Generalization of Principal Component Analysis, presentation, 2012

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Plus de Florent Renucci

Plus de Florent Renucci (14)

Generalization of Principal Component Analysis, presentation, 2012