Théorie de l’apprentissage et SVM : présentation rapide et premières idées dans le cadre fonctionnel
1. Une introduction aux SVM :Une introduction aux SVM :
travail sur des donntravail sur des donnééeses
fonctionnellesfonctionnelles
Nathalie Villa (GRIMM - SMASH)
Université Toulouse Le Mirail
Séminaire SMASH
8 octobre 2004
4. Séminaire SMASH
23 octobre 2004
On dispose de N observations :
Y1,…, YN
X1,…, XN ∈ ℑ
et on cherche à trouver fα la plus proche possible de f
parmi les fonctions d’un ensemble
Λ = {fα : ℑ → R ou {-1;1}}α
5. Séminaire SMASH
23 octobre 2004
Théorie de l’ApprentissageThéorie de l’Apprentissage
Une présentation rapide
6. Séminaire SMASH
23 octobre 2004
Le risque
Fonction de perte : L : R ×ℑ → [0;1]
exemples : L(y,fα(x)) = (y-fα(x))²
L(y,fα(x)) = 1{y = fα(x)}
Risque : R(α) = E (L(Y,fα(X)))
exemples : EQM
Probabilité d’erreur
Risque empirique : Remp(α) =
exemples : Erreur quadratique de prédiction
Nombre d’erreurs dans l’échantillon
∑=
N
i
ii
XfYL
N 1
))(,(
1
7. Séminaire SMASH
23 octobre 2004
Théorème (Vapnik 95)
Avec une probabilité supérieure à 1 - η, on a
N
h
RR emp
f
)4/ln(
)()(sup
η
αα
α
−
≤−
Λ∈
où h est la VC-dimension de Λ.
Pour le risque associé à la probabilité d’erreur
8. Séminaire SMASH
23 octobre 2004
VC-dimension ?
Exemple : Λ = {1H : H hyperplan de R²}
Λ sépare de toutes les manières
possibles trois points du plan
non alignés :
Λ ne peut séparer de toutes les
manières possibles 4 points du
plan.
VC-dimension = 3
9. Séminaire SMASH
23 octobre 2004
SVM pour ClassificationSVM pour Classification
et pour les données fonctionnelles… ?
11. Séminaire SMASH
23 octobre 2004
Discrimination
par hyperplans
Les hyperplans d’un espace vectoriel ont pour équation
<z,w> + b = 0
Λ = {fw,b : z → sign(<z,w>+b), ||w|| ≤ A}
Théorème : Soit R le rayon de la plus petite boule
contenant toutes les observations Z1,…,ZN. Alors, Λ a
pour VC dimension h tel que
h < R²A² + 1
12. Séminaire SMASH
23 octobre 2004
Hyperplans
optimaux
Reformulation du problème : on cherche à minimiser
2
w
2
1
sous la contrainte N...1i,1bw,ZY
ii
=∀≥
+><
Par la méthode des multiplicateurs de Lagrange, cela
revient à maximiser (en λ) :
∑∑ ==
><−=
N
1i
jiji
ji
N
1i
i
Z,ZYY)(W λλλλ
13. Séminaire SMASH
23 octobre 2004
Solution :
∑=
=
N
1i
ii*
i
*
ZYw λ
où seuls un certain nombre de λi sont non nuls (les Zi
correspondants sont appelés vecteurs supports)
Espace image
(grande dimension)
Z1,…, ZN
Vecteurs
supports
(participent à la
construction de la
frontière de
décision)
14. Séminaire SMASH
23 octobre 2004
Construction de
l’espace image
Définition : on appelle noyau de type positif une fonction
K : ℑ×ℑ→R telle que :
)x,...,x(),,...,(,1n
n1n1
∀∀≥∀ λλ
0)x,x(K
n
1j,i
jiji
≥∑=
λλ
15. Séminaire SMASH
23 octobre 2004
Théorème (de Moore-Aronszajn) : Il
existe un unique espace de Hilbert F de
fonctions définies sur ℑ dont K est un
noyau reproduisant ie :
où Kx = K(.,x) = Φ(x).
)'x,x(KK,K,)'x,x( F'xx
2
=><ℑ∈∀
Dans l’espace image, le
produit scalaire s’écrit
simplement à l’aide du
noyau K : <z,z’> = K(x,x’).
X Φ
Z
16. Séminaire SMASH
23 octobre 2004
Exemples de
noyaux
Noyau gaussien :
σ
2
'xx
e)'x,x(K
−
=
Noyau polynomial :
d
)1'x,x()'x,x(K +><=
Remarque : Il existe des conditions (dans R)
pour savoir si un noyau est de type positif
(noyaux de Mercer, noyaux de la forme F(||.||²),
etc)
QUID POUR LES ESPACES DE
DIMENSION INFINIE ?
17. Séminaire SMASH
23 octobre 2004
Autres idées de
noyaux :
))'x,x(()'x,x(K δℵ=
où ℵ est un noyau sur R et δ est une semi-distance
(basée sur l’ACP ou sur des dérivées).
A QUELLE(S) CONDITION(S) K
EST-IL UN NOYAU POSITIF ?
18. Séminaire SMASH
23 octobre 2004
Un mot sur le
choix du paramètre
1) Fixer une liste possible de paramètres à tester ;
2) Pour chaque paramètre :
a. Déterminer l'hyperplan optimal de paramètre w*
correspondant ;
b. Evaluer la VC-dimension h associé à cet hyperplan
par la procédure décrite plus loin ;
c. Evaluer l'erreur totale commise : (Remp + g( ))
3) Choisir le paramètre à plus faible erreur.
2
*
w
h
19. Séminaire SMASH
23 octobre 2004
Evaluation de la
VC-dimension
Théorème (de Moore-Aronszajn) : Soit R le rayon de la
plus petite boule contenant toutes les observations {Zi}i.
Alors l’ensemble des hyperplans discriminants tel que
||w||≤ A a pour VC-dimension h tel que
h < R²A² + 1
On évalue A en calculant la norme de w
On évalue R en minimisant R² sous la
contrainte : ||Zi – z*||² ≤ R² (par la méthode du
multiplicateur de Lagrange).