1. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Discrimination de courbes par SVM
Nathalie Villa-Vialaneix
Équipe GRIMM, Université Toulouse Le Mirail
villa@univ-tlse2.fr
GREMAQ, 7 avril 2006
2. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Thématiques de recherche développées
NN pour FDA
(approche par régression inverse)
3. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Thématiques de recherche développées
NN pour FDA SVM pour FDA
(approche par régression inverse) (approches proj., spline, FIR. . . )
4. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Thématiques de recherche développées
NN pour FDA SVM pour FDA
(approche par régression inverse) (approches proj., spline, FIR. . . )
Projets GEODE
5. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Thématiques de recherche développées
NN pour FDA SVM pour FDA
(approche par régression inverse) (approches proj., spline, FIR. . . )
Projets GEODE ENAC
6. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Thématiques de recherche développées
NN pour FDA SVM pour FDA
(approche par régression inverse) (approches proj., spline, FIR. . . )
Projets GEODE ENAC FRAMESPA
7. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Thématiques de recherche développées
NN pour FDA SVM pour FDA
(approche par régression inverse) (approches proj., spline, FIR. . . )
Projets GEODE ENAC FRAMESPA
8. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
9. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
10. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Les données fonctionnelles : Définition
Données classiques : chaque observation est un vecteur
de RD
;
11. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Les données fonctionnelles : Définition
Données classiques : chaque observation est un vecteur
de RD
;
Données fonctionnelles : chaque observation est une
fonction d’un espace de dimension infinie (L2
τ , par
exemple ; espace de Hilbert, en général).
12. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Exemples
Représentation temporelle (reconnaissance vocale 1
)
0 2000 4000 6000 8000
−1.0−0.50.00.51.0
Temps (ms)
Frequences
Boat
Goat
But : Reconnaître le mot. . .
1
Données disponibles sur
http ://www.math.univ-montp2.fr/˜biau/bbwdata.tgz
13. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Exemples
Courbe de réponse (chimiométrie 1
)
0 20 40 60 80 100
2345
Longueur d’onde
Absorbance
But : Déterminer le taux de graisse. . .
1
Tecator database disponible sur
http ://lib.stat.cmu.edu/datasets/tecator
14. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Exemple de problèmes en FDA (1)
Problèmes d’inversion d’opérateurs
ΓX = E(X ⊗ X) − E(X) ⊗ E(X) est de Hilbert-Schmidt ⇒ Γ−1
X
est
non borné (ce n’est pas un opérateur continu de L2
τ ) ! !
15. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Exemple de problèmes en FDA (1)
Problèmes d’inversion d’opérateurs
ΓX = E(X ⊗ X) − E(X) ⊗ E(X) est de Hilbert-Schmidt ⇒ Γ−1
X
est
non borné (ce n’est pas un opérateur continu de L2
τ ) ! !
Conséquence au niveau de l’estimation
Γn
X
= 1
n
n
i=1 xi ⊗ xi − X ⊗ X est mal conditionné ⇒ nécessité de
pénalisation ou de régularisation.
16. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Les données fonctionnelles en pratique
Soit X une variable aléatoire fonctionnelle,
on ne connaît jamais complètement les observations
(xi)i=1,...,n de X !
17. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Les données fonctionnelles en pratique
Soit X une variable aléatoire fonctionnelle,
on ne connaît jamais complètement les observations
(xi)i=1,...,n de X !
on dispose de xi(ti
1
), . . . , xi(ti
D
) ;
dans le pire cas, le nombre et la place des points de
discrétisation dépendent de l’observation.
18. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Exemple de problèmes en FDA (2)
D’un point de vue pratique...
représenter les fonctions observées et les fonctions
paramètres ;
19. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Exemple de problèmes en FDA (2)
D’un point de vue pratique...
représenter les fonctions observées et les fonctions
paramètres ;
n < D, les observations pour un même individu sont
fortement corrélées (fonction sous-jacente) ⇒ problèmes
mal posés, méthodes usuelles souvent inapplicables
directement.
20. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
21. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Rappel sur le principe SVM
Le problème
Soit X ∈ H et Y ∈ {−1; 1}.
On cherche à déterminer la valeur de Y connaissant la variable
X.
22. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Rappel sur le principe SVM
Le problème
Soit X ∈ H et Y ∈ {−1; 1}.
On cherche à déterminer la valeur de Y connaissant la variable
X.
Les données
On dispose de n réalisations indépendantes de (X, Y) :
(x1, y1), . . . , (xn, yn).
23. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Discrimination linéaire à marge optimale
24. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Discrimination linéaire à marge optimale
25. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Discrimination linéaire à marge optimale
w
marge : 1
w 2
Vecteur Support
26. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Discrimination linéaire à marge optimale
w
marge : 1
w 2
Vecteur Support
On cherche w tel que :
minw,b w, w ,
sous les contraintes : yi( w, xi + b) ≥ 1, 1 ≤ i ≤ n.
27. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Discrimination linéaire à marge souple
28. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Discrimination linéaire à marge souple
29. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Discrimination linéaire à marge souple
w
marge : 1
w 2
Vecteur Support
30. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Discrimination linéaire à marge souple
w
marge : 1
w 2
Vecteur Support
On cherche w tel que :
minw,b,ξ w, w + C n
i=1 ξi,
sous les contraintes : yi( w, xi + b) ≥ 1 − ξi, 1 ≤ i ≤ n,
ξi ≥ 0, 1 ≤ i ≤ n.
31. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Envoyer les données dans un espace de grande
dimension
Espace initial H
32. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Envoyer les données dans un espace de grande
dimension
Espace initial H Espace image X
Φ (non linéaire)
33. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Envoyer les données dans un espace de grande
dimension
Espace initial H Espace image X
Φ (non linéaire)
34. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Envoyer les données dans un espace de grande
dimension
Espace initial H Espace image X
Φ (non linéaire)
On cherche w tel que :
(PC,X) minw,b,ξ w, w + C n
i=1 ξi,
sous les contraintes : yi( w, Φ(xi) + b) ≥ 1 − ξi, 1 ≤ i ≤ n,
ξi ≥ 0, 1 ≤ i ≤ n.
35. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Intérêt du non linéaire
Formulation régularisation : (PC,X) ⇔
(Rλ,X) min
f∈X
1
n
n
i=1
max(0, 1 − yif(xi)) + λ f, f X.
36. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Intérêt du non linéaire
Formulation régularisation : (PC,X) ⇔
(Rλ,X) min
f∈X
1
n
n
i=1
max(0, 1 − yif(xi)) + λ f, f X.
Formulation duale : (PC,X) ⇔
(DC,X) maxα
n
i=1 αi − n
i=1
n
j=1 αiαjyiyj Φ(xi), Φ(xj) X,
avec N
i=1 αiyi = 0,
0 ≤ αi ≤ C, 1 ≤ i ≤ n.
37. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Intérêt du non linéaire
Formulation régularisation : (PC,X) ⇔
(Rλ,X) min
f∈X
1
n
n
i=1
max(0, 1 − yif(xi)) + λ f, f X.
Formulation duale : (PC,X) ⇔
(DC,X) maxα
n
i=1 αi − n
i=1
n
j=1 αiαjyiyj Φ(xi), Φ(xj) X,
avec N
i=1 αiyi = 0,
0 ≤ αi ≤ C, 1 ≤ i ≤ n.
Produit scalaire dans X :
∀ u, v ∈ X, K(u, v) = Φ(u), Φ(v) X
38. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
39. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Présentation des travaux
En collaboration avec Fabrice Rossi
Support vector machine for functional data
classification (2005), paru dans ESANN proceedings ;
Classification in Hilbert spaces with support vector
machines (2005), paru dans ASMDA proceedings ;
Support vector machine for functional data
classification (2006), paru dans Neurocomputing ;
SVM fonctionnels par interpolation spline (2006), à
paraître dans Actes du congrès de la SFdS (Journées de
Statistique).
40. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Noyaux pour FDA
Forme générale
Prétraitement : P : H → D
∀ u, v ∈ H, Q(u, v) = K(P(u), P(v)).
41. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Noyaux pour FDA
Forme générale
Prétraitement : P : H → D
∀ u, v ∈ H, Q(u, v) = K(P(u), P(v)).
1 Projections : pour VD = Vect{ψ1, . . . , ψD},
P(x) =
D
j=1
x, ψj ψj.
42. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Noyaux pour FDA
Forme générale
Prétraitement : P : H → D
∀ u, v ∈ H, Q(u, v) = K(P(u), P(v)).
1 Projections : pour VD = Vect{ψ1, . . . , ψD},
P(x) =
D
j=1
x, ψj ψj.
2 Transformations fonctionnelles : P(x) = Dq
x,. . .
43. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Noyaux pour FDA
Forme générale
Prétraitement : P : H → D
∀ u, v ∈ H, Q(u, v) = K(P(u), P(v)).
1 Projections : pour VD = Vect{ψ1, . . . , ψD},
P(x) =
D
j=1
x, ψj ψj.
2 Transformations fonctionnelles : P(x) = Dq
x,. . .
3 FIR. . .
44. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
45. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Une approche consistante
Approche par projection
1 (ψj)j base Hilbertienne de H : projection sur (ψj)j=1,...,d ;
46. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Une approche consistante
Approche par projection
1 (ψj)j base Hilbertienne de H : projection sur (ψj)j=1,...,d ;
2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd, C ∈ [0; Cd]
47. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Une approche consistante
Approche par projection
1 (ψj)j base Hilbertienne de H : projection sur (ψj)j=1,...,d ;
2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd, C ∈ [0; Cd]
partage des données : B1 = (x1, y1), . . . , (xl, yl) et
B2 = (xl+1, yl+1), . . . , (xn, yn) ;
48. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Une approche consistante
Approche par projection
1 (ψj)j base Hilbertienne de H : projection sur (ψj)j=1,...,d ;
2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd, C ∈ [0; Cd]
partage des données : B1 = (x1, y1), . . . , (xl, yl) et
B2 = (xl+1, yl+1), . . . , (xn, yn) ;
construction du SVM sur B1 : fa ;
49. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Une approche consistante
Approche par projection
1 (ψj)j base Hilbertienne de H : projection sur (ψj)j=1,...,d ;
2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd, C ∈ [0; Cd]
partage des données : B1 = (x1, y1), . . . , (xl, yl) et
B2 = (xl+1, yl+1), . . . , (xn, yn) ;
construction du SVM sur B1 : fa ;
choix du paramètre optimal sur B2 :
a∗
= argminaLn−lfa +
λd
√
n − l
avec Ln−lfa = 1
n−l
n
i=l+1 I{fa (xi ) yi }.
50. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Une approche consistante
Approche par projection
1 (ψj)j base Hilbertienne de H : projection sur (ψj)j=1,...,d ;
2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd, C ∈ [0; Cd]
partage des données : B1 = (x1, y1), . . . , (xl, yl) et
B2 = (xl+1, yl+1), . . . , (xn, yn) ;
construction du SVM sur B1 : fa ;
choix du paramètre optimal sur B2 :
a∗
= argminaLn−lfa +
λd
√
n − l
avec Ln−lfa = 1
n−l
n
i=l+1 I{fa (xi ) yi }.
⇒ On obtient un SVM fn.
51. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Hypothèses
Hypothèses sur la distribution de X
(H1) X prend ses valeurs dans un borné de H.
52. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Hypothèses
Hypothèses sur la distribution de X
(H1) X prend ses valeurs dans un borné de H.
Hypothèses sur les paramètres : ∀ d ≥ 1,
(H2) Jd est un ensemble fini ;
(H3) ∃Kd ∈ Jd tel que : Kd est universel et
∃νd > 0 : N(Kd, ) = O( −νd ) ;
(H4) Cd > 1 ;
(H5) d≥1 |Jd|e−2λ2
d < +∞.
53. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Hypothèses
Hypothèses sur la distribution de X
(H1) X prend ses valeurs dans un borné de H.
Hypothèses sur les paramètres : ∀ d ≥ 1,
(H2) Jd est un ensemble fini ;
(H3) ∃Kd ∈ Jd tel que : Kd est universel et
∃νd > 0 : N(Kd, ) = O( −νd ) ;
(H4) Cd > 1 ;
(H5) d≥1 |Jd|e−2λ2
d < +∞.
Hypothèses sur la validation
(H6) limn→+∞ l = +∞ ;
(H7) limn→+∞ n − l = +∞ ;
(H8) limn→+∞
l log(n−l)
n−l = 0.
54. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Convergence par procédure de validation
Théorème 1 Consistance universelle
Sous les hypothèses (H1)-(H8), fn est consistant :
Lfn
n→+∞
−−−−−→ L∗
,
où Lfn = P(fn(X) Y) et L∗
= P(f∗
(X) Y) avec
f∗
(x) =
1 si P(Y = 1|X = x) > 1/2,
−1 sinon.
55. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Application : reconnaissance vocale
Description des données et méthodes
3 problèmes et pour chaque problème, 100
enregistrements discrétisés en 8 192 points ;
56. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Application : reconnaissance vocale
Description des données et méthodes
3 problèmes et pour chaque problème, 100
enregistrements discrétisés en 8 192 points ;
Mise en œuvre de la procédure consistante :
Projection sur une base trigonométrique ;
Partage de la base de données en 50 spectres
(apprentissage) / 49 (validation) ;
Performances déterminées par leave-one-out.
57. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Application : reconnaissance vocale
Description des données et méthodes
3 problèmes et pour chaque problème, 100
enregistrements discrétisés en 8 192 points ;
Mise en œuvre de la procédure consistante :
Projection sur une base trigonométrique ;
Partage de la base de données en 50 spectres
(apprentissage) / 49 (validation) ;
Performances déterminées par leave-one-out.
Résultats
Prob. k-nn QDA SVM gau. SVM lin. SVM lin.
(proj) (proj) (direct)
yes/no 10% 7% 10% 19% 58%
boat/goat 21% 35% 8% 29% 46%
sh/ao 16% 19% 12% 25% 47%
58. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Application : Tecator data Set
Description des données et méthodes
215 spectres discrétisés en 100 points ; 2 classes : taux de
graisse >20% et <20%.
59. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Application : Tecator data Set
Description des données et méthodes
215 spectres discrétisés en 100 points ; 2 classes : taux de
graisse >20% et <20%.
Procédure :
Projection sur une base de splines cubiques (déterminée
par leave-one-out) ;
Partage aléatoire de la base de données en 60 spectres
(apprentissage) / 60 spectres (validation) ;
Performances déterminées sur un échantillon de test
aléatoire de 95 spectres.
60. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Application : Tecator data Set
Description des données et méthodes
215 spectres discrétisés en 100 points ; 2 classes : taux de
graisse >20% et <20%.
Procédure :
Projection sur une base de splines cubiques (déterminée
par leave-one-out) ;
Partage aléatoire de la base de données en 60 spectres
(apprentissage) / 60 spectres (validation) ;
Performances déterminées sur un échantillon de test
aléatoire de 95 spectres.
Résultats (Moyenne pour 250 répétitions)
Noyau Erreur moyenne (test)
Linéaire 3.38%
Linéaire sur D2
X 3.28%
Gaussien 7.5%
Gaussien sur D2
X 2.6%
61. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
62. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Approche directe pour SVM sur dérivées
Hypothèse de régularité
On suppose que X est régulière :
X ∈ Hm
= {x : [0; 1] → R : Dm
x existe et Dm
x ∈ L2
}.
63. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Approche directe pour SVM sur dérivées
Hypothèse de régularité
On suppose que X est régulière :
X ∈ Hm
= {x : [0; 1] → R : Dm
x existe et Dm
x ∈ L2
}.
Principe de l’interpolation L-spline
on interpole exactement les observations x1, . . . , xn aux
points de discrétisation t1, . . . , td ;
on minimise une pénalité de régularisation définie par un
opérateur différentiel :
L = Dm
+
m−1
j=1
ajDj
.
64. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Décomposition de l’espace de Sobolev
Hm
= H0 + H1 avec
H0 = KerL ;
H1 est défini par m contraintes aux bornes : RKHS de
produit scalaire h1, h2 = [0,1]
Lh1(t)Lh2(t)dt et de noyau
K.
65. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Décomposition de l’espace de Sobolev
Hm
= H0 + H1 avec
H0 = KerL ;
H1 est défini par m contraintes aux bornes : RKHS de
produit scalaire h1, h2 = [0,1]
Lh1(t)Lh2(t)dt et de noyau
K.
Exemples :
H1
avec L = I + D et x(0) = 0 (Lx = 0 ⇒ x = ae−t
et
x(0) = a) ;
H2
avec L = I + D2
et x(0) = Dx(0) = 0 ;
Hm
(m ≥ 1) avec L = Dm
et Dj
x(0) = 0, ∀ j = 1, . . . , m ;
66. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Détermination de la spline d’interpolation
On suppose Kd = (K(ti, tj))i,j=1,...,d inversible.
Spline d’interpolation
Soit x ∈ H1 alors h = PVect{K(tk ,.), k=1,...,d}(x).
67. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Détermination de la spline d’interpolation
On suppose Kd = (K(ti, tj))i,j=1,...,d inversible.
Spline d’interpolation
Soit x ∈ H1 alors h = PVect{K(tk ,.), k=1,...,d}(x).
Produit scalaire entre splines
Si x1, x2 ∈ H1,
h1, h2 H1
= x1, x2 (Rd ,K−1/2).
où xi = (xi(t1), . . . , xi(td)).
68. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Application aux SVM
On note
Gd
γ (u, v) = e
−γ u−v 2
Rd
et G∞
γ (u, v) = e
−γ u−v 2
L2
;
Kd = (K(ti, tj))i,j=1,...,d, supposée inversible ;
∀ i = 1, . . . , n, hi est la spline d’interpolation de xi
(supposée à valeurs dans H1) ;
xi = (xi(t1), . . . , xi(td)).
69. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Application aux SVM
On note
Gd
γ (u, v) = e
−γ u−v 2
Rd
et G∞
γ (u, v) = e
−γ u−v 2
L2
;
Kd = (K(ti, tj))i,j=1,...,d, supposée inversible ;
∀ i = 1, . . . , n, hi est la spline d’interpolation de xi
(supposée à valeurs dans H1) ;
xi = (xi(t1), . . . , xi(td)).
Théorème 2 SVM sur dérivées
SVM sur (Lhi)i avec noyau G∞
γ −→ φn,d
h
⇔
SVM sur (xi)i avec noyau Gd
γ ◦ K−1/2
−→ φn,d
x
70. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Hypothèses pour la consistance
Hypothèses
(H1) : X est une variable aléatoire bornée à valeurs dans
H1 ;
(H2) : (τd)d est une suite de points de discrétisation dans
[0, 1] telle que, pour tout d ≥ 1, τd = {tk }k=1,...,d, la matrice
Kd est définie positive et Span{K(t, .), t ∈ ∪d≥1τd} est
dense dans H1 ;
(H3) : (Cd
n )n est une suite de régularisation telle que
Cd
n = O(n1−βd ) pour 0 < βd < 1/d.
71. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Consistance
Théorème 3 Consistance universelle
Sous les hypothèse (H1)-(H3), le SVM φn,d
h
, avec la suite de
régularisation (Cd
n )n, est universellement consistant :
lim
n→+∞
lim
d→+∞
Lfn,d = L∗
où L∗ est l’erreur de Bayes et Lφ = P(φ(X) Y) est l’erreur de
φ.
72. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Limites et perspectives
Limites
Lorsque d est grand, interpolation = sur-adéquation aux
observations et Kd est mal conditionnée.
73. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Limites et perspectives
Limites
Lorsque d est grand, interpolation = sur-adéquation aux
observations et Kd est mal conditionnée.
Perspectives
spline de lissage sans condition aux bornes (contrôler
l’erreur commise par E(Y|SLd (X)) au lieu de E(Y|X)) ;
74. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Limites et perspectives
Limites
Lorsque d est grand, interpolation = sur-adéquation aux
observations et Kd est mal conditionnée.
Perspectives
spline de lissage sans condition aux bornes (contrôler
l’erreur commise par E(Y|SLd (X)) au lieu de E(Y|X)) ;
application sur des données réelles :
0 200 400 600 800 1000
0.40.60.81.0
Temps
Fréquence
0.67
52.33
4.33
16.67
27.67
33.25
11.25
27
4.33
0.33
17.33
18
79.67
85
17.33
5.33
60.5
0.67
15.33
75. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
76. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Régression inverse fonctionnelle
Modèle
Y = f( a1, X . . . aq, X , ),
où X, E( ) = 0, f inconnue, {a1, . . . , aq} linéairement
independants.
EDR = Vect{a1, . . . aq}
77. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Régression inverse fonctionnelle
Modèle
Y = f( a1, X . . . aq, X , ),
où X, E( ) = 0, f inconnue, {a1, . . . , aq} linéairement
independants.
EDR = Vect{a1, . . . aq}
Caractérisation de l’espace EDR
Si, pour A = ( X, a1 , . . . , X, aq ),
Condition de Li ∀ u ∈ H, ∃v ∈ Rq
: E( u, X |A) = vT
A,
alors E(X|Y) ∈ ΓX (EDR).
78. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Régression inverse fonctionnelle
Modèle
Y = f( a1, X . . . aq, X , ),
où X, E( ) = 0, f inconnue, {a1, . . . , aq} linéairement
independants.
EDR = Vect{a1, . . . aq}
Caractérisation de l’espace EDR
Si, pour A = ( X, a1 , . . . , X, aq ),
Condition de Li ∀ u ∈ H, ∃v ∈ Rq
: E( u, X |A) = vT
A,
alors E(X|Y) ∈ ΓX (EDR).
⇒ On choisit d’estimer a1, . . . , aq, vecteurs propres de
Γ−1
X
ΓE(X|Y).
79. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
SVM par FIR
Estimation de EDR, EDR ;
80. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
SVM par FIR
Estimation de EDR, EDR ;
Estimation de f par SVM : SVM sur PEDR(X) ;
81. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
SVM par FIR
Estimation de EDR, EDR ;
Estimation de f par SVM : SVM sur PEDR(X) ;
Résultat de consistance universelle pour ce SVM : il faut
contrôler la différence entre E(Y|X) et E(Y|Tn,q(X)) où
Tn,q(X) dépend des observations. . .
82. SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Simulations
Données simulées Waveform
2 4 6 8 10 12 14 16 18 20
−4
−2
0
2
4
6
8
Classe 1
2 4 6 8 10 12 14 16 18 20
−4
−2
0
2
4
6
8
10
Classe 2
2 4 6 8 10 12 14 16 18 20
−4
−2
0
2
4
6
8
Classe 3
300 courbes (apprentissage) / 500 courbes (validation) ;
erreur calculée sur un échantillon de 500 courbes ;
10 répétitions.
Résultats
FIR-SVM SVM R-PDA FIR-N
Moyenne (test) 13,70 15,46 15,62 14,16
Ecart type (test) 2,25 3,04 2,05 2,01
Minimum (test) 10,20 12,20 12,60 12,00
Moyenne (apprentissage) 11,73 10,17 12,47 12,37