SlideShare ist ein Scribd-Unternehmen logo
1 von 29
Downloaden Sie, um offline zu lesen
Réseaux de neurones récurrents
Avec mécanisme d'Attention
NATURAL LANGUAGE PROCESSING
(NLP)
juillet 2020
JAOUAD DABOUNOU
FST de Settat
Université Hassan 1er
RNN avec Attention
z1
Marrakech
z2
,
z3
fantastic
z4
city
z5
!
x2
,
x1
Marrakech
x3
ville
x4
fantastique
x5
!
x6
<eos>
Réseau récurrent pour la traduction
2
On utilise souvent un réseau récurrent séquence à séquence (ou sequence to sequence: seq2seq) pour la traduction
automatique. Nous présentons ci-dessous une architecture simplifiée basée sur un réseau récurrent composé le plus
souvent de cellules LSTM.
J. DABOUNOU - FST DE SETTAT
z
ct-1 ct
Réseaux LSTM
3J. DABOUNOU - FST DE SETTAT
xt+1
ht+1
+x
 
x
tanh
tanh
x

xt
ht
+x
 
x
tanh
tanh
x

xt-1
ht-1
+x
 
x
tanh
tanh
x

ht-2
ht-1 ht
ct-2 ct+1
ht+1
Les réseaux LSTM (Long Short Term Memory ou mémoire à long terme et à court terme ) sont un type spécial de
RNN, capable d'apprendre les dépendances à long terme. Ils ont été introduits par Hochreiter et Schmidhuber en
1997, et ont été par la suite affinés et popularisés par de nombreuses personnes. Ils fonctionnent extrêmement bien
sur une grande variété de problèmes et sont maintenant largement utilisés.
4
Traduction automatique
J. DABOUNOU - FST DE SETTAT
Réseau de neuronesHe visited the magical medina Il a visité la médina magique
Un réseau de neurones pour la traduction automatique (Neural Machine Translation : NMT) fait un mapping entre
une séquence en entrée dans une langue donnée et une séquence en sortie dans la langue cible.
5
Modèle séquence à séquence
J. DABOUNOU - FST DE SETTAT
Réseau de
neurones
Seq2seq
medinaHe visited the magical médinaIl a visité la magique
Les modèles de séquence à séquence font référence à la classe plus large de modèles qui incluent tous les modèles
qui mappent une séquence à une autre. Il sont très souvent utilisés dans la traduction automatique. Dans ces
modèles, l'entrée et la sortie ne sont pas nécessairement de la même longueur.
6
Modèle SEQ2SEQ de niveau mot
J. DABOUNOU - FST DE SETTAT
medinaHe visited the magical
Réseau de
neurones
Seq2seq
Réseau de
neurones
Seq2seq
Dans les modèles Seq2Seq de niveau mot, le réseau reçoit un à un les mots de la première séquence.
7
Modèle SEQ2SEQ de niveau mot
J. DABOUNOU - FST DE SETTAT
médinaIla visitélamagique
Réseau de
neurones
Seq2seq
Lorsque tous les mots de la séquence en entrée sont reçus par le réseau, il entame la traduction et renvoie les mots
de la séquence en sortie l'un à la suite de l'autre dans la langue cible.
8
Modèle encodeur-décodeur
J. DABOUNOU - FST DE SETTAT
medinaHe visited the magical médinaIl a visité la magique
Encoder
Decoder
Ces modèles peuvent être considérés comme composés de deux réseaux de neurones récurrents: un encodeur et
un décodeur. On parle alors d'une architecture encodeur-décodeur (Encoder/Decoder).
9
Modèle encodeur-décodeur
J. DABOUNOU - FST DE SETTAT
medinaHe visited the magical
Encoder
Decoder
Dans l'architecture codeur-décodeur, la première séquence est entrée mot à mot.
10
Modèle encodeur-décodeur
J. DABOUNOU - FST DE SETTAT
Encoder
Decoder
médinaIla visitélamagique
Encoder
Decoder
Contexte
Lorsque la séquence entière est entrée dans l'encodeur, celui-ci crée un contexte représentant la séquence d'origine.
Ce contexte est ensuite transmis au réseau décodeur qui l'utilise pour construire la séquence en sortie mot après
mot.
Encoder
Decoder
Encoder
Decoder
Contexte
11
Modèle encodeur-décodeur
J. DABOUNOU - FST DE SETTAT
medinaHe visited the magical médinaIl a visité la magique
0.1
-1.1
-0.3
-1.0
0.1
-0.6
0.2
-0.1
-0.9
-0.3
0.2
-0.4
0.5
-0.1
0.2
-0.5
-0.1
0.4
-0.7
0.7
-0.3
0.4
0.2
-0.5
0.1
0.1
0.8
0.2
-0.7
1.1
-0.2
0.2
0.3
-0.4
0.9
0.1
-1.1
-0.3
-1.0
0.1
-0.2
0.4
1.0
0.1
-0.3
-0.5
-0.2
-0.3
0.2
0.7
-0.3
-1.0
0.5
-0.6
0.5
-0.5
-0.1
-0.8
0.5
0.4
Les entrées du réseau sont une représentation vectorielle des mots (One-hot encoding, word embedding,…) et non
les mots eux-mêmes.
Le texte d'entrée est traité par l'encodeur pour être codé en un vecteur contexte, qui est ensuite transmis au
décodeur pour générer la sortie.
12
Modèle encodeur-décodeur
J. DABOUNOU - FST DE SETTAT
visited
h3
the
h4
magical
h5
medina
h6
He
h2
z = h7
<s>
h1
</s>
h7
English encoder French decoder
h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>Le dernier état caché du premier
réseau RNN est utilisé comme contexte
qui représente la phrase en anglais.
Encoder
Decoder
Encoder
Decoder
Contexte
Le décodeur utilise le contexte comme état initial, génère un premier mot, ensuite l'utilise comme entrée pour
générer le mot suivant et ainsi de suite jusqu'à la génération de la fin de séquence </s>.
<s>
13
Modèle encodeur-décodeur: RNN traduction
J. DABOUNOU - FST DE SETTAT
visited
h3
the
h4
magical
h5
medina
h6
He
h2
z = h7
<s>
h1
</s>
h7
English encoder
French decoder
h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
Représente la phrase en anglais
Encoder
Decoder
Encoder
Decoder
Contexte
x1 x2 x3 x4 x5 x6 x7
z1 z2 z3 z4 z5 z6 z7
Embedding
𝐡t = 𝐭𝐚𝐧𝐡(𝐖hh 𝐡t−1 + 𝐖xh 𝐱t)
médinaIl a visité la magique </s>
y1 y2 y3 y4 y5 y6 y7
SoftmaxEmbedding
Lors de la phase d'entrainement, les sorties zt du décodeur sont comparées aux sorties attendues yt dans l'expression
de la fonction de perte.
Dans certaines implémentations,
on utilise les yt comme entrée pour
générer le mot suivant.
<s>
Encoder
Decoder
Encoder
Decoder
Contexte
14
Modèle encodeur-décodeur
J. DABOUNOU - FST DE SETTAT
visited
h3
the
h4
magical
h5
medina
h6
He
h2
z = F(h1, h2, …, h7)
<s>
h1
</s>
h7
English encoder French decoder
h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>
Combinaison des états cachés hs
représentant la phrase en anglais
Le contexte ainsi obtenu peut ne pas tenir compte des états cachés de début des séquences. Surtout qu'elles sont de
taille variable. Pour résoudre ce problème, lors de la phase d'entrainement, au lieu d'utiliser le dernier état caché du
premier réseau pour commencer le deuxième réseau, on peut choisir une somme pondérée des différents états
cachés h1, h2, …, h7, surtout
qu'ils sont disponibles.
<s>
15
Limites Modèle encodeur-décodeur
J. DABOUNOU - FST DE SETTAT
visited
h3
the
h4
magical
h5
medina
h6
He
h2
z = F(h1, h2, …, h7)
<s>
h1
</s>
h7
English encoder French decoder
h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>
Représente la phrase en anglais
• Taille fixe quelque soit la taille des séquences qui est
variable
• Perd la dynamique temporelle qui est inhérente aux
séquences
L'information dans le contexte peut s'effacer
lorsque la taille de la sortie est grande
Encoder
Decoder
Encoder
Decoder
Contexte
Reste que le contexte obtenu ainsi continue à présenter quelques inconvénients.
<s>
16
Modèle encodeur-décodeur
J. DABOUNOU - FST DE SETTAT
visited
h3
the
h4
magical
h5
medina
h6
He
h2
ct = Ft(h1, h2, …, h7)
<s>
h1
</s>
h7
English encoder French decoder
h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>
Le contexte comme
combinaison des hs.
Partager le contexte sur tous les tokens.
Encoder
Decoder
Encoder
Decoder
Contexte
Une idée à développer consiste à utiliser le contexte comme entrée supplémentaire pour obtenir chaque mot du
décodeur.
<s>
EncoderEncoder
Decoder
Contexte
17
Modèle encodeur-décodeur
J. DABOUNOU - FST DE SETTAT
c1 = F1(h1, h2, …, h7)
c2 = F2(h1, h2, …, h7)
c3 = F3(h1, h2, …, h7)
c4 = F4(h1, h2, …, h7)
c5 = F5(h1, h2, …, h7)
c6 = F6(h1, h2, …, h7)
c7 = F7(h1, h2, …, h7)
English encoder French decoder
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>
<s>
Le contexte comme
combinaison des hs, mais aussi
adapté aux tokens en sortie
𝐜t =
s=1,7
ats 𝐡s
ats  0 et
s=1,7
ats = 1
18
MÉCANISME D'ATTENTION
J. DABOUNOU - FST DE SETTAT
c1 = F1(h1, h2, …, h7)
c2 = F2(h1, h2, …, h7)
c3 = F3(h1, h2, …, h7)
c4 = F4(h1, h2, …, h7)
c5 = F5(h1, h2, …, h7)
c6 = F6(h1, h2, …, h7)
c7 = F7(h1, h2, …, h7)
English encoder French decoder
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
MÉCANISME D'ATTENTION h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>
<s>
𝐜t =
s=1,7
ats 𝐡s
ats  0 et
s=1,7
ats = 1
19
MÉCANISME D'ATTENTION
J. DABOUNOU - FST DE SETTAT
c1 = F1(h1, h2, …, h7)
c2 = F2(h1, h2, …, h7)
c3 = F3(h1, h2, …, h7)
c4 = F4(h1, h2, …, h7)
c5 = F5(h1, h2, …, h7)
c6 = F6(h1, h2, …, h7)
c7 = F7(h1, h2, …, h7)
English encoder French decoder
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
MÉCANISME D'ATTENTION h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>
<s>
𝐜t =
s=1,7
ats 𝐡s
ats  0 et
s=1,7
ats = 1
20
Machine Translation avec Attention
J. DABOUNOU - FST DE SETTAT
English encoder French decoder
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
MÉCANISME D'ATTENTION
ats = softmax score 𝐡t
out
, 𝐡s pour s = 1,7
𝐜t =
s=1,7
ats 𝐡s
𝐡t
att
= tanh(𝐖ch
att
𝐜t + 𝐖hh
att
𝐡t
out
)
Calculer : 𝐡t
out
= tanh(𝐖hh
out
𝐡t−1
out
+ 𝐖xh
out
𝐳t)1
4
𝐳t=Softmax (𝐖hz
out
𝐡t
att
)5
2
3
score 𝐡t
out
, 𝐡s =
𝐡t
out T
𝐡s ∶ Produit scalaire
𝐡t
out
𝐖a 𝐡s ∶ Multiplicatif
𝐯a
T 𝐭𝐚𝐧𝐡(𝐖a[𝐡t
out
; 𝐡s ]) ∶ Concaténation
h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>
<s>
21
Machine Translation avec Attention
J. DABOUNOU - FST DE SETTAT
English encoder French decoder
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
h1
out
Représente la phrase en anglais
<s>
Embedding
x1
Calculer : 𝐡1
out
= tanh(𝐖hh
out
𝐡7 + 𝐖xh
out
𝐱1)1
22
Machine Translation avec Attention
J. DABOUNOU - FST DE SETTAT
English encoder French decoder
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
h1
out
MÉCANISME D'ATTENTION
a1s = softmax score 𝐡1
out
, 𝐡s pour s = 1,7
𝐜1 =
s=1,7
a1s 𝐡s
score 𝐡1
out
, 𝐡s =
𝐡1
out T
𝐡s ∶ Produit scalaire
𝐡1
out
𝐖a 𝐡s ∶ Multiplicatif
𝐯1
T
𝐭𝐚𝐧𝐡(𝐖a[𝐡1
out
; 𝐡s ]) ∶ Concaténation
2
3
<s>
Embedding
x1
Calculer : 𝐡1
out
= tanh(𝐖hh
out
𝐡7 + 𝐖xh
out
𝐱1)1
23
Machine Translation avec Attention
J. DABOUNOU - FST DE SETTAT
English encoder French decoder
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
h1
out
MÉCANISME D'ATTENTION
a1s = softmax score 𝐡1
out
, 𝐡s pour s = 1,7
𝐜1 =
s=1,7
a1s 𝐡s
𝐡1
att
= tanh(𝐖ch
att
𝐜1 + 𝐖hh
att
𝐡1
out
)
score 𝐡1
out
, 𝐡s =
𝐡1
out T
𝐡s ∶ Produit scalaire
𝐡1
out
𝐖a 𝐡s ∶ Multiplicatif
𝐯1
T
𝐭𝐚𝐧𝐡(𝐖a[𝐡1
out
; 𝐡s ]) ∶ Concaténation
2
3
4
𝐳1=Softmax (𝐖hz
out
𝐡1
att
)5Sortie décodeur:
z1
<s>
Embedding
x1
Calculer : 𝐡1
out
= tanh(𝐖hh
out
𝐡7 + 𝐖xh
out
𝐱1)1
24
Machine Translation avec Attention
J. DABOUNOU - FST DE SETTAT
English encoder French decoder
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
h1
out
MÉCANISME D'ATTENTION
a2s = softmax score 𝐡2
out
, 𝐡s pour s = 1,7
𝐜2 =
s=1,7
a2s 𝐡s
𝐡2
att
= tanh(𝐖ch
att
𝐜2 + 𝐖hh
att
𝐡2
out
)
score 𝐡2
out
, 𝐡s =
𝐡2
out T
𝐡s ∶ Produit scalaire
𝐡2
out
𝐖a 𝐡s ∶ Multiplicatif
𝐯1
T
𝐭𝐚𝐧𝐡(𝐖a[𝐡2
out
; 𝐡s ]) ∶ Concaténation
Calculer : 𝐡2
out
= tanh(𝐖hh
out
𝐡1
out
+ 𝐖xh
out
𝐳1)1
2
3
4
𝐳2=Softmax (𝐖hz
out
𝐡2
att
)5
z1
h2
out
<s>
Embedding
x1
z2
Sortie décodeur:
25
Machine Translation avec Attention
J. DABOUNOU - FST DE SETTAT
English encoder French decoder
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
MÉCANISME D'ATTENTION
ats = softmax score 𝐡t
out
, 𝐡s pour s = 1,7
𝐜t =
s=1,7
ats 𝐡s
𝐡t
att
= tanh(𝐖ch
att
𝐜t + 𝐖hh
att
𝐡t
out
)
Calculer : 𝐡t
out
= tanh(𝐖hh
out
𝐡t−1
out
+ 𝐖xh
out
𝐳t)1
4
𝐳t=Softmax (𝐖hz
out
𝐡t
att
)5
2
3
score 𝐡t
out
, 𝐡s =
𝐡t
out T
𝐡s ∶ Produit scalaire
𝐡t
out
𝐖a 𝐡s ∶ Multiplicatif
𝐯a
T 𝐭𝐚𝐧𝐡(𝐖a[𝐡t
out
; 𝐡s ]) ∶ Concaténation
h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>
<s>
Sortie décodeur:
26
Machine Translation avec Attention
J. DABOUNOU - FST DE SETTAT
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
MÉCANISME D'ATTENTION
h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>
<s>
ats = softmax score 𝐡t
out
, 𝐡s
pour s = 1,7
𝐜t =
s=1,7
ats 𝐡s
𝐜3 =
s=1,7
a3s 𝐡s
a3s  0 et
s=1,7
a3s = 1
h1 h2 h3 h4 h5 h6 h7
𝐜3
visité
visited the magical medinaHe<s> </s>
0
1
0.12 0.2 0.61 0.07 10-5 10-5 10-7a3s
27
Machine Translation avec Attention
J. DABOUNOU - FST DE SETTAT
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
MÉCANISME D'ATTENTION
h2
out
h3
out
h4
out
h5
out
h1
out
h6
out
h7
out
médinaIl a visité la magique </s>
<s>
𝐜6 =
s=1,7
a6s 𝐡s
a6s  0 et
s=1,7
a6s = 1
h1 h2 h3 h4 h5 h6 h7
𝐜6
visited the magical medinaHe<s> </s>
0
1
10-8 10-6 10-4 0.05 0.79 0.15 10-8a3s
magique
ats = softmax score 𝐡t
out
, 𝐡s
pour s = 1,7
𝐜t =
s=1,7
ats 𝐡s
28
Machine Translation avec Attention
J. DABOUNOU - FST DE SETTAT
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
+ + + ++ + +
médinaIl a visité la magique </s>
𝐜6 =
s=1,7
a6s 𝐡s
a6s  0 et
s=1,7
a6s = 1
h1 h2 h3 h4 h5 h6 h7
𝐜6
visited the magical medinaHe<s> </s>
0
1
10-8 10-6 10-4 0.05 0.79 0.15 10-8a3s
magique
Graphe des liaisons pertinentes
29
Machine Translation avec Attention
J. DABOUNOU - FST DE SETTAT
Il
a
visité
la
médina
magique
</s>
<s>
He
visited
the
magical
medina
</s>
Matrice de distribution de l'attention
visited
h3
the
h4
magical
h5
medina
h6
He
h2
<s>
h1
</s>
h7
+ + + ++ + +
médinaIl a visité la magique </s>
Graphe des liaisons pertinentes

Weitere ähnliche Inhalte

Was ist angesagt?

le NLP à l'ére de l'IA
le NLP à l'ére de l'IAle NLP à l'ére de l'IA
le NLP à l'ére de l'IAhabib200
 
Recherche à voisinage variable
Recherche à voisinage variableRecherche à voisinage variable
Recherche à voisinage variableMohammed Mansouri
 
Video Analysis with Recurrent Neural Networks (Master Computer Vision Barcelo...
Video Analysis with Recurrent Neural Networks (Master Computer Vision Barcelo...Video Analysis with Recurrent Neural Networks (Master Computer Vision Barcelo...
Video Analysis with Recurrent Neural Networks (Master Computer Vision Barcelo...Universitat Politècnica de Catalunya
 
Introduction au traitement d'images
Introduction au traitement d'imagesIntroduction au traitement d'images
Introduction au traitement d'imagesAbdelouahed Abdou
 
Systèmes multi agents concepts et mise en oeuvre avec le middleware jade
Systèmes multi agents concepts et mise en oeuvre avec le middleware jadeSystèmes multi agents concepts et mise en oeuvre avec le middleware jade
Systèmes multi agents concepts et mise en oeuvre avec le middleware jadeENSET, Université Hassan II Casablanca
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learningQuentin Ambard
 
Manuel des TP : Atelier Web 2
Manuel des TP : Atelier Web 2Manuel des TP : Atelier Web 2
Manuel des TP : Atelier Web 2Faycel Chaoua
 
exercices base de données - sql
exercices  base de données - sql exercices  base de données - sql
exercices base de données - sql Yassine Badri
 
Les réseaux de neurones convolutifs CNN
Les réseaux de neurones convolutifs CNNLes réseaux de neurones convolutifs CNN
Les réseaux de neurones convolutifs CNNSALMARACHIDI1
 
Introduction au Deep Learning
Introduction au Deep Learning Introduction au Deep Learning
Introduction au Deep Learning Niji
 
파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차Taekyung Han
 
Ontology concept et applications
Ontology concept et applicationsOntology concept et applications
Ontology concept et applicationsbenouini rachid
 
SCGPT : Few-shot Natural Language Generation for Task-Oriented Dialog
SCGPT : Few-shot Natural Language Generation for Task-Oriented DialogSCGPT : Few-shot Natural Language Generation for Task-Oriented Dialog
SCGPT : Few-shot Natural Language Generation for Task-Oriented Dialogtaeseon ryu
 
Anthiil Inside workshop on NLP
Anthiil Inside workshop on NLPAnthiil Inside workshop on NLP
Anthiil Inside workshop on NLPSatyam Saxena
 
[Paper Reading] Attention is All You Need
[Paper Reading] Attention is All You Need[Paper Reading] Attention is All You Need
[Paper Reading] Attention is All You NeedDaiki Tanaka
 
Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차Taekyung Han
 

Was ist angesagt? (20)

le NLP à l'ére de l'IA
le NLP à l'ére de l'IAle NLP à l'ére de l'IA
le NLP à l'ére de l'IA
 
Développement d'un site web de E-Commerce avec PHP (Première Partie)
Développement d'un site web de E-Commerce avec PHP (Première Partie)Développement d'un site web de E-Commerce avec PHP (Première Partie)
Développement d'un site web de E-Commerce avec PHP (Première Partie)
 
Recherche à voisinage variable
Recherche à voisinage variableRecherche à voisinage variable
Recherche à voisinage variable
 
Video Analysis with Recurrent Neural Networks (Master Computer Vision Barcelo...
Video Analysis with Recurrent Neural Networks (Master Computer Vision Barcelo...Video Analysis with Recurrent Neural Networks (Master Computer Vision Barcelo...
Video Analysis with Recurrent Neural Networks (Master Computer Vision Barcelo...
 
Cours fondement du multimedia
Cours fondement du multimediaCours fondement du multimedia
Cours fondement du multimedia
 
Introduction au traitement d'images
Introduction au traitement d'imagesIntroduction au traitement d'images
Introduction au traitement d'images
 
Systèmes multi agents concepts et mise en oeuvre avec le middleware jade
Systèmes multi agents concepts et mise en oeuvre avec le middleware jadeSystèmes multi agents concepts et mise en oeuvre avec le middleware jade
Systèmes multi agents concepts et mise en oeuvre avec le middleware jade
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
 
Manuel des TP : Atelier Web 2
Manuel des TP : Atelier Web 2Manuel des TP : Atelier Web 2
Manuel des TP : Atelier Web 2
 
exercices base de données - sql
exercices  base de données - sql exercices  base de données - sql
exercices base de données - sql
 
Les réseaux de neurones convolutifs CNN
Les réseaux de neurones convolutifs CNNLes réseaux de neurones convolutifs CNN
Les réseaux de neurones convolutifs CNN
 
Introduction au Deep Learning
Introduction au Deep Learning Introduction au Deep Learning
Introduction au Deep Learning
 
파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차
 
Ontology concept et applications
Ontology concept et applicationsOntology concept et applications
Ontology concept et applications
 
SCGPT : Few-shot Natural Language Generation for Task-Oriented Dialog
SCGPT : Few-shot Natural Language Generation for Task-Oriented DialogSCGPT : Few-shot Natural Language Generation for Task-Oriented Dialog
SCGPT : Few-shot Natural Language Generation for Task-Oriented Dialog
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
 
Anthiil Inside workshop on NLP
Anthiil Inside workshop on NLPAnthiil Inside workshop on NLP
Anthiil Inside workshop on NLP
 
[Paper Reading] Attention is All You Need
[Paper Reading] Attention is All You Need[Paper Reading] Attention is All You Need
[Paper Reading] Attention is All You Need
 
Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차
 
Word2Vec
Word2VecWord2Vec
Word2Vec
 

Mehr von Jaouad Dabounou

اللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdfاللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdfJaouad Dabounou
 
Mrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine LearningMrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine LearningJaouad Dabounou
 
Projection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermésProjection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermésJaouad Dabounou
 
Projection d’un point sur un ensemble
Projection d’un point sur un ensembleProjection d’un point sur un ensemble
Projection d’un point sur un ensembleJaouad Dabounou
 
Fonction distance à un ensemble
Fonction distance à un ensembleFonction distance à un ensemble
Fonction distance à un ensembleJaouad Dabounou
 
Théorèmes de Carathéodory
Théorèmes de CarathéodoryThéorèmes de Carathéodory
Théorèmes de CarathéodoryJaouad Dabounou
 
Intérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexesIntérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexesJaouad Dabounou
 
Topologie des ensembles convexes
Topologie des ensembles convexesTopologie des ensembles convexes
Topologie des ensembles convexesJaouad Dabounou
 
Analyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correctionAnalyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correctionJaouad Dabounou
 
Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesJaouad Dabounou
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes PrincipalesJaouad Dabounou
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes PrincipalesJaouad Dabounou
 
Analyse numérique interpolation
Analyse numérique interpolationAnalyse numérique interpolation
Analyse numérique interpolationJaouad Dabounou
 
Polycopie Analyse Numérique
Polycopie Analyse NumériquePolycopie Analyse Numérique
Polycopie Analyse NumériqueJaouad Dabounou
 
Sélection de contrôles avec correction
Sélection de contrôles avec correctionSélection de contrôles avec correction
Sélection de contrôles avec correctionJaouad Dabounou
 
Dérivation et Intégration numériques
Dérivation et Intégration numériquesDérivation et Intégration numériques
Dérivation et Intégration numériquesJaouad Dabounou
 

Mehr von Jaouad Dabounou (17)

اللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdfاللغة والذكاء الاصطناعي.pdf
اللغة والذكاء الاصطناعي.pdf
 
Mrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine LearningMrbml004 : Introduction to Information Theory for Machine Learning
Mrbml004 : Introduction to Information Theory for Machine Learning
 
Projection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermésProjection sur les ensembles convexes fermés
Projection sur les ensembles convexes fermés
 
Projection d’un point sur un ensemble
Projection d’un point sur un ensembleProjection d’un point sur un ensemble
Projection d’un point sur un ensemble
 
Fonction distance à un ensemble
Fonction distance à un ensembleFonction distance à un ensemble
Fonction distance à un ensemble
 
Théorèmes de Carathéodory
Théorèmes de CarathéodoryThéorèmes de Carathéodory
Théorèmes de Carathéodory
 
Intérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexesIntérieurs relatifs d’ensembles convexes
Intérieurs relatifs d’ensembles convexes
 
Topologie des ensembles convexes
Topologie des ensembles convexesTopologie des ensembles convexes
Topologie des ensembles convexes
 
Analyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correctionAnalyse Convexe TD – Série 1 avec correction
Analyse Convexe TD – Série 1 avec correction
 
Analyse Factorielle des Correspondances
Analyse Factorielle des CorrespondancesAnalyse Factorielle des Correspondances
Analyse Factorielle des Correspondances
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
W2 vec001
W2 vec001W2 vec001
W2 vec001
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
Analyse numérique interpolation
Analyse numérique interpolationAnalyse numérique interpolation
Analyse numérique interpolation
 
Polycopie Analyse Numérique
Polycopie Analyse NumériquePolycopie Analyse Numérique
Polycopie Analyse Numérique
 
Sélection de contrôles avec correction
Sélection de contrôles avec correctionSélection de contrôles avec correction
Sélection de contrôles avec correction
 
Dérivation et Intégration numériques
Dérivation et Intégration numériquesDérivation et Intégration numériques
Dérivation et Intégration numériques
 

Kürzlich hochgeladen

RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANKRAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANKNassimaMdh
 
Les roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptxLes roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptxShinyaHilalYamanaka
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...Nguyen Thanh Tu Collection
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfachrafbrahimi1
 
L application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxL application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxhamzagame
 
Formation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptxFormation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptxrajaakiass01
 
L'expression du but : fiche et exercices niveau C1 FLE
L'expression du but : fiche et exercices  niveau C1 FLEL'expression du but : fiche et exercices  niveau C1 FLE
L'expression du but : fiche et exercices niveau C1 FLElebaobabbleu
 
Computer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxComputer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxRayane619450
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film françaisTxaruka
 
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptxIntégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptxabdououanighd
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.Txaruka
 
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...Universidad Complutense de Madrid
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfAmgdoulHatim
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film françaisTxaruka
 
les_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhkles_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhkRefRama
 
La mondialisation avantages et inconvénients
La mondialisation avantages et inconvénientsLa mondialisation avantages et inconvénients
La mondialisation avantages et inconvénientsJaouadMhirach
 
Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaireTxaruka
 
Cours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfCours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfssuserc72852
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxikospam0
 
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...Technologia Formation
 

Kürzlich hochgeladen (20)

RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANKRAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
 
Les roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptxLes roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptx
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdf
 
L application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxL application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptx
 
Formation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptxFormation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptx
 
L'expression du but : fiche et exercices niveau C1 FLE
L'expression du but : fiche et exercices  niveau C1 FLEL'expression du but : fiche et exercices  niveau C1 FLE
L'expression du but : fiche et exercices niveau C1 FLE
 
Computer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxComputer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptx
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film français
 
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptxIntégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film français
 
les_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhkles_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhk
 
La mondialisation avantages et inconvénients
La mondialisation avantages et inconvénientsLa mondialisation avantages et inconvénients
La mondialisation avantages et inconvénients
 
Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaire
 
Cours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfCours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdf
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
 
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
 

RNN avec mécanisme d'attention

  • 1. Réseaux de neurones récurrents Avec mécanisme d'Attention NATURAL LANGUAGE PROCESSING (NLP) juillet 2020 JAOUAD DABOUNOU FST de Settat Université Hassan 1er RNN avec Attention
  • 2. z1 Marrakech z2 , z3 fantastic z4 city z5 ! x2 , x1 Marrakech x3 ville x4 fantastique x5 ! x6 <eos> Réseau récurrent pour la traduction 2 On utilise souvent un réseau récurrent séquence à séquence (ou sequence to sequence: seq2seq) pour la traduction automatique. Nous présentons ci-dessous une architecture simplifiée basée sur un réseau récurrent composé le plus souvent de cellules LSTM. J. DABOUNOU - FST DE SETTAT z
  • 3. ct-1 ct Réseaux LSTM 3J. DABOUNOU - FST DE SETTAT xt+1 ht+1 +x   x tanh tanh x  xt ht +x   x tanh tanh x  xt-1 ht-1 +x   x tanh tanh x  ht-2 ht-1 ht ct-2 ct+1 ht+1 Les réseaux LSTM (Long Short Term Memory ou mémoire à long terme et à court terme ) sont un type spécial de RNN, capable d'apprendre les dépendances à long terme. Ils ont été introduits par Hochreiter et Schmidhuber en 1997, et ont été par la suite affinés et popularisés par de nombreuses personnes. Ils fonctionnent extrêmement bien sur une grande variété de problèmes et sont maintenant largement utilisés.
  • 4. 4 Traduction automatique J. DABOUNOU - FST DE SETTAT Réseau de neuronesHe visited the magical medina Il a visité la médina magique Un réseau de neurones pour la traduction automatique (Neural Machine Translation : NMT) fait un mapping entre une séquence en entrée dans une langue donnée et une séquence en sortie dans la langue cible.
  • 5. 5 Modèle séquence à séquence J. DABOUNOU - FST DE SETTAT Réseau de neurones Seq2seq medinaHe visited the magical médinaIl a visité la magique Les modèles de séquence à séquence font référence à la classe plus large de modèles qui incluent tous les modèles qui mappent une séquence à une autre. Il sont très souvent utilisés dans la traduction automatique. Dans ces modèles, l'entrée et la sortie ne sont pas nécessairement de la même longueur.
  • 6. 6 Modèle SEQ2SEQ de niveau mot J. DABOUNOU - FST DE SETTAT medinaHe visited the magical Réseau de neurones Seq2seq Réseau de neurones Seq2seq Dans les modèles Seq2Seq de niveau mot, le réseau reçoit un à un les mots de la première séquence.
  • 7. 7 Modèle SEQ2SEQ de niveau mot J. DABOUNOU - FST DE SETTAT médinaIla visitélamagique Réseau de neurones Seq2seq Lorsque tous les mots de la séquence en entrée sont reçus par le réseau, il entame la traduction et renvoie les mots de la séquence en sortie l'un à la suite de l'autre dans la langue cible.
  • 8. 8 Modèle encodeur-décodeur J. DABOUNOU - FST DE SETTAT medinaHe visited the magical médinaIl a visité la magique Encoder Decoder Ces modèles peuvent être considérés comme composés de deux réseaux de neurones récurrents: un encodeur et un décodeur. On parle alors d'une architecture encodeur-décodeur (Encoder/Decoder).
  • 9. 9 Modèle encodeur-décodeur J. DABOUNOU - FST DE SETTAT medinaHe visited the magical Encoder Decoder Dans l'architecture codeur-décodeur, la première séquence est entrée mot à mot.
  • 10. 10 Modèle encodeur-décodeur J. DABOUNOU - FST DE SETTAT Encoder Decoder médinaIla visitélamagique Encoder Decoder Contexte Lorsque la séquence entière est entrée dans l'encodeur, celui-ci crée un contexte représentant la séquence d'origine. Ce contexte est ensuite transmis au réseau décodeur qui l'utilise pour construire la séquence en sortie mot après mot.
  • 11. Encoder Decoder Encoder Decoder Contexte 11 Modèle encodeur-décodeur J. DABOUNOU - FST DE SETTAT medinaHe visited the magical médinaIl a visité la magique 0.1 -1.1 -0.3 -1.0 0.1 -0.6 0.2 -0.1 -0.9 -0.3 0.2 -0.4 0.5 -0.1 0.2 -0.5 -0.1 0.4 -0.7 0.7 -0.3 0.4 0.2 -0.5 0.1 0.1 0.8 0.2 -0.7 1.1 -0.2 0.2 0.3 -0.4 0.9 0.1 -1.1 -0.3 -1.0 0.1 -0.2 0.4 1.0 0.1 -0.3 -0.5 -0.2 -0.3 0.2 0.7 -0.3 -1.0 0.5 -0.6 0.5 -0.5 -0.1 -0.8 0.5 0.4 Les entrées du réseau sont une représentation vectorielle des mots (One-hot encoding, word embedding,…) et non les mots eux-mêmes. Le texte d'entrée est traité par l'encodeur pour être codé en un vecteur contexte, qui est ensuite transmis au décodeur pour générer la sortie.
  • 12. 12 Modèle encodeur-décodeur J. DABOUNOU - FST DE SETTAT visited h3 the h4 magical h5 medina h6 He h2 z = h7 <s> h1 </s> h7 English encoder French decoder h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s>Le dernier état caché du premier réseau RNN est utilisé comme contexte qui représente la phrase en anglais. Encoder Decoder Encoder Decoder Contexte Le décodeur utilise le contexte comme état initial, génère un premier mot, ensuite l'utilise comme entrée pour générer le mot suivant et ainsi de suite jusqu'à la génération de la fin de séquence </s>. <s>
  • 13. 13 Modèle encodeur-décodeur: RNN traduction J. DABOUNOU - FST DE SETTAT visited h3 the h4 magical h5 medina h6 He h2 z = h7 <s> h1 </s> h7 English encoder French decoder h2 out h3 out h4 out h5 out h1 out h6 out h7 out Représente la phrase en anglais Encoder Decoder Encoder Decoder Contexte x1 x2 x3 x4 x5 x6 x7 z1 z2 z3 z4 z5 z6 z7 Embedding 𝐡t = 𝐭𝐚𝐧𝐡(𝐖hh 𝐡t−1 + 𝐖xh 𝐱t) médinaIl a visité la magique </s> y1 y2 y3 y4 y5 y6 y7 SoftmaxEmbedding Lors de la phase d'entrainement, les sorties zt du décodeur sont comparées aux sorties attendues yt dans l'expression de la fonction de perte. Dans certaines implémentations, on utilise les yt comme entrée pour générer le mot suivant. <s>
  • 14. Encoder Decoder Encoder Decoder Contexte 14 Modèle encodeur-décodeur J. DABOUNOU - FST DE SETTAT visited h3 the h4 magical h5 medina h6 He h2 z = F(h1, h2, …, h7) <s> h1 </s> h7 English encoder French decoder h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s> Combinaison des états cachés hs représentant la phrase en anglais Le contexte ainsi obtenu peut ne pas tenir compte des états cachés de début des séquences. Surtout qu'elles sont de taille variable. Pour résoudre ce problème, lors de la phase d'entrainement, au lieu d'utiliser le dernier état caché du premier réseau pour commencer le deuxième réseau, on peut choisir une somme pondérée des différents états cachés h1, h2, …, h7, surtout qu'ils sont disponibles. <s>
  • 15. 15 Limites Modèle encodeur-décodeur J. DABOUNOU - FST DE SETTAT visited h3 the h4 magical h5 medina h6 He h2 z = F(h1, h2, …, h7) <s> h1 </s> h7 English encoder French decoder h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s> Représente la phrase en anglais • Taille fixe quelque soit la taille des séquences qui est variable • Perd la dynamique temporelle qui est inhérente aux séquences L'information dans le contexte peut s'effacer lorsque la taille de la sortie est grande Encoder Decoder Encoder Decoder Contexte Reste que le contexte obtenu ainsi continue à présenter quelques inconvénients. <s>
  • 16. 16 Modèle encodeur-décodeur J. DABOUNOU - FST DE SETTAT visited h3 the h4 magical h5 medina h6 He h2 ct = Ft(h1, h2, …, h7) <s> h1 </s> h7 English encoder French decoder h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s> Le contexte comme combinaison des hs. Partager le contexte sur tous les tokens. Encoder Decoder Encoder Decoder Contexte Une idée à développer consiste à utiliser le contexte comme entrée supplémentaire pour obtenir chaque mot du décodeur. <s>
  • 17. EncoderEncoder Decoder Contexte 17 Modèle encodeur-décodeur J. DABOUNOU - FST DE SETTAT c1 = F1(h1, h2, …, h7) c2 = F2(h1, h2, …, h7) c3 = F3(h1, h2, …, h7) c4 = F4(h1, h2, …, h7) c5 = F5(h1, h2, …, h7) c6 = F6(h1, h2, …, h7) c7 = F7(h1, h2, …, h7) English encoder French decoder visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s> <s> Le contexte comme combinaison des hs, mais aussi adapté aux tokens en sortie 𝐜t = s=1,7 ats 𝐡s ats  0 et s=1,7 ats = 1
  • 18. 18 MÉCANISME D'ATTENTION J. DABOUNOU - FST DE SETTAT c1 = F1(h1, h2, …, h7) c2 = F2(h1, h2, …, h7) c3 = F3(h1, h2, …, h7) c4 = F4(h1, h2, …, h7) c5 = F5(h1, h2, …, h7) c6 = F6(h1, h2, …, h7) c7 = F7(h1, h2, …, h7) English encoder French decoder visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 MÉCANISME D'ATTENTION h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s> <s> 𝐜t = s=1,7 ats 𝐡s ats  0 et s=1,7 ats = 1
  • 19. 19 MÉCANISME D'ATTENTION J. DABOUNOU - FST DE SETTAT c1 = F1(h1, h2, …, h7) c2 = F2(h1, h2, …, h7) c3 = F3(h1, h2, …, h7) c4 = F4(h1, h2, …, h7) c5 = F5(h1, h2, …, h7) c6 = F6(h1, h2, …, h7) c7 = F7(h1, h2, …, h7) English encoder French decoder visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 MÉCANISME D'ATTENTION h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s> <s> 𝐜t = s=1,7 ats 𝐡s ats  0 et s=1,7 ats = 1
  • 20. 20 Machine Translation avec Attention J. DABOUNOU - FST DE SETTAT English encoder French decoder visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 MÉCANISME D'ATTENTION ats = softmax score 𝐡t out , 𝐡s pour s = 1,7 𝐜t = s=1,7 ats 𝐡s 𝐡t att = tanh(𝐖ch att 𝐜t + 𝐖hh att 𝐡t out ) Calculer : 𝐡t out = tanh(𝐖hh out 𝐡t−1 out + 𝐖xh out 𝐳t)1 4 𝐳t=Softmax (𝐖hz out 𝐡t att )5 2 3 score 𝐡t out , 𝐡s = 𝐡t out T 𝐡s ∶ Produit scalaire 𝐡t out 𝐖a 𝐡s ∶ Multiplicatif 𝐯a T 𝐭𝐚𝐧𝐡(𝐖a[𝐡t out ; 𝐡s ]) ∶ Concaténation h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s> <s>
  • 21. 21 Machine Translation avec Attention J. DABOUNOU - FST DE SETTAT English encoder French decoder visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 h1 out Représente la phrase en anglais <s> Embedding x1 Calculer : 𝐡1 out = tanh(𝐖hh out 𝐡7 + 𝐖xh out 𝐱1)1
  • 22. 22 Machine Translation avec Attention J. DABOUNOU - FST DE SETTAT English encoder French decoder visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 h1 out MÉCANISME D'ATTENTION a1s = softmax score 𝐡1 out , 𝐡s pour s = 1,7 𝐜1 = s=1,7 a1s 𝐡s score 𝐡1 out , 𝐡s = 𝐡1 out T 𝐡s ∶ Produit scalaire 𝐡1 out 𝐖a 𝐡s ∶ Multiplicatif 𝐯1 T 𝐭𝐚𝐧𝐡(𝐖a[𝐡1 out ; 𝐡s ]) ∶ Concaténation 2 3 <s> Embedding x1 Calculer : 𝐡1 out = tanh(𝐖hh out 𝐡7 + 𝐖xh out 𝐱1)1
  • 23. 23 Machine Translation avec Attention J. DABOUNOU - FST DE SETTAT English encoder French decoder visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 h1 out MÉCANISME D'ATTENTION a1s = softmax score 𝐡1 out , 𝐡s pour s = 1,7 𝐜1 = s=1,7 a1s 𝐡s 𝐡1 att = tanh(𝐖ch att 𝐜1 + 𝐖hh att 𝐡1 out ) score 𝐡1 out , 𝐡s = 𝐡1 out T 𝐡s ∶ Produit scalaire 𝐡1 out 𝐖a 𝐡s ∶ Multiplicatif 𝐯1 T 𝐭𝐚𝐧𝐡(𝐖a[𝐡1 out ; 𝐡s ]) ∶ Concaténation 2 3 4 𝐳1=Softmax (𝐖hz out 𝐡1 att )5Sortie décodeur: z1 <s> Embedding x1 Calculer : 𝐡1 out = tanh(𝐖hh out 𝐡7 + 𝐖xh out 𝐱1)1
  • 24. 24 Machine Translation avec Attention J. DABOUNOU - FST DE SETTAT English encoder French decoder visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 h1 out MÉCANISME D'ATTENTION a2s = softmax score 𝐡2 out , 𝐡s pour s = 1,7 𝐜2 = s=1,7 a2s 𝐡s 𝐡2 att = tanh(𝐖ch att 𝐜2 + 𝐖hh att 𝐡2 out ) score 𝐡2 out , 𝐡s = 𝐡2 out T 𝐡s ∶ Produit scalaire 𝐡2 out 𝐖a 𝐡s ∶ Multiplicatif 𝐯1 T 𝐭𝐚𝐧𝐡(𝐖a[𝐡2 out ; 𝐡s ]) ∶ Concaténation Calculer : 𝐡2 out = tanh(𝐖hh out 𝐡1 out + 𝐖xh out 𝐳1)1 2 3 4 𝐳2=Softmax (𝐖hz out 𝐡2 att )5 z1 h2 out <s> Embedding x1 z2 Sortie décodeur:
  • 25. 25 Machine Translation avec Attention J. DABOUNOU - FST DE SETTAT English encoder French decoder visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 MÉCANISME D'ATTENTION ats = softmax score 𝐡t out , 𝐡s pour s = 1,7 𝐜t = s=1,7 ats 𝐡s 𝐡t att = tanh(𝐖ch att 𝐜t + 𝐖hh att 𝐡t out ) Calculer : 𝐡t out = tanh(𝐖hh out 𝐡t−1 out + 𝐖xh out 𝐳t)1 4 𝐳t=Softmax (𝐖hz out 𝐡t att )5 2 3 score 𝐡t out , 𝐡s = 𝐡t out T 𝐡s ∶ Produit scalaire 𝐡t out 𝐖a 𝐡s ∶ Multiplicatif 𝐯a T 𝐭𝐚𝐧𝐡(𝐖a[𝐡t out ; 𝐡s ]) ∶ Concaténation h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s> <s> Sortie décodeur:
  • 26. 26 Machine Translation avec Attention J. DABOUNOU - FST DE SETTAT visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 MÉCANISME D'ATTENTION h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s> <s> ats = softmax score 𝐡t out , 𝐡s pour s = 1,7 𝐜t = s=1,7 ats 𝐡s 𝐜3 = s=1,7 a3s 𝐡s a3s  0 et s=1,7 a3s = 1 h1 h2 h3 h4 h5 h6 h7 𝐜3 visité visited the magical medinaHe<s> </s> 0 1 0.12 0.2 0.61 0.07 10-5 10-5 10-7a3s
  • 27. 27 Machine Translation avec Attention J. DABOUNOU - FST DE SETTAT visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 MÉCANISME D'ATTENTION h2 out h3 out h4 out h5 out h1 out h6 out h7 out médinaIl a visité la magique </s> <s> 𝐜6 = s=1,7 a6s 𝐡s a6s  0 et s=1,7 a6s = 1 h1 h2 h3 h4 h5 h6 h7 𝐜6 visited the magical medinaHe<s> </s> 0 1 10-8 10-6 10-4 0.05 0.79 0.15 10-8a3s magique ats = softmax score 𝐡t out , 𝐡s pour s = 1,7 𝐜t = s=1,7 ats 𝐡s
  • 28. 28 Machine Translation avec Attention J. DABOUNOU - FST DE SETTAT visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 + + + ++ + + médinaIl a visité la magique </s> 𝐜6 = s=1,7 a6s 𝐡s a6s  0 et s=1,7 a6s = 1 h1 h2 h3 h4 h5 h6 h7 𝐜6 visited the magical medinaHe<s> </s> 0 1 10-8 10-6 10-4 0.05 0.79 0.15 10-8a3s magique Graphe des liaisons pertinentes
  • 29. 29 Machine Translation avec Attention J. DABOUNOU - FST DE SETTAT Il a visité la médina magique </s> <s> He visited the magical medina </s> Matrice de distribution de l'attention visited h3 the h4 magical h5 medina h6 He h2 <s> h1 </s> h7 + + + ++ + + médinaIl a visité la magique </s> Graphe des liaisons pertinentes