XebiCon'17 : Faire dire n’importe quoi à Bruce Willis ou Sylvester Stallone - Pierre Sendorek

Comment faire dire n’importe quoi
à Bruce Willis et Sylvester Stallone
1
Pierre SENDOREK
psendorek@xebia.fr

Conversion de voix
Locuteur source Locuteur target
2

Voder
Voder
inverse
Réseau de
neurones
3

Voder
Voder
inverse
Réseau de
neurones
Audio (source)
4

Voder
Voder
inverse
Réseau de
neurones
Audio (source)
Représentation simplifiée (source)
5

Voder
Voder
inverse
Réseau de
neurones
Audio (source)
Représentation simplifiée (target)
6

Voder
Voder
inverse
Réseau de
neurones
Audio (source)
Audio (target)
7

Voder
Générer la voix à partir d’une représentation simplifiée
8

Voder
Audio (target)
9

Voder
10
Cordes vocales : son “a”. Composante harmonique.
Souffle : son “ch”. Composante non harmonique.
Déformation de la cavité buccale : filtrage du son
permet de former
“a”, “e”, “i”, “o”, “u”, “ou” (cordes vocales
vibrent)
et
“ch”, “s”, “h”, “kh” (souffle)
mais aussi
“j”, “z” (souffle + vibration des cordes vocales)
Un modèle simplifié du mécanisme de
génération de la voix
Appareil phonatoire humain

Voder
11
Appareil phonatoire humain
Un modèle simplifié du mécanisme de
génération de la voix
“j”
=
“i” + “ch”

Voder
The Bell Telephone
Laboratory’s Voder
(from Voice Operating
Demonstrator) was the
first attempt to
electronically synthesize
human speech by
breaking it down into its
acoustic components.
12

13
Fréquences Fréquences Fréquences
Spectre

14
Sonogramme
Spectre
Transformée
de Fourier
temps
fréquences

15
Sonogramme Spectre
Transformée
de Fourier

16
Spectre
une bande correspond à un spectre
(Transformée de Fourier)
Faible valeur
Grande valeur

Voder
Représentation simplifiée
du spectre du souffle
“ch”
“ch” filtré
Filtrage par
transformée
de Fourier
17

Voder
du spectre de la composante harmonique
“bzzz”
“bzz” filtré
Filtrage par
transformée
de Fourier
18

Voder
du spectre de la composante harmonique
+ fréquence de la voix
“bzzz”
modulé en
fréquence
“bzz”
modulé en
fréquence
+ filtré
Filtrage par
transformée
de Fourier
19

Voder
“ch” filtré
+ du spectre de la composante
harmonique
“bzz”
modulé en
fréquence
+ filtré
voix
synthétisée
Addition
20

Voder
“ch” filtré
+ du spectre de la composante
harmonique
“bzz”
modulé en
fréquence
+ filtré
voix
synthétisée
Addition
21
voix originale

Voder inverse
Calculer une représentation simplifiée d’une voix
22
Voder inverse

Voder
inverse
Audio (source)
23

24
Spectre
une bande correspond à un spectre
(Transformée de Fourier)
Faible valeur
Grande valeur

Approximer le spectre
vecteur “triangle” 1
ㄨ vrai spectre
ㄨ approximation spectrale
vecteur “triangle” 2
Base de fonctions triangulaires
25

Trouver la période
Période : son translaté de la période ≈ son
26

Trouver la période
Période : son translaté de la période ≈ son
Période
27

Séparation en composantes : périodique + bruit
Séparation
par
projection
orthogonale
Signal quasi périodique
Signal périodique
+
bruit aléatoire
28

espacebruit
signal périodique 1
ㄨ signal quasi périodique
ㄨ signal périodique
ㄨ bruit
Signal périodique
+
bruit aléatoire
29

espacebruit
ㄨ signal quasi périodique
ㄨ signal périodique
ㄨ bruit
Signal périodique
+
bruit aléatoire
Base de signaux périodiques
30

Apprentissage de la conversion
Réseaux de neurones artificiels
31

Réseau de
neurones
32

Réseau de neurones artificiels
× exemples
ー prédiction
33

× exemples
ー prédiction
34
Reconstruction
sans prise en
compte du passé

Réseau de neurones récurrent
× exemples
ー prédiction
35

36
Ø
Ø
Ø

37
Ø
Ø
Ø

38
Ø
Ø
Ø

39
Ø
Ø
Ø

Alignement de séquences
Dynamic Time Warping
40

41
Une entrée Une sortie

42
Alignement : Dynamic time warping
Base de données non alignée Base de données alignée

43

Matrice des Distances
Faible valeur
Grande valeur
44

Matrice des Distances
Faible valeur
Grande valeur
Correspondances
45

Correspondances
46

48
Fichier passé en entrée Résultat de la conversion Objectif
?

49
Interprétation : surapprentissage

Résumé
Conversion de voix
A partir d’exemples de phrases prononcées par
deux locuteurs, on crée un modèle de conversion de
voix.
Aujourd’hui fait pour fonctionner avec un seul
locuteur source.
52

Applications potentielles
Voix immortalisées et réutilisables.
Amélioration de la qualité de la transmission de la
voix sur une ligne téléphonique.
Utilisation de la voix d’un acteur dans les jeux
vidéos.
Canulars téléphoniques.
53

Conversion de voix
Améliorations possibles
Remplacer le Voder par un réseaux de neurones.
Utiliser un réseau de neurones de type LSTM pour la traduction entre
deux séquences.
Possibilité : plus aucun d’apprentissage nécessaire pour un nouveau
locuteur.
54

Merci
55
https://github.com/pierresendorek/voice_converter
Pierre SENDOREK | psendorek@xebia.fr

XebiCon'17 : Faire dire n’importe quoi à Bruce Willis ou Sylvester Stallone - Pierre Sendorek

Recommandé

Recommandé

Contenu connexe

Plus de Publicis Sapient Engineering

Plus de Publicis Sapient Engineering (20)

XebiCon'17 : Faire dire n’importe quoi à Bruce Willis ou Sylvester Stallone - Pierre Sendorek