Notre algorithme transforme la voix de l’utilisateur en celle d’une personne de votre choix. Comment ? Avec des réseaux de neurones artificiels. Nous présenterons l’architecture de réseaux de neurones utilisée pour réaliser cette tâche en expliquant pourquoi elle est adaptée pour traiter de la voix. Nous ferons aussi une parenthèse sur les mécanismes acoustiques sous-jacents. Nous ferons enfin une démonstration de notre algorithme sur des phrases proposées par des membres du public.
10. Voder
10
Cordes vocales : son “a”. Composante harmonique.
Souffle : son “ch”. Composante non harmonique.
Déformation de la cavité buccale : filtrage du son
permet de former
“a”, “e”, “i”, “o”, “u”, “ou” (cordes vocales
vibrent)
et
“ch”, “s”, “h”, “kh” (souffle)
mais aussi
“j”, “z” (souffle + vibration des cordes vocales)
Un modèle simplifié du mécanisme de
génération de la voix
Appareil phonatoire humain
12. Voder
The Bell Telephone
Laboratory’s Voder
(from Voice Operating
Demonstrator) was the
first attempt to
electronically synthesize
human speech by
breaking it down into its
acoustic components.
12
19. Voder
Représentation simplifiée
du spectre de la composante harmonique
+ fréquence de la voix
“bzzz”
modulé en
fréquence
“bzz”
modulé en
fréquence
+ filtré
Filtrage par
transformée
de Fourier
19
20. Voder
“ch” filtré
Représentation simplifiée
du spectre du souffle
+ du spectre de la composante
harmonique
+ fréquence de la voix
“bzz”
modulé en
fréquence
+ filtré
voix
synthétisée
Addition
20
21. Voder
“ch” filtré
Représentation simplifiée
du spectre du souffle
+ du spectre de la composante
harmonique
+ fréquence de la voix
“bzz”
modulé en
fréquence
+ filtré
voix
synthétisée
Addition
21
voix originale
28. Séparation en composantes : périodique + bruit
Séparation
par
projection
orthogonale
Signal quasi périodique
Signal périodique
+
bruit aléatoire
28
29. Séparation en composantes : périodique + bruit
espacebruit
signal périodique 1
ㄨ signal quasi périodique
ㄨ signal périodique
ㄨ bruit
signal périodique 2
Signal périodique
+
bruit aléatoire
29
30. Séparation en composantes : périodique + bruit
espacebruit
signal périodique 1
ㄨ signal quasi périodique
ㄨ signal périodique
ㄨ bruit
signal périodique 2
Signal périodique
+
bruit aléatoire
Base de signaux périodiques
30
52. Résumé
Conversion de voix
A partir d’exemples de phrases prononcées par
deux locuteurs, on crée un modèle de conversion de
voix.
Aujourd’hui fait pour fonctionner avec un seul
locuteur source.
52
53. Applications potentielles
Applications potentielles
Voix immortalisées et réutilisables.
Amélioration de la qualité de la transmission de la
voix sur une ligne téléphonique.
Utilisation de la voix d’un acteur dans les jeux
vidéos.
Canulars téléphoniques.
53
54. Applications potentielles
Conversion de voix
Améliorations possibles
Remplacer le Voder par un réseaux de neurones.
Utiliser un réseau de neurones de type LSTM pour la traduction entre
deux séquences.
Possibilité : plus aucun d’apprentissage nécessaire pour un nouveau
locuteur.
54