Présentation effectuée à la création numérique "Alchimie 13" par Christophe Villeneuve sur "La voix avec Common Voice".
Vous allez voir l'avancé de ces appareils, des projets libres comme Common Voice et DeepSpeech, la qualité des participations et contributions
Consulter le site officiel https://voice.mozilla.org
5. Assistant numérique :
au service de l’utilisateur
Smartphone
Enceinte connectée
Mixed Reality
Souvent utilisé dans des
contextes où la voix est plus
efficace pour communiquer
Que faire avec ?
7. Traitement de la voix
Obligation d’un réseau
– Connecter aux internets
Accès aux services cloud pour pouvoir fonctionner
– Entrainement et transcription gourmands en
calculs
Contraintes
– Souvent laissé à des services tiers en-ligne
– Nécessite beaucoup de données audio avec
texte associé
– Voix personnelle, mais enregistrement parfois
constant
9. L’utilisation de la recherche
vocale aujourd’hui
2016 2020
2016 2020
+ 50 % web
10. Aujourd’hui : Un constat
Des gros acteurs (4-5)
– Dominé par les géants du Web d’aujourd’hui
Difficile d’accès pour les petits acteurs
– Développeurs logiciels
– Langues et marchés « minoritaires »
Alternative pour outiller la communauté
– Emergence d’outils vocaux
→ Projet Common Voice de Mozilla
11. Alternative
Raspberry PI
– Respeaker 2 – Mics PI Hat
Arduino
– Movi d’Audème
– Grasp.io
– Voice Recognition
Briques pour Les assistants vocaux
– Common Voice – DeepSpeech de Mozilla
12. Common Voice
But
– Aider à apprendre aux machines comment les
humains parlent vraiment
Destiné à rendre la reconnaissance vocale ouverte et accessible à
tout le monde
Objectifs
– 10 000 heures de données validées par langue
– Mini 2 000 heures
→ Assistant numérique et voix
Common Voice & Deep Speech
13. Objectifs (1/2)
Cassons les barrières de la voix
– Accès : peu de gros jeux de données publiquement
accessibles
– Coût : ticket d’entrée important pour les jeux de
données commerciaux, avec des complexités
légales
– Biais : seuls certains marchés sont bien pourvus
14. Objectifs (2/2)
Collecte de données ouvertes pour l’apprentissage machine
Données : audio et texte correspondant
Diversité
– Langues
– Accents
– Ages
– Genres
– Qualité sonore
Nous visons 10 000 heures de données validées par langue :
https://voice.mozilla.org
20. Proposer et valider
de nouvelles phrases
Posséder un compte sur Common Voice.
Identifiez-vous sur le Collecteur de phrases
– Avec vos identifiants de Common Voice.
Validation des phrases
Page
→ page de validation.
Ajouter de nouvelle phrases
Page
→ Ajouter une nouvelle phrase
25. Mots ajoutés
Les mots ajoutés quand on parle
L’erreur est le mot ‘de’ qui a été ajouté
Elle est située dans la zec
Louise- Gosford, une aire
publique de chasse et de pêche
Elle est située dans la zec
Louise- Gosford, une aire
publique de chasse et de pêche
26. Mots oubliés
Les mots qu’on oublie
L’erreur est le mot ‘de’ qui a été oublié
Angel est sur le point de
l’interroger mais Wo-Pang se
suicide
Angel est sur le point de
l’interroger mais Wo-Pang se
suicide
27. Mots accrochés
Les mots qu’on accroche
La première syllabe du mot ‘Phénicie’ a été accrochée
Elle relie le nord de l’égypte à
la Phé Phénicie, l’Assyrie et la
Mésopotamie
Elle relie le nord de l’égypte à
la Phé Phénicie, l’Assyrie et la
Mésopotamie
28. Lettre(s) oubliée(s)
Les lettres oubliées qui modifient le sens de la phrase
La lettre ‘s’ a été oubliée
→ la phrase ne veut plus rien dire
En conséquence, Durant
Motors perdit des parts de
marché et des revendeurs.
En conséquence, Durant
Motors perdit des parts de
marché et des revendeurs.
29. Inversion de syllabe
Une syllabe inversée dans un mot
Le môt ‘évêché’ est prononcé « échevé »
→ qui est une erreur
Selon l’échevé de Liège, l’abbé
Schoonbroodt ne dispose
d’aucun recours.
Selon l’échevé de Liège, l’abbé
Schoonbroodt ne dispose
d’aucun recours.
34. Début coupé
le ou les premiers mots ne sont pas enregistrés
L’enregistrement est déclenché trop tard
Les deux premiers ne sont enregistrés
→ Clavier ou souris appuyé trop tard
Puis il affine son plumage et
replie les ailes.
Puis il affine son plumage et
replie les ailes.
35. Echantillon coupé
l’enregistrement de l’échantillon est stoppé avant la fin
→ Il manque une partie de la phrase
Les droits de Gielow sont
ensuite rachetés au moment
de la Réforme protestante.
Les droits de Gielow sont
ensuite rachetés au moment
de la Réforme protestante.
36. Le dernier mot a été coupé
le ou les derniers mots sont coupés avant la fin de l’enregistrement
La dernière syllabe du mot ‘Montgeroult’ est coupé
L’ensemble du groupe scolaire
se situe à Montgeroult.
L’ensemble du groupe scolaire
se situe à Montgeroult.
39. Données ouvertes
Décentraliser les données : plus de pouvoir aux utilisateurs et
contributeurs
– Facile à obtenir, exploiter
– Partage des données
– Intégration dans d’autres
jeux de données
– Outiller les communautés
https://voice.mozilla.org/fr/datas
ets
40. La répartition des données
Accent
64% Français de France
3% Français de Belgique
2% Français de Suisse
1% Français du Canada
Âge
< 19 : 4 %
19 - 29 : 24 %
30 - 39 : 21 %
40 - 49 : 17 %
50 - 59 : 5 %
60 - 69 : 6 %
Genre
70 % Masculin
9 % Féminin
Jeux de données vocales disponible
– Contenu officiel https://voice.mozilla.org/fr/datasets
41. Comment fait on ?
Modèles
– https://github.com/mozilla/deepspeech
Languages
– Python / Rust / NodeJS / .Net
Projets locals
– Pas de dépendance aux réseaux
Compatilibité Navigateurs
– Firefox et les autres
45. Allez plus loin !
Site officiel Common Voice
– https://voice.mozilla.org/
Dépôt Github Francophone Common Voice – DeepSpeech
– https://github.com/Common-Voice/commonvoice-fr
Nous contacter
– Forum Discourse Francophone
• https://discourse.mozilla.org/c/voice/fr