SlideShare ist ein Scribd-Unternehmen logo
1 von 13
Voice Cloning and its
Detection
Roman Kazantsev, Dilshod Poshshoev
Voice Biometrics
• Every person has unique voice biometrics like a finger print;
• Voice biometrics can be used for authorization to different systems
(mobile device, smart house, bank account,…)
• Voice biometrics is private and needs protections against voice
cloning.
What was done?
• Neural network based voice cloning implementation using open
source software;
• Employment of GMM based speaker identification for detection of
cloned voice.
NN based voice cloning architecture
Source Speech
World Vocoder:
Feature Extraction
Aperiodicity
Log-F0
Rastamat:
Extraction Mel-FCC
Tiny DNN:
Neural
Network
Linear Conversion
Log-F0
Aperiodicity
Spectrum
World Vocoder:
Synthesis
Target Speech
Rastamat: Inversion
MFCC to Spectrum
Mel-FCC
Predicted Mel-FCC
AWT(source speaker) and SLT(target speaker) from CMU_ARCTIC: http://festvox.org/cmu_arctic/
Alignment of source and target Mel-FCC
features using Dynamic Time Warping
arctic_a0001: "Author of the danger trail, Philip Steels, etc."
Source speaker
(AWT)
Target speaker
(SLT)
Data Mining Routine
extract_features_training.m
source wav_names{} = {arctic_a0001.wav}, ts_intervals{} = {[0.65, 1.05, 1.12, 1.20];}
target wav_names{} = {arctic_a0001.wav}, tt_intervals{} = {[0.20, 0.70, 0.80, 0.88];}
s_melfcc_train t_melfcc_train
t_mean_logf0
t_var_logf0
Neural Network for Cloning
Multilayer σ-activated perceptron [12, 40, 40, 12] is trained and used for
prediction of cepstral coefficients
…
…
…
…
Normalization
s_melfcc_train
Denormalization
t_melfcc_train
σ
σ
σ
σ
σ
σ
σ
σ
σ
σ
σ
σ
s_melfcc_predict t_melfcc_predict
Synthesis
synthesis.m
target.wav
source.wav
t_var_logf0
t_mean_logf0
t_melfcc_predict
Employment of GMM based speaker
recognition tool for cloned voice detection
Github link: https://github.com/ppwwyyxx/speaker-recognition
Examples:
Train:
speaker-recognition.py -t enroll -i "f1 m1" -m model.out
Label f1 has files f1arctic_a0001.wav,f1arctic_a0002.wav
Label m1 has files m1arctic_a0001.wav,m1arctic_a0002.wav
Start training...
0.545000076294 seconds
Predict:
speaker-recognition.py -t predict -i "f1/*.wav" -m model.out
f1arctic_a0001.wav -> f1
f1arctic_a0002.wav -> f1
Experiment with detection of cloned voice &
Results
SLT (target speaker)
arctic_a0001.wav
arctic_a0002.wav
arctic_a0003.wav
arctic_a0004.wav
arctic_a0005.wav
…
arctic_a0020.wav
Train: Predict:
SLT (target speaker)
wav name probability
arctic_b0002_orig.wav 0.953
arctic_b0002_NN.wav 0.765
arctic_b0002_DBN.wav 0.892
arctic_b0002_DBN_MLPG.wav 0.912
arctic_b0002_LSTM.wav 0.745
arctic_b0002_LSTM_MLPG.wav 0.769
Conclusion
1. Speaker recognition systems used for authorization should have
meticulously selected probability threshold against cloned voice;
2. Voice biometric should be regularly gathered and updated in
database due to physiological changes in organism through ages;
3. Voice biometric based identification is a good addition to multi-
factor authorization schemes.
Link to our voice cloner sources:
https://github.com/RomanKazantsev/voice-cloner
References
• T. Nakashika, R. Takashima, T. Takiguchi, Y. Ariki. Voice Conversion in
High-order Eigen Space Using Deep Belief Nets;
• WORLD [1] (D4C edition [2]);
• PLP and RASTA matlab library;
• Tiny-dnn;
• CMU_ARCTIC speech database.

Weitere ähnliche Inhalte

Ähnlich wie Клонирование голоса и как это выявить

Basic presentation of cryptography mechanisms
Basic presentation of cryptography mechanismsBasic presentation of cryptography mechanisms
Basic presentation of cryptography mechanismsMarian Marinov
 
Fuzzing malware for fun & profit. Applying Coverage-Guided Fuzzing to Find Bu...
Fuzzing malware for fun & profit. Applying Coverage-Guided Fuzzing to Find Bu...Fuzzing malware for fun & profit. Applying Coverage-Guided Fuzzing to Find Bu...
Fuzzing malware for fun & profit. Applying Coverage-Guided Fuzzing to Find Bu...Maksim Shudrak
 
Fast and Precise Symbolic Analysis of Concurrency Bugs in Device Drivers
Fast and Precise Symbolic Analysis of Concurrency Bugs in Device DriversFast and Precise Symbolic Analysis of Concurrency Bugs in Device Drivers
Fast and Precise Symbolic Analysis of Concurrency Bugs in Device DriversPantazis Deligiannis
 
Your Peripheral Has Planted Malware—An Exploit of NXP SOCs Vulnerability
Your Peripheral Has Planted Malware—An Exploit of NXP SOCs VulnerabilityYour Peripheral Has Planted Malware—An Exploit of NXP SOCs Vulnerability
Your Peripheral Has Planted Malware—An Exploit of NXP SOCs VulnerabilityPriyanka Aash
 
Perl Usage In Security and Penetration testing
Perl Usage In Security and Penetration testingPerl Usage In Security and Penetration testing
Perl Usage In Security and Penetration testingVlatko Kosturjak
 
TENTACLE: Environment-Sensitive Malware Palpation(PacSec 2014)
TENTACLE: Environment-Sensitive Malware Palpation(PacSec 2014)TENTACLE: Environment-Sensitive Malware Palpation(PacSec 2014)
TENTACLE: Environment-Sensitive Malware Palpation(PacSec 2014)FFRI, Inc.
 
From printed circuit boards to exploits
From printed circuit boards to exploitsFrom printed circuit boards to exploits
From printed circuit boards to exploitsvirtualabs
 
stackconf 2021 | Fuzzing: Finding Your Own Bugs and 0days!
stackconf 2021 | Fuzzing: Finding Your Own Bugs and 0days!stackconf 2021 | Fuzzing: Finding Your Own Bugs and 0days!
stackconf 2021 | Fuzzing: Finding Your Own Bugs and 0days!NETWAYS
 
TinyML - 4 speech recognition
TinyML - 4 speech recognition TinyML - 4 speech recognition
TinyML - 4 speech recognition 艾鍗科技
 
Hunting for APT in network logs workshop presentation
Hunting for APT in network logs workshop presentationHunting for APT in network logs workshop presentation
Hunting for APT in network logs workshop presentationOlehLevytskyi1
 
Swift profiling middleware and tools
Swift profiling middleware and toolsSwift profiling middleware and tools
Swift profiling middleware and toolszhang hua
 
Meder Kydyraliev - Mining Mach Services within OS X Sandbox
Meder Kydyraliev - Mining Mach Services within OS X SandboxMeder Kydyraliev - Mining Mach Services within OS X Sandbox
Meder Kydyraliev - Mining Mach Services within OS X SandboxDefconRussia
 
Fuzzing: Finding Your Own Bugs and 0days! 2.0
Fuzzing: Finding Your Own Bugs and 0days! 2.0Fuzzing: Finding Your Own Bugs and 0days! 2.0
Fuzzing: Finding Your Own Bugs and 0days! 2.0Rodolpho Concurde
 
The more you know the better you do
The more you know the better you doThe more you know the better you do
The more you know the better you doDemetrio Milea
 
26.1.7 lab snort and firewall rules
26.1.7 lab   snort and firewall rules26.1.7 lab   snort and firewall rules
26.1.7 lab snort and firewall rulesFreddy Buenaño
 
Incident response: Advanced Network Forensics
Incident response: Advanced Network ForensicsIncident response: Advanced Network Forensics
Incident response: Advanced Network ForensicsNapier University
 
Situational Awareness, Botnet and Malware Detection in the Modern Era - Davi...
Situational Awareness, Botnet and Malware Detection in the Modern Era  - Davi...Situational Awareness, Botnet and Malware Detection in the Modern Era  - Davi...
Situational Awareness, Botnet and Malware Detection in the Modern Era - Davi...Codemotion
 
Finding 0days at Arab Security Conference
Finding 0days at Arab Security ConferenceFinding 0days at Arab Security Conference
Finding 0days at Arab Security ConferenceRodolpho Concurde
 
DEF CON 27 - DANIEL ROMERO and MARIO RIVAS - why you should fear your mundane...
DEF CON 27 - DANIEL ROMERO and MARIO RIVAS - why you should fear your mundane...DEF CON 27 - DANIEL ROMERO and MARIO RIVAS - why you should fear your mundane...
DEF CON 27 - DANIEL ROMERO and MARIO RIVAS - why you should fear your mundane...Felipe Prado
 

Ähnlich wie Клонирование голоса и как это выявить (20)

Basic presentation of cryptography mechanisms
Basic presentation of cryptography mechanismsBasic presentation of cryptography mechanisms
Basic presentation of cryptography mechanisms
 
Fuzzing malware for fun & profit. Applying Coverage-Guided Fuzzing to Find Bu...
Fuzzing malware for fun & profit. Applying Coverage-Guided Fuzzing to Find Bu...Fuzzing malware for fun & profit. Applying Coverage-Guided Fuzzing to Find Bu...
Fuzzing malware for fun & profit. Applying Coverage-Guided Fuzzing to Find Bu...
 
Fast and Precise Symbolic Analysis of Concurrency Bugs in Device Drivers
Fast and Precise Symbolic Analysis of Concurrency Bugs in Device DriversFast and Precise Symbolic Analysis of Concurrency Bugs in Device Drivers
Fast and Precise Symbolic Analysis of Concurrency Bugs in Device Drivers
 
Your Peripheral Has Planted Malware—An Exploit of NXP SOCs Vulnerability
Your Peripheral Has Planted Malware—An Exploit of NXP SOCs VulnerabilityYour Peripheral Has Planted Malware—An Exploit of NXP SOCs Vulnerability
Your Peripheral Has Planted Malware—An Exploit of NXP SOCs Vulnerability
 
Perl Usage In Security and Penetration testing
Perl Usage In Security and Penetration testingPerl Usage In Security and Penetration testing
Perl Usage In Security and Penetration testing
 
TENTACLE: Environment-Sensitive Malware Palpation(PacSec 2014)
TENTACLE: Environment-Sensitive Malware Palpation(PacSec 2014)TENTACLE: Environment-Sensitive Malware Palpation(PacSec 2014)
TENTACLE: Environment-Sensitive Malware Palpation(PacSec 2014)
 
From printed circuit boards to exploits
From printed circuit boards to exploitsFrom printed circuit boards to exploits
From printed circuit boards to exploits
 
stackconf 2021 | Fuzzing: Finding Your Own Bugs and 0days!
stackconf 2021 | Fuzzing: Finding Your Own Bugs and 0days!stackconf 2021 | Fuzzing: Finding Your Own Bugs and 0days!
stackconf 2021 | Fuzzing: Finding Your Own Bugs and 0days!
 
TinyML - 4 speech recognition
TinyML - 4 speech recognition TinyML - 4 speech recognition
TinyML - 4 speech recognition
 
Hunting for APT in network logs workshop presentation
Hunting for APT in network logs workshop presentationHunting for APT in network logs workshop presentation
Hunting for APT in network logs workshop presentation
 
Swift profiling middleware and tools
Swift profiling middleware and toolsSwift profiling middleware and tools
Swift profiling middleware and tools
 
Meder Kydyraliev - Mining Mach Services within OS X Sandbox
Meder Kydyraliev - Mining Mach Services within OS X SandboxMeder Kydyraliev - Mining Mach Services within OS X Sandbox
Meder Kydyraliev - Mining Mach Services within OS X Sandbox
 
Fuzzing: Finding Your Own Bugs and 0days! 2.0
Fuzzing: Finding Your Own Bugs and 0days! 2.0Fuzzing: Finding Your Own Bugs and 0days! 2.0
Fuzzing: Finding Your Own Bugs and 0days! 2.0
 
The more you know the better you do
The more you know the better you doThe more you know the better you do
The more you know the better you do
 
26.1.7 lab snort and firewall rules
26.1.7 lab   snort and firewall rules26.1.7 lab   snort and firewall rules
26.1.7 lab snort and firewall rules
 
Incident response: Advanced Network Forensics
Incident response: Advanced Network ForensicsIncident response: Advanced Network Forensics
Incident response: Advanced Network Forensics
 
voip_en
voip_envoip_en
voip_en
 
Situational Awareness, Botnet and Malware Detection in the Modern Era - Davi...
Situational Awareness, Botnet and Malware Detection in the Modern Era  - Davi...Situational Awareness, Botnet and Malware Detection in the Modern Era  - Davi...
Situational Awareness, Botnet and Malware Detection in the Modern Era - Davi...
 
Finding 0days at Arab Security Conference
Finding 0days at Arab Security ConferenceFinding 0days at Arab Security Conference
Finding 0days at Arab Security Conference
 
DEF CON 27 - DANIEL ROMERO and MARIO RIVAS - why you should fear your mundane...
DEF CON 27 - DANIEL ROMERO and MARIO RIVAS - why you should fear your mundane...DEF CON 27 - DANIEL ROMERO and MARIO RIVAS - why you should fear your mundane...
DEF CON 27 - DANIEL ROMERO and MARIO RIVAS - why you should fear your mundane...
 

Mehr von Positive Hack Days

Инструмент ChangelogBuilder для автоматической подготовки Release Notes
Инструмент ChangelogBuilder для автоматической подготовки Release NotesИнструмент ChangelogBuilder для автоматической подготовки Release Notes
Инструмент ChangelogBuilder для автоматической подготовки Release NotesPositive Hack Days
 
Как мы собираем проекты в выделенном окружении в Windows Docker
Как мы собираем проекты в выделенном окружении в Windows DockerКак мы собираем проекты в выделенном окружении в Windows Docker
Как мы собираем проекты в выделенном окружении в Windows DockerPositive Hack Days
 
Типовая сборка и деплой продуктов в Positive Technologies
Типовая сборка и деплой продуктов в Positive TechnologiesТиповая сборка и деплой продуктов в Positive Technologies
Типовая сборка и деплой продуктов в Positive TechnologiesPositive Hack Days
 
Аналитика в проектах: TFS + Qlik
Аналитика в проектах: TFS + QlikАналитика в проектах: TFS + Qlik
Аналитика в проектах: TFS + QlikPositive Hack Days
 
Использование анализатора кода SonarQube
Использование анализатора кода SonarQubeИспользование анализатора кода SonarQube
Использование анализатора кода SonarQubePositive Hack Days
 
Развитие сообщества Open DevOps Community
Развитие сообщества Open DevOps CommunityРазвитие сообщества Open DevOps Community
Развитие сообщества Open DevOps CommunityPositive Hack Days
 
Методика определения неиспользуемых ресурсов виртуальных машин и автоматизаци...
Методика определения неиспользуемых ресурсов виртуальных машин и автоматизаци...Методика определения неиспользуемых ресурсов виртуальных машин и автоматизаци...
Методика определения неиспользуемых ресурсов виртуальных машин и автоматизаци...Positive Hack Days
 
Автоматизация построения правил для Approof
Автоматизация построения правил для ApproofАвтоматизация построения правил для Approof
Автоматизация построения правил для ApproofPositive Hack Days
 
Мастер-класс «Трущобы Application Security»
Мастер-класс «Трущобы Application Security»Мастер-класс «Трущобы Application Security»
Мастер-класс «Трущобы Application Security»Positive Hack Days
 
Формальные методы защиты приложений
Формальные методы защиты приложенийФормальные методы защиты приложений
Формальные методы защиты приложенийPositive Hack Days
 
Эвристические методы защиты приложений
Эвристические методы защиты приложенийЭвристические методы защиты приложений
Эвристические методы защиты приложенийPositive Hack Days
 
Теоретические основы Application Security
Теоретические основы Application SecurityТеоретические основы Application Security
Теоретические основы Application SecurityPositive Hack Days
 
От экспериментального программирования к промышленному: путь длиной в 10 лет
От экспериментального программирования к промышленному: путь длиной в 10 летОт экспериментального программирования к промышленному: путь длиной в 10 лет
От экспериментального программирования к промышленному: путь длиной в 10 летPositive Hack Days
 
Уязвимое Android-приложение: N проверенных способов наступить на грабли
Уязвимое Android-приложение: N проверенных способов наступить на граблиУязвимое Android-приложение: N проверенных способов наступить на грабли
Уязвимое Android-приложение: N проверенных способов наступить на граблиPositive Hack Days
 
Требования по безопасности в архитектуре ПО
Требования по безопасности в архитектуре ПОТребования по безопасности в архитектуре ПО
Требования по безопасности в архитектуре ПОPositive Hack Days
 
Формальная верификация кода на языке Си
Формальная верификация кода на языке СиФормальная верификация кода на языке Си
Формальная верификация кода на языке СиPositive Hack Days
 
Механизмы предотвращения атак в ASP.NET Core
Механизмы предотвращения атак в ASP.NET CoreМеханизмы предотвращения атак в ASP.NET Core
Механизмы предотвращения атак в ASP.NET CorePositive Hack Days
 
SOC для КИИ: израильский опыт
SOC для КИИ: израильский опытSOC для КИИ: израильский опыт
SOC для КИИ: израильский опытPositive Hack Days
 
Honeywell Industrial Cyber Security Lab & Services Center
Honeywell Industrial Cyber Security Lab & Services CenterHoneywell Industrial Cyber Security Lab & Services Center
Honeywell Industrial Cyber Security Lab & Services CenterPositive Hack Days
 
Credential stuffing и брутфорс-атаки
Credential stuffing и брутфорс-атакиCredential stuffing и брутфорс-атаки
Credential stuffing и брутфорс-атакиPositive Hack Days
 

Mehr von Positive Hack Days (20)

Инструмент ChangelogBuilder для автоматической подготовки Release Notes
Инструмент ChangelogBuilder для автоматической подготовки Release NotesИнструмент ChangelogBuilder для автоматической подготовки Release Notes
Инструмент ChangelogBuilder для автоматической подготовки Release Notes
 
Как мы собираем проекты в выделенном окружении в Windows Docker
Как мы собираем проекты в выделенном окружении в Windows DockerКак мы собираем проекты в выделенном окружении в Windows Docker
Как мы собираем проекты в выделенном окружении в Windows Docker
 
Типовая сборка и деплой продуктов в Positive Technologies
Типовая сборка и деплой продуктов в Positive TechnologiesТиповая сборка и деплой продуктов в Positive Technologies
Типовая сборка и деплой продуктов в Positive Technologies
 
Аналитика в проектах: TFS + Qlik
Аналитика в проектах: TFS + QlikАналитика в проектах: TFS + Qlik
Аналитика в проектах: TFS + Qlik
 
Использование анализатора кода SonarQube
Использование анализатора кода SonarQubeИспользование анализатора кода SonarQube
Использование анализатора кода SonarQube
 
Развитие сообщества Open DevOps Community
Развитие сообщества Open DevOps CommunityРазвитие сообщества Open DevOps Community
Развитие сообщества Open DevOps Community
 
Методика определения неиспользуемых ресурсов виртуальных машин и автоматизаци...
Методика определения неиспользуемых ресурсов виртуальных машин и автоматизаци...Методика определения неиспользуемых ресурсов виртуальных машин и автоматизаци...
Методика определения неиспользуемых ресурсов виртуальных машин и автоматизаци...
 
Автоматизация построения правил для Approof
Автоматизация построения правил для ApproofАвтоматизация построения правил для Approof
Автоматизация построения правил для Approof
 
Мастер-класс «Трущобы Application Security»
Мастер-класс «Трущобы Application Security»Мастер-класс «Трущобы Application Security»
Мастер-класс «Трущобы Application Security»
 
Формальные методы защиты приложений
Формальные методы защиты приложенийФормальные методы защиты приложений
Формальные методы защиты приложений
 
Эвристические методы защиты приложений
Эвристические методы защиты приложенийЭвристические методы защиты приложений
Эвристические методы защиты приложений
 
Теоретические основы Application Security
Теоретические основы Application SecurityТеоретические основы Application Security
Теоретические основы Application Security
 
От экспериментального программирования к промышленному: путь длиной в 10 лет
От экспериментального программирования к промышленному: путь длиной в 10 летОт экспериментального программирования к промышленному: путь длиной в 10 лет
От экспериментального программирования к промышленному: путь длиной в 10 лет
 
Уязвимое Android-приложение: N проверенных способов наступить на грабли
Уязвимое Android-приложение: N проверенных способов наступить на граблиУязвимое Android-приложение: N проверенных способов наступить на грабли
Уязвимое Android-приложение: N проверенных способов наступить на грабли
 
Требования по безопасности в архитектуре ПО
Требования по безопасности в архитектуре ПОТребования по безопасности в архитектуре ПО
Требования по безопасности в архитектуре ПО
 
Формальная верификация кода на языке Си
Формальная верификация кода на языке СиФормальная верификация кода на языке Си
Формальная верификация кода на языке Си
 
Механизмы предотвращения атак в ASP.NET Core
Механизмы предотвращения атак в ASP.NET CoreМеханизмы предотвращения атак в ASP.NET Core
Механизмы предотвращения атак в ASP.NET Core
 
SOC для КИИ: израильский опыт
SOC для КИИ: израильский опытSOC для КИИ: израильский опыт
SOC для КИИ: израильский опыт
 
Honeywell Industrial Cyber Security Lab & Services Center
Honeywell Industrial Cyber Security Lab & Services CenterHoneywell Industrial Cyber Security Lab & Services Center
Honeywell Industrial Cyber Security Lab & Services Center
 
Credential stuffing и брутфорс-атаки
Credential stuffing и брутфорс-атакиCredential stuffing и брутфорс-атаки
Credential stuffing и брутфорс-атаки
 

Kürzlich hochgeladen

The Role of Taxonomy and Ontology in Semantic Layers - Heather Hedden.pdf
The Role of Taxonomy and Ontology in Semantic Layers - Heather Hedden.pdfThe Role of Taxonomy and Ontology in Semantic Layers - Heather Hedden.pdf
The Role of Taxonomy and Ontology in Semantic Layers - Heather Hedden.pdfEnterprise Knowledge
 
EIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptx
EIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptxEIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptx
EIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptxEarley Information Science
 
Finology Group – Insurtech Innovation Award 2024
Finology Group – Insurtech Innovation Award 2024Finology Group – Insurtech Innovation Award 2024
Finology Group – Insurtech Innovation Award 2024The Digital Insurer
 
The 7 Things I Know About Cyber Security After 25 Years | April 2024
The 7 Things I Know About Cyber Security After 25 Years | April 2024The 7 Things I Know About Cyber Security After 25 Years | April 2024
The 7 Things I Know About Cyber Security After 25 Years | April 2024Rafal Los
 
2024: Domino Containers - The Next Step. News from the Domino Container commu...
2024: Domino Containers - The Next Step. News from the Domino Container commu...2024: Domino Containers - The Next Step. News from the Domino Container commu...
2024: Domino Containers - The Next Step. News from the Domino Container commu...Martijn de Jong
 
From Event to Action: Accelerate Your Decision Making with Real-Time Automation
From Event to Action: Accelerate Your Decision Making with Real-Time AutomationFrom Event to Action: Accelerate Your Decision Making with Real-Time Automation
From Event to Action: Accelerate Your Decision Making with Real-Time AutomationSafe Software
 
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...Igalia
 
[2024]Digital Global Overview Report 2024 Meltwater.pdf
[2024]Digital Global Overview Report 2024 Meltwater.pdf[2024]Digital Global Overview Report 2024 Meltwater.pdf
[2024]Digital Global Overview Report 2024 Meltwater.pdfhans926745
 
The Codex of Business Writing Software for Real-World Solutions 2.pptx
The Codex of Business Writing Software for Real-World Solutions 2.pptxThe Codex of Business Writing Software for Real-World Solutions 2.pptx
The Codex of Business Writing Software for Real-World Solutions 2.pptxMalak Abu Hammad
 
08448380779 Call Girls In Civil Lines Women Seeking Men
08448380779 Call Girls In Civil Lines Women Seeking Men08448380779 Call Girls In Civil Lines Women Seeking Men
08448380779 Call Girls In Civil Lines Women Seeking MenDelhi Call girls
 
08448380779 Call Girls In Diplomatic Enclave Women Seeking Men
08448380779 Call Girls In Diplomatic Enclave Women Seeking Men08448380779 Call Girls In Diplomatic Enclave Women Seeking Men
08448380779 Call Girls In Diplomatic Enclave Women Seeking MenDelhi Call girls
 
IAC 2024 - IA Fast Track to Search Focused AI Solutions
IAC 2024 - IA Fast Track to Search Focused AI SolutionsIAC 2024 - IA Fast Track to Search Focused AI Solutions
IAC 2024 - IA Fast Track to Search Focused AI SolutionsEnterprise Knowledge
 
Powerful Google developer tools for immediate impact! (2023-24 C)
Powerful Google developer tools for immediate impact! (2023-24 C)Powerful Google developer tools for immediate impact! (2023-24 C)
Powerful Google developer tools for immediate impact! (2023-24 C)wesley chun
 
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...apidays
 
Real Time Object Detection Using Open CV
Real Time Object Detection Using Open CVReal Time Object Detection Using Open CV
Real Time Object Detection Using Open CVKhem
 
Slack Application Development 101 Slides
Slack Application Development 101 SlidesSlack Application Development 101 Slides
Slack Application Development 101 Slidespraypatel2
 
Exploring the Future Potential of AI-Enabled Smartphone Processors
Exploring the Future Potential of AI-Enabled Smartphone ProcessorsExploring the Future Potential of AI-Enabled Smartphone Processors
Exploring the Future Potential of AI-Enabled Smartphone Processorsdebabhi2
 
Tata AIG General Insurance Company - Insurer Innovation Award 2024
Tata AIG General Insurance Company - Insurer Innovation Award 2024Tata AIG General Insurance Company - Insurer Innovation Award 2024
Tata AIG General Insurance Company - Insurer Innovation Award 2024The Digital Insurer
 
Boost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdfBoost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdfsudhanshuwaghmare1
 
Artificial Intelligence: Facts and Myths
Artificial Intelligence: Facts and MythsArtificial Intelligence: Facts and Myths
Artificial Intelligence: Facts and MythsJoaquim Jorge
 

Kürzlich hochgeladen (20)

The Role of Taxonomy and Ontology in Semantic Layers - Heather Hedden.pdf
The Role of Taxonomy and Ontology in Semantic Layers - Heather Hedden.pdfThe Role of Taxonomy and Ontology in Semantic Layers - Heather Hedden.pdf
The Role of Taxonomy and Ontology in Semantic Layers - Heather Hedden.pdf
 
EIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptx
EIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptxEIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptx
EIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptx
 
Finology Group – Insurtech Innovation Award 2024
Finology Group – Insurtech Innovation Award 2024Finology Group – Insurtech Innovation Award 2024
Finology Group – Insurtech Innovation Award 2024
 
The 7 Things I Know About Cyber Security After 25 Years | April 2024
The 7 Things I Know About Cyber Security After 25 Years | April 2024The 7 Things I Know About Cyber Security After 25 Years | April 2024
The 7 Things I Know About Cyber Security After 25 Years | April 2024
 
2024: Domino Containers - The Next Step. News from the Domino Container commu...
2024: Domino Containers - The Next Step. News from the Domino Container commu...2024: Domino Containers - The Next Step. News from the Domino Container commu...
2024: Domino Containers - The Next Step. News from the Domino Container commu...
 
From Event to Action: Accelerate Your Decision Making with Real-Time Automation
From Event to Action: Accelerate Your Decision Making with Real-Time AutomationFrom Event to Action: Accelerate Your Decision Making with Real-Time Automation
From Event to Action: Accelerate Your Decision Making with Real-Time Automation
 
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
 
[2024]Digital Global Overview Report 2024 Meltwater.pdf
[2024]Digital Global Overview Report 2024 Meltwater.pdf[2024]Digital Global Overview Report 2024 Meltwater.pdf
[2024]Digital Global Overview Report 2024 Meltwater.pdf
 
The Codex of Business Writing Software for Real-World Solutions 2.pptx
The Codex of Business Writing Software for Real-World Solutions 2.pptxThe Codex of Business Writing Software for Real-World Solutions 2.pptx
The Codex of Business Writing Software for Real-World Solutions 2.pptx
 
08448380779 Call Girls In Civil Lines Women Seeking Men
08448380779 Call Girls In Civil Lines Women Seeking Men08448380779 Call Girls In Civil Lines Women Seeking Men
08448380779 Call Girls In Civil Lines Women Seeking Men
 
08448380779 Call Girls In Diplomatic Enclave Women Seeking Men
08448380779 Call Girls In Diplomatic Enclave Women Seeking Men08448380779 Call Girls In Diplomatic Enclave Women Seeking Men
08448380779 Call Girls In Diplomatic Enclave Women Seeking Men
 
IAC 2024 - IA Fast Track to Search Focused AI Solutions
IAC 2024 - IA Fast Track to Search Focused AI SolutionsIAC 2024 - IA Fast Track to Search Focused AI Solutions
IAC 2024 - IA Fast Track to Search Focused AI Solutions
 
Powerful Google developer tools for immediate impact! (2023-24 C)
Powerful Google developer tools for immediate impact! (2023-24 C)Powerful Google developer tools for immediate impact! (2023-24 C)
Powerful Google developer tools for immediate impact! (2023-24 C)
 
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...
 
Real Time Object Detection Using Open CV
Real Time Object Detection Using Open CVReal Time Object Detection Using Open CV
Real Time Object Detection Using Open CV
 
Slack Application Development 101 Slides
Slack Application Development 101 SlidesSlack Application Development 101 Slides
Slack Application Development 101 Slides
 
Exploring the Future Potential of AI-Enabled Smartphone Processors
Exploring the Future Potential of AI-Enabled Smartphone ProcessorsExploring the Future Potential of AI-Enabled Smartphone Processors
Exploring the Future Potential of AI-Enabled Smartphone Processors
 
Tata AIG General Insurance Company - Insurer Innovation Award 2024
Tata AIG General Insurance Company - Insurer Innovation Award 2024Tata AIG General Insurance Company - Insurer Innovation Award 2024
Tata AIG General Insurance Company - Insurer Innovation Award 2024
 
Boost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdfBoost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdf
 
Artificial Intelligence: Facts and Myths
Artificial Intelligence: Facts and MythsArtificial Intelligence: Facts and Myths
Artificial Intelligence: Facts and Myths
 

Клонирование голоса и как это выявить

  • 1. Voice Cloning and its Detection Roman Kazantsev, Dilshod Poshshoev
  • 2. Voice Biometrics • Every person has unique voice biometrics like a finger print; • Voice biometrics can be used for authorization to different systems (mobile device, smart house, bank account,…) • Voice biometrics is private and needs protections against voice cloning.
  • 3. What was done? • Neural network based voice cloning implementation using open source software; • Employment of GMM based speaker identification for detection of cloned voice.
  • 4. NN based voice cloning architecture Source Speech World Vocoder: Feature Extraction Aperiodicity Log-F0 Rastamat: Extraction Mel-FCC Tiny DNN: Neural Network Linear Conversion Log-F0 Aperiodicity Spectrum World Vocoder: Synthesis Target Speech Rastamat: Inversion MFCC to Spectrum Mel-FCC Predicted Mel-FCC AWT(source speaker) and SLT(target speaker) from CMU_ARCTIC: http://festvox.org/cmu_arctic/
  • 5. Alignment of source and target Mel-FCC features using Dynamic Time Warping arctic_a0001: "Author of the danger trail, Philip Steels, etc." Source speaker (AWT) Target speaker (SLT)
  • 6. Data Mining Routine extract_features_training.m source wav_names{} = {arctic_a0001.wav}, ts_intervals{} = {[0.65, 1.05, 1.12, 1.20];} target wav_names{} = {arctic_a0001.wav}, tt_intervals{} = {[0.20, 0.70, 0.80, 0.88];} s_melfcc_train t_melfcc_train t_mean_logf0 t_var_logf0
  • 7. Neural Network for Cloning Multilayer σ-activated perceptron [12, 40, 40, 12] is trained and used for prediction of cepstral coefficients … … … … Normalization s_melfcc_train Denormalization t_melfcc_train σ σ σ σ σ σ σ σ σ σ σ σ s_melfcc_predict t_melfcc_predict
  • 9. Employment of GMM based speaker recognition tool for cloned voice detection Github link: https://github.com/ppwwyyxx/speaker-recognition Examples: Train: speaker-recognition.py -t enroll -i "f1 m1" -m model.out Label f1 has files f1arctic_a0001.wav,f1arctic_a0002.wav Label m1 has files m1arctic_a0001.wav,m1arctic_a0002.wav Start training... 0.545000076294 seconds Predict: speaker-recognition.py -t predict -i "f1/*.wav" -m model.out f1arctic_a0001.wav -> f1 f1arctic_a0002.wav -> f1
  • 10. Experiment with detection of cloned voice & Results SLT (target speaker) arctic_a0001.wav arctic_a0002.wav arctic_a0003.wav arctic_a0004.wav arctic_a0005.wav … arctic_a0020.wav Train: Predict: SLT (target speaker) wav name probability arctic_b0002_orig.wav 0.953 arctic_b0002_NN.wav 0.765 arctic_b0002_DBN.wav 0.892 arctic_b0002_DBN_MLPG.wav 0.912 arctic_b0002_LSTM.wav 0.745 arctic_b0002_LSTM_MLPG.wav 0.769
  • 11. Conclusion 1. Speaker recognition systems used for authorization should have meticulously selected probability threshold against cloned voice; 2. Voice biometric should be regularly gathered and updated in database due to physiological changes in organism through ages; 3. Voice biometric based identification is a good addition to multi- factor authorization schemes.
  • 12. Link to our voice cloner sources: https://github.com/RomanKazantsev/voice-cloner
  • 13. References • T. Nakashika, R. Takashima, T. Takiguchi, Y. Ariki. Voice Conversion in High-order Eigen Space Using Deep Belief Nets; • WORLD [1] (D4C edition [2]); • PLP and RASTA matlab library; • Tiny-dnn; • CMU_ARCTIC speech database.

Hinweis der Redaktion

  1. У каждого человека существует своя уникальная голосовая биометрия как отпечатки пальцев. Эта биометрия может быть оцифрована и использована для авторизация к различным информационным системам таким как: мобильные устройства, компьютеры, умные дома, банковские счета. В некоторых зарубежных банках запущены системы, которые быстро идентифицируют клиентов по голосу. После успешной идентификации клиент может выполнить денежные операции. Разрабатываются стандарты умных домов следующего поколения, где системы цифрового наблюдения используют биометрию голоса. Биометрия голоса человека является частной и требует защиты от клонирования Системы, использующие голосовую биометрию для авторизации, подвержены атакам на основе клонирования голоса.
  2. До 2010 г. много было предложено вероятностых моделей для конверсии голоса в том числе GMM (Gaussian Mixture Models). Сейчас в тренде это использование нейронных сетей, которые показывают лучшие результаты. Нужно сказать, что японские коллеги дальше всех продвинулись в разработке технологий для обработки и клонирования голоса. В первой части доклада я детально расскажу о нашей реализации системы клонирования голоса с помощью нейронных сетей. Для реализации были взяты только компоненты с открытым исходным кодом: вокодер для для извлечения параметров аудио сигнала и для обратной операции синтеза, фреймверк для глубинного обучения и библиотека для работы с кепстральными коэффициентами. Реализация покрывает все этапы конверсии голоса: сбор данных для исходного и целевого голосов, обучение нейронной сети для конверсии (или клонирования) параметров исходного голоса в целевой, предсказание параметров целевого голоса с помощью обученной модели, синтез полученных параметров целового голоса в аудио сигнал. Во второй части покажу как системы биометрической аутентификации, реализованной на основе GMM, реагируют на клонированный голос, и насколько вероятность принадлежности клонированного голоса целевой персоне ниже чем для настоящего голоса.
  3. Во всех статья про клонирование голоса на основе нейронных сетей используется STRAIGHT вокодер. STRAIGHT вокодер разработан в университете Коби, Япония. Этот вокодер распространяется либо по коммерческой лицензии, т.е. на платной основе, либо по академической, для получения которой требуется университетская почта. Поэтому в нашей работе мы использовали WORLD вокодер, распространяющийся по 3-BSD лицензии. Я сделал тестовый запуск вокодера. Сначала извлек параметры: основная частота, апериодичность, спектр. А затем сделал синтезировал их. PSNR для результирующего сигнала был равен 115дб, что говорит о хорошем качестве синтеза. Следующая компонента это rastamat (матлабовская или октейвовская библиотека) которая позволяет извлекать кепстральные коэффициенты. В этих коэффициентах хранится биометрия человеческого голоса. Эти коэффициенты подаются на вход нейронный сети, на выходе которой кепстральные коэффициенты с преобразованной биометрией, повторяющей биометрию целевого голоса. Для построения нейронной сети использовался фреймверк Tiny-DNN с лицензией 3-BSD. Далее предсказанные кепстральные коэффициенты интертируются обратно в спектр. Логарифм основной частоты подвергается линейной конверсии. Из трениг данных для целевого голоса вычисляется математическое ожидание и стандартное отклонение для логарифма основной частоты, которые используют для линейно конверсии. Компонента апериодичности используется в синтезе без изменений. Для экспериментов использовалась CMU_ARCTIC, это база из речей для разных спикеров. Мы взяли две группы записей для AWT, которая испольщовалась в качестве исходного сигнала (сигнала для конверсии) и SLT.
  4. Рассмотрим пару аудиозаписей с текстом сделанными спикерами AWT и SLT. Для обучений нейронной сети необходимы пары векторов с кепстральными коэффициентами для сорс спикера и таргет спикера. Когда мы извлекли семплы с кепстральные коэффициэнты для обоих спикером, нужно найти соответствие между этими сэмплами (векторами). Люди говорят с разной скоростью и делают разные паузы в своей речи. Эта задача непростая и требует особого внимания, т.к. иначе возникнут проблемы приобучении нейронной сети. Во всех статьях, котрые мы сумели найти, сказано только про выравнивание данных (кепстральных сэмплов) с использование алгоритма динамической трансформации временной школы. Которым мы воспользовались но были проблемы с обучением нейронной сети и отсутсвовало соотвествие. Это один из недостатков DTW, когда он одному семплу ставит в соответствие несколько других. Поэтому нам пришлось анализировать спектрограммы аудиосигналов и выделять подмножеством семплов, соотвтествующие одному cслог и затем из них извлекать кепстральные данные и запускать алгоритм динамической трансформации временной школы.
  5. Для сбора данных была разработана функция для извлечения параллельных (снихронизированных) кепстральных данных для обоих спикеров, и для подсчета математического среднего и стандартного отклонения для целевого голоса, которые будут использровать в линейной конверсии основной частоты исходного голоса. На вход подаются имена аудиозаписей и множество временных интервалов для них, собраны во время анализа спектрограмм для обоих спикеров.
  6. В статье японских коллег использовался DNN это два DBN соединненных NN. Хорошую опенсорсную реализацию DBN для обработки аудиосигнала мы не нашли. Имеющиеся в интернете использовались для распознования изображений. Проблема состоит в отм, что для обучения используется константый лернинг рейт. Поэтому результирующие данные постоянно сходились при увеличении кол-ва тренинг сэмплов. Мы решили отказаться и использовать многослойный персептрон. Для конвертирования кепстральных коэффициентов использовалася многослойный персептрон с в качестве функции активации использовался сигмоид. Структура нейронной сети включает 4 слоя, входной и выходной слои с 12 нейронами каждый и два скрытых слоя с 40 нейронами. Для нормализации использовалась линейная нормализация.
  7. На последнем шаге клонирования делаем синтез вычесленных параметров: кепстральных, полученных из нейронной сети, компонента апериодичности не меняется, а логарифм основной частоты линейно конвертируется. Линейная конверсия основной частоты делается внутри скрипта для синтеза.
  8. Следующей задачей, которой мы занимались это изучение поведения средств распознование по голосу, если на вход подавать клонированную речь. В интернете статей на данную тему мы не нашли, поэтому возможно энаше исследование является уникальным. Мы взяли опенсорсную систему распознования, которая использует GMM (Gaussian Mixture Model). Для каждого спикера строится обучается собственная GMM, а на этапе прогнозирования выбирается тот класс на котором GMM выдает наибольшую вероятность. На данном слайде приведены примеры запуска скрипта для тренинга двух спикеров f1 и m1 и для прогнозариования кто говорит. Мы решили модифицировать этот скрипт, чтобы он печатал вероятность. А затем разыграть следующий сценарий: обучаем систему разпознования на аудиозаписях с голосом целевого спикера (никаких клонированных речей), а потом делаем предикт для клонированного голоса и отдельно для такой же записи с оригинальным голосом. И сравнить полученные вероятности.