Клонирование голоса и как это выявить

•

1 gefällt mir•500 views

Для доступа к кредитным картам банки начали применять аутентификационную технологию, основанную на голосовых биометрических данных. С точки зрения информационной безопасности такие речевые элементы являются конфиденциальными и им необходима защита от компрометации и обезличивания. Обезличивания можно добиться, применяя методы изменения (клонирования) голоса. Докладчик продемонстрирует программную реализацию метода клонирования голоса, покажет, как система распознавания голоса может определить клонированные, и представит данные исследования о зависимости между показателями работы детектора клонированного голоса и количеством кепстральных свойств, используемых для обучения.

Technologie

Voice Cloning and its
Detection
Roman Kazantsev, Dilshod Poshshoev

Voice Biometrics
• Every person has unique voice biometrics like a finger print;
• Voice biometrics can be used for authorization to different systems
(mobile device, smart house, bank account,…)
• Voice biometrics is private and needs protections against voice
cloning.

What was done?
• Neural network based voice cloning implementation using open
source software;
• Employment of GMM based speaker identification for detection of
cloned voice.

NN based voice cloning architecture
Source Speech
World Vocoder:
Feature Extraction
Aperiodicity
Log-F0
Rastamat:
Extraction Mel-FCC
Tiny DNN:
Neural
Network
Linear Conversion
Log-F0
Aperiodicity
Spectrum
World Vocoder:
Synthesis
Target Speech
Rastamat: Inversion
MFCC to Spectrum
Mel-FCC
Predicted Mel-FCC
AWT(source speaker) and SLT(target speaker) from CMU_ARCTIC: http://festvox.org/cmu_arctic/

Alignment of source and target Mel-FCC
features using Dynamic Time Warping
arctic_a0001: "Author of the danger trail, Philip Steels, etc."
Source speaker
(AWT)
Target speaker
(SLT)

$Data Mining Routine extract_features_training.m source wav_names{} = {arctic_a0001.wav}, ts_intervals{} = {[0.65, 1.05, 1.12, 1.20];} target wav_names{} = {arctic_a0001.wav}, tt_intervals{} = {[0.20, 0.70, 0.80, 0.88];} s_melfcc_train t_melfcc_train t_mean_logf0 t_var_logf0$

Neural Network for Cloning
Multilayer σ-activated perceptron [12, 40, 40, 12] is trained and used for
prediction of cepstral coefficients
…
…
…
…
Normalization
s_melfcc_train
Denormalization
t_melfcc_train
σ
σ
σ
σ
σ
σ
σ
σ
σ
σ
σ
σ
s_melfcc_predict t_melfcc_predict

Synthesis
synthesis.m
target.wav
source.wav
t_var_logf0
t_mean_logf0
t_melfcc_predict

Employment of GMM based speaker
recognition tool for cloned voice detection
Github link: https://github.com/ppwwyyxx/speaker-recognition
Examples:
Train:
speaker-recognition.py -t enroll -i "f1 m1" -m model.out
Label f1 has files f1arctic_a0001.wav,f1arctic_a0002.wav
Label m1 has files m1arctic_a0001.wav,m1arctic_a0002.wav
Start training...
0.545000076294 seconds
Predict:
speaker-recognition.py -t predict -i "f1/*.wav" -m model.out
f1arctic_a0001.wav -> f1
f1arctic_a0002.wav -> f1

Experiment with detection of cloned voice &
Results
SLT (target speaker)
arctic_a0001.wav
arctic_a0002.wav
arctic_a0003.wav
arctic_a0004.wav
arctic_a0005.wav
…
arctic_a0020.wav
Train: Predict:
SLT (target speaker)
wav name probability
arctic_b0002_orig.wav 0.953
arctic_b0002_NN.wav 0.765
arctic_b0002_DBN.wav 0.892
arctic_b0002_DBN_MLPG.wav 0.912
arctic_b0002_LSTM.wav 0.745
arctic_b0002_LSTM_MLPG.wav 0.769

Conclusion
1. Speaker recognition systems used for authorization should have
meticulously selected probability threshold against cloned voice;
2. Voice biometric should be regularly gathered and updated in
database due to physiological changes in organism through ages;
3. Voice biometric based identification is a good addition to multi-
factor authorization schemes.

Link to our voice cloner sources:
https://github.com/RomanKazantsev/voice-cloner

References
• T. Nakashika, R. Takashima, T. Takiguchi, Y. Ariki. Voice Conversion in
High-order Eigen Space Using Deep Belief Nets;
• WORLD [1] (D4C edition [2]);
• PLP and RASTA matlab library;
• Tiny-dnn;
• CMU_ARCTIC speech database.

Empfohlen

Raspberry Pi I/O控制與感測器讀取艾鍗科技

OpenCon2014 - Sumatra as an Open Science toolFelix Z. Hoffmann

Current trends and innovations in voice over IPALTANAI BISHT

Advertising Fraud Detection at Scale at T-MobileDatabricks

Digging deeper into the IE vulnerability CVE-2014-1776 with CyphortCyphort

Joint MFCC-and-Vector Quantization based Text-Independent Speaker Recognition...Ahmed Ayman

ECI OpenFlow 2.0 the Future of SDN ECI – THE ELASTIC NETWORK™

Pentesting111111 Cheat Sheet_OSCP_2023.pdffaker1842002

Empfohlen

Raspberry Pi I/O控制與感測器讀取艾鍗科技

OpenCon2014 - Sumatra as an Open Science toolFelix Z. Hoffmann

Current trends and innovations in voice over IPALTANAI BISHT

Advertising Fraud Detection at Scale at T-MobileDatabricks

Digging deeper into the IE vulnerability CVE-2014-1776 with CyphortCyphort

Joint MFCC-and-Vector Quantization based Text-Independent Speaker Recognition...Ahmed Ayman

ECI OpenFlow 2.0 the Future of SDN ECI – THE ELASTIC NETWORK™

Pentesting111111 Cheat Sheet_OSCP_2023.pdffaker1842002

Basic presentation of cryptography mechanismsMarian Marinov

Fuzzing malware for fun & profit. Applying Coverage-Guided Fuzzing to Find Bu...Maksim Shudrak

Fast and Precise Symbolic Analysis of Concurrency Bugs in Device DriversPantazis Deligiannis

Your Peripheral Has Planted Malware—An Exploit of NXP SOCs VulnerabilityPriyanka Aash

Perl Usage In Security and Penetration testingVlatko Kosturjak

TENTACLE: Environment-Sensitive Malware Palpation(PacSec 2014)FFRI, Inc.

From printed circuit boards to exploitsvirtualabs

stackconf 2021 | Fuzzing: Finding Your Own Bugs and 0days!NETWAYS

TinyML - 4 speech recognition 艾鍗科技

Hunting for APT in network logs workshop presentationOlehLevytskyi1

Swift profiling middleware and toolszhang hua

Meder Kydyraliev - Mining Mach Services within OS X SandboxDefconRussia

Fuzzing: Finding Your Own Bugs and 0days! 2.0Rodolpho Concurde

The more you know the better you doDemetrio Milea

26.1.7 lab snort and firewall rulesFreddy Buenaño

Incident response: Advanced Network ForensicsNapier University

voip_enPierpaolo Palazzoli

Situational Awareness, Botnet and Malware Detection in the Modern Era - Davi...Codemotion

Finding 0days at Arab Security ConferenceRodolpho Concurde

DEF CON 27 - DANIEL ROMERO and MARIO RIVAS - why you should fear your mundane...Felipe Prado

Инструмент ChangelogBuilder для автоматической подготовки Release NotesPositive Hack Days

Как мы собираем проекты в выделенном окружении в Windows DockerPositive Hack Days

Weitere ähnliche Inhalte

Ähnlich wie Клонирование голоса и как это выявить

Basic presentation of cryptography mechanismsMarian Marinov

Fuzzing malware for fun & profit. Applying Coverage-Guided Fuzzing to Find Bu...Maksim Shudrak

Fast and Precise Symbolic Analysis of Concurrency Bugs in Device DriversPantazis Deligiannis

Your Peripheral Has Planted Malware—An Exploit of NXP SOCs VulnerabilityPriyanka Aash

Perl Usage In Security and Penetration testingVlatko Kosturjak

TENTACLE: Environment-Sensitive Malware Palpation(PacSec 2014)FFRI, Inc.

From printed circuit boards to exploitsvirtualabs

stackconf 2021 | Fuzzing: Finding Your Own Bugs and 0days!NETWAYS

TinyML - 4 speech recognition 艾鍗科技

Hunting for APT in network logs workshop presentationOlehLevytskyi1

Swift profiling middleware and toolszhang hua

Meder Kydyraliev - Mining Mach Services within OS X SandboxDefconRussia

Fuzzing: Finding Your Own Bugs and 0days! 2.0Rodolpho Concurde

The more you know the better you doDemetrio Milea

26.1.7 lab snort and firewall rulesFreddy Buenaño

Incident response: Advanced Network ForensicsNapier University

voip_enPierpaolo Palazzoli

Situational Awareness, Botnet and Malware Detection in the Modern Era - Davi...Codemotion

Finding 0days at Arab Security ConferenceRodolpho Concurde

DEF CON 27 - DANIEL ROMERO and MARIO RIVAS - why you should fear your mundane...Felipe Prado

Ähnlich wie Клонирование голоса и как это выявить (20)

Basic presentation of cryptography mechanisms

Fuzzing malware for fun & profit. Applying Coverage-Guided Fuzzing to Find Bu...

Fast and Precise Symbolic Analysis of Concurrency Bugs in Device Drivers

Your Peripheral Has Planted Malware—An Exploit of NXP SOCs Vulnerability

Perl Usage In Security and Penetration testing

TENTACLE: Environment-Sensitive Malware Palpation(PacSec 2014)

From printed circuit boards to exploits

stackconf 2021 | Fuzzing: Finding Your Own Bugs and 0days!

TinyML - 4 speech recognition

Hunting for APT in network logs workshop presentation

Swift profiling middleware and tools

Meder Kydyraliev - Mining Mach Services within OS X Sandbox

Fuzzing: Finding Your Own Bugs and 0days! 2.0

The more you know the better you do

26.1.7 lab snort and firewall rules

Incident response: Advanced Network Forensics

voip_en

Situational Awareness, Botnet and Malware Detection in the Modern Era - Davi...

Finding 0days at Arab Security Conference

DEF CON 27 - DANIEL ROMERO and MARIO RIVAS - why you should fear your mundane...

Mehr von Positive Hack Days

Инструмент ChangelogBuilder для автоматической подготовки Release NotesPositive Hack Days

Как мы собираем проекты в выделенном окружении в Windows DockerPositive Hack Days

Типовая сборка и деплой продуктов в Positive TechnologiesPositive Hack Days

Аналитика в проектах: TFS + QlikPositive Hack Days

Использование анализатора кода SonarQubePositive Hack Days

Развитие сообщества Open DevOps CommunityPositive Hack Days

Методика определения неиспользуемых ресурсов виртуальных машин и автоматизаци...Positive Hack Days

Автоматизация построения правил для ApproofPositive Hack Days

Мастер-класс «Трущобы Application Security»Positive Hack Days

Формальные методы защиты приложенийPositive Hack Days

Эвристические методы защиты приложенийPositive Hack Days

Теоретические основы Application SecurityPositive Hack Days

От экспериментального программирования к промышленному: путь длиной в 10 летPositive Hack Days

Уязвимое Android-приложение: N проверенных способов наступить на граблиPositive Hack Days

Требования по безопасности в архитектуре ПОPositive Hack Days

Формальная верификация кода на языке СиPositive Hack Days

Механизмы предотвращения атак в ASP.NET CorePositive Hack Days

SOC для КИИ: израильский опытPositive Hack Days

Honeywell Industrial Cyber Security Lab & Services CenterPositive Hack Days

Credential stuffing и брутфорс-атакиPositive Hack Days

Mehr von Positive Hack Days (20)

Инструмент ChangelogBuilder для автоматической подготовки Release Notes

Как мы собираем проекты в выделенном окружении в Windows Docker

Типовая сборка и деплой продуктов в Positive Technologies

Аналитика в проектах: TFS + Qlik

Использование анализатора кода SonarQube

Развитие сообщества Open DevOps Community

Методика определения неиспользуемых ресурсов виртуальных машин и автоматизаци...

Автоматизация построения правил для Approof

Мастер-класс «Трущобы Application Security»

Формальные методы защиты приложений

Эвристические методы защиты приложений

Теоретические основы Application Security

От экспериментального программирования к промышленному: путь длиной в 10 лет

Уязвимое Android-приложение: N проверенных способов наступить на грабли

Требования по безопасности в архитектуре ПО

Формальная верификация кода на языке Си

Механизмы предотвращения атак в ASP.NET Core

SOC для КИИ: израильский опыт

Honeywell Industrial Cyber Security Lab & Services Center

Credential stuffing и брутфорс-атаки

Kürzlich hochgeladen

The Role of Taxonomy and Ontology in Semantic Layers - Heather Hedden.pdfEnterprise Knowledge

EIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptxEarley Information Science

Finology Group – Insurtech Innovation Award 2024The Digital Insurer

The 7 Things I Know About Cyber Security After 25 Years | April 2024Rafal Los

2024: Domino Containers - The Next Step. News from the Domino Container commu...Martijn de Jong

From Event to Action: Accelerate Your Decision Making with Real-Time AutomationSafe Software

Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...Igalia

[2024]Digital Global Overview Report 2024 Meltwater.pdfhans926745

The Codex of Business Writing Software for Real-World Solutions 2.pptxMalak Abu Hammad

08448380779 Call Girls In Civil Lines Women Seeking MenDelhi Call girls

08448380779 Call Girls In Diplomatic Enclave Women Seeking MenDelhi Call girls

IAC 2024 - IA Fast Track to Search Focused AI SolutionsEnterprise Knowledge

Powerful Google developer tools for immediate impact! (2023-24 C)wesley chun

Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...apidays

Real Time Object Detection Using Open CVKhem

Slack Application Development 101 Slidespraypatel2

Exploring the Future Potential of AI-Enabled Smartphone Processorsdebabhi2

Tata AIG General Insurance Company - Insurer Innovation Award 2024The Digital Insurer

Boost Fertility New Invention Ups Success Rates.pdfsudhanshuwaghmare1

Artificial Intelligence: Facts and MythsJoaquim Jorge

Kürzlich hochgeladen (20)

The Role of Taxonomy and Ontology in Semantic Layers - Heather Hedden.pdf

EIS-Webinar-Prompt-Knowledge-Eng-2024-04-08.pptx

Finology Group – Insurtech Innovation Award 2024

The 7 Things I Know About Cyber Security After 25 Years | April 2024

2024: Domino Containers - The Next Step. News from the Domino Container commu...

From Event to Action: Accelerate Your Decision Making with Real-Time Automation

Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...

[2024]Digital Global Overview Report 2024 Meltwater.pdf

The Codex of Business Writing Software for Real-World Solutions 2.pptx

08448380779 Call Girls In Civil Lines Women Seeking Men

08448380779 Call Girls In Diplomatic Enclave Women Seeking Men

IAC 2024 - IA Fast Track to Search Focused AI Solutions

Powerful Google developer tools for immediate impact! (2023-24 C)

Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...

Real Time Object Detection Using Open CV

Slack Application Development 101 Slides

Exploring the Future Potential of AI-Enabled Smartphone Processors

Tata AIG General Insurance Company - Insurer Innovation Award 2024

Boost Fertility New Invention Ups Success Rates.pdf

Artificial Intelligence: Facts and Myths

Клонирование голоса и как это выявить

1. Voice Cloning and its Detection Roman Kazantsev, Dilshod Poshshoev

2. Voice Biometrics • Every person has unique voice biometrics like a finger print; • Voice biometrics can be used for authorization to different systems (mobile device, smart house, bank account,…) • Voice biometrics is private and needs protections against voice cloning.

3. What was done? • Neural network based voice cloning implementation using open source software; • Employment of GMM based speaker identification for detection of cloned voice.

4. NN based voice cloning architecture Source Speech World Vocoder: Feature Extraction Aperiodicity Log-F0 Rastamat: Extraction Mel-FCC Tiny DNN: Neural Network Linear Conversion Log-F0 Aperiodicity Spectrum World Vocoder: Synthesis Target Speech Rastamat: Inversion MFCC to Spectrum Mel-FCC Predicted Mel-FCC AWT(source speaker) and SLT(target speaker) from CMU_ARCTIC: http://festvox.org/cmu_arctic/

5. Alignment of source and target Mel-FCC features using Dynamic Time Warping arctic_a0001: "Author of the danger trail, Philip Steels, etc." Source speaker (AWT) Target speaker (SLT)

6. Data Mining Routine extract_features_training.m source wav_names{} = {arctic_a0001.wav}, ts_intervals{} = {[0.65, 1.05, 1.12, 1.20];} target wav_names{} = {arctic_a0001.wav}, tt_intervals{} = {[0.20, 0.70, 0.80, 0.88];} s_melfcc_train t_melfcc_train t_mean_logf0 t_var_logf0

7. Neural Network for Cloning Multilayer σ-activated perceptron [12, 40, 40, 12] is trained and used for prediction of cepstral coefficients … … … … Normalization s_melfcc_train Denormalization t_melfcc_train σ σ σ σ σ σ σ σ σ σ σ σ s_melfcc_predict t_melfcc_predict

8. Synthesis synthesis.m target.wav source.wav t_var_logf0 t_mean_logf0 t_melfcc_predict

9. Employment of GMM based speaker recognition tool for cloned voice detection Github link: https://github.com/ppwwyyxx/speaker-recognition Examples: Train: speaker-recognition.py -t enroll -i "f1 m1" -m model.out Label f1 has files f1arctic_a0001.wav,f1arctic_a0002.wav Label m1 has files m1arctic_a0001.wav,m1arctic_a0002.wav Start training... 0.545000076294 seconds Predict: speaker-recognition.py -t predict -i "f1/*.wav" -m model.out f1arctic_a0001.wav -> f1 f1arctic_a0002.wav -> f1

10. Experiment with detection of cloned voice & Results SLT (target speaker) arctic_a0001.wav arctic_a0002.wav arctic_a0003.wav arctic_a0004.wav arctic_a0005.wav … arctic_a0020.wav Train: Predict: SLT (target speaker) wav name probability arctic_b0002_orig.wav 0.953 arctic_b0002_NN.wav 0.765 arctic_b0002_DBN.wav 0.892 arctic_b0002_DBN_MLPG.wav 0.912 arctic_b0002_LSTM.wav 0.745 arctic_b0002_LSTM_MLPG.wav 0.769

11. Conclusion 1. Speaker recognition systems used for authorization should have meticulously selected probability threshold against cloned voice; 2. Voice biometric should be regularly gathered and updated in database due to physiological changes in organism through ages; 3. Voice biometric based identification is a good addition to multi- factor authorization schemes.

12. Link to our voice cloner sources: https://github.com/RomanKazantsev/voice-cloner

13. References • T. Nakashika, R. Takashima, T. Takiguchi, Y. Ariki. Voice Conversion in High-order Eigen Space Using Deep Belief Nets; • WORLD [1] (D4C edition [2]); • PLP and RASTA matlab library; • Tiny-dnn; • CMU_ARCTIC speech database.

Hinweis der Redaktion

У каждого человека существует своя уникальная голосовая биометрия как отпечатки пальцев. Эта биометрия может быть оцифрована и использована для авторизация к различным информационным системам таким как: мобильные устройства, компьютеры, умные дома, банковские счета. В некоторых зарубежных банках запущены системы, которые быстро идентифицируют клиентов по голосу. После успешной идентификации клиент может выполнить денежные операции. Разрабатываются стандарты умных домов следующего поколения, где системы цифрового наблюдения используют биометрию голоса. Биометрия голоса человека является частной и требует защиты от клонирования Системы, использующие голосовую биометрию для авторизации, подвержены атакам на основе клонирования голоса.
До 2010 г. много было предложено вероятностых моделей для конверсии голоса в том числе GMM (Gaussian Mixture Models). Сейчас в тренде это использование нейронных сетей, которые показывают лучшие результаты. Нужно сказать, что японские коллеги дальше всех продвинулись в разработке технологий для обработки и клонирования голоса. В первой части доклада я детально расскажу о нашей реализации системы клонирования голоса с помощью нейронных сетей. Для реализации были взяты только компоненты с открытым исходным кодом: вокодер для для извлечения параметров аудио сигнала и для обратной операции синтеза, фреймверк для глубинного обучения и библиотека для работы с кепстральными коэффициентами. Реализация покрывает все этапы конверсии голоса: сбор данных для исходного и целевого голосов, обучение нейронной сети для конверсии (или клонирования) параметров исходного голоса в целевой, предсказание параметров целевого голоса с помощью обученной модели, синтез полученных параметров целового голоса в аудио сигнал. Во второй части покажу как системы биометрической аутентификации, реализованной на основе GMM, реагируют на клонированный голос, и насколько вероятность принадлежности клонированного голоса целевой персоне ниже чем для настоящего голоса.
Во всех статья про клонирование голоса на основе нейронных сетей используется STRAIGHT вокодер. STRAIGHT вокодер разработан в университете Коби, Япония. Этот вокодер распространяется либо по коммерческой лицензии, т.е. на платной основе, либо по академической, для получения которой требуется университетская почта. Поэтому в нашей работе мы использовали WORLD вокодер, распространяющийся по 3-BSD лицензии. Я сделал тестовый запуск вокодера. Сначала извлек параметры: основная частота, апериодичность, спектр. А затем сделал синтезировал их. PSNR для результирующего сигнала был равен 115дб, что говорит о хорошем качестве синтеза. Следующая компонента это rastamat (матлабовская или октейвовская библиотека) которая позволяет извлекать кепстральные коэффициенты. В этих коэффициентах хранится биометрия человеческого голоса. Эти коэффициенты подаются на вход нейронный сети, на выходе которой кепстральные коэффициенты с преобразованной биометрией, повторяющей биометрию целевого голоса. Для построения нейронной сети использовался фреймверк Tiny-DNN с лицензией 3-BSD. Далее предсказанные кепстральные коэффициенты интертируются обратно в спектр. Логарифм основной частоты подвергается линейной конверсии. Из трениг данных для целевого голоса вычисляется математическое ожидание и стандартное отклонение для логарифма основной частоты, которые используют для линейно конверсии. Компонента апериодичности используется в синтезе без изменений. Для экспериментов использовалась CMU_ARCTIC, это база из речей для разных спикеров. Мы взяли две группы записей для AWT, которая испольщовалась в качестве исходного сигнала (сигнала для конверсии) и SLT.
Рассмотрим пару аудиозаписей с текстом сделанными спикерами AWT и SLT. Для обучений нейронной сети необходимы пары векторов с кепстральными коэффициентами для сорс спикера и таргет спикера. Когда мы извлекли семплы с кепстральные коэффициэнты для обоих спикером, нужно найти соответствие между этими сэмплами (векторами). Люди говорят с разной скоростью и делают разные паузы в своей речи. Эта задача непростая и требует особого внимания, т.к. иначе возникнут проблемы приобучении нейронной сети. Во всех статьях, котрые мы сумели найти, сказано только про выравнивание данных (кепстральных сэмплов) с использование алгоритма динамической трансформации временной школы. Которым мы воспользовались но были проблемы с обучением нейронной сети и отсутсвовало соотвествие. Это один из недостатков DTW, когда он одному семплу ставит в соответствие несколько других. Поэтому нам пришлось анализировать спектрограммы аудиосигналов и выделять подмножеством семплов, соотвтествующие одному cслог и затем из них извлекать кепстральные данные и запускать алгоритм динамической трансформации временной школы.
Для сбора данных была разработана функция для извлечения параллельных (снихронизированных) кепстральных данных для обоих спикеров, и для подсчета математического среднего и стандартного отклонения для целевого голоса, которые будут использровать в линейной конверсии основной частоты исходного голоса. На вход подаются имена аудиозаписей и множество временных интервалов для них, собраны во время анализа спектрограмм для обоих спикеров.
В статье японских коллег использовался DNN это два DBN соединненных NN. Хорошую опенсорсную реализацию DBN для обработки аудиосигнала мы не нашли. Имеющиеся в интернете использовались для распознования изображений. Проблема состоит в отм, что для обучения используется константый лернинг рейт. Поэтому результирующие данные постоянно сходились при увеличении кол-ва тренинг сэмплов. Мы решили отказаться и использовать многослойный персептрон. Для конвертирования кепстральных коэффициентов использовалася многослойный персептрон с в качестве функции активации использовался сигмоид. Структура нейронной сети включает 4 слоя, входной и выходной слои с 12 нейронами каждый и два скрытых слоя с 40 нейронами. Для нормализации использовалась линейная нормализация.
На последнем шаге клонирования делаем синтез вычесленных параметров: кепстральных, полученных из нейронной сети, компонента апериодичности не меняется, а логарифм основной частоты линейно конвертируется. Линейная конверсия основной частоты делается внутри скрипта для синтеза.
Следующей задачей, которой мы занимались это изучение поведения средств распознование по голосу, если на вход подавать клонированную речь. В интернете статей на данную тему мы не нашли, поэтому возможно энаше исследование является уникальным. Мы взяли опенсорсную систему распознования, которая использует GMM (Gaussian Mixture Model). Для каждого спикера строится обучается собственная GMM, а на этапе прогнозирования выбирается тот класс на котором GMM выдает наибольшую вероятность. На данном слайде приведены примеры запуска скрипта для тренинга двух спикеров f1 и m1 и для прогнозариования кто говорит. Мы решили модифицировать этот скрипт, чтобы он печатал вероятность. А затем разыграть следующий сценарий: обучаем систему разпознования на аудиозаписях с голосом целевого спикера (никаких клонированных речей), а потом делаем предикт для клонированного голоса и отдельно для такой же записи с оригинальным голосом. И сравнить полученные вероятности.