AI 스피커의 보급과 함께 목소리를 이용한 결제, 신원 확인 등의 어플리케이션에 화자 인증 기술이 점차 상용화되고 있습니다. 본 발표에서는 여러 전처리 과정을 진행하지 않고, 직접 DNN에 Raw waveform (원 신호) 을 입력하는 화자 인증 시스템을 소개합니다. 또한 소개한 시스템과 교사-학생 학습(teacher-student learning) 기법을 이용하여 화자 인증 시스템의 성능이 하락하는 대표적인 경우인 발성의 길이가 짧은 경우, 원거리에서 발성이 입력된 경우에 대해 각각 보상을 진행한 연구를 소개합니다.
4. v 입력D 발성의 음성 정보를 이용f여 대상 g자(ta5get spea1e5)의
발성과의 일치 여부를 e별f는 기술
g자 인a
4화자 인증 Ra9 9a8efo52 DNN 짧은 발성 보상 원거리 발성 보상
g자 1
g자 %
g자 인a
R스템
대상 g자)
g자 1
“안녕 N리:”
“안녕 N리:”
유사도 (% %
유사도 58 %
X
승인
거부
5. v 화자 fn 시스s 동i 과정
화자 fn
5화자 -증 )*w w*veform D(( pb 발성 R상 a거N 발성 R상
등록 과정 ((ff-line)
평) 과정 ((n-line)
n개d
화자 특o
화자 특o
추r D((
n개d 등록 발성
별도로 사전 w습 수행
화자 모델
w습 화자 모델
평: 발성
화자 특o
추r D(( 화자 특o 화자 fn 승f / 거부
fn k수와 g계값을
(사전에 정d) 비교
* n: 시나N오 상 정d된 1 e상d 정수
* 화자 특ob 본 발v m에 spe*1er embeddin/e라고도 부릅니D
6. v f향 yq & 화l yq
§ f향 yq) 발성g f향 o보R 담고 있는 yq
§ 단위 시F 당 (eC 2( ms) 고oN sag 벡x 형w
§ ,C) M-**, Mel&ener5ies, E
§ 화l yq) 발성e 발화한 화l에 M한 o보R 담고 있는 yq
§ nt 발성e 고oN sag 벡x 형w로 uv
§ 화l ip에서는 입력 발성c로부x s례M로 f향 yq uv 후 이R
활용하여 화l yqe uv하는 방식이 보편m
화l ip
6화자 인증 Raw wavef:rm DNN r은 발성 보상 a거리 발성 보상
* M-** ) Mel&frequen2D 2epstral 2:effi2ient
37. v 근거리/S거리 발성에 대한 성능 불균a 완화 – (&)
§ 기존의 ,S S거리 학N:
§ ,eac2er ())에 근거리, stu/ent ())에 S거리 발성 입력
§ 변경D ,S 학N:
§ ,eac2er ())에 근거리, stu/ent ())에 S거리 발성 입력 &
,eac2er ())에 근거리, stu/ent ())에 근거리 발성 입력
37화자 인증 Raw wa:eform ()) 짧T 발성 보상 원거리 발성 보상
Raw wa:eform ())을 이R한 S거리 발성 보상 시스템
38. v 근거리/원거리 발성f T한 성R 불N형 완화 – (2)
§ 기tn 5S 원거리 학습0
§ 59a7h9r 122f 근거리% stD89nt 122f 원거리 발성 입력
§ 변경된 5S 학습0
§ 59a7h9r 122f 근거리% stD89nt 122f 원거리 발성 입력 &
59a7h9r 122f 근거리% stD89nt 122f 근거리 발성 입력
38화r 인u 3aw wav9:orm 122 w은 발성 보상 원거리 (성 )상
3aw wav9:orm 122l oi한 원거리 발성 보상 ca템
교사 학생 ezd경망l 활i한 S채널 원거리 화r 인u% sv원 h% 한국m향학회v 2().&
시스템 근거리 %일오류율 (%) 원거리 %일오류율 (%)
근거리 발성 학습 3&2 % /&. %
원거리 발성f T한 5S 보상 )(&, % 2&7 %
59a7h9r initialization /&. % )&. %
5S 보상 c 근/근 학습 추가 2&, % 2&7 %
39. (추가) 최근 Raw wavef()m 관련
연구 및 짧은 발성 보상
화자인식 논문 소개
40. v S/1,1.T
§ 2aw wavefCrm -11의 첫S째 cCBv Y닉b을 T로X gc로 제안
§ 0el-filter8aBk 의 cIt-Cff freEIeBcyR 이용f e터 aNh
§ 적Y Darameter (filter당 )M) / f석이 용이
40
0. 2avaBelli, Y. BeBgiC, )0(8
SDeaker recCgBitiCB frCm raw wavefCrm with siBcBet, 0. 2avaBelli, Y. BeBgiC, arXiv.
41. v 2aG Gave8orm을 생성f는 GA0 a안
§ ,CGA0(2a68or6 eD al., 201()L 유사 구조 이용
§ a안g 1haCe Chu88le NS 이용
§ ,iCcriminaDor가 생성된 P이e의 일정g cN성을 이용h 분별f는 것 Rd
41
C. ,onahue eD al., 201)
SynDheCiIing au6io GiDh GA0C, C. ,onahue eD al., .CL2 GorkChoA 201).
42. v 2aG Gave8orm을 생성f는 GA0 a안
§ ,CGA0(2a68or6 eD al., 201()L 유사 구조 이용
§ a안g 1haCe Chu88le NS 이용
§ ,iCcriminaDor가 생성된 P이e의 일정g cN성을 이용h 분별f는 것 Rd
42
C. ,onahue eD al., 201)
SynDheCiIing au6io GiDh GA0C, C. ,onahue eD al., .CL2 GorkChoA 201).
43. v 2aG Gave8orm을 생성f는 GA0 a안
§ ,CGA0(2a68or6 eD al., 201()L 유사 구조 이용
§ a안g 1haCe Chu88le NS 이용
§ ,iCcriminaDor가 생성된 P이e의 일정g cN성을 이용h 분별f는 것 Rd
43
C. ,onahue eD al., 201)
SynDheCiIing au6io GiDh GA0C, C. ,onahue eD al., .CL2 GorkChoA 201).
44. v 짧은 J성 8-ve2tor (utt-:eve: fe0t) 보상 fr0meDork 제안 – (()
§ )단계 학습: G J성 & 짧은 J성 8-ve2tor S력 후 복원
à 짧은 J성 8-ve2tor S력 후 G J성 8-ve2tor 출력 학습
44
.& -uo et 0:&, )0(8
,eep neur0: netDork 10sed 8-ve2tor m0pp8ng for spe0ker ver8f820t8on us8ng short utter0n2es, .& -uo et 0:&, Spee2h 2ommun820t8on )0(8&
45. v a은 발성 i-Dector (utt-leDel fe1t) 보상 fr1meEor: 제안 – ())
§ (단G c습+ multi-t1s: le1rning의 일종으로 eS
§ a은 발성 i-Dector 입력 à -ncoder b과 f J 발성 i-Dector와 비교
+ decoder b과 f a은 발성 i-Dector와 비교(두 loss의 d 이용)
45
J. .uo et 1l., )0(8
,eep neur1l netEor: 21sed i-Dector m1pping for spe1:er Derific1tion using s8ort utter1nces, J. .uo et 1l., 0peec8 communic1tion )0(8.