3. – 음성인식 기술의 대중화
애니콜 ‘본부‘(음성 다이얼)
구글 보이스 서치(음성 검색)
애플 시리(가상 비서)
아마존 에코(음성인식 디바이스)
SKT 누구
1997
2008
2011
2015
2016
NUGU mini
T map x NUGU
Btv x NUGU
NUGU candle
…
4. – SKT 음성인식 서비스
SK Broadband (’14.09) SK텔레콤(’14.11), B2B…
CU서비스(’18.7)
NUGU(’16.09)
CU서비스(’18.7)
Tmap 5.0(’16.12),Tmap x NUGU(‘17.09)
콜센터 상담 녹취 음성인식
키워드, 이슈어, 연관어 분석
원거리 음성인식, Echo 제거
Wake-up, TTS, 음악 검색,
일정, 날씨, 스마트홈, …
서비스 지속적 확장 중
Google 음성인식 SK 텔레콤
: 음성인식 교체적용 (성능 우위)
자연어 기반 목적지 검색
목적지 검색, 최적경로 탐색
5. 신규 Device
특정 영역 중심 서비스 확산
Device 확산
모바일 특정 영역 중심
▪ 모바일 Application
통합 化, 인식 영역 파괴
대화형 (Spontaneous) 음성인식
로봇용 음성인식
원거리 음성인식
Dictation
…
통합 결합의 핵심 (전처리, 음향모델)
▪ 다중 마이크 처리 기술
▪ 잡음 처리 기술
▪ 원거리 음향모델링
대상 서비스 확산의 핵심
▪ 대형화된 모델
▪ 개인화 기술
인식 대상 범위 증가
3rd Party Toolkit Open
▪ NUGU 스피커
▪ T-map x NUGU
▪ Btv x NUGU
– 기기 확산, 서비스 확산
6. 음성인식 (기술적, 좁은 의미)
Automatic Speech Recognition = Speech-to-Text
안녕하세요
Input: Speech Acoustic Signal Output: Text
7. 음성인식 (기술적, 좁은 의미)
입력된 음성을 텍스트로 변환
= 입력된 음성이 어떤 텍스트인지 인식
= 입력된 음성신호가 어떤 텍스트인지 분류
= Classification(Detection) 문제
안녕하세요
Input: Speech Acoustic Signal Output: Best Matched Text
안녕하셔요
어서오세요
…
…
Best
8. – 음성인식 엔진 구성
Decoding
안녕하세요
Text
MFCC
HMMGMM
Pronunciation
Lexicon
Language
Model
Acoustic
Model
N-gram
Feature 분포 모델링 언어 분포 모델링
9. – Deep Learning 적용 (AM)
Decoding
안녕하세요
Text
MFCC
HMMDNN
Pronunciation
Lexicon
Language
Model
Acoustic
Model
N-gram
Feature 분포 모델링 언어 분포 모델링
Log
Spectrum
Observation
확률을 GMM 대신
DNN으로 구함
10. – Deep Learning 적용 (LM)
DNN 기반 언어모델
– RNN 언어모델
– LSTM 언어모델
– 장점
• 기존 n-gram보다 긴 context 정보 활용
• Training corpus에 보여지지 않았던 출력을 얻을 수 있음
– 일반적인 적용 방법
• n-gram 활용 n-best 또는 lattice 인식 결과 출력
• n-best 또는 lattice를 RNN/LSTM 언어모델 적용
• RNN/LSTM 결과와 n-gram 결과를 혼합하여 rescoring
11. – Deep Learning 적용 (LM)
GRU1) + NCE2) : 이전 단어 sequence 다음 단어예측, relatively 10~20% 성능 향상
응급실 환자는 다음주 수요일
환자는 다음주 수요일 저녁에
input
output
hidden
RNNLM (Recurrent Neural Network Language Model)
저녁에
퇴원할
퇴원할
겁니다
겁니다
</s>(다음 단어)
태어날
(context)
(현재 단어)
1) Gated Recurrent Unit 2) Noise Contrastive Estimation
12. – Deep Learning 적용 (자동띄어쓰기)
Bi-directional LSTM: 음절 sequence 띄어쓰기(+문장부호)
13. – PLM (Personal Language Model)
Personal Language Model – ex) T map 전화걸기
– 사용자별 사전을 구성하여 실시간으로 인식기와 연동하여 인식을 가
능하게 만드는 기술
음성인식 모델 (wFST)
개인 어휘 모델
(FST)
Class
14. – DNN Wakeup
DNN Wakeup
– 호출어 ‘아리아’에 대해 반응할 수 있도록 하는 Deep Learning 기반
키워드 인식 기술
start end
아리아
label: 1
Keyword일 때 non-Keyword일 때
label: 0 label: 0 label: 0 label: 0label: -1
15. – DNN EPD (End-Point Detection)
DNN EPD
– 음성/비음성 구간을 검출하여 발성의 시작과 끝을 결정
0 0.5 1 1.5 2 2.5
x 10
4
-2000
0
2000
4000
Sample
Restaurant(SNR 20dB)
EPD 결과
VAD 결과 tV
tE
오늘 날씨 알려줘
16. – 원거리 음성인식 (NUGU 스피커)
원거리 음성인식
– 기존 방식과는 음향 환경 및 요구조건의 차이가 매우 큼
잡음
음성
반향
에코
DNN 음향모델 성능 개선
Multi-mic 전처리
• 학습 데이터 Augmentation을 통한
원거리 음향모델 학습데이터 보강
(RIR, Room-impulse-response 적용)
• 다수의 마이크를 이용한 잡음제거,
Gain 보상, 에코 제거 적용
18. – 고객센터 Voice Analytics 시스템
고객센터 Voice Analytics 시스템
– 기존: 상담사가 작성하는 기록을 통해 분석
• 분석할 수 있는 분량이 제한됨
• 모호한 분류가 많고 데이터 작업이 오래 걸림
– 고객센터 상담 대화를 음성인식을 통해 텍스트화
– 텍스트를 자동으로 분석하여
• 고객의 불만사항이나 니즈를 파악
• 신규상품에 대한 고객 반응 파악
• 갑작스럽게 증가하는 이슈 검출
• 실시간 분석 가능
20. - 입력 음성 특징
• Spontaneous Speech Recognition
– 난이도가 가장 높음
– 구어체 발성
– 발음이 불명확한 경우가 빈번하게 발생
– 말 더듬, 간투사 등 불규칙성이 높음
• vs. NUGU (Speaker, Set-top Box, T map)
– 비교적 또렷한 발성 (수행하고자 하는 목적이 명확)
– 근거리 휴대폰 음성인식에 비해서는 자연스러운 발성 (원거리 음성인식 특징)
21. – 모델 학습시 고려사항
• 음향모델 학습의 어려움
– Transcription의 어려움 (불분명한 발음, 빠른 발성)
– 구어체 표기의 모호성
– 음원 – Text alignment의 어려움
22. – 모델 학습시 고려사항
• 음향모델 학습
– 표기 기준 설정 (Transcription 작업 효율 제고)
– 학습 데이터 준비 (학습 가능 데이터 양 증대)
23. – 모델 학습시 고려사항
• 언어모델 학습 데이터 및 발음사전
– 고객센터 음성 transcription 분량이 제한적
– 텍스트 정규화
– 구어체 표기에 대한 발음사전 구축
24. 까 기계는 삼성서비스센터 그 삼성 삼성 삼성건데 네 네
핸드폰으로 기계되면 엘지가 켜지고
그렇죠
통신사는 저는 SK 에요
아 네 네 어떤 말씀인지 알고요 예 삼성에서 만든 기기인데 엘지 유플러스 모델로
출시가 됐기 때문에 전원을 키면 엘지 유플러스라고 나오는거에요 네
그리고 고객님은 SK 유심 을 장착을 해서 엘지 유플러스 기기 사용을 하시는 거라서
요거 기기점검 받으시는거는 그 삼성전자로 가시면 돼요 고객님
삼성 서비스 가야 된다고요
맞아요 고객님