SlideShare a Scribd company logo
1 of 25
Download to read offline
NUGU음성인식기술및응용사례
1.음성인식기술개요
2.NUGU음성인식요소기술
3.음성인식응용
4.음성인식응용사례
5.음성인식결과데모
– 음성인식 기술의 대중화
애니콜 ‘본부‘(음성 다이얼)
구글 보이스 서치(음성 검색)
애플 시리(가상 비서)
아마존 에코(음성인식 디바이스)
SKT 누구
1997
2008
2011
2015
2016
NUGU mini
T map x NUGU
Btv x NUGU
NUGU candle
…
– SKT 음성인식 서비스
SK Broadband (’14.09) SK텔레콤(’14.11), B2B…
CU서비스(’18.7)
NUGU(’16.09)
CU서비스(’18.7)
Tmap 5.0(’16.12),Tmap x NUGU(‘17.09)
콜센터 상담 녹취 음성인식
키워드, 이슈어, 연관어 분석
원거리 음성인식, Echo 제거
Wake-up, TTS, 음악 검색,
일정, 날씨, 스마트홈, …
서비스 지속적 확장 중
Google 음성인식  SK 텔레콤
: 음성인식 교체적용 (성능 우위)
자연어 기반 목적지 검색
목적지 검색, 최적경로 탐색
신규 Device
특정 영역 중심 서비스 확산
Device 확산
모바일 특정 영역 중심
▪ 모바일 Application
통합 化, 인식 영역 파괴
대화형 (Spontaneous) 음성인식
로봇용 음성인식
원거리 음성인식
Dictation
…
통합 결합의 핵심 (전처리, 음향모델)
▪ 다중 마이크 처리 기술
▪ 잡음 처리 기술
▪ 원거리 음향모델링
대상 서비스 확산의 핵심
▪ 대형화된 모델
▪ 개인화 기술
인식 대상 범위 증가
3rd Party Toolkit Open
▪ NUGU 스피커
▪ T-map x NUGU
▪ Btv x NUGU
– 기기 확산, 서비스 확산
음성인식 (기술적, 좁은 의미)
Automatic Speech Recognition = Speech-to-Text
안녕하세요
Input: Speech Acoustic Signal Output: Text
음성인식 (기술적, 좁은 의미)
입력된 음성을 텍스트로 변환
= 입력된 음성이 어떤 텍스트인지 인식
= 입력된 음성신호가 어떤 텍스트인지 분류
= Classification(Detection) 문제
안녕하세요
Input: Speech Acoustic Signal Output: Best Matched Text
안녕하셔요
어서오세요
…
…
Best
– 음성인식 엔진 구성
Decoding
안녕하세요
Text
MFCC
HMMGMM
Pronunciation
Lexicon
Language
Model
Acoustic
Model
N-gram
Feature 분포 모델링 언어 분포 모델링
– Deep Learning 적용 (AM)
Decoding
안녕하세요
Text
MFCC
HMMDNN
Pronunciation
Lexicon
Language
Model
Acoustic
Model
N-gram
Feature 분포 모델링 언어 분포 모델링
Log
Spectrum
Observation
확률을 GMM 대신
DNN으로 구함
– Deep Learning 적용 (LM)
DNN 기반 언어모델
– RNN 언어모델
– LSTM 언어모델
– 장점
• 기존 n-gram보다 긴 context 정보 활용
• Training corpus에 보여지지 않았던 출력을 얻을 수 있음
– 일반적인 적용 방법
• n-gram 활용 n-best 또는 lattice 인식 결과 출력
• n-best 또는 lattice를 RNN/LSTM 언어모델 적용
• RNN/LSTM 결과와 n-gram 결과를 혼합하여 rescoring
– Deep Learning 적용 (LM)
GRU1) + NCE2) : 이전 단어 sequence  다음 단어예측, relatively 10~20% 성능 향상
응급실 환자는 다음주 수요일
환자는 다음주 수요일 저녁에
input
output
hidden
RNNLM (Recurrent Neural Network Language Model)
저녁에
퇴원할
퇴원할
겁니다
겁니다
</s>(다음 단어)
태어날
(context)
(현재 단어)
1) Gated Recurrent Unit 2) Noise Contrastive Estimation
– Deep Learning 적용 (자동띄어쓰기)
Bi-directional LSTM: 음절 sequence  띄어쓰기(+문장부호)
– PLM (Personal Language Model)
Personal Language Model – ex) T map 전화걸기
– 사용자별 사전을 구성하여 실시간으로 인식기와 연동하여 인식을 가
능하게 만드는 기술
음성인식 모델 (wFST)
개인 어휘 모델
(FST)
Class
– DNN Wakeup
DNN Wakeup
– 호출어 ‘아리아’에 대해 반응할 수 있도록 하는 Deep Learning 기반
키워드 인식 기술
start end
아리아
label: 1
Keyword일 때 non-Keyword일 때
label: 0 label: 0 label: 0 label: 0label: -1
– DNN EPD (End-Point Detection)
DNN EPD
– 음성/비음성 구간을 검출하여 발성의 시작과 끝을 결정
0 0.5 1 1.5 2 2.5
x 10
4
-2000
0
2000
4000
Sample
Restaurant(SNR 20dB)
EPD 결과
VAD 결과 tV
tE
오늘 날씨 알려줘
– 원거리 음성인식 (NUGU 스피커)
원거리 음성인식
– 기존 방식과는 음향 환경 및 요구조건의 차이가 매우 큼
잡음
음성
반향
에코
DNN 음향모델 성능 개선
Multi-mic 전처리
• 학습 데이터 Augmentation을 통한
원거리 음향모델 학습데이터 보강
(RIR, Room-impulse-response 적용)
• 다수의 마이크를 이용한 잡음제거,
Gain 보상, 에코 제거 적용
– 화자인식
i-vector 기반 방식GMM 기반 방식
– 고객센터 Voice Analytics 시스템
고객센터 Voice Analytics 시스템
– 기존: 상담사가 작성하는 기록을 통해 분석
• 분석할 수 있는 분량이 제한됨
• 모호한 분류가 많고 데이터 작업이 오래 걸림
– 고객센터 상담 대화를 음성인식을 통해 텍스트화
– 텍스트를 자동으로 분석하여
• 고객의 불만사항이나 니즈를 파악
• 신규상품에 대한 고객 반응 파악
• 갑작스럽게 증가하는 이슈 검출
• 실시간 분석 가능
– 고객센터 Voice Analytics 시스템
- 입력 음성 특징
• Spontaneous Speech Recognition
– 난이도가 가장 높음
– 구어체 발성
– 발음이 불명확한 경우가 빈번하게 발생
– 말 더듬, 간투사 등 불규칙성이 높음
• vs. NUGU (Speaker, Set-top Box, T map)
– 비교적 또렷한 발성 (수행하고자 하는 목적이 명확)
– 근거리 휴대폰 음성인식에 비해서는 자연스러운 발성 (원거리 음성인식 특징)
– 모델 학습시 고려사항
• 음향모델 학습의 어려움
– Transcription의 어려움 (불분명한 발음, 빠른 발성)
– 구어체 표기의 모호성
– 음원 – Text alignment의 어려움
– 모델 학습시 고려사항
• 음향모델 학습
– 표기 기준 설정 (Transcription 작업 효율 제고)
– 학습 데이터 준비 (학습 가능 데이터 양 증대)
– 모델 학습시 고려사항
• 언어모델 학습 데이터 및 발음사전
– 고객센터 음성 transcription 분량이 제한적
– 텍스트 정규화
– 구어체 표기에 대한 발음사전 구축
까 기계는 삼성서비스센터 그 삼성 삼성 삼성건데 네 네
핸드폰으로 기계되면 엘지가 켜지고
그렇죠
통신사는 저는 SK 에요
아 네 네 어떤 말씀인지 알고요 예 삼성에서 만든 기기인데 엘지 유플러스 모델로
출시가 됐기 때문에 전원을 키면 엘지 유플러스라고 나오는거에요 네
그리고 고객님은 SK 유심 을 장착을 해서 엘지 유플러스 기기 사용을 하시는 거라서
요거 기기점검 받으시는거는 그 삼성전자로 가시면 돼요 고객님
삼성 서비스 가야 된다고요
맞아요 고객님
NUGU 음성인식 기술 및 응용 사례

More Related Content

What's hot

음성검색, 어디까지 가봤니 기술김예슬
음성검색, 어디까지 가봤니 기술김예슬 음성검색, 어디까지 가봤니 기술김예슬
음성검색, 어디까지 가봤니 기술김예슬
msdream
 
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
Seokhwan Kim
 

What's hot (13)

Fluenty(김강학 대표)_AI Startup D.PARTY_20161020
Fluenty(김강학 대표)_AI Startup D.PARTY_20161020Fluenty(김강학 대표)_AI Startup D.PARTY_20161020
Fluenty(김강학 대표)_AI Startup D.PARTY_20161020
 
제11회공개sw개발자대회 금상 TensorMSA(소개)
제11회공개sw개발자대회 금상 TensorMSA(소개)제11회공개sw개발자대회 금상 TensorMSA(소개)
제11회공개sw개발자대회 금상 TensorMSA(소개)
 
왕초보, 코딩없이 챗봇 만들기
왕초보, 코딩없이 챗봇 만들기왕초보, 코딩없이 챗봇 만들기
왕초보, 코딩없이 챗봇 만들기
 
[NUGU Conference 2018] 세션 A-2 : NUGU Voice UX
[NUGU Conference 2018] 세션 A-2 : NUGU Voice UX[NUGU Conference 2018] 세션 A-2 : NUGU Voice UX
[NUGU Conference 2018] 세션 A-2 : NUGU Voice UX
 
인공지능 관련 특허 동향 및 핵심 특허 소개
인공지능 관련 특허 동향 및 핵심 특허 소개인공지능 관련 특허 동향 및 핵심 특허 소개
인공지능 관련 특허 동향 및 핵심 특허 소개
 
음성검색, 어디까지 가봤니 기술김예슬
음성검색, 어디까지 가봤니 기술김예슬 음성검색, 어디까지 가봤니 기술김예슬
음성검색, 어디까지 가봤니 기술김예슬
 
[NUGU Dev Days Beginner] 음성 서비스 디자인 가이드라인
[NUGU Dev Days Beginner] 음성 서비스 디자인 가이드라인[NUGU Dev Days Beginner] 음성 서비스 디자인 가이드라인
[NUGU Dev Days Beginner] 음성 서비스 디자인 가이드라인
 
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
 
Audio Modulation Reverter
Audio Modulation ReverterAudio Modulation Reverter
Audio Modulation Reverter
 
한국어 띄어쓰기 프로그램 도전기
한국어 띄어쓰기 프로그램 도전기한국어 띄어쓰기 프로그램 도전기
한국어 띄어쓰기 프로그램 도전기
 
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
 
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?
 
Qa를 위한 검사항목으로 바라보는 웹 접근성
Qa를 위한 검사항목으로 바라보는 웹 접근성Qa를 위한 검사항목으로 바라보는 웹 접근성
Qa를 위한 검사항목으로 바라보는 웹 접근성
 

Similar to [NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례

영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래	영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래
engedukamall
 
AWS CLOUD 2018-AWS의 새로운 언어, 음성, 텍스트 처리 인공지능 서비스 (남궁영환 솔루션즈 아키텍트)
AWS CLOUD 2018-AWS의 새로운 언어, 음성, 텍스트 처리 인공지능 서비스 (남궁영환 솔루션즈 아키텍트)AWS CLOUD 2018-AWS의 새로운 언어, 음성, 텍스트 처리 인공지능 서비스 (남궁영환 솔루션즈 아키텍트)
AWS CLOUD 2018-AWS의 새로운 언어, 음성, 텍스트 처리 인공지능 서비스 (남궁영환 솔루션즈 아키텍트)
Amazon Web Services Korea
 
Week5 발표(특허,경쟁제품)
Week5 발표(특허,경쟁제품)Week5 발표(특허,경쟁제품)
Week5 발표(특허,경쟁제품)
Eunkyung Kim
 

Similar to [NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례 (20)

딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지
 
GNMT로 알아보는 신경망 기반 기계번역
GNMT로 알아보는 신경망 기반 기계번역GNMT로 알아보는 신경망 기반 기계번역
GNMT로 알아보는 신경망 기반 기계번역
 
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
i-VOC (Voice of the Customer Big Data Analytics Solution) 고객의소리 분석
 
[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경
 
영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래	영어 말하기 자동채점 프로그램의 현재와 미래
영어 말하기 자동채점 프로그램의 현재와 미래
 
Papago/N2MT 개발이야기
Papago/N2MT 개발이야기Papago/N2MT 개발이야기
Papago/N2MT 개발이야기
 
AWS CLOUD 2018-AWS의 새로운 언어, 음성, 텍스트 처리 인공지능 서비스 (남궁영환 솔루션즈 아키텍트)
AWS CLOUD 2018-AWS의 새로운 언어, 음성, 텍스트 처리 인공지능 서비스 (남궁영환 솔루션즈 아키텍트)AWS CLOUD 2018-AWS의 새로운 언어, 음성, 텍스트 처리 인공지능 서비스 (남궁영환 솔루션즈 아키텍트)
AWS CLOUD 2018-AWS의 새로운 언어, 음성, 텍스트 처리 인공지능 서비스 (남궁영환 솔루션즈 아키텍트)
 
마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030
 
GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화
GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화
GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화
 
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
 
문자 단위의 Neural Machine Translation
문자 단위의 Neural Machine Translation문자 단위의 Neural Machine Translation
문자 단위의 Neural Machine Translation
 
Week5 발표(특허,경쟁제품)
Week5 발표(특허,경쟁제품)Week5 발표(특허,경쟁제품)
Week5 발표(특허,경쟁제품)
 
Sequence to Sequence Learning with Neural Networks
Sequence to Sequence Learning with Neural NetworksSequence to Sequence Learning with Neural Networks
Sequence to Sequence Learning with Neural Networks
 
메이크챗봇 자연어기초
메이크챗봇 자연어기초메이크챗봇 자연어기초
메이크챗봇 자연어기초
 
딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
 
Tensorflow for Deep Learning(SK Planet)
Tensorflow for Deep Learning(SK Planet)Tensorflow for Deep Learning(SK Planet)
Tensorflow for Deep Learning(SK Planet)
 
Toolkits for robust speech processing
Toolkits for robust speech processingToolkits for robust speech processing
Toolkits for robust speech processing
 
카카오가 가지고 있는 음성처리 기술
카카오가 가지고 있는 음성처리 기술카카오가 가지고 있는 음성처리 기술
카카오가 가지고 있는 음성처리 기술
 
화자인식 기술 및 관련 연구 소개
화자인식 기술 및 관련 연구 소개화자인식 기술 및 관련 연구 소개
화자인식 기술 및 관련 연구 소개
 

More from NUGU developers

[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip
[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip
[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip
NUGU developers
 
[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip
[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip
[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip
NUGU developers
 

More from NUGU developers (20)

[NUGU CONFERENCE 2019] 키노트 5 : 사람중심의 AI를 통한 사회적 가치 창출
[NUGU CONFERENCE 2019] 키노트 5 : 사람중심의 AI를 통한 사회적 가치 창출[NUGU CONFERENCE 2019] 키노트 5 : 사람중심의 AI를 통한 사회적 가치 창출
[NUGU CONFERENCE 2019] 키노트 5 : 사람중심의 AI를 통한 사회적 가치 창출
 
[NUGU CONFERENCE 2019] 키노트 4 : NUGU 기술 현황 및 발전 방향
[NUGU CONFERENCE 2019] 키노트 4 : NUGU 기술 현황 및 발전 방향[NUGU CONFERENCE 2019] 키노트 4 : NUGU 기술 현황 및 발전 방향
[NUGU CONFERENCE 2019] 키노트 4 : NUGU 기술 현황 및 발전 방향
 
[NUGU CONFERENCE 2019] 키노트 3 : NUGU, Your AI Partner
[NUGU CONFERENCE 2019] 키노트 3 : NUGU, Your AI Partner[NUGU CONFERENCE 2019] 키노트 3 : NUGU, Your AI Partner
[NUGU CONFERENCE 2019] 키노트 3 : NUGU, Your AI Partner
 
[NUGU CONFERENCE 2019] 키노트 2 : NUGU Everywhere
[NUGU CONFERENCE 2019] 키노트 2 : NUGU Everywhere[NUGU CONFERENCE 2019] 키노트 2 : NUGU Everywhere
[NUGU CONFERENCE 2019] 키노트 2 : NUGU Everywhere
 
[NUGU CONFERENCE 2019] 키노트 1 : 인공지능 비서 : 새로운 도전
[NUGU CONFERENCE 2019] 키노트 1 : 인공지능 비서 : 새로운 도전[NUGU CONFERENCE 2019] 키노트 1 : 인공지능 비서 : 새로운 도전
[NUGU CONFERENCE 2019] 키노트 1 : 인공지능 비서 : 새로운 도전
 
[NUGU CONFERENCE 2019] 트랙 C-4-1 : AI로 만드는 영어 환경
[NUGU CONFERENCE 2019] 트랙 C-4-1 : AI로 만드는 영어 환경[NUGU CONFERENCE 2019] 트랙 C-4-1 : AI로 만드는 영어 환경
[NUGU CONFERENCE 2019] 트랙 C-4-1 : AI로 만드는 영어 환경
 
[NUGU CONFERENCE 2019] 트랙 C-3 : 인공지능을 활용한 사회적 가치 창출 행복커뮤니티
[NUGU CONFERENCE 2019] 트랙 C-3 : 인공지능을 활용한 사회적 가치 창출 행복커뮤니티[NUGU CONFERENCE 2019] 트랙 C-3 : 인공지능을 활용한 사회적 가치 창출 행복커뮤니티
[NUGU CONFERENCE 2019] 트랙 C-3 : 인공지능을 활용한 사회적 가치 창출 행복커뮤니티
 
[NUGU CONFERENCE 2019] 트랙 C-1 : AI NUGU는 미디어 소비행태를 어떻게 바꾸나?
[NUGU CONFERENCE 2019] 트랙 C-1 : AI NUGU는 미디어 소비행태를 어떻게 바꾸나?[NUGU CONFERENCE 2019] 트랙 C-1 : AI NUGU는 미디어 소비행태를 어떻게 바꾸나?
[NUGU CONFERENCE 2019] 트랙 C-1 : AI NUGU는 미디어 소비행태를 어떻게 바꾸나?
 
[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip
[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip
[NUGU CONFERENCE 2019] 트랙 B-5-2 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 tip
 
[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip
[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip
[NUGU CONFERENCE 2019] 트랙 B-5-1 : NUGU play 개발 공모전 수상팀이 알려주는 play 개발 Tip
 
[NUGU CONFERENCE 2019] 트랙 B-3 : Pre-built Model를 활용한 NUGU 스마트홈 개발
[NUGU CONFERENCE 2019] 트랙 B-3 : Pre-built Model를 활용한 NUGU 스마트홈 개발[NUGU CONFERENCE 2019] 트랙 B-3 : Pre-built Model를 활용한 NUGU 스마트홈 개발
[NUGU CONFERENCE 2019] 트랙 B-3 : Pre-built Model를 활용한 NUGU 스마트홈 개발
 
[NUGU CONFERENCE 2019] 트랙 B-2-2 : NUGU SDK
[NUGU CONFERENCE 2019] 트랙 B-2-2 : NUGU SDK[NUGU CONFERENCE 2019] 트랙 B-2-2 : NUGU SDK
[NUGU CONFERENCE 2019] 트랙 B-2-2 : NUGU SDK
 
[NUGU CONFERENCE 2019] 트랙 B-2-1 : NUGU SDK
[NUGU CONFERENCE 2019] 트랙 B-2-1 : NUGU SDK[NUGU CONFERENCE 2019] 트랙 B-2-1 : NUGU SDK
[NUGU CONFERENCE 2019] 트랙 B-2-1 : NUGU SDK
 
[NUGU CONFERENCE 2019] 트랙 B-1 : NUGU SDK 소개 - 정책 및 프로세스 관점에서 -
[NUGU CONFERENCE 2019] 트랙 B-1 : NUGU SDK 소개 - 정책 및 프로세스 관점에서 -[NUGU CONFERENCE 2019] 트랙 B-1 : NUGU SDK 소개 - 정책 및 프로세스 관점에서 -
[NUGU CONFERENCE 2019] 트랙 B-1 : NUGU SDK 소개 - 정책 및 프로세스 관점에서 -
 
[NUGU CONFERENCE 2019] 트랙 A-7 : When in Doubt, Just See : 영상인식기반 T map 도로교통정보...
[NUGU CONFERENCE 2019] 트랙 A-7 : When in Doubt, Just See : 영상인식기반 T map 도로교통정보...[NUGU CONFERENCE 2019] 트랙 A-7 : When in Doubt, Just See : 영상인식기반 T map 도로교통정보...
[NUGU CONFERENCE 2019] 트랙 A-7 : When in Doubt, Just See : 영상인식기반 T map 도로교통정보...
 
[NUGU CONFERENCE 2019] 트랙 A-5 : 검색 데이터 저장소 구축기
[NUGU CONFERENCE 2019] 트랙 A-5 : 검색 데이터 저장소 구축기[NUGU CONFERENCE 2019] 트랙 A-5 : 검색 데이터 저장소 구축기
[NUGU CONFERENCE 2019] 트랙 A-5 : 검색 데이터 저장소 구축기
 
[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...
[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...
[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...
 
[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개
[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개
[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개
 
[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개
[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개
[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개
 
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술
 

[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례

  • 3. – 음성인식 기술의 대중화 애니콜 ‘본부‘(음성 다이얼) 구글 보이스 서치(음성 검색) 애플 시리(가상 비서) 아마존 에코(음성인식 디바이스) SKT 누구 1997 2008 2011 2015 2016 NUGU mini T map x NUGU Btv x NUGU NUGU candle …
  • 4. – SKT 음성인식 서비스 SK Broadband (’14.09) SK텔레콤(’14.11), B2B… CU서비스(’18.7) NUGU(’16.09) CU서비스(’18.7) Tmap 5.0(’16.12),Tmap x NUGU(‘17.09) 콜센터 상담 녹취 음성인식 키워드, 이슈어, 연관어 분석 원거리 음성인식, Echo 제거 Wake-up, TTS, 음악 검색, 일정, 날씨, 스마트홈, … 서비스 지속적 확장 중 Google 음성인식  SK 텔레콤 : 음성인식 교체적용 (성능 우위) 자연어 기반 목적지 검색 목적지 검색, 최적경로 탐색
  • 5. 신규 Device 특정 영역 중심 서비스 확산 Device 확산 모바일 특정 영역 중심 ▪ 모바일 Application 통합 化, 인식 영역 파괴 대화형 (Spontaneous) 음성인식 로봇용 음성인식 원거리 음성인식 Dictation … 통합 결합의 핵심 (전처리, 음향모델) ▪ 다중 마이크 처리 기술 ▪ 잡음 처리 기술 ▪ 원거리 음향모델링 대상 서비스 확산의 핵심 ▪ 대형화된 모델 ▪ 개인화 기술 인식 대상 범위 증가 3rd Party Toolkit Open ▪ NUGU 스피커 ▪ T-map x NUGU ▪ Btv x NUGU – 기기 확산, 서비스 확산
  • 6. 음성인식 (기술적, 좁은 의미) Automatic Speech Recognition = Speech-to-Text 안녕하세요 Input: Speech Acoustic Signal Output: Text
  • 7. 음성인식 (기술적, 좁은 의미) 입력된 음성을 텍스트로 변환 = 입력된 음성이 어떤 텍스트인지 인식 = 입력된 음성신호가 어떤 텍스트인지 분류 = Classification(Detection) 문제 안녕하세요 Input: Speech Acoustic Signal Output: Best Matched Text 안녕하셔요 어서오세요 … … Best
  • 8. – 음성인식 엔진 구성 Decoding 안녕하세요 Text MFCC HMMGMM Pronunciation Lexicon Language Model Acoustic Model N-gram Feature 분포 모델링 언어 분포 모델링
  • 9. – Deep Learning 적용 (AM) Decoding 안녕하세요 Text MFCC HMMDNN Pronunciation Lexicon Language Model Acoustic Model N-gram Feature 분포 모델링 언어 분포 모델링 Log Spectrum Observation 확률을 GMM 대신 DNN으로 구함
  • 10. – Deep Learning 적용 (LM) DNN 기반 언어모델 – RNN 언어모델 – LSTM 언어모델 – 장점 • 기존 n-gram보다 긴 context 정보 활용 • Training corpus에 보여지지 않았던 출력을 얻을 수 있음 – 일반적인 적용 방법 • n-gram 활용 n-best 또는 lattice 인식 결과 출력 • n-best 또는 lattice를 RNN/LSTM 언어모델 적용 • RNN/LSTM 결과와 n-gram 결과를 혼합하여 rescoring
  • 11. – Deep Learning 적용 (LM) GRU1) + NCE2) : 이전 단어 sequence  다음 단어예측, relatively 10~20% 성능 향상 응급실 환자는 다음주 수요일 환자는 다음주 수요일 저녁에 input output hidden RNNLM (Recurrent Neural Network Language Model) 저녁에 퇴원할 퇴원할 겁니다 겁니다 </s>(다음 단어) 태어날 (context) (현재 단어) 1) Gated Recurrent Unit 2) Noise Contrastive Estimation
  • 12. – Deep Learning 적용 (자동띄어쓰기) Bi-directional LSTM: 음절 sequence  띄어쓰기(+문장부호)
  • 13. – PLM (Personal Language Model) Personal Language Model – ex) T map 전화걸기 – 사용자별 사전을 구성하여 실시간으로 인식기와 연동하여 인식을 가 능하게 만드는 기술 음성인식 모델 (wFST) 개인 어휘 모델 (FST) Class
  • 14. – DNN Wakeup DNN Wakeup – 호출어 ‘아리아’에 대해 반응할 수 있도록 하는 Deep Learning 기반 키워드 인식 기술 start end 아리아 label: 1 Keyword일 때 non-Keyword일 때 label: 0 label: 0 label: 0 label: 0label: -1
  • 15. – DNN EPD (End-Point Detection) DNN EPD – 음성/비음성 구간을 검출하여 발성의 시작과 끝을 결정 0 0.5 1 1.5 2 2.5 x 10 4 -2000 0 2000 4000 Sample Restaurant(SNR 20dB) EPD 결과 VAD 결과 tV tE 오늘 날씨 알려줘
  • 16. – 원거리 음성인식 (NUGU 스피커) 원거리 음성인식 – 기존 방식과는 음향 환경 및 요구조건의 차이가 매우 큼 잡음 음성 반향 에코 DNN 음향모델 성능 개선 Multi-mic 전처리 • 학습 데이터 Augmentation을 통한 원거리 음향모델 학습데이터 보강 (RIR, Room-impulse-response 적용) • 다수의 마이크를 이용한 잡음제거, Gain 보상, 에코 제거 적용
  • 17. – 화자인식 i-vector 기반 방식GMM 기반 방식
  • 18. – 고객센터 Voice Analytics 시스템 고객센터 Voice Analytics 시스템 – 기존: 상담사가 작성하는 기록을 통해 분석 • 분석할 수 있는 분량이 제한됨 • 모호한 분류가 많고 데이터 작업이 오래 걸림 – 고객센터 상담 대화를 음성인식을 통해 텍스트화 – 텍스트를 자동으로 분석하여 • 고객의 불만사항이나 니즈를 파악 • 신규상품에 대한 고객 반응 파악 • 갑작스럽게 증가하는 이슈 검출 • 실시간 분석 가능
  • 19. – 고객센터 Voice Analytics 시스템
  • 20. - 입력 음성 특징 • Spontaneous Speech Recognition – 난이도가 가장 높음 – 구어체 발성 – 발음이 불명확한 경우가 빈번하게 발생 – 말 더듬, 간투사 등 불규칙성이 높음 • vs. NUGU (Speaker, Set-top Box, T map) – 비교적 또렷한 발성 (수행하고자 하는 목적이 명확) – 근거리 휴대폰 음성인식에 비해서는 자연스러운 발성 (원거리 음성인식 특징)
  • 21. – 모델 학습시 고려사항 • 음향모델 학습의 어려움 – Transcription의 어려움 (불분명한 발음, 빠른 발성) – 구어체 표기의 모호성 – 음원 – Text alignment의 어려움
  • 22. – 모델 학습시 고려사항 • 음향모델 학습 – 표기 기준 설정 (Transcription 작업 효율 제고) – 학습 데이터 준비 (학습 가능 데이터 양 증대)
  • 23. – 모델 학습시 고려사항 • 언어모델 학습 데이터 및 발음사전 – 고객센터 음성 transcription 분량이 제한적 – 텍스트 정규화 – 구어체 표기에 대한 발음사전 구축
  • 24. 까 기계는 삼성서비스센터 그 삼성 삼성 삼성건데 네 네 핸드폰으로 기계되면 엘지가 켜지고 그렇죠 통신사는 저는 SK 에요 아 네 네 어떤 말씀인지 알고요 예 삼성에서 만든 기기인데 엘지 유플러스 모델로 출시가 됐기 때문에 전원을 키면 엘지 유플러스라고 나오는거에요 네 그리고 고객님은 SK 유심 을 장착을 해서 엘지 유플러스 기기 사용을 하시는 거라서 요거 기기점검 받으시는거는 그 삼성전자로 가시면 돼요 고객님 삼성 서비스 가야 된다고요 맞아요 고객님
  • 25. NUGU 음성인식 기술 및 응용 사례