1. 음성인식 기술 및 활용 트렌드
2013년 5월
윤훈주
firehj@hanmail.net
http://www.facebook.com/firehj
유비유넷 (http://www.ubiu.net)
2. 영화 및 드라마에서의 음성인식
영화와 드라마를 통해 음성인식 기술에 대해 친숙해졌다.
<1977년: 스타워즈>
3PO
<1982년: 전격 제트 작전>
R2D2
1/48
음성인식 기술 및 활용 트렌드
3. 휴대폰 음성 다이얼링 적용사례
1997년에 음성인식 기술은 휴대폰에 적용이 되었다.
<LG>
<삼성>
2/48
음성인식 기술 및 활용 트렌드
4. 왜 다시 음성인식이 뜨는가?
폰, TV, 자동차가 스마트화되면서,
쉽고 편리하게 사용할 수 있는 Natural User Interface가 필요해짐
<스마트폰>
<스마트 TV>
3/48
<스마트 자동차>
음성인식 기술 및 활용 트렌드
5. 모바일 음성인식의 진화
• 음성인식 성능의 향상
- 스마트폰 단말의 성능 진화
- 클라우드 기반의 음성인식 시스템: 대용량 데이터 처리
• 제품기능의 복잡 다양화
- 인공지능 기술의 발전
- 지식 검색 기술
지능형 에이전트
검색
자연어 이해, 지능형 검색
정형화된 명령어 인식
4/48
음성인식 기술 및 활용 트렌드
9. 음성인식 기술의 어려움
• 동일한 화자인 경우에도 다양한 변이
- Pitch(놀람, 화남, 기쁨 등)
- 발성 속도
- 주변 잡음의 영향
•동일한 단어라도 화자별로 발성이 다름
- 강세, 명료성
•문맥에 따라 발성이 달라짐
- 음운 변화
8/48
음성인식 기술 및 활용 트렌드
10. 음성인식 기술의 분류
발전 방향
사용자 범위
화자 종속
특정화자의 음성만을 인식
인식 대상어휘
발성의 자연성
불특정화자의 음성을 인식
소어휘
고립단어
인식
발음된 단어의 시작과 끝을
알 수 있는 인식
인식 단위
화자 독립
화자 적응
특정화자의 음향학적 성질에 적응
대어휘
연결단어
인식
연결된 단어를 인식
단어단위 인식
연속음성
인식
대화체
인식
일상적인 대화체 문장을 인식
음소단위 인식
9/48
음성인식 기술 및 활용 트렌드
11. 음성 대화 시스템
자연어 처리
음성인식
지능형 검색/처리
데이터베이스
언어 이해
대화 관리
음파
음성 합성
언어 생성
10/48
음성인식 기술 및 활용 트렌드
15. 언어 이해
• 사용자가 원하는 것이 무엇인지 알아내는 기술
“ 오늘 날씨 어때? 오늘 우산이 필요할까? “à 지역 날씨 조회
“ 내일 아침 6시에 깨워줘 “à 알람 설정
• 사용자의 상황과 대화 문맥을 이해
“ 내일 오전 10시 회의를 오후 4시로 연기해”
“ 이미 다른 회의가 잡혀 있습니다.”
“ 대구에 비가 오니?”
“ 아닙니다. 맑은 날씨입니다.”
“ 서울은 어때?”
“ 비가 조금 내립니다.”
14/48
음성인식 기술 및 활용 트렌드
16. 자연어 처리
일상생활 언어를 처리
형태소 분석
입력된 문장을 형태소 단위로
분할하고 품사를 부착
구문 분석
의미 분석
주어, 목적어, 서술어와 같은
구문단위를 찾음
담화 분석
문장이 의미적으로 올바른
문장인지를 판단
대화 흐름상 어떤 의미를 가지는
지를 찾음
- 문맥구조 분석
(문장들의 연관 관계),
- 의도분석
(전후관계를 통한 실제 의도)
1) 나는
1) 사람이 사과를 먹는다. (o)
- 나+는
- 날(다)+는
- 나(다)+는
2) 사람이 비행기를 먹는다. (x)
1) 철수는 어항을 떨어뜨렸다.
그는 울고 말았다.
3) 비행기가 사과를 먹는다. (x)
2) 철수는 우승을 했다.
그는 울고 말았다.
2) 과학자들에게
- 과학자 + 들 + 에게
15/48
음성인식 기술 및 활용 트렌드
17. 심심이 채팅 메신저
• 지능형 채팅 로봇 심심이가 음성인식과 결합한다면 어떤 것들이 가능해질까?
<심심이 대화>
<카카오톡 플러스 친구>
16/48
음성인식 기술 및 활용 트렌드
19. 지능형 에이전트
<지식 검색 기술>
•사용자가 원하는 답을 찾는 기술
•일반적인 검색엔진 결과 대신 가장 관련있는 웹 서비스 활용
•울프럼 알파의 지능형 검색 서비스
•엘프의 지역검색/리뷰 서비스
•야후의 날씨/주가 조회 서비스
- 세상에서 가장 큰 동물은? à울프럼 알파에 질의
- 이 근처에서 중국식당 좀 찾아줘 à 엘프에 질의
18/48
음성인식 기술 및 활용 트렌드
20. 지능형 검색: 울프럼 알파
http://www.wolframalpha.com
• 계산 능력을 갖춘 지식 검색 엔진
- 각종 지식들을 재구성하여 보다 의미있는 결과로 제시
- 백과사전식의 구조화된 검색결과
- 실시간으로 계산된 결과
- 복잡한 공학 수식 계산
• 애플 시리 및 삼성 S보이스의 검색엔진으로 사용
• 수학 소프트웨어인 매스매티카에 사용된 엔진
19/48
음성인식 기술 및 활용 트렌드
21. 지능형 검색: 구글 지식 그래프
<지식 그래프>
<구글 예측 API>
20/48
음성인식 기술 및 활용 트렌드
22. 구글 Now
사용자가 검색했던 내용들, 소위 로그(log)를 기억해 사용자에게 필요한 정보를 스스로 전달
21/48
음성인식 기술 및 활용 트렌드
25. 음성인식의 특징
특징
활용 유형
활용 분야
편리함
별도의 학습이나 훈련없이도 쉽게 사용
TV등의 가전 제품
게임기
상시 입력
가능
손이 자유롭지 않은 상황에서도 정보를 입력할
수 있기 때문에, 이동시에도 기기 사용이 가능
함
모바일 기기
물류와 같은 업무 작업
고속 입력
입력 속도가 타이핑보다 빠르기 때문에 고속 또
는 실시간으로 정보처리
콜센터, 방송, 통번역 등
화자의 고유 정
보 전달
화자의 음성을 통해 신원, 심리, 건강상태, 언어
능력 등을 파악할 수 있어 개인 맞춤형 서비스
제공 가능
보안, 금융, 의료, 교육 등
24/48
음성인식 기술 및 활용 트렌드
26. 걸어 다닐때 사용하는 음성인식
<빠른 입력>
<트위터/페이스북>
25/48
<메모 작성>
음성인식 기술 및 활용 트렌드
27. 모바일 음성인식 서비스
<애플 시리>
•늬앙스의 음성엔진
•시리의 자연어 처리
•울프럼알파의 지능형 검색
<구글 음성검색>
<늬앙스 드래곤>
<MS Ask ziggy>
<늬앙스>
•업게 1위의 음성인식 솔루션 회사
•2011년 매출액: 14억불
•1994년 SRI에서 뉘앙스 창업
•Apple, IBM과 협력관계
•구글, MS와 경쟁관계
26/48
음성인식 기술 및 활용 트렌드
28. 애플 시리
<시리> 똑똑한 가상 개인 비서
- 자연어 음성 대화 서비스
- 생활정보 검색 서비스(지역정보, 날씨, 주식, 교통상황 등)
- 개인 비서(일정 체크, 음성 SMS 등)
<Eyes Free>
27/48
음성인식 기술 및 활용 트렌드
29. 시리: 폰 기능 제어
<Reminder>
<주소록>
<문자보내기>
<알람>
<날씨>
<지도>
<정보검색>
<스케줄>
<주식>
<타이머>
<이메일>
<도움말>
30. 시리: 검색 / 서비스
<스포츠>
<영화>
<식당>
29/48
<페이스북, 트위터>
음성인식 기술 및 활용 트렌드
44. 음성 합성의 요구 성능
<제한된 단어, 문장>
<고품질 무제한 음성합성>
43/48
음성인식 기술 및 활용 트렌드
45. 음성 합성 방법
<녹음된 음성 재생>
• 미리 녹음된 문장이나 단어를 그대로 재생
<음편 조합>
• 소리를 음소단위로 녹음하여 문장 합성
• 모든 소리를 합성할 수 있음
• 음소간의 결합 경우를 고려해야 하므로
DB의 용량이 크다.
<편집합성>
• 고정된 문구에 특정 단어만 변경하여 합성
• 114서비스
• 예금조회, 거래내역 조회, 증권, 길안내, 열차시간 등
<파라메터 방식>
• 대표 음소를 통계적 기법으로 추출한 후,
파라메터를 조절하여 소리를 합성
• DB의 양을 줄일수 있음
44/48
음성인식 기술 및 활용 트렌드