4. 우리는 Polly 왜 만들엇을까요?
• 음성을 인터페이스로 사용하는 서비스(Apps)는 이제
일상 생활이 됨.
• 최대한 기계가 말하는 것같이 않게 만들어 보다 좋은
유저 만족이 필요함. (Naturalness)
• 음성을 사용하는 것은 매우 다양한 분야에서 활용될
수 있음.
5. Polly ?
• Text를 정말 일상에서와 같이 말하는 음성으로 전환하는 서비스
• 47 개의 일상에서와 같은 음성(Voice)
• 24 언어 지원
• 응답 시간을 최적화/최소화해 개발자들이 실시간에 가까운
서비스 개발에 용이.
• 개발자들은 음성 데이터를 저장하고 간단히 재생하여 사용이
가능.
6. Polly – 성능, 품질
사람이 읽는 것 같은 음성 변환
최대한 사람이 말하는 것과 동일하게 구현.
올바르고 정확하게 텍스트를 인식하여 변환
약자, 숫자조합, 동형이의어와 같은 텍스트를 상황에 맞도록 익식하도록 구현.
Today in Las Vegas, NV it's 90°F.
"We live for the music", live from the Madison Square Garden.
최대한 잘 알아들을 수 있도록 변환
”Peter Piper picked a peck of pickled peppers.”
7. Polly – 현재 지원 언어
Americas:
• Brazilian Portuguese
• Canadian French
• English (US)
• Spanish (US)
APAC:
• Australian English
• Indian English
• Japanese
EMEA:
• Danish
• Dutch
• British English
• French
• German
• Icelandic
• Italian
• Norwegian
• Polish
• Portuguese
• Romanian
• Russian
• Spanish
• Swedish
• Turkish
• Welsh
• Welsh English
9. SSML 지원
SSML(Speech Synthesis Markup Language)
음성 합성을 위한 W3C에서 정한 XML기반 언어 규약
<speak>
My name is Kuklinski. It is spelled
<prosody rate='x-slow'>
<say-as interpret-as="characters">Kuklinski</say-as>
</prosody>
</speak>
10. Lexicons
개발자가 단어의 실제 발음 또는 의도하는 발음으로 구현 가능
My daughter’s name is Kaja.
<lexeme>
<grapheme>Kaja</grapheme>
<grapheme>kaja</grapheme>
<grapheme>KAJA</grapheme>
<phoneme>"kaI.@</phoneme>
</lexeme>
12. • 동형이의어: 모양은 동일하나 발음이 다른 경우
I live in Las Vegas vs This presentation broadcasts live from
Las Vegas
• 약식 단어: 약어, 두음문자(머릿글자만 딴), 단위를 나타내는
단어
‘St.’ à ‘street’ or ‘saint’ ?
• 문자를 음소로 변환 시 다양한 경우
e.g. tough, through, though
• 외국어 (déjà vu), 사람 이름 (François Hollande),
은어(ASAP, LOL) etc.
Text-to-Speech 구현의 어려운 점
14. 가장 적절한 음 선택
매우 다양한 조합의 음절로 변환이 가능하도록 매우 다양한
케이스의 정보를 활용
Unit – diphone
연음, 이음 등 다양하고 미묘한 차이를 적용
e.g. 이음(異音: 의미 차이는 나지 않지만 위치에 따라 약간
다르게 들리는 동일한 음소의 음)
• Pin vs Spin vs limping
16. Polly 비용
• 사용한 만큼 지불
• $4 for 백만 문자
- 일반적인 뉴스 하나 à 3 cents
- A Christmas Carol” by Charles Dickens à 66 cents
- 반지의 제왕 두 개의 탑à 3 dollars and 10 cents.
• 프리 티어
• 5M characters/month – 첫 해 년도
• 음성 데이터는 저장하여 반복 사용 가능
22. 객체 및 장면 탐지 예시
Flower
ChairCoffee Table
Living Room
Indoors
23. 객체 및 장면 탐지 예시
Maple
Villa
Plant
Garden
Water
Swimming Pool
Tree
Potted Plant
Backyard
24. 객체 및 장면 탐지 응용
§ 사진 공유 앱이나 서비스, 자동으로 사진을
구분/분류/태깅하여 검색엔진 구현. 예, 지역, 이벤트,
결혼, 여행 등등
§ 렌탈 관련 서비스의 경우 사진을 올리면 알아서 특징과
관련된 것을 탐지하여 쉽게 구현. Airbnb와 같은
서비스를 구현 한다면? 집주인은 사진만 업로드하면
자동 태깅
§ 여행 관련 서비스의 경우 다양한 사진으로부터 여행
관련 정보들을 구분하여 제공. 산, 바다, 도시 등등.
33. Look Your Best All Day
Time for A New Look?
안면 분석 – 타겟 마케팅 사용 사례
34. 안면 분석 – 타겟 마케팅 사용 사례 아키텍처
demographic and
sentiment attributes
Look Your Best All Day
Application
AMAZON
REDSHIFT
AMAZON
DYNAMODBAMAZON S3
log
demographic
profile updates
retrieve ad image
face image is collected
and analyzed AMAZON
REKOGNITION
DetectFaces
37. § IoT, 카메라 등을 활용하는 제조사나 업체는 안면 인식
인증(Verification)을 직접 제품이나 서비스 적용
§ 공공 장소에서 특정 사람을 찾는 경우 응용
§ 호텔의 경우 고객을 바로 인식하여 고객에 맞는
서비스 제공이나 VIP 전용 서비스 구현
§ 대리 시험 방지. 온라인 시험의 경우 Webcam 을 통해
응시자 확인
안면 비교 응용
43. 안면 인식 응용
§ 가족 사진 공유 서비스라면, 각 가족 구성원 얼굴 인식
구분
§ 특정인, 유명인 사진을 여러 뉴스와 기사들에서 취합하여
데이터화하여 서비스 구현
§ 특정 공간이나 회사 등에 허가 받은 사람 출입
§ 공공 장소 등에서 특정 사람을 찾거나 할 경우 응용
44. 안면 인식 사례 아키텍처
얼굴 인덱스 생성
AMAZON S3
APPLICATION
Image Indexer
AMAZON
REKOGNITION
IndexFaces
Person Details
Application Table
Face Collection
AWS LAMBDACAMERA
Live Frames
53. 버져닝, 앨리어스 기능 지원
앨리어스버져닝
• Intents, Slots, Bots 으로 구성
• 다중 개발 환경 지원
• 이전 버젼으로 롤백 지원
• 엘리어스 지원으로 다중 플랫폼 배포 가능
• 개발, 검수, 제품 환경 별로 구성 가능
• 엘리어스 별 다른 사용자 그룹 지정 가능
v1 v2 v3 latest
v1 Dev
v2 Stage
v3 Prod
54. AWS Mobile Hub 연동
유저 인증
유저 분석
데이터 저장
데이터 동기
데이터 추적
ChatBot 구현
LexAWS Mobile SDKs
AWS Mobile Hub
55. SaaS 연동으로 엔터프라이즈 기능 구현
Amazon Lex
Mobile App
Mobile Hub
SaaS Connector
Amazon API
Gateway
AWS
Lambda
1: Understand
user intent
Amazon API
Gateway
AWS
Lambda
3: Translate
REST response
into natural
language
Mobile Hub
Custom Connector
2: Invoke a SaaS
application or an existing
business application
Business
Application
Firewall
User Input
56. Amazon Lex – 응용 사례
다양한 정보 제공 Bot 구현
Chatbot 을 통한 고객 서비스 제공
서비스 응용 Bot 구현
모바일 서비스의 인터페이스 구현
• 뉴스
• 날씨, 주식 기타
정보
• 지원 서비스
• 티켓팅
• 음식 주문
• 은행 업무 조회
엔터프라이즈, 비지니스 응용 Bot 구현
효율적인 비지니스 관련 기능 환경 구현
• 물량, 수익 등 정보
• 마케팅 진행, 결과
• 인벤토리 정보
IoT 서비스 연계 Bot 구현
각종 IoT 디바이스와 커뮤니케이션 기능 구현
• 스마트 홈
• Wearables IoT
57. 호텔 예약 시 Lex 동작 과정
Book Hotel
NYC
“Book a Hotel in
NYC”
Automatic Speech
Recognition
Hotel Booking
New York City
Natural Language
Understanding
Intent/Slot
Model
UtterancesHotel Booking
City New York City
CheckIn Nov 30th
CheckOut Dec 2nd
“Your hotel is booked for
Nov 30th”
Polly
Confirmation: “Your hotel
is booked for Nov 30th”
“Can I go ahead
with the booking?
a
in
59. Amazon AI 의 확장
Amazon
Machine Learning딥러닝 AMI
딥러닝 프레임웤
MXNet
P2
인스턴스
60. 본 강연이 끝난 후…
Amazon Polly를 이용한 간단한 개인 TTS 개발
https://aws.amazon.com/ko/blogs/ai/build-your-own-text-to-speech-applications-with-amazon-
polly/
Amazon Rekognition을 이용한 서버리스 사진 인식 서비스
https://aws.amazon.com/ko/blogs/ai/use-amazon-rekognition-to-build-an-end-to-end-serverless-
photo-recognition-system/
S3 Image 대량 분석 하기
https://aws.amazon.com/ko/blogs/ai/classify-a-large-number-of-images-with-amazon-rekognition-
and-aws-batch/
https://github.com/awslabs/
62. https://www.awssummit.kr
AWS Summit 모바일 앱을 통해 지금 세션 평가에
참여하시면, 행사 후 기념품을 드립니다.
#AWSSummitKR 해시태그로 소셜 미디어에
여러분의 행사 소감을 올려주세요.
발표 자료 및 녹화 동영상은 AWS Korea 공식 소셜
채널로 공유될 예정입니다.
여러분의 피드백을 기다립니다!