Weitere ähnliche Inhalte Ähnlich wie 스토리텔링을 위한 시각 중심의 인공지능(AI for Visual Storytelling) (20) 스토리텔링을 위한 시각 중심의 인공지능(AI for Visual Storytelling)1. 스토리텔링을 위한 시각 중심의 인공지능
AI for Visual Storytelling
2019-02-22
김 병 희
CTO
써로마인드 로보틱스
제12회 서울대학교 관악블록세미나
“문학적 상상력과 인공지능”
2. 초 록
. (AI)
, , ,
.
,
.
‘ (Thinking Aids)’
.
© 2017-2018, Surromind Robotics, Inc. 2
3. ‘인공지능’이 쓴 뉴스기사
© 2017-2018, Surromind Robotics, Inc. 3https://m.nocutnews.co.kr/news/5104825#_enliple
사람이 만든 알고리즘 적용
기계가 방대한 데이터에서 학습하여
자동으로 만든 ‘프로그램’ 적용
…
4. 스토리텔링
인류의 스토리텔링은 우리가
추적할 수 있는 한 먼 옛날부터
존재
오락, 교육, 문화 보존을 위해
이야기를 사용
경험, 역사, 교훈, 도덕을
전하기 위해, 그리고 인간
경험을 공유하기 위한
수단으로
스토리텔링은 모든 문화권에서
사용되어 옴
© 2017-2018, Surromind Robotics, Inc. 4
5. 스토리텔링
현대에서도 스토리텔링은 넓은 범위에서 영향력 발휘
전통적인 형태(동화, 민화, 신화, 전설, 우화 등) 외에도 역사, 개인 서술, 정치
논평 및 진화하는 문화적 규범을 표현하는 데까지 확장
교육 목표를 달성하기 위해서도 널리 사용
싸이코드라마, 드라마 치료 요법과 같은 심리치료에도 응용되며, 변형
예술의 실행에서 심리적, 사회적 변화를 일으키는 수단으로도 사용
새로운 형태의 미디어를 통해 이야기를 기록하고,
표현하며, 소비하는 새로운 기법이 창출
© 2017-2018, Surromind Robotics, Inc. 5
https://en.wikipedia.org/wiki/Storytelling - Contemporary storytelling
복잡해진 스토리텔링 기술!
6. 스토리텔링과 인공지능
인공지능(AI) 기술이
스토리텔링을 도와줄 수
있습니다
인간의 경험을 보다 풍요롭게
해줄 수 있는 유용한 기술
스토리텔링을 도와주는 다양한
인공지능 기술을 살펴보고
이러한 유용한 도구를
체험하고 활용할 수 있는
계기를 마련
© 2017-2018, Surromind Robotics, Inc. 6
7. AI 역사에서의 스토리텔링
앨런 튜링 - thefatheroftheoreticalcomputerscienceandartificialintelligence
◼ “학습하는 기계”에 대해 언급(Turing, 1947) (Turing, 1950)
◼ 기계에게 영어를 이해하고 말하도록 가르치는 기술이 도래할 것을 전망
클로드 섀넌 – the father of information theory
◼ 자신이 정립한 정보 이론을 언어 영역에 적용. 영어 글에서 지금까지의 글에
이어질 글자를 예측하는 기법을 정리(Shannon, 1951)
◼ 그가 제시한 확률통계 기반 언어 모델(language model) 기법의 큰 틀은 최신
딥러닝 기술에서도 여전히 유효. 글과 음악을 매체로 한 스토리텔링 기계 구현의
필수 도구
마빈 민스키 – AI Pioneer
◼ 인공지능 구현의 핵심 단계를 정리한 글에서(Minsky, 1961), 인공지능 기술을
통해 ‘thinking aids’가 구현될 것으로 전망
◼ 민스키의 제자인 MIT의 패트릭 윈스턴(Patrick Winston) 교수
◼ “스토리텔링 기계가 AI를 가능하게 하는 열쇠다”
◼ “사람의 지능을 이해하고자 한다면, 우리는 반드시 사람의 스토리텔링 능력,
스토리를 이해하는 능력, 그리고 이전의 스토리를 조합하여 새로운 스토리를
만드는 능력을 이해해야만 한다”
© 2017-2018, Surromind Robotics, Inc. 7
Alan Turing
(1912-1954)
Claude Shannon
(1916-2001)
Marvin Minsky
(1927-2016)
인공지능의 선구자들은 스토리텔링 기계를 꿈꾸었습니다.
8. 6-elements-of-every-
complete-narrative
1. Setting
The setting is the time and location in which
your story takes place.
2. Characters
Central Characters, Protagonist, Antagonist
3. Plot
The plot is the sequence of events that
connect the audience to the protagonist and
their ultimate goal.
4. Conflict
The conflict is what drives the story. It’s what
creates tension and builds suspense, which
are the elements that make a story
interesting.
5. Theme
The theme is what the story is really about.
It’s the main idea or underlying meaning.
6. Narrative Arc
Setup – rising tension – climax – resolution
Topics of ‘AI for Storytelling’ Papers
© 2017-2018, Surromind Robotics, Inc. 8
스토리텔링의 요소
http://www.visionandlanguage.net/workshop2018/index.htmlstorytelling-101-the-6-elements-of-every-complete-narrative by pond5.com
스토리텔링의 다양한 요소를 이해, 분석, 생성할 수 있는 기계를 실현하기 위한
인공지능 기술 연구가 이어지고 있습니다
9. 스토리텔링을 위한
생각하는 도우미(Thinking Aids)
Accessible and assistive storytelling
Interactive work
Augmenting human storytelling
Collaborative storytelling
효과
상상력을 자극
다양한 재료를 만들어줌
스토리 구성 요소의 빠른 탐색, 변형
© 2017-2018, Surromind Robotics, Inc. 9
10. AI for Storytelling
다양한 미디어의 자동 생성
© 2017-2018, Surromind Robotics, Inc. 10
글(text) 음악(music) 사진(image)
목소리(voice) 비디오(video)
Generative Artificial Intelligence
11. 인공지능 기술의 구분
© 2017-2018, Surromind Robotics, Inc. 11
고전적인
‘규칙 기반’ 기법
신경망을 모사한
‘뉴럴’ 기법
사람이 지정한
틀(template)과규칙(rule)을 재료로
자동화 절차를 구성
딥러닝(deep learning)으로 대표되는 최신 AI 기법
데이터로부터 틀과 규칙 뿐만 아니라
사람이 알기 힘든 규칙성과 정규성을
‘학습을’ 통해 터득하고 적용 가능
규칙 기반 기법의 관점에서 보면 “마법같은” 일들이 계속 벌어지고 있습니다.
(https://cs.stanford.edu/~zxie/textgen.pdf Fig. 1)
12. ‘인공지능’이 쓴 뉴스기사
© 2017-2018, Surromind Robotics, Inc. 12https://m.nocutnews.co.kr/news/5104825#_enliple
사람이 만든 알고리즘 적용
기계가 방대한 데이터에서 학습하여
자동으로 만든 ‘프로그램’ 적용
…
13. 전통적인 AI의 뉴스기사 작성 방식
© 2017-2018, Surromind Robotics, Inc. 13
미리 정해둔 종류의 데이터
값을 추출하여 표로 구성
지정한 양식의 기사 작성
• 데이터로 지정한 칸의 내용을
채우기
• 값의 범위에 따라 표현 구분
• 유사한 표현 미리 정의하기
데이터 자동 수집, 처리
기사 자동 송고(분야 전문가)
(SW 개발자)
[AP, Yahoo!Sports, …]
(structured data)
14. 학습 기반 뉴럴 AI의 글 생성 방식
© 2017-2018, Surromind Robotics, Inc. 14
…
~8백만 영문 웹페이지
(~40GB)
Language Model
학습 단계
활용 단계
기사 시작 문장 작성(사람)
시작 문장의 맥락을 유지하며 나머지 기사 생성 (~30 sec)
(다음에 나올 단어
예측하는 모델)
딥러닝 모델 Massive Computing Power
Massive Data
(~80 GPUs * ~30 days)(GPT-2 by OpenAI)
(AI 개발자)
[개방, 공유, 협력]
15. © 2017-2018, Surromind Robotics, Inc. 15
복잡해진 스토리텔링, 인공지능이 도와줄 수 있습니다
미디어 종류 별로 자동 ‘생성’을 하는 능력이 발전하고 있습니다
규칙 기반 AI 기법과 최신 뉴럴 AI 기법을 적용할 수 있습니다
16. AI에게 글 대신 사진을 주고
스토리텔링을 시켜봅시다
© 2017-2018, Surromind Robotics, Inc. 16
17. 사진 → 글
© 2017-2018, Surromind Robotics, Inc. 17
http://max-image-caption-generator-web-app.mybluemix.net/
https://pix2story.azurewebsites.net/
https://app.photerloo.com/InstagramHashtagKeywordingApp/
20. 스토리텔링을 위한 인공지능 연구의 발전
사진을 보고 스토리텔링을 하려면 요소별
다양한 수준의 이해, 분석, 생성 능력이
필요합니다.
AI 연구자들은 이러한 기술을 열심히
만들어가고 있습니다
몇 가지 방향의 사례를 살펴보겠습니다
글의 스타일 변환
등장인물의 시각적 정보 변환
다양한 시각적 정보 변환
사진과 글 간의 다양한 연계
© 2017-2018, Surromind Robotics, Inc. 20
21. 글의 스타일 변환
© 2017-2018, Surromind Robotics, Inc. 21
Unsupervised Text Style Transfer using Language Models as Discriminators (NIPS 2018)
(부정적 문장 → 긍정적 문장)
(긍정적 문장 → 부정적 문장)
글의 긍부정 표현(sentiment)을 자동으로 바꾸려는 시도
22. 글의 스타일 따라하기
© 2017-2018, Surromind Robotics, Inc. 22
Toward Unsupervised Text Content Manipulation (arXiv, 2019.01)
Rule/Template-based 기사 작성을 Neural 기법으로 대체 및 자동화 수준 향상 시도
(NBA 경기 데이터로 보고서 작성하기)
23. 등장인물의 시각적 변환, 창조
© 2017-2018, Surromind Robotics, Inc. 23
FaceApp by Facebook
StyleGAN
by NVIDIA
Synthesizing Obama: Learning Lip Sync from Audio
(SIGGRAPH 2017)
Deep image analogy
24. More Visual Modifications
© 2017-2018, Surromind Robotics, Inc. 24
Slide from https://www.slideshare.net/mlreview/tutorial-on-theory-and-application-of-generative-adversarial-networks
다양한 Image-to-image Translation 사례
26. 사진의 분석과 ‘이해’
◼ 개체 인식: classification, detection, segmentation
◼ 개체간 관계: 위치, 유사 속성, 반대 속성, …
◼ 글과 사진의 개체간 grounding
◼ 단일 맥락 이해
◼ 여러 장 사진의 맥락 이해
◼ …
© 2017-2018, Surromind Robotics, Inc. 26
Bilinear Attention Networks (NIPS 2018)
(사람에게는 쉽지만) 기계에게는 아직 어려운
고차원적 시각 정보 이해 능력이 점차 나아지고 있습니다.
27. 글 → 그림
© 2017-2018, Surromind Robotics, Inc. 27
Image form the StackGAN paper : https://arxiv.org/pdf/1612.03242.pdf
28. AI for Visual Storytelling
무한한 가능성이 열리고 있습니다
© 2017-2018, Surromind Robotics, Inc. 28
사진 이해
글 자동 생성
글의 스타일 변환
사진에 대한 ‘표현,
설명’글 자동 생성
사진에 대한 질의응답
사진 → 음악
글 → 음악
영화대본 → 스케줄,
예산
자동 번역
사진 자동 생성
사진의 변형 글 → 사진
29. AI for Visual Storytelling
예상보다 빨리 열리고 있습니다
© 2017-2018, Surromind Robotics, Inc. 29
# of paper on GAN
(2014~2018.02)
500
2014 2018
30. AI가 여는 스토리텔링의 미래?
© 2017-2018, Surromind Robotics, Inc. 30
‘smart’ machines
미래학자가 바라본 미래사회의 4대 융합 분야
(David Wood, Anticipating the future of software,
2015년 서울대 초청강연 중)
31. 마치며
© 2017-2018, Surromind Robotics, Inc. 31
여기 어딘가가
이상적인 목표
시각을 중심으로 한 다중 매체 기반 스토리텔링 기술의 가능성이 커지고 있습니다
Album
Storyteller
규칙 기반AI와 뉴럴AI 기법이 융합되는 시점이 큰 전환점이 될 것입니다
34. 참고 문헌
◼ A. M. Turing (1947) Lecture to the London Mathematical
Society. http://www.vordenker.de/downloads/turing-
vorlesung.pdf (February 20, 1947)
◼ A. M. Turing (1950) Computing Machinery and Intelligence.
Mind 49:433-460. (Ch.7 Learning Machines)
◼ C. E. Shannon (1951) Prediction and Entropy of Printed
English. Bell Labs Technical Journal 30(1):50-64.
◼ M. Minsky (1961) Steps Toward Artificial Intelligence.
Proceedings of the IRE 49(1):8-30.
© 2017-2018, Surromind Robotics, Inc. 34
36. • Web Browser: 현재는 구글 크롬(Chrome)만 가능합니다
• Google Photos 계정
– 사용자가 자신의 Google Photos에 생성되어 있는 앨범에서
사진을 골라 스토리를 생성할 수 있습니다.
– 구글 계정이 있다면 https://photos.google.com/에서 쉽게
앨범을 생성할 수 있습니다.
SurroMind Robotics Confidential
실행 환경 – 접속 전에 준비해주세요
37. • 크롬 웹브라우저에 URL 입력
http://bit.ly/albumstoryteller
– 최초 접속시 보안 관련 경고창이 뜹니다. “안전 페이지로
돌아가기” 버튼 왼쪽의 ‘고급’을 선택하여 접속해주세요.
• 구글포토를 사용하는 계정으로 로긴해주세요
• 튜토리얼을 한 번 확인하시고 사용해주세요
• 스토리 삭제
– 웹 브라우저의 캐쉬에 저장되어 있습니다. 웹 캐쉬를 지우면
스토리가 삭제됩니다
– 지인과 공유하고 싶은 스토리는 SNS 공유 기능을 통해 미리미리
공유해주세요
• 메뉴에서 설문과 버그리포트를 통해 피드백
부탁드립니다.
SurroMind Robotics Confidential
Album Storyteller 접속