Open domain dialogue Chatbot(잡담봇 삽질기)

잡담봇 삽질기
(Open Domain Dialogue Chatbot)
발표자 김성동

목차
1. Introduction
2. Seq2Seq with Attention model
3. Data Augmentation
4. Chit-Chat Intent
5. Semantic Parsing
6. Anomaly Detection
7. Beam Search
8. REINFORCE
9. Challenge

Introduction
이름 : 김성동
소속 : 텍스트팩토리 NLP 연구원
연락처 : tjdehd1222@gmail.com
깃허브 : https://github.com/DSKSD

Introduction
개인비서 챗봇 문봇
https://www.facebook.com/ai.moonbot/

Introduction
Goal-Oriented bot

Introduction
잡담하길 원하는 유저들
뭐함
뭐해
뭐해요?
나 슬퍼ㅜㅜ
나 이쁘지?
나는 누구게ㅎㅎ
나랑 놀자
그냥 너랑 잡담만 하고 싶어
심심이 같은건가?
…
…
… + 엄청난 양의 비속어들

Seq2Seq with Attention Model
모델 설명
ㅎㅇ 넌 누구 니
Attention
GO 저는 문봇
입니
다
저는 문봇 입니다 EOS

트레이닝 데이터 부재
1. (User, Bot) pair의 부재. 즉, Seq2Seq를 훈련시킬 데이터가 없다
⇒ Twitter, Movie Subtitle, Community에서 데이터를 모아볼까?!
⇒ No!
- 문봇의 Personality를 해칠 수도 있다
- 서비스 상 해서는 안 될 위험한 발언들을 제어할 수 없다
- 수렴시키기 어렵다

트레이닝 데이터 부재
1. (User, Bot) pair의 부재. 즉, Seq2Seq를 훈련시킬 데이터가 없다
⇒ 일단 직접 대답을 달자.. aka 노가다
1주간 약 2~3000문장에 직접 답을 달았음.
Open Domain Dialogue를 하기엔 터무니 없이 적은 양임. ㅠㅠ
● 답변의 일관성을 유지한다 ⇒ Personality, Coherence
● 봇 답변의 Space(사용 어휘)를 제한한다 ⇒ 수렴 is good.

2~3000문장으로 트레이닝
욕
욕
일반적인 답변
및
동문서답
문법적 오류
및
맥락 고려 x
Problem
Problem

Data Augmentation
과적합으로 인한 일반화 능력 X
1. 데이터가 너무 적어서 과적합 발생.
2. 유저의 말에 오타가 많다.
⇒ 데이터를 더 많이 모은다? ⇒ Yes, 매일 2시간씩 답변 달았음
(하루에 2~300개 정도?)
하지만 시간 및 비용이 너무 많이 든다..
⇒ 데이터를 불리자. Data Augmentation!
How to?

Data Augmentation
안녕하세요==안여하세여ㅛ==안녕하세ㅇ
h ...
x = 안녕하세요 (오타 없는 깔끔한 Input)
C(x) = 안여하세여ㅛ (오타가 발생한 noisy
Input)
x^ = C(x)를 인코딩한 후 다시 디코딩한 결과
UNSUPERVISED MACHINE TRANSLATION USING MONOLINGUAL CORPORA ONLY (2017, Lample at el.)
Denoising Auto Encoder

Data Augmentation
UNSUPERVISED MACHINE TRANSLATION USING MONOLINGUAL CORPORA ONLY (2017, Lample at el.)
0.1의 확률로 해당 단어(토큰) 지우기
단어(토큰) 랜덤 셔플 (원문과의 차이가 3보다 적게 나도록)

Data Augmentation
일정 확률로, 잘못 눌리기 쉬운 Character로 대체
ㅐ : {ㅒ,o,O,ㅑ,ㅔ,ㅣ,9,0,}

Data Augmentation
일정 확률로, 잘못 눌리기 쉬운 Character로 대체
x = 네 수고하셨습니다
C(x) = 네 수고 하셨 습 S l 다
네 수고 하 습니다
...
네 감사합니다~!!
Source
Target

Data Augmentation
데이터 수 x 3~4 ⇒ 약 50000개의 문장
오타 등 비슷한
의미를 지칭하는
다른 표현에 좀 더
강건
Solved
여전히 문맥고려
X
동문서답
Problem

Chit-Chat Intent
외부 지식을 요구하는 답변
1. OOV(Out of Voca)에 의한 잘못된 대답.
2. 외부 지식(World Knowledge)을 요구하는 유저 발언
딥러닝이 뭐야?
빈지노의 본명은?
강남역 맛집 좀 알려줘
1+1=?
볼만한 영화 좀 찾아줘
영어공부 잘하는 법
데이트하기 좋은 장소 어디지
어제 축구 경기 결과 좀
...
OPEN DOMAIN !!

Chit-Chat Intent
Seq2Seq는 Input 문장만을 보고
가장 그럴싸한 답변을
만들어내기 때문에 외부지식에
접근하여 맞는 답변을 생성하지
못함
Problem

Chit-Chat Intent
A Deep Reinforcement Learning Chatbot(2017, Serban at el.)
MILABOT for Amazon Alexa Prize competition
The system consists of an ensemble of natural language generation and retrieval models,
including template-based models, bag-of-words models, sequence-to-sequence neural
network and latent variable neural network models

Chit-Chat Intent
⇒ Copy Mechanism 사용
⇒ Chit-Chat Intent를 분류하여 Seq2Seq로 답하기 어려운(외부지식을
요하는) 질문에 다른 방식을 취하자
ex>
1. What : ~가 뭐야? 알아? 설명해줘 ....
2. Howto : ~하는 법, ~ 어떻게 해? ....
3. Recom : ~ 추천해줘 ....
4. Request : ~해줘, ~해봐 ....
5. Issue : ~에 대해 어떻게 생각해?, ~ 요즘 재밌대? ....
…
...

Chit-Chat Intent
Chit-Chat Intent Classifier
(데이터가 없다면 일단
정규표현식)
User Message
What
Howto
Recom
...
...
Other
Response
외부 지식
외부지식 처리
api

Chit-Chat Intent
Chit-Chat Intent Classifier
(데이터가 없다면 일단
정규표현식)
User Message
What
Howto
Recom
...
...
Other
Response Seq2Seq

Chit-Chat Intent
외부지식을 요하는 질문에도
어느 정도 대답할 수 있게 됨
Solved

Chit-Chat Intent
외부지식 처리를 위한 또다른
기능을 추가 구현하지 않으면
여전히 대답할 수 없음
외부지식+문맥을 통합하여
답하지 못함
Problem

Semantic Parsing
외부지식 처리 Example: WikiQA

Semantic Parsing
외부지식 처리 Example: WikiQA
빈지노의 본명이 뭐야?
Lambda : What?agent="빈지노"&property="real_name"
자연어 쿼리
논리적 Form
Semantic DB
임성빈
Semantic
Parsing

Anomaly Detection
문법적, 의미적으로 불량한 답변 필터링
1. 심각한(용인하기 어려운) 문법적 오류
2. 챗봇이 해서는 안되는 (혹은 서비스 상) 위험한 발언
욕
욕

Anomaly Detection
⇒ 위험한 상황에 대한 답변을 인위적으로 많이 집어 넣는다.
⇒ 금지어 사전을 관리한다
⇒ TODO...

Anomaly Detection
⇒ 철자 교정기를 이용한다 : 생성된 문장이 복구하기 힘들 정도로
훼손되어 있음..
⇒ DAE(Denoising Auto Encoder) : 시도해볼만 함? (Not Yet)
⇒ Anomaly Detection : 문법적으로 매우 불량한 문장을 탐지 후,
모르쇠로 일관하자
문법적으로 매우 불량한 케이스 예시
ex) 헉 가. 어떻게. 했헉?
ex) 제가. 저 나름 하는 중 잘못
ex) 헿 봇재미 있우리
ex) 무슨 가있어요?

Anomaly Detection
Classification 문제로 보고 0이면 정상 1이면 비정상으로 판별
Data?! ⇒ Noisy function C(x) 응용
C(x) = 문장 토큰 중 일부를 지우거나 임의의 토큰을 추가 후 섞는다

Anomaly Detection
x x x x
last hidden
σ(Wx+b)
P(y=1;x)
비정상적인 답변일 확률
if h(x) >= 0.5, predict y="1"
if h(x) < 0.5, predict y="0"
Threshold가 0.5로 설정되면 문봇의 조금
어설프지만 창의력 넘치는 답변을 막을 수도 있기
때문에 0.6~0.8 정도의 더 높은 Threshold 사용
RNN Classifier

Anomaly Detection
완전히 이 이슈를 해결하지는 못함…
문법적으로 어설프지만 그럴싸한 문장과 정말 해괴망측한 문장을 구분하는 것이 애매함.

Anomaly Detection
POS 태그로 변환한 후,
CNN Classifier를 사용해보자!
NP
JX
NP+JKG
NNB
JKB
NNG
NNB
VCP
EC
Convolutional Neural Networks for Sentence Classification (2014, Kim)

Anomaly Detection
문법적으로 정상인 문장과 비정상인 문장의 POS 태그열은
그 패턴이 확연하게 차이가 날 것이라는 가정
NP
JX
NP+JKG
NNB
JKB
NNG
NNB
VCP
EC
저
도
제
나름
대로
노력
중
이
라구요
제
가
.
저
나름
하
는
중
잘못
NP
JKS
SF
MM
NNB
VV
ETM
NNB
MAG
정상 비정상

Anomaly Detection
CNN을 text에 적용하면 Phrase level의 특징을 잘 캐치할 수
있음 (bigram~ngram)
NP
JX
NP+JKG
NNB
JKB
NNG
NNB
VCP
EC
정상!
비정상

Anomaly Detection
비정상으로 판별돼
필터링된 답변
하지만 이는 서비스를 하기
위한 최소한의 조치일뿐
근본적인 해결책은 아님!
Problem

Beam Search
답변의 완성도와 다양성을 높이자
1. greedy decoding의 한계(현재 step의 likelihood만 최대화)
2. 네 맞아요, 죄송해요, 어렵군요 등의 일반적인 답변
GO 네 알겠
습니
다
네 알겠 습니다 EOS
argmax argmax argmax argmax
심심해 놀자

Beam Search
start
네
좋아
알겠
말씀
요
해
습니다
~
!!
대화
해요
할
문장 전체의 Joint Probability 고려해서 디코딩!
모든 케이스를 고려할 수는 없기에 한 스텝에 K개의 노드(Beam)만
유지한다

Beam Search
Beam Search를 이용한 답변이 좀 더 완성도 있음
BLEU score
Greedy
Bleu_1: 0.423387
Bleu_2: 0.285907
Bleu_3: 0.189564
Bleu_4: 0.105020
Beam search
Bleu_1: 0.396104
Bleu_2: 0.280386
Bleu_3: 0.208769
Bleu_4: 0.151880

Beam Search
Beam Search를 사용하더라도 확률이 높은 가지들은 일반적인 경향이
있다
=> 다양성을 높이자!
A Simple, Fast Diverse Decoding Algorithm for Neural Generation (2016, Li et al.)
같은 부모를 가진 가지 내에서 랭킹을
Score에서 빼줘서 best K를 재조정한다

Beam Search
하지만 무턱대고 랭킹으로 스코어를 재조정하면
다양성은 올라가더라도 답변의 질 자체가 악화된다
BLEU score
Standard
Bleu_1: 0.396104
Bleu_2: 0.280386
Bleu_3: 0.208769
Bleu_4: 0.151880
Diversity
Bleu_1: 0.361878
Bleu_2: 0.205844
Bleu_3: 0.123490
Bleu_4: 0.070867 조정되기 전 해당
beam의 score
조정된 beam의
score
Input의 특징과 이전의 디코딩된 결과물에 따라 다른 크기의 γ 적용 필요

REINFORCE
Generation as Sequential Decision Making
Agent
Output
Linear
Decoder
Sibling
Sibling
0, 0.05, 0.1, 0.15, …, 0.85, 0.9, 0.95, 1
0~1 사이에서 21개의 후보 γ 셋을
선별 == Action set
Select Action!
후보 생성 후, 누적
Score 계산
Sibling
Sibling
S - 0.9*2
S - 0.9*1
S - 0.9*1
S - 0.9*2

REINFORCE
Agent
Output
Linear
Decoder
0, 0.05, 0.1, 0.15, …, 0.85, 0.9, 0.95, 1
0~1 사이에서 21개의 후보 γ 셋을
선별 == Action set
Select Action!
Policy Reward
BLEU, Diversity
Policy를 따라 Response를 생성했을
때 그 결과 BLEU, Diversity 등의
Metric을 최대화하는 방향으로 Policy의
파라미터 업데이트

REINFORCE
BLEU score
Diversity score

Challenge
1. 여전히 문법적으로 훼손된 답변
2. 문맥을 고려하지 못한 일반적인 답변
3. 새로운 외부지식을 처리하기 위한 비용

Challenge
답변의 품질을 높이기
Turing Test

Challenge
Turing Test
Generator DiscriminatorResponseInput
Human!
Bot!
Reward
Adversarial Learning for Neural Dialogue Generation
REINFORCE

Challenge
Evaluator를 속이는 능력
= 높을 수록 좋음
Evaluator의 성능 지표
(바보가 평가하는 걸 막기
위해)

Challenge

Challenge
문맥을 고려한 답변
1. 대화 History가 아닌 바로 이전의 유저 발언만을 인풋으로 사용하는
모델이기 때문에 문맥을 파악하지 못함.
"대화"를 한다기 보다는 유저의 말에 적절하게 "반응"하는 수준의
봇인셈.

Challenge
1. 대화 History가 아닌 바로 이전의 유저 발언만을 인풋으로 사용하는
모델이기 때문에 문맥을 파악하지 못함.
"대화"를 한다기 보다는 유저의 말에 적절하게 "반응"하는 수준의
봇인셈.
⇒ HRED(https://arxiv.org/abs/1507.02221)
⇒ Memory Network(https://arxiv.org/abs/1503.08895)
⇒ Maximize Mutual Information(https://arxiv.org/abs/1510.03055)
⇒ Reinforcement Learning(https://arxiv.org/abs/1606.01541)
⇒ Adversarial Reinforced Training(https://arxiv.org/abs/1701.06547)

Challenge
싫은데
?
왜요ㅠㅠ
알겠어요
그렇군요
Input
Output
Current Model

Challenge
싫은데
?
왜요ㅠㅠ
알겠어요
그렇군요
이거 어때요?음식추천
어떤 음식
좋아하세요?
Proposed Model
Input
Output

Challenge
왜요ㅠㅠ
알겠어요
그렇군요
???
싫은데
?
대화 Trajectory
데이터가 Pair가 아닌 Dialogue 단위로
필요함.
Problem

Challenge
Memory Network as Dialogue History Encoder
End-to-End Memory Networks with Knowledge Carryover for Multi-Turn Spoken Language Understanding

Challenge
End-to-End Memory Networks with Knowledge Carryover for Multi-Turn Spoken Language Understanding
Decoder
response
Memory Network as Dialogue History Encoder

Challenge
새로운 외부지식에 대한 유연성
어제 축구 누가 이김?
오! 축구 좋죠!
ㅡㅡ
?!!

Challenge
Machine Reading Comprehension
https://rajpurkar.github.io/SQuAD-explorer/

Challenge
Machine Reading Comprehension
http://35.165.153.16:1995/
지문 질문
답은 지문 안에 있다

Challenge
정보 검색, 추출, 재구성
어제 축구 누가
이김?
우리 나라가
이겼네요~
검색
추출
재구성
대한민국
MRC

문봇이 자비스가 되는 그날까지....
들어주셔서 감사합니다!
Q & A

Open domain dialogue Chatbot(잡담봇 삽질기)

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Open domain dialogue Chatbot(잡담봇 삽질기)

Ähnlich wie Open domain dialogue Chatbot(잡담봇 삽질기) (20)

Mehr von NAVER Engineering

Mehr von NAVER Engineering (20)

Open domain dialogue Chatbot(잡담봇 삽질기)