Anzeige

221108_Multimodal Transformer

NLP Researcher um YonSei University
14. Mar 2023
Anzeige

Más contenido relacionado

Último(20)

Anzeige

221108_Multimodal Transformer

  1. Multimodal Transformer for Unaligned Multimodal Language Sequences 유용상 ACL 2019 2022.11.8 NLP 스터디
  2. Introduction • 멀티모달이 필요한 이유? : 언어는 글로만 이루어져 있지 않고 말하는 사람의 목소리, 표정 등이 전부 발화의 의미를 담고 있음 -> 텍스트 데이터에 더해 음성 데이터, 얼굴 표정 데이터 등을 결합해 모델로 하여금 더 잘 이해할 수 있도록 함 Multimodal model Sentimental analysis Text Image Speech
  3. 기존 연구의 한계점 서로 다른 modality => 서로 다른 시퀀스 길이, 따라서 길이를 동일하게 맞추는 작업이 필요함 : Alignment 이것은 LSTM에 적용할 경우 long term multimodality를 반영하기 힘듦
  4. Overall Architecture
  5. Vectorize Glove Vector 사용 Facet 라이브러리 사용 COVAREP 라이브러리 사용
  6. 1D convolution + positional embedding • 어텐션 스코어끼리의 연산을 위해 차원수를 맞춰줌 • Local dependency 반영을 기대함 • Learned Vector 대신 original transformer와 같이 Sinusoidal Vector 사용
  7. Crossmodal Transformer Target Source
  8. Crossmodal Transformer
  9. Prediction FC layer
  10. experiments
  11. experiments
  12. experiments
Anzeige