[Naver Clova AI] KorQuAD v1.0 참관기

•

1 gefällt mir•581 views

LGCNSairesearch

2019/09/05 LGCNS AI Tech Talk for NLU (feat.KorQuAD) - Naver Clova AI LaRva Team 이동준님 - KorQuAD v1.0 참관기

Daten & Analysen

Contents
1. LaRva Team
2. 참여하게 된 계기
3. LaRva Factory
4. 효과적이였던 방법론들!

LaRva Team
김성동
● LM 기반 Text
생성 ● LM, Transfer learning
● Dialogue model
● NLU
● Big NLP 모델 학습
● 분산학습 ● CLaF: Clova
Language Framework
(ㄱㄴㄷ순)
김한주
김민정
김규완
김성동
이동준

참여하게 된 계기
Downstream task
Question Answering Tasks!!

LaRva Factory
Data Collection
Build vocab
/
Preprocessing
Downstream task
● Single sentence
Classification
● Sentence Pair Classification
● Question Answering
● Sequence Tagging
● ...
Pre-training
- On-the-fly preprocessing
- Various training setting
- Half-Precision training
- Distributed training

LaRva Factory
Pipeline
Benchmark server
1. 매 K Step 마다 Storage server에
체크포인트 업로드
2. Trigger를 통해 Downstream task 전부
돌리기
3. Benchmark Server에 성능 업데이트!
Storage server
x N
Run Fine-tuning
Report
best score

LaRva Factory
Pipeline
Benchmark server
1. 매 K Step 마다 Storage server에
체크포인트 업로드
2. Trigger를 통해 Downstream task 전부
돌리기
3. Benchmark Server에 성능 업데이트!
4. 괜찮은 모델이 나오면…
Submit 준비해보자!!
Storage server
x N
Run Fine-tuning
Report
best score
KorQuAD
괜찮은거
하나
나왔어요~
F1: 94.21

효과적이였던 방법론들!
LaRva+: N-gram masking
https://arxiv.org/pdf/1904.09223.pdf
=> Korean : Space-level(어절) masking

효과적이였던 방법론들!
LaRva-Large: Model size --- LaRva-KOR LARGE
--- LaRva-KOR BASE
--- LaRva-KOR SMALL
--- Multilingual(BASE)

효과적이였던 방법론들!
Fine-tuning: Data Augmentation
https://arxiv.org/pdf/1810.04805.pdf
KorQuAD 형식의
데이터들
(1 Epoch)
KorQuAD v1.0 Train set

효과적이였던 방법론들!
Fine-tuning: Data Augmentation
https://arxiv.org/pdf/1810.04805.pdf
KorQuAD 형식의
데이터들
(1 Epoch)
KorQuAD v1.0 Train set
기존 데이터만 사용대비
F1 기준, 0.5 정도 상승!

효과적이였던 방법론들!
CLaF: Tokenizer
Passage Passage
doc_stride: 64
[UNK]
[UNK]
https://github.com/naver/claf
SentTokenizer
No [UNK]!

효과적이였던 방법론들!
CLaF: Tokenizer
Passage Passage
doc_stride: 64
[UNK]
[UNK]
https://github.com/naver/claf
SentTokenizer
No [UNK]!
F1 기준, 0.5 정도 상승!
(Dev Set - Test Set Gap 감소)

효과적이였던 방법론들!
Fine-tuning: NSML - AutoML
보통 F1 기준, 0.5 ~ 1 정도 상승!

Empfohlen

KorQuAD v2.0 소개LGCNSairesearch

Episodic Memory Reader: Learning What to Remember for Question Answering from...LGCNSairesearch

[saltlux] KorQuAD v1.0 참관기LGCNSairesearch

KorQuAD v1.0 Turn upLGCNSairesearch

On-Device AILGCNSairesearch

NLU Tech Talk with KorBERTLGCNSairesearch

딥러닝 기반의 자연어처리 최근 연구 동향LGCNSairesearch

Textbook Question Answering (TQA) with Multi-modal Context Graph Understandin...LGCNSairesearch

Empfohlen

KorQuAD v2.0 소개LGCNSairesearch

Episodic Memory Reader: Learning What to Remember for Question Answering from...LGCNSairesearch

[saltlux] KorQuAD v1.0 참관기LGCNSairesearch

KorQuAD v1.0 Turn upLGCNSairesearch

On-Device AILGCNSairesearch

NLU Tech Talk with KorBERTLGCNSairesearch

딥러닝 기반의 자연어처리 최근 연구 동향LGCNSairesearch

Textbook Question Answering (TQA) with Multi-modal Context Graph Understandin...LGCNSairesearch

modul pembelajaran robotic Workshop _ by Slidesgo.pptxaleedritatuxx

Multiple time frame trading analysis -brianshannon.pdfchwongval

Predictive Analysis for Loan Default Presentation : Data Analysis Project PPTBoston Institute of Analytics

Real-Time AI Streaming - AI Max PrincetonTimothy Spann

原版1:1定制南十字星大学毕业证（SCU毕业证）#文凭成绩单#真实留信学历认证永久存档208367051

Defining Constituents, Data Vizzes and Telling a Data StoryJeremy Anderson

ASML's Taxonomy Adventure by Daniel Cantervoginip

Data Factory in Microsoft Fabric (MsBIP #82)Cathrine Wilhelmsen

Minimizing AI Hallucinations/Confabulations and the Path towards AGI with Exa...Thomas Poetter

NLP Data Science Project Presentation:Predicting Heart Disease with NLP Data ...Boston Institute of Analytics

Deep Generative Learning for All - The Gen AI Hype (Spring 2024)Universitat Politècnica de Catalunya

April 2024 - NLIT Cloudera Real-Time LLM Streaming 2024Timothy Spann

GA4 Without Cookies [Measure Camp AMS]📊 Markus Baersch

专业一比一美国俄亥俄大学毕业证成绩单pdf电子版制作修改yuu sss

办美国阿肯色大学小石城分校毕业证成绩单pdf电子版制作修改#真实留信入库#永久存档#真实可查#diploma#degreeyuu sss

毕业文凭制作#回国入职#diploma#degree澳洲中央昆士兰大学毕业证成绩单pdf电子版制作修改#毕业文凭制作#回国入职#diploma#degreeyuu sss

How we prevented account sharing with MFAAndrei Kaleshka

Call Us ➥97111√47426🤳Call Girls in Aerocity (Delhi NCR)jennyeacort

detection and classification of knee osteoarthritis.pptxAleenaJamil4

9711147426✨Call In girls Gurgaon Sector 31. SCO 25 escort servicejennyeacort

2024 State of Marketing Report – by HubspotMarius Sescu

Everything You Need To Know About ChatGPTExpeed Software

Weitere ähnliche Inhalte

Kürzlich hochgeladen

modul pembelajaran robotic Workshop _ by Slidesgo.pptxaleedritatuxx

Multiple time frame trading analysis -brianshannon.pdfchwongval

Predictive Analysis for Loan Default Presentation : Data Analysis Project PPTBoston Institute of Analytics

Real-Time AI Streaming - AI Max PrincetonTimothy Spann

原版1:1定制南十字星大学毕业证（SCU毕业证）#文凭成绩单#真实留信学历认证永久存档208367051

Defining Constituents, Data Vizzes and Telling a Data StoryJeremy Anderson

ASML's Taxonomy Adventure by Daniel Cantervoginip

Data Factory in Microsoft Fabric (MsBIP #82)Cathrine Wilhelmsen

Minimizing AI Hallucinations/Confabulations and the Path towards AGI with Exa...Thomas Poetter

NLP Data Science Project Presentation:Predicting Heart Disease with NLP Data ...Boston Institute of Analytics

Deep Generative Learning for All - The Gen AI Hype (Spring 2024)Universitat Politècnica de Catalunya

April 2024 - NLIT Cloudera Real-Time LLM Streaming 2024Timothy Spann

GA4 Without Cookies [Measure Camp AMS]📊 Markus Baersch

专业一比一美国俄亥俄大学毕业证成绩单pdf电子版制作修改yuu sss

办美国阿肯色大学小石城分校毕业证成绩单pdf电子版制作修改#真实留信入库#永久存档#真实可查#diploma#degreeyuu sss

毕业文凭制作#回国入职#diploma#degree澳洲中央昆士兰大学毕业证成绩单pdf电子版制作修改#毕业文凭制作#回国入职#diploma#degreeyuu sss

How we prevented account sharing with MFAAndrei Kaleshka

Call Us ➥97111√47426🤳Call Girls in Aerocity (Delhi NCR)jennyeacort

detection and classification of knee osteoarthritis.pptxAleenaJamil4

9711147426✨Call In girls Gurgaon Sector 31. SCO 25 escort servicejennyeacort

Kürzlich hochgeladen (20)

modul pembelajaran robotic Workshop _ by Slidesgo.pptx

Multiple time frame trading analysis -brianshannon.pdf

Predictive Analysis for Loan Default Presentation : Data Analysis Project PPT

Real-Time AI Streaming - AI Max Princeton

原版1:1定制南十字星大学毕业证（SCU毕业证）#文凭成绩单#真实留信学历认证永久存档

Defining Constituents, Data Vizzes and Telling a Data Story

ASML's Taxonomy Adventure by Daniel Canter

Data Factory in Microsoft Fabric (MsBIP #82)

Minimizing AI Hallucinations/Confabulations and the Path towards AGI with Exa...

NLP Data Science Project Presentation:Predicting Heart Disease with NLP Data ...

Deep Generative Learning for All - The Gen AI Hype (Spring 2024)

April 2024 - NLIT Cloudera Real-Time LLM Streaming 2024

GA4 Without Cookies [Measure Camp AMS]

专业一比一美国俄亥俄大学毕业证成绩单pdf电子版制作修改

办美国阿肯色大学小石城分校毕业证成绩单pdf电子版制作修改#真实留信入库#永久存档#真实可查#diploma#degree

毕业文凭制作#回国入职#diploma#degree澳洲中央昆士兰大学毕业证成绩单pdf电子版制作修改#毕业文凭制作#回国入职#diploma#degree

How we prevented account sharing with MFA

Call Us ➥97111√47426🤳Call Girls in Aerocity (Delhi NCR)

detection and classification of knee osteoarthritis.pptx

9711147426✨Call In girls Gurgaon Sector 31. SCO 25 escort service

Empfohlen

2024 State of Marketing Report – by HubspotMarius Sescu

Everything You Need To Know About ChatGPTExpeed Software

Product Design Trends in 2024 | Teenage EngineeringsPixeldarts

How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow

AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork

Skeleton Culture CodeSkeleton Technologies

PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley

Content Methodology: A Best Practices Report (Webinar)contently

How to Prepare For a Successful Job Search for 2024Albert Qian

Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)

Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal

5 Public speaking tips from TED - Visualized summarySpeakerHub

ChatGPT and the Future of Work - Clark Boyd Clark Boyd

Getting into the tech field. what next Tessa Mero

Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray

How to have difficult conversations Rajiv Jayarajah, MAppComm, ACC

Introduction to Data ScienceChristy Abraham Joy

Time Management & Productivity - Best PracticesVit Horky

The six step guide to practical project managementMindGenius

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36

Empfohlen (20)

2024 State of Marketing Report – by Hubspot

Everything You Need To Know About ChatGPT

Product Design Trends in 2024 | Teenage Engineerings

How Race, Age and Gender Shape Attitudes Towards Mental Health

AI Trends in Creative Operations 2024 by Artwork Flow.pdf

Skeleton Culture Code

PEPSICO Presentation to CAGNY Conference Feb 2024

Content Methodology: A Best Practices Report (Webinar)

How to Prepare For a Successful Job Search for 2024

Social Media Marketing Trends 2024 // The Global Indie Insights

Trends In Paid Search: Navigating The Digital Landscape In 2024

5 Public speaking tips from TED - Visualized summary

ChatGPT and the Future of Work - Clark Boyd

Getting into the tech field. what next

Google's Just Not That Into You: Understanding Core Updates & Search Intent

How to have difficult conversations

Introduction to Data Science

Time Management & Productivity - Best Practices

The six step guide to practical project management

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...

[Naver Clova AI] KorQuAD v1.0 참관기

1. KorQuAD v1.0 참관기 Clova AI LaRva Team

2. Contents 1. LaRva Team 2. 참여하게 된 계기 3. LaRva Factory 4. 효과적이였던 방법론들!

3. LaRva Team 김성동 ● LM 기반 Text 생성 ● LM, Transfer learning ● Dialogue model ● NLU ● Big NLP 모델 학습 ● 분산학습 ● CLaF: Clova Language Framework (ㄱㄴㄷ순) 김한주 김민정 김규완 김성동 이동준

4. 참여하게 된 계기

5. 참여하게 된 계기 Downstream task

6. 참여하게 된 계기 Downstream task Question Answering Tasks!!

7. LaRva Factory Data Collection Build vocab / Preprocessing Downstream task ● Single sentence Classification ● Sentence Pair Classification ● Question Answering ● Sequence Tagging ● ... Pre-training - On-the-fly preprocessing - Various training setting - Half-Precision training - Distributed training

8. LaRva Factory Pipeline Benchmark server 1. 매 K Step 마다 Storage server에 체크포인트 업로드 2. Trigger를 통해 Downstream task 전부 돌리기 3. Benchmark Server에 성능 업데이트! Storage server x N Run Fine-tuning Report best score

9. LaRva Factory Pipeline Benchmark server 1. 매 K Step 마다 Storage server에 체크포인트 업로드 2. Trigger를 통해 Downstream task 전부 돌리기 3. Benchmark Server에 성능 업데이트! 4. 괜찮은 모델이 나오면… Submit 준비해보자!! Storage server x N Run Fine-tuning Report best score KorQuAD 괜찮은거 하나 나왔어요~ F1: 94.21

10. 효과적이였던 방법론들! LaRva+: N-gram masking https://arxiv.org/pdf/1904.09223.pdf => Korean : Space-level(어절) masking

11. 효과적이였던 방법론들! LaRva+: N-gram masking https://arxiv.org/pdf/1904.09223.pdf => Korean : Space-level(어절) masking

12. 효과적이였던 방법론들! LaRva-Large: Model size --- LaRva-KOR LARGE --- LaRva-KOR BASE --- LaRva-KOR SMALL --- Multilingual(BASE)

13. 효과적이였던 방법론들! LaRva-Large: Model size --- LaRva-KOR LARGE --- LaRva-KOR BASE --- LaRva-KOR SMALL --- Multilingual(BASE)

14. 효과적이였던 방법론들! Fine-tuning: Data Augmentation https://arxiv.org/pdf/1810.04805.pdf KorQuAD 형식의 데이터들 (1 Epoch) KorQuAD v1.0 Train set

15. 효과적이였던 방법론들! Fine-tuning: Data Augmentation https://arxiv.org/pdf/1810.04805.pdf KorQuAD 형식의 데이터들 (1 Epoch) KorQuAD v1.0 Train set 기존 데이터만 사용대비 F1 기준, 0.5 정도 상승!

16. 효과적이였던 방법론들! CLaF: Tokenizer Passage Passage doc_stride: 64 [UNK] [UNK] https://github.com/naver/claf SentTokenizer No [UNK]!

17. 효과적이였던 방법론들! CLaF: Tokenizer Passage Passage doc_stride: 64 [UNK] [UNK] https://github.com/naver/claf SentTokenizer No [UNK]! F1 기준, 0.5 정도 상승! (Dev Set - Test Set Gap 감소)

18. 효과적이였던 방법론들! NSML: AutoML

19. 효과적이였던 방법론들! Fine-tuning: NSML - AutoML 보통 F1 기준, 0.5 ~ 1 정도 상승!

20. 감사합니다!