Die richtige Antwort finden mit
Question
Answering
Prof. Dr. Jens Albrecht
Technische Hochschule Nürnberg
https://www.m3-konferenz.de/nlp.php#programm
M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 3
Fragen über Fragen
Was ist der
Umsatz von
Amazon?
Welche Sprache
spricht man in
Afghanistan?
Was ist der Unterschied
zwischen Tensorflow und
PyTorch?
Was nervt beim
neuen iPhone?
Wer kann mir bei
Depressionen helfen?
Warum taugt die
Kamera nichts?
M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 4
Suche vs. Question Answering
Wenige Schlagworte
Viele Ergebnisse
M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 5
Suche vs. Question Answering
Spezifische Frage
Spezifische Antwort
M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 6
Suche vs. Question Answering
Spezifische Frage
Spezifische Antwort
https://www.kryptowissen.de/enigma.html#:~:text=Im%20Jahre%201940%20kam%20der,die%20%22Turing-Bombe%22.
M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 7
Closed-Domain Question Answering
› Eng abgegrenztes Gebiet
(z.B. IT-Support)
› Alternativ: Nur spezifische
Fragetypen
› Häufig über wissensbasierte
Systeme mit strukturierter
Datenbank (Ontologie,
Knowledge Graph) realisiert Strukturierte
Datenbasis
Konvertierung
in DB-Abfrage
Antwort-
generierung
Frage
Antwort
Immer korrekt
M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 8
Open-Domain Question Answering
› Beliebige Fragen in beliebigem Kontext
› Beantwortung mit Hilfe unstrukturierter
Text-Dokumente
› Nutzung von Transformer-Modellen für
das Textverständnis (Machine Reading
Comprehension)
Sammlung
unstrukturierter
Textdaten
"NLP Magic"
Frage
Antwort
Extraktive QA-Systeme
› Input: Text (Kontext) + Frage
› Output: Span = Beginn und Ende der
Antwort im Text
M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 9
Transfer Learning für QA
Pretrained
Base
Model
Classification
Model
Lots of text
from the Web
Classification
Data
Task: Language
Modeling
für spezifisches Problem werden
spezifische Daten benötigt
QA
Model
QA
Training Data
SQuAD: 150.000 QA-pairs
SQuAD liefert vielfach gute
Ergebnisse
Better QA
Model
Additional QA
Training Data
MLQA: 5k QA-pairs each
for 7 languages
M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 10
SQuAD 2.0 (Stanford Question Answering Dataset)
https://rajpurkar.github.io/SQuAD-explorer/
SQuAD 2.0 enthält Kontrollfragen,
die zwar zum Kontext passen, aber
nicht allein mit dem Text
beantwortbar sind
M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 11
MLQA: Multi-Lingual Question Answering
https://github.com/facebookresearch/MLQA
M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 12
SQuAD 2.0 Leaderboard
EM (Exact Match)
› Binäre Metrik mit EM=1, wenn
Span von Ground Truth exakt
vorhergesagt, 0 sonst
F1 Score
› Harmonisches Mittel zwischen
Precision und Recall
› Berechnet anhand der
Übereinstimmung der Wörter in
Antwort und Ground Truth
https://rajpurkar.github.io/SQuAD-explorer/
M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 13
SQuAD 2.0 Leaderboard
https://paperswithcode.com/sota/question-answering-on-squad20
M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 14
Antwort-Extraktion
Teilaufgaben:
› Tokenisierung
› Span-Klassifikation
› Umgang mit langen
Texten (länger als
Modell erlaubt)
https://mccormickml.com/2020/03/10/question-answering-with-a-fine-tuned-BERT/
M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 17
Retriever – Reader - Modell
M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 18
Retriever-Reader
Question
top k
retrieved
contexts
Lots of
unstructured
text documents
Retriever
sparse or dense
Document
Store
search
relevant
docs
Reader
Bert & Co
Answer(s)
Zhu, e.a. (2021): Retrieving and Reading: A Comprehensive Survey on Open-domain Question Answering.
https://arxiv.org/abs/2101.00774
Karpukhin, e.a. (2020): Dense Passage Retrieval for Open-Domain Question Answering.
https://arxiv.org/abs/2004.04906
M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 20
Zusammenfassung und Ausblick
M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 21
Wofür lässt sich mit QA nutzen?
› Information-Retrieval++
› Aspekt-basierte Analysen
» Analyse der Antworten mit WordClouds, Topic Modeling, Clustering
› Unterstützung im Customer Support
› Chatbots (z.B. gefüttert mit FAQ-Dokumenten)
› Iterative Frage-Szenarien:
» Welche Firmen bauen Solar-Anlagen?
» Dann für jede Firma: Welche Technologie wird eingesetzt?
M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 22
Challenges: Long-form QA
Current QA challenges
• Q: What’s the nearest restaurant?
• Q: What is the largest lake in the world?
• Q: What time is it in Tokyo right now?
Long-form QA challenges
• Q: Why are some restaurants better than
others if they serve basically the same food?
• Q: What are the differences between bodies
of water like lakes, rivers, and seas?
• Q: Why do we feel more jet lagged when
traveling east?
https://ai.facebook.com/blog/longform-qa/
Erfordert einen ganzen
Absatz als Antwort!
Extraktiv
Extraktion eines
langen Spans
Abstraktiv
Generierung einer
synthetischen Antwort
M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 23
Weiterführende Links
› Natural Language Processing with Transformers, O'Reilly, März 2022, Ch. 4
https://www.oreilly.com/library/view/natural-language-processing/9781098103231/
› Schöne visuelle Einführung:
https://mccormickml.com/2020/03/10/question-answering-with-a-fine-tuned-BERT/
› Ausführlicher Überblick über aktuelle Ansätze:
https://lilianweng.github.io/lil-log/2020/10/29/open-domain-question-answering.html
› Details zu SQuAD: https://rajpurkar.github.io/mlx/qa-and-squad/
› Details zu German QuAD: https://www.deepset.ai/blog/enabling-german-neural-search-announcing-
germanquad-and-germandpr
› Zhu, e.a. (2021): Retrieving and Reading: A Comprehensive Survey on Open-domain Question Answering,
https://arxiv.org/abs/2101.00774
M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 24
Fragen?
Kontakt: jens.albrecht@th-nuernberg.de

Die richtige Antwort finden mit Question Answering

  • 1.
    Die richtige Antwortfinden mit Question Answering Prof. Dr. Jens Albrecht Technische Hochschule Nürnberg https://www.m3-konferenz.de/nlp.php#programm
  • 2.
    M3 NLP: QuestionAnswering Prof. Dr. Jens Albrecht, TH Nürnberg 3 Fragen über Fragen Was ist der Umsatz von Amazon? Welche Sprache spricht man in Afghanistan? Was ist der Unterschied zwischen Tensorflow und PyTorch? Was nervt beim neuen iPhone? Wer kann mir bei Depressionen helfen? Warum taugt die Kamera nichts?
  • 3.
    M3 NLP: QuestionAnswering Prof. Dr. Jens Albrecht, TH Nürnberg 4 Suche vs. Question Answering Wenige Schlagworte Viele Ergebnisse
  • 4.
    M3 NLP: QuestionAnswering Prof. Dr. Jens Albrecht, TH Nürnberg 5 Suche vs. Question Answering Spezifische Frage Spezifische Antwort
  • 5.
    M3 NLP: QuestionAnswering Prof. Dr. Jens Albrecht, TH Nürnberg 6 Suche vs. Question Answering Spezifische Frage Spezifische Antwort https://www.kryptowissen.de/enigma.html#:~:text=Im%20Jahre%201940%20kam%20der,die%20%22Turing-Bombe%22.
  • 6.
    M3 NLP: QuestionAnswering Prof. Dr. Jens Albrecht, TH Nürnberg 7 Closed-Domain Question Answering › Eng abgegrenztes Gebiet (z.B. IT-Support) › Alternativ: Nur spezifische Fragetypen › Häufig über wissensbasierte Systeme mit strukturierter Datenbank (Ontologie, Knowledge Graph) realisiert Strukturierte Datenbasis Konvertierung in DB-Abfrage Antwort- generierung Frage Antwort Immer korrekt
  • 7.
    M3 NLP: QuestionAnswering Prof. Dr. Jens Albrecht, TH Nürnberg 8 Open-Domain Question Answering › Beliebige Fragen in beliebigem Kontext › Beantwortung mit Hilfe unstrukturierter Text-Dokumente › Nutzung von Transformer-Modellen für das Textverständnis (Machine Reading Comprehension) Sammlung unstrukturierter Textdaten "NLP Magic" Frage Antwort Extraktive QA-Systeme › Input: Text (Kontext) + Frage › Output: Span = Beginn und Ende der Antwort im Text
  • 8.
    M3 NLP: QuestionAnswering Prof. Dr. Jens Albrecht, TH Nürnberg 9 Transfer Learning für QA Pretrained Base Model Classification Model Lots of text from the Web Classification Data Task: Language Modeling für spezifisches Problem werden spezifische Daten benötigt QA Model QA Training Data SQuAD: 150.000 QA-pairs SQuAD liefert vielfach gute Ergebnisse Better QA Model Additional QA Training Data MLQA: 5k QA-pairs each for 7 languages
  • 9.
    M3 NLP: QuestionAnswering Prof. Dr. Jens Albrecht, TH Nürnberg 10 SQuAD 2.0 (Stanford Question Answering Dataset) https://rajpurkar.github.io/SQuAD-explorer/ SQuAD 2.0 enthält Kontrollfragen, die zwar zum Kontext passen, aber nicht allein mit dem Text beantwortbar sind
  • 10.
    M3 NLP: QuestionAnswering Prof. Dr. Jens Albrecht, TH Nürnberg 11 MLQA: Multi-Lingual Question Answering https://github.com/facebookresearch/MLQA
  • 11.
    M3 NLP: QuestionAnswering Prof. Dr. Jens Albrecht, TH Nürnberg 12 SQuAD 2.0 Leaderboard EM (Exact Match) › Binäre Metrik mit EM=1, wenn Span von Ground Truth exakt vorhergesagt, 0 sonst F1 Score › Harmonisches Mittel zwischen Precision und Recall › Berechnet anhand der Übereinstimmung der Wörter in Antwort und Ground Truth https://rajpurkar.github.io/SQuAD-explorer/
  • 12.
    M3 NLP: QuestionAnswering Prof. Dr. Jens Albrecht, TH Nürnberg 13 SQuAD 2.0 Leaderboard https://paperswithcode.com/sota/question-answering-on-squad20
  • 13.
    M3 NLP: QuestionAnswering Prof. Dr. Jens Albrecht, TH Nürnberg 14 Antwort-Extraktion Teilaufgaben: › Tokenisierung › Span-Klassifikation › Umgang mit langen Texten (länger als Modell erlaubt) https://mccormickml.com/2020/03/10/question-answering-with-a-fine-tuned-BERT/
  • 14.
    M3 NLP: QuestionAnswering Prof. Dr. Jens Albrecht, TH Nürnberg 17 Retriever – Reader - Modell
  • 15.
    M3 NLP: QuestionAnswering Prof. Dr. Jens Albrecht, TH Nürnberg 18 Retriever-Reader Question top k retrieved contexts Lots of unstructured text documents Retriever sparse or dense Document Store search relevant docs Reader Bert & Co Answer(s) Zhu, e.a. (2021): Retrieving and Reading: A Comprehensive Survey on Open-domain Question Answering. https://arxiv.org/abs/2101.00774 Karpukhin, e.a. (2020): Dense Passage Retrieval for Open-Domain Question Answering. https://arxiv.org/abs/2004.04906
  • 16.
    M3 NLP: QuestionAnswering Prof. Dr. Jens Albrecht, TH Nürnberg 20 Zusammenfassung und Ausblick
  • 17.
    M3 NLP: QuestionAnswering Prof. Dr. Jens Albrecht, TH Nürnberg 21 Wofür lässt sich mit QA nutzen? › Information-Retrieval++ › Aspekt-basierte Analysen » Analyse der Antworten mit WordClouds, Topic Modeling, Clustering › Unterstützung im Customer Support › Chatbots (z.B. gefüttert mit FAQ-Dokumenten) › Iterative Frage-Szenarien: » Welche Firmen bauen Solar-Anlagen? » Dann für jede Firma: Welche Technologie wird eingesetzt?
  • 18.
    M3 NLP: QuestionAnswering Prof. Dr. Jens Albrecht, TH Nürnberg 22 Challenges: Long-form QA Current QA challenges • Q: What’s the nearest restaurant? • Q: What is the largest lake in the world? • Q: What time is it in Tokyo right now? Long-form QA challenges • Q: Why are some restaurants better than others if they serve basically the same food? • Q: What are the differences between bodies of water like lakes, rivers, and seas? • Q: Why do we feel more jet lagged when traveling east? https://ai.facebook.com/blog/longform-qa/ Erfordert einen ganzen Absatz als Antwort! Extraktiv Extraktion eines langen Spans Abstraktiv Generierung einer synthetischen Antwort
  • 19.
    M3 NLP: QuestionAnswering Prof. Dr. Jens Albrecht, TH Nürnberg 23 Weiterführende Links › Natural Language Processing with Transformers, O'Reilly, März 2022, Ch. 4 https://www.oreilly.com/library/view/natural-language-processing/9781098103231/ › Schöne visuelle Einführung: https://mccormickml.com/2020/03/10/question-answering-with-a-fine-tuned-BERT/ › Ausführlicher Überblick über aktuelle Ansätze: https://lilianweng.github.io/lil-log/2020/10/29/open-domain-question-answering.html › Details zu SQuAD: https://rajpurkar.github.io/mlx/qa-and-squad/ › Details zu German QuAD: https://www.deepset.ai/blog/enabling-german-neural-search-announcing- germanquad-and-germandpr › Zhu, e.a. (2021): Retrieving and Reading: A Comprehensive Survey on Open-domain Question Answering, https://arxiv.org/abs/2101.00774
  • 20.
    M3 NLP: QuestionAnswering Prof. Dr. Jens Albrecht, TH Nürnberg 24 Fragen? Kontakt: jens.albrecht@th-nuernberg.de