Vortrag gehalten auf der Heise M3 NLP Konferenz am 9.11.2021. https://www.m3-konferenz.de/nlp.php#programm
Notebook auf Github: https://github.com/jsalbr/m3nlp
Die richtige Antwort finden mit Question Answering
1. Die richtige Antwort finden mit
Question
Answering
Prof. Dr. Jens Albrecht
Technische Hochschule Nürnberg
https://www.m3-konferenz.de/nlp.php#programm
2. M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 3
Fragen über Fragen
Was ist der
Umsatz von
Amazon?
Welche Sprache
spricht man in
Afghanistan?
Was ist der Unterschied
zwischen Tensorflow und
PyTorch?
Was nervt beim
neuen iPhone?
Wer kann mir bei
Depressionen helfen?
Warum taugt die
Kamera nichts?
3. M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 4
Suche vs. Question Answering
Wenige Schlagworte
Viele Ergebnisse
4. M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 5
Suche vs. Question Answering
Spezifische Frage
Spezifische Antwort
5. M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 6
Suche vs. Question Answering
Spezifische Frage
Spezifische Antwort
https://www.kryptowissen.de/enigma.html#:~:text=Im%20Jahre%201940%20kam%20der,die%20%22Turing-Bombe%22.
6. M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 7
Closed-Domain Question Answering
› Eng abgegrenztes Gebiet
(z.B. IT-Support)
› Alternativ: Nur spezifische
Fragetypen
› Häufig über wissensbasierte
Systeme mit strukturierter
Datenbank (Ontologie,
Knowledge Graph) realisiert Strukturierte
Datenbasis
Konvertierung
in DB-Abfrage
Antwort-
generierung
Frage
Antwort
Immer korrekt
7. M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 8
Open-Domain Question Answering
› Beliebige Fragen in beliebigem Kontext
› Beantwortung mit Hilfe unstrukturierter
Text-Dokumente
› Nutzung von Transformer-Modellen für
das Textverständnis (Machine Reading
Comprehension)
Sammlung
unstrukturierter
Textdaten
"NLP Magic"
Frage
Antwort
Extraktive QA-Systeme
› Input: Text (Kontext) + Frage
› Output: Span = Beginn und Ende der
Antwort im Text
8. M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 9
Transfer Learning für QA
Pretrained
Base
Model
Classification
Model
Lots of text
from the Web
Classification
Data
Task: Language
Modeling
für spezifisches Problem werden
spezifische Daten benötigt
QA
Model
QA
Training Data
SQuAD: 150.000 QA-pairs
SQuAD liefert vielfach gute
Ergebnisse
Better QA
Model
Additional QA
Training Data
MLQA: 5k QA-pairs each
for 7 languages
9. M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 10
SQuAD 2.0 (Stanford Question Answering Dataset)
https://rajpurkar.github.io/SQuAD-explorer/
SQuAD 2.0 enthält Kontrollfragen,
die zwar zum Kontext passen, aber
nicht allein mit dem Text
beantwortbar sind
10. M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 11
MLQA: Multi-Lingual Question Answering
https://github.com/facebookresearch/MLQA
11. M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 12
SQuAD 2.0 Leaderboard
EM (Exact Match)
› Binäre Metrik mit EM=1, wenn
Span von Ground Truth exakt
vorhergesagt, 0 sonst
F1 Score
› Harmonisches Mittel zwischen
Precision und Recall
› Berechnet anhand der
Übereinstimmung der Wörter in
Antwort und Ground Truth
https://rajpurkar.github.io/SQuAD-explorer/
12. M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 13
SQuAD 2.0 Leaderboard
https://paperswithcode.com/sota/question-answering-on-squad20
13. M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 14
Antwort-Extraktion
Teilaufgaben:
› Tokenisierung
› Span-Klassifikation
› Umgang mit langen
Texten (länger als
Modell erlaubt)
https://mccormickml.com/2020/03/10/question-answering-with-a-fine-tuned-BERT/
14. M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 17
Retriever – Reader - Modell
15. M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 18
Retriever-Reader
Question
top k
retrieved
contexts
Lots of
unstructured
text documents
Retriever
sparse or dense
Document
Store
search
relevant
docs
Reader
Bert & Co
Answer(s)
Zhu, e.a. (2021): Retrieving and Reading: A Comprehensive Survey on Open-domain Question Answering.
https://arxiv.org/abs/2101.00774
Karpukhin, e.a. (2020): Dense Passage Retrieval for Open-Domain Question Answering.
https://arxiv.org/abs/2004.04906
16. M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 20
Zusammenfassung und Ausblick
17. M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 21
Wofür lässt sich mit QA nutzen?
› Information-Retrieval++
› Aspekt-basierte Analysen
» Analyse der Antworten mit WordClouds, Topic Modeling, Clustering
› Unterstützung im Customer Support
› Chatbots (z.B. gefüttert mit FAQ-Dokumenten)
› Iterative Frage-Szenarien:
» Welche Firmen bauen Solar-Anlagen?
» Dann für jede Firma: Welche Technologie wird eingesetzt?
18. M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 22
Challenges: Long-form QA
Current QA challenges
• Q: What’s the nearest restaurant?
• Q: What is the largest lake in the world?
• Q: What time is it in Tokyo right now?
Long-form QA challenges
• Q: Why are some restaurants better than
others if they serve basically the same food?
• Q: What are the differences between bodies
of water like lakes, rivers, and seas?
• Q: Why do we feel more jet lagged when
traveling east?
https://ai.facebook.com/blog/longform-qa/
Erfordert einen ganzen
Absatz als Antwort!
Extraktiv
Extraktion eines
langen Spans
Abstraktiv
Generierung einer
synthetischen Antwort
19. M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 23
Weiterführende Links
› Natural Language Processing with Transformers, O'Reilly, März 2022, Ch. 4
https://www.oreilly.com/library/view/natural-language-processing/9781098103231/
› Schöne visuelle Einführung:
https://mccormickml.com/2020/03/10/question-answering-with-a-fine-tuned-BERT/
› Ausführlicher Überblick über aktuelle Ansätze:
https://lilianweng.github.io/lil-log/2020/10/29/open-domain-question-answering.html
› Details zu SQuAD: https://rajpurkar.github.io/mlx/qa-and-squad/
› Details zu German QuAD: https://www.deepset.ai/blog/enabling-german-neural-search-announcing-
germanquad-and-germandpr
› Zhu, e.a. (2021): Retrieving and Reading: A Comprehensive Survey on Open-domain Question Answering,
https://arxiv.org/abs/2101.00774
20. M3 NLP: Question Answering
Prof. Dr. Jens Albrecht, TH Nürnberg 24
Fragen?
Kontakt: jens.albrecht@th-nuernberg.de