11. 評価軸
• Factoid
• incorrect / not supported / not exact / locally correct / globally correct
• List
• Each instance was evaluated in the same manner as the factoid questions,
• Let S be the number of such answers, D be the number of distinct globally correct
answers returned by the system, and N be the total number of instances returned
by the system.
Then IP = D/N and IR = D/S.
• S: |complete list of known distinct globally correct answers|
• Other / Definition
15. SemRep
• NLMが開発している、MEDLINE処理用NLPツール
• 英語の一文から意味的な記述を抽出
• UMLSを領域固有知識として利用し、そこで用いられている述語を利用
• 例: 入力文
We used hemofiltration to treat a patient with digoxin overdose that was complicated by
refractory hyperkalemia.
• 出力データ
Hemofiltration-TREATS-Patients
Digoxin overdose-PROCESS_OF-Patients
hyperkalemia-COMPLICATES-Digoxin overdose
Hemofiltration-TREATS(INFER)-Digoxin overdose
16. UMLSの構造概観
Event Entity MeSH
15
Anatomy, Organisms, Diseases, etc.
MeSH
114 2 MeSH
UMLS Semantic Net
Disease or Syndrome
Pathologic Function Tissue
Experimental Model
of Disease
Cardiovascular Diseases
Vascular Diseases
Raynaud Disease
associated with
isa
isa
produces
conceptually related to
brings about
functionally related to
23. OntoNLQAの二つの意義
1. 予め質問対象のオントロジーに関する知識が不要
it improves on the disadvantages of existing biomedical data retrieval
systems.A major limitation is that scientists using these systems require an
understanding of the ontology structure in order to quickly formulate
queries.
2. 自然言語による質問を受ける
motivation derives from the fact that a capability to pose questions in plain
language is a natural way of obtaining answers.
24. 重要語の同定と認識
• 同定手法: Conditional Random Field (CRF)
• CRFに用いる特徴量:
• 単語を構成する大文字/小文字、数字、記号の有無など
• 前後の単語、オントロジーに含まれる語との類似度など
• オントロジーとのマッチ: ISUB
• Case (1): 一つだけマッチ → それを認識語とする。
• Case (2): 複数マッチ → 文脈を考える。
質問分中の他の認識語とのオントロジーにおける近さなど。
• Case (3): 何もマッチしない → インスタンスを探す。rdf:typeの主語など。
25. 質問文中の概念間の関係抽出
認識された語の間の関係は、lowest common ancestor (LCA)
を用いたオントロジー内でのパスを見つけることで実現
• five prime forward regions
• proteome analysis
• spectral value > 40 and spectral value < 50
下記の概念間の関係をPEOから抽出した例
28. AskCuebeeの利用するデータベース
• 下記の手持ち及び公共データをトリプルストアに格納
• Gene knockout: data on DNA cloning steps required to generate gene knockout
plasmids
• Strain creation: data on creation of gene knockout strains inT. cruzi by
transfection of parasites with gene knockout plasmids
• Microarray: data on genome relative transcript abundances for the life-cycle
stages of T. cruzi
• Proteome: data on protein identification based on peptide spectra retrieved from
T. cruzi’s life-cycle stages
• TriTrypDB and KEGG
29. 評価
• T. cruzi (Trypanosoma cruzi*)の研究者が学習用に125、テスト用に40
の質問それぞれ2セットを用意
• 当該研究者が日頃持つ疑問を網羅
• 例:What are the metabolic pathways related to protein group 271 for
the orthologous genes with spectral score below 2.0?
• それらについて、各コンポーネントについての評価と全体の評価、
更にはエラー訂正など人為的な介入を行った上での評価を実施
• CRFの評価については学習用125質問を5群に分けて交差検証を実施
* 毛虫類キネトプラスト類トリパノソーマ属に属する原虫
32. 困難な質問例
1. Find all gene knockout targets in amastigote stage that have
orthologs in Leishmania but not inT. brucei
2. Give the strain summaries for all amastigote genes that have a
standard deviation less than 1.5 of the log2 ratio
3. Show proteins that are downregulated in the epimastigote stage
and exist in a single metabolic pathway
34. 参考文献
UCSB (University of California Santa Barbara) のヤン先生の資料
http://www.cs.ucsb.edu/~tyang/
東大の中川先生の資料
http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/infoDB/ir-esti.ppt
TREC16 QA trackに関する文献
http://trec.nist.gov/pubs/trec16/papers/QA.OVERVIEW16.pdf
BMC Bioinformatics. 2015 Jan 16;16:6. doi: 10.1186/s12859-014-0365-3.
Biomedical question answering using semantic relations.
Hristovski D1, Dinevski D2, Kastrin A3, Rindflesch TC4.
J Biomed Inform. 2003 Dec;36(6):462-77.
The interaction of domain knowledge and linguistic structure in natural language
processing: interpreting hypernymic propositions in biomedical text.
Rindflesch TC1, Fiszman M.
Hirschman L, Gaizauskas R: Natural language question answering: the view from here.
Nat Lang Eng 2002, 7:275–300.
J Biomed Semantics. 2015 Jul 17;6:31. doi: 10.1186/s13326-015-0029-x. eCollection 2015.
A framework for ontology-based question answering with application to parasite immunology.
Asiaee AH1, Minning T2, Doshi P1, Tarleton RL2.