Anzeige
Anzeige

Más contenido relacionado

Similar a 形態素解析を用いた帝国議会議事速記録の変遷に関する研究(20)

Más de harmonylab(18)

Anzeige

Último(20)

形態素解析を用いた帝国議会議事速記録の変遷に関する研究

  1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 形態素解析を用いた帝国議会 議事速記録の変遷に関する研究 北海道大学 工学部 情報エレクトロニクス学科 情報理工学コース 複雑系工学講座 調和系工学研究室 学部4年 北野勇太
  2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2 研究背景 • 帝国議会議事速記録 – 帝国議会の議事録 • 57年にわたって蓄積 • 国の意思決定をたどる重要な資料 – 会話形式の議事録 • 話した内容がそのまま記録 • 当時話されていた言葉を研究する資料 • 分析例 – 教科書無償化の審議過程[1] – 東北地方出身議員の可能表現の使い方[2] [1] 伊藤孝行. “『帝国議会衆議院議事速記録』 に於ける東北地方出身議員の可能表現について.” (2002): 145-146. [2] 大島隆太郎. "第 56 帝国議会 (1929 年) における 「国定教科書官給法案 (衆法)」 の審議過程: 昭和初期における小学 校教科書の無償化の論点と議会制度の影響." 東京大学大学院教育学研究科教育行政学論叢= The journal of educational administration, Graduate School of Education, the University of Tokyo 39 (2019): 99-113.
  3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 研究背景 • 調査対象が限定的 – テキスト化が完了していない • 光学文字認識プログラムNDLOCR – 分析の自動化がされていない • テキストデータに対する分析 – 対象となる表現の抽出 ⇒大きな負担 – 抽出結果に対する考察
  4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 研究目的 • 帝国議会議事速記録における抽出の自動化 • 当時国が注目していたものの変遷 – 会議のメイントピック抽出 • 日本語の使い方の変遷 – 日本語表現の自動抽出
  5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 帝国議会議事速記録 • 近代日本の国会の記録 – 貴族院・衆議院の記録 – 期間:1890年から1947年の57年間 – 議長の署名が必要な正式な記録 – 議事の発言が逐語的に記録 – 一般的な議事録とは異なる 第1回帝国議会 衆議院 奉答文に関する件 (明治23年11月29日) https://teikokugikai- i.ndl.go.jp/#/detailPDF?minId=000113158X000 18901129&page=1&current=137
  6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 帝国議会議事速記録 • データの公開状況 – 本会議, 委員会 • 帝国議会会議録検索システム(Web)にて公開 – 戦前期(明治23年11月~昭和20年8月) » 24,894件・画像データのみ – 戦後期(昭和20年 9月~昭和22年3月) » 1,249件・画像データ+テキストデータ – 秘密会:非公開の会議 • 『帝国議会衆議院秘密会議事速記録集』など書籍で 入手可能 • 北海道大学 伊藤孝行先生(日本語学)により 秘密会31件/89件のテキスト化が完了 – 書籍の見開き画像をスキャナにより撮影・テキスト化
  7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 関連研究 • 議事録におけるトピック抽出 – TF-IDFをベースにした指標による抽出[1] – 変動係数による抽出[2] • 日本語表現の自動抽出 – 形に注目した可能動詞の自動抽出[3] – 共起パターンを利用した評価表現抽出[4] • TF-IDFを利用した話題抽出 • 文型に注目した日本語表現抽出 [1]高丸; 内田; 木村. 地方政治コーパスにおける都道府県議会会議録パネルデータの基礎分析. 宇都宮共和大学 シ ティライフ学論叢, 2017, 18: 136-155. [2]岩見麻子, et al. 公共事業計画策定過程の議事録分析のための変動係数を用いた対象語選定手法の開発. 環境情 報科学論文集, 2011, 0: 55-60. [3] 小木曽智信. 近代語テキストからの可能動詞の抽出--「太陽コーパス」 を例に. 明海日本語, 2002, 7: 125-135. [4] 小林のぞみ, et al. 意見抽出のための評価表現の収集. 自然言語処理, 2005, 12.3: 203-222.
  8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 発表内容 • 会議の話題に対する自動タグ付け • 可能表現の自動抽出
  9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 発表内容 • 会議の話題に対する自動タグ付け • 可能表現の自動抽出
  10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 話題タグ • トピック抽出に関する研究 – TF-IDFを用いた記事に対するタグ付け[1][2] • 記事のTF-IDF上位単語をタグとして付与 • TF-IDFの上位単語を利用した会議への タグ付与 [1] BROOKS, Christopher H.; MONTANEZ, Nancy. Improved annotation of the blogosphere via autotagging and hierarchical clustering. In: Proceedings of the 15th international conference on World Wide Web. 2006. p. 625-632. [2] 岩下志乃; 中島佑介. 自動タグ付けによるニュースサイト記事の分類と検索手法. In: 日本知能情報ファジィ学 会 ファジィ システム シンポジウム 講演論文集 第 25 回ファジィ システム シンポジウム. 日本知能情報ファジィ 学会, 2009. p. 77-77.
  11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 話題タグの定義 • 明治憲法下の省を元にタグを設定 – 議会で話されるのは国の統治に必要な要素 省名 役割 外務省 外交 内務省 警察・地方行政 大蔵省 財政・金融 陸軍省・海軍省 陸軍・海軍 司法省 刑務所の管理・司法行政 文部省 教育・学術・文化政策 農商務省 産業行政 逓信省(ていしん) 通信・郵便 表1 明治憲法下での省庁
  12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 話題タグの定義 • タグの組み合わせでメイントピックを表現 – 軍事予算の話なら「軍事」「財政」 タグ名 対象となる話題 軍事 軍事関連 外交 条約・国際事件など 財政 予算・賠償金などのお金関連 法案 法律・憲法についての検討 事件 何かしらの事件(国内外は問わない) 行政 地方行政など 議会 議会の進行に関すること 表2 各タグの定義
  13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 話題タグの自動付与 タグの自動付与手順 1. 各会議を1文書としfugashi[1]による 形態素解析を適用(旧仮名口語Unidic使用) 2. 各会議に出現する名詞を抽出 3. 単語のグループ化を行う 同ジャンルの単語をすべて同じ単語に置き換え 4. TF-IDFを計算 5. 上位N名詞にグループ化した単語が出現した 場合該当するタグを付与 [1] McCann, P.: fugashi, a Tool for Tokenizing Japanese in Python, 2020.
  14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 話題タグの自動付与 • 同ジャンルの単語は多く出現するが 個々の出現頻度は低い – 話題に関連する単語をグループ化して出現頻度を 高くする – TF-IDF上位N名詞に置き換えた単語が出現したら タグを付与する 出現単語 軍備 艦船 師団 陸軍 大蔵 予算 取引 収入 委員 会議 出現単語 軍事 軍事 軍事 軍事 財政 財政 財政 財政 委員 会議
  15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 話題タグの自動付与 話題タグ グループ化対象単語 軍事 「軍」「兵」「艦」「戦」を含む単語 「師団」「要塞」「防備」 外交 「亜米利加」「支那」「朝鮮」「露西亜」「仏蘭西」「独逸」 「満州」「条約」「同盟」「外務」 財政 「円」「予算」「収入」「支出」「大蔵」「取引」 法案 名詞+「法」、「法案」 事件 「警察」「事件」 行政 「行政」「地方」 議会 「秘密会」「延期」「投票」 表3 各タグのグループ化対象単語
  16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 実験1 • 目的 – TF-IDFによる話題タグ付けの閾値(上位N名詞)を 定める – 提案手法により人間の付けた タグとどの程度近くなるか検証 • 対象:秘密会31会議 • 正解データ:手作業で付与 – メディアコミュニケーション研究院 伊藤孝行先生に助力いただいた • N=3, 10, 30に対しF1スコアでの評価 話題タグ 付与された 会議数 軍事 13 外交 7 財政 9 法案 4 事件 11 行政 3 議会 2 表3 タグの付与数
  17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 結果・考察 N 正解率 適合率 再現率 F1スコア 3 0.871 0.839 0.531 0.65 10 0.871 0.698 0.755 0.725 30 0.779 0.506 0.796 0.619 表4 N=3, 10, 30に対する自動付与精度 タグ 正解率 適合率 再現率 F1スコア 軍事 0.871 0.765 1.000 0.867 外交 0.742 0.462 0.857 0.600 財政 0.936 0.889 0.889 0.889 法案 0.903 1.000 0.250 0.400 事件 0.839 0.875 0.636 0.737 行政 0.839 0.000 0.000 0.000 議会 0.968 0.667 1.000 0.800 表4-2 N=10に対するタグの自動付与精度
  18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 結果・考察 • 軍事・財政:頻出する単語が予想しやすい ⇒結果が良い • 事件:頻出する語が会議ごとに異なる • 外交:国名や地名 • 適切なグループ化により、一部話題に対して 自動でのタグ付けが可能 – グループ化対象となる単語の選定が重要
  19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 発表内容 • 会議の話題に対する自動タグ付け • 可能表現の自動抽出
  20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 議論で使われる表現 • 程度表現[1] – 現実の程度量 • 非常に、かなり、やや など – 実現の程度量 • きっと、たぶん、おおかた など – 時間的程度量 • いつも、ときどき、たまに など • 可能表現[2] – 連体形+コト+助詞+「出来ル」 • 「読むことができる」など – 可能動詞 • 「読める」など ⇒議会の場で変化したという仮説がある可能表現に注目 [1] 織田揮準, 日本語の程度量表現用語に関する研究, 教育心理学研究 18.3 (1970): 166-176. [2] 伊藤孝行,『帝国議会衆議院議事速記録』 に於ける東北地方出身議員の可能表現について,國語學 53(4), pp.145-146,2002
  21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 可能表現の形 大きく分けて7つの区分[1] ①「出来る」に関する区分 1-1. 連体形+こと+助詞+「出来る」 • 走ることが出来る 1-2. 名詞+助詞+「出来る」 • 解読が出来る 1-3. 名詞+「出来る」 • 解読出来る ②得る – 例:解読し得る ③れる・られる – 例:この料理は食べられる量である – 意味判別に文脈情報が必要 [1] 伊藤孝行,『帝国議会衆議院議事速記録』 に於ける東北地方出身議員の可能表現について,國語學 53(4), pp.145-146,2002
  22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 22 可能表現の形 ④可能動詞 – 五段活用動詞を下一段活用に変化させたもの – 例:「読める」「走れる」 ⑤能フ – 例:了解し能はざる ⑥ナラヌ – 例:公務のために欠席することはならぬ ⑦重複型 – 複数の可能表現が重なってできたもの – 例:議長限で出来得べきでない
  23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 23 可能表現の自動抽出 • 抽出手法 – 文脈情報から抽出 – 文型から抽出 • 文型に注目 – 品詞の組み合わせによる区分が存在 – 機械学習の可能表現に関するデータ不足 – 文脈情報が必要な可能表現は全体の10%程度
  24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 24 可能表現の自動抽出 • 可能表現の形と対応する品詞の 組み合わせルールを作成 – 再現率重視ルール • 可能表現をすべて抽出できる • 可能表現でないものが多く混ざる – 縮小ルール • すべての可能表現は抽出できない • 抽出したものが可能表現である可能性が高い
  25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 25 自動抽出ルール 再現率重視ルール ①動詞「出来る」 ②動詞「得る」 ③助動詞「れる」「られる」 ④終止形がエ段+「る」で終わる動詞 ⑤動詞「能ふ」 ⑥「なる」+「ぬ」 ⑦動詞「兼ねる」 – 区分には存在しないが会議録中に可能表現として出現
  26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 26 自動抽出ルール 縮小ルール ①・動詞+「こと」+助詞1個以上+(副詞)+「出来る」 ・名詞+助詞1個以上+(副詞)+「出来る」 ・名詞+「出来る」 ② 五段活用動詞 かつ 終止形が「エ段+る」で終わる動詞 ③「能ふ」 ④「こと」+助詞+「ならぬ」 ⑤ 動詞+「得る」 ⑥ 動詞「兼ねる」 – 区分には存在しないが本文中に可能表現として出現 • 「れる・られる」の判別は文脈情報が必要 – このルールでは対象外とする
  27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 27 漸く 十二 年 迄 に 補充 が 出来る の で あり ます 可能表現の抽出手順 1. 対象の文書にfugashi[1]による形態素解析を 適用(旧仮名口語unidic使用) 2. ルールに合致する品詞の組がある場合、 それを可能表現として抽出 名詞+助詞+「出来る」の抽出例 名詞 助詞 出来る 可能表現 [1] McCann, P.: fugashi, a Tool for Tokenizing Japanese in Python, 2020.
  28. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 28 実験2 • 目的 – 可能表現の自動抽出の精度検証 • 対象:秘密会1会議(全23015字) – 第四十五回帝国議会衆議院予算委員第四分科会 陸軍の軍備に付て • 発言数:71 • 発言者:7人 • 正解データ:可能表現全86個 – 北海道大学 伊藤孝行先生(日本語学)に助力いただいた • 正解判定:抽出部分と正解部分が1文字以上 重なっている
  29. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 29 実験結果 再現率重視ルール ルール 抽出数 適合率 再現率 F1スコア 動詞「出来る」 70 0.771 0.628 0.692 動詞「得る」 37 0.454 0.174 0.244 助動詞「れる」「られ る」 104 0.087 0.105 0.095 終止形がエ段+「る」で 終わる動詞 211 0.047 0.116 0.067 動詞「能ふ」 0 - - - 「なる」+「ぬ」 46 0.022 0.012 0.015 動詞「兼ねる」 4 0.750 0.035 0.067 表5-2 再現率重視ルールにおける各ルールの抽出精度 抽出数 適合率 再現率 F1スコア 466 0.185 1.000 0.312 表5-1 再現率重視ルールの抽出結果
  30. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 30 実験結果 縮小ルール ルール 抽出数 適合率 再現率 F1スコア 動詞+「こと」+助詞1個以上+(副詞)+「出来る」 18 0.833 0.174 0.288 名詞+助詞1個以上+(副詞)+「出来る」 62 0.774 0.558 0.649 名詞+「出来る」 2 1.000 0.023 0.045 五段活用動詞 かつ 終止形が「エ段+る」で 終わる動詞 19 0.316 0.070 0.114 「能ふ」 0 - - - 「こと」+助詞+「ならぬ」 0 - - - 動詞+「得る」 16 0.938 0.174 0.294 動詞「兼ねる」 4 0.750 0.035 0.067 表6-1 縮小ルールの抽出精度 抽出数 適合率 再現率 F1スコア 104 0.673 0.814 0.737 表6-2 縮小ルールの各ルールにおける抽出精度
  31. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 31 考察 • 「ならぬ」:両ルールとも抽出で低い精度 • 可能表現の11.7%は抽出に文脈情報が必要 – 「れる・られる」:10.5% – 「ならぬ」 : 1.2% • 縮小ルール:可能表現全体の81.4%を抽出 – 「れる・られる」「ならぬ」の抽出 ルール 抽出数 適合率 再現率 F1スコア 適合率重視ルール 46 0.022 0.012 0.015 縮小ルール 0 - - - 表7 「ならぬ」の抽出精度
  32. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 32 まとめ • 帝国議会議事速記録に対し2つの観点からの 分析手法を提案した – 同ジャンルの単語のグループ化により、 各会議の話題にタグ付けが可能であることを確認 – 品詞の組み合わせマッチングにより、 81.4%の可能表現の抽出が出来ることを確認 – 可能表現の11.7%は文脈情報が必要

Hinweis der Redaktion

  1. 特徴:方言、変遷:昔の対話形式議事録
  2. 95%以上が画像データ
  3. 変遷を見るための第一段階としての抽出
  4. 軍に関する話をしていても複数の用語が出現するためTF-IDF上位にわかりにくい 同ジャンルの単語:
  5. 軍事、財政、事件
  6. 軍事、財政、事件
  7. 変化例:○○はならぬという可能表現は「出来る」に置き換わっていった 変遷を見るための抽出
  8. ならぬ:「ことは/がならぬ」の形が可能
  9. しっかり決まった区分があるので文型
  10. 文型ベースでは形態素でとる以上の範囲縮小が出来ない
  11. 23015字:A4の紙にびっしり書いて18枚くらい
  12. 助動詞意味分類 CRF(条件付き確率場)で行われている AのB 枝分かれ同時確率モデル
Anzeige