Anzeige
Anzeige

Más contenido relacionado

Más de aitc_jp(20)

Último(20)

Anzeige

2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪

  1. なんちゃって文豪が詠む 万葉和歌 なんちゃって文豪 白川、入江、瀧井(発表順)
  2. 発表内容 1. 講義の復習をやりました。 2. 文章生成へのとりくみ。 3. 文章生成を試みました。 4. 生成する文書(万葉和歌)をお見せします。 5. 感想
  3. 1. 講義の復習をやりました。 実際にやった復習 ・初級編とAutoencoderの復習 ・CNNとRNNの復習 これらの復習の終わりに文章の生成というものがありました。 復習の集大成として何か文章を生成しようということになりました。
  4. 2. 文章生成へのとりくみ 習った文章生成は、漢字があると厳しい。 ⇒ ひらがなばかりものが良い。 ⇒ 百人一首はどうか? ⇒ 百人一首ではサンプルが少ない。 固定長の文の生成なら全結合でできてしまうので、RNNを使うなら不定長が良いとアド バイスをいただいたこともあります。
  5. 2. 文章生成へのとりくみ 万葉集ではどうか? → ネットで調べてみると… [歌番号]01/0001 「こもよ みこもち ふくしもよ みぶくしもち このをかに なつますこ いへきかな のらさね そらみつ やまとのくにはおしなべて われこそをれ しき なべて われこそませ われこそば のらめ いへをもなをも」 [歌番号]01/0003 「やすみしし わがおほきみのあしたには とりなでたまひゆふへには いよりたたしし みとらしの あづさのゆみのなかはずの おとすなり あさ がりに いまたたすらしゆふがりに いまたたすらしみとらしの あづさのゆみのなかはずの おとすなり」 [歌番号]01/0004 「たまきはる うちのおほのにうまなめて あさふますらむそのくさふかの」
  6. 2. 文章生成へのとりくみ ・ひらがなの素材! ・いろんな長さのうたがあって不定長!! ・たくさんサンプルがある!!! ∴ 万葉集をサンプルにしよう!
  7. 3. 文章生成を試みました 万葉集の和歌のサンプルと分類 ● 57577 ○ 『むつきたち はるのきたらば かくしこそ うめををきつつ たのしきをへめ』 ○ 『あらたしき としのはじめの はつはるの けふふるゆきの いやしけよごと』 ● 57577(字足らず・字余り) ○ 『あきののの みくさかりふき やどれりし うぢのみやこの かりいほしおもほゆ』 ○ 『むらさきの いとをぞわがよる あしひきの やまたちばなを ぬかむとおもひて』 ○ 『おしてる なにはほりえの あしへには かりねたるかも しものふらくに』 ● その他 ○ 『みぬさとり みわのはふりが いはふすぎはら たきぎこり ほとほとしくに てをのとらえぬ』 ○ 『おしてる なにはをすぎて うちなびく くさかのやまを ゆふぐれに わがこえくれば やまもせに さけるあしびの あしから ぬ きみをいつしか ゆきてはやみむ』 ○ 『やまとには むらやまあれど とりよろふ あめのかぐやま のぼりたち くにみをすれば くにはらは けぶりたちたつ うな はらは かまめたちたつ うましくにぞ あきづしま やまとのくには』 ○ 『こもよ みこもち ふくしもよ みぶくしもち このをかに なつますこ いへきかな のらさね そらみつ やまとのくには おしな べて われこそをれ しきなべて われこそませ われこそば のらめ いへをもなをも』
  8. 3. 文章生成を試みました 万葉集の和歌の特徴 ● 大半は57577の形式(パターン)で詠まれている ○ 字余り、字足らずも多い ● 577577や、もっと長い和歌もある ○ 最大で1035文字の和歌もあった  ⇒学習用データ ● 仮名、57577などの区切り文字、末尾文字で全71種をID化 ○ オバマ氏のスピーチの学習を参考 ○ 和歌の終了も学習すると期待されるので生成される長さも自動的に決定される
  9. 3. 文章生成を試みました 57577のパターンの学習データ化(オバマ氏のスピーチと大きく異なる点) ● 区切り文字を入れることでパターンを学習できるか? ● 全結合Autoencoderは学習できそう ○ 先頭40文字分の学習データを試すと読み込みエラー ○ 先頭37文字分の学習データでは、パターンは学習できたように見える (57577+区切り文字×4+終端+字余り1=37文字)
  10. 3. 文章生成を試みました 全結合のAutoencoderで学習した結果
  11. 3. 文章生成を試みました 全結合のAutoencoderで学習した結果(偶数行目が生成結果、太字が正答 )
  12. 3. 文章生成を試みました 57577のパターンの学習データ化(オバマ氏のスピーチと大きく異なる点) ● 全結合Autoencoderでは37文字までの和歌しか生成できない ⇒RNNを使いたい ● RNNの場合、学習対象のループの回数を長くすればある程度学習できそう ○ 問題点 ■ 『くもがくり かりなくときは あきやまの』(19文字)は、『くもがくり かりなくときは あきやまの も みち~』なのか、『~つきも くもがくり かりなくときは あきやまのくに』なのか、区別できない ■ 生成時に最初に与える文字数に影響するためあまり長くしたくない ○ ⇒インデックスとセットで学習してみてはどうか
  13. 3. 文章生成を試みました インデックスつきデータ インデックスなしデータ
  14. 3. 文章生成を試みました モデル及び学習条件は下記の 通りです。 <固定>  モデル:LSTM  中間層の次元:100  OneHot:有  Dropout:P=0.5  学習データ件数:5万件  検証データ件数:1万件  Max Epoch:100  Batch Size:32  CPU <試行錯誤ポイント>  入力文字数:5 or 7 or 13  インデックス:無 or 有
  15. 3. 文章生成を試みました モデル① Input:Size=5 OneHot:Shape=89 インデックス:無  
  16. 3. 文章生成を試みました モデル① 学習時間:20分程  
  17. 3. 文章生成を試みました モデル①  
  18. 3. 文章生成を試みました モデル④ Input:Size=5 OneHot1:Shape=89 OneHot2:Shape=40 ※MinimumScalar インデックス:有  
  19. 3. 文章生成を試みました モデル④ 学習時間:27分程  
  20. 3. 文章生成を試みました モデル④  
  21. 4. 生成する文書(万葉和歌)をお見せします。 松
 島
 や
 秋
 の
 宇
 良
 野
 狩
 り の 浦
 の
 宮
 も 見
 え
 つ
 つ
 も
 浅
 か
 り
 ま
 し
 も

  22. 5. 感想 ・PythonやTensorFlowを使ってドヤらなくても機械学習ができるところが良いと思いまし た。一方で、詳細なことができる余地があるのも良いと思いました。ただ、今回の勉強会 では深い所までやれきれず、更に復習が必要と感じました(白川)。 ・LayerをD&Dして繋ぐだけでモデルが出来上がるUIですが、コンポーネントの選択やハ イパーパラメータの調整はやはり慣れや試行錯誤が必要で、期待したような動作をする モデルができるまで苦労しました。試行錯誤はNNCのサポートもありやりやすかったで す(入江)。 ・NNCは、Pythonでのコーディングに比べてモデル構築の試行錯誤がしやすく、スピー ディに開発を進めることができると実感しました。ただし、細部をこだわろうとすると、ハイ パーパラメータや各Layerの知識が必要になるので、難しいと感じました(瀧井)。
  23. ご清聴ありがとうございました
  24. 3. 文章生成を試みました 全結合のAutoencoderで学習した結果 ※偶数行目(背景色あり)が生成結果、正答を太字
Anzeige