Weitere ähnliche Inhalte Ähnlich wie Inspiration through Observation: Demonstrating the Influence of Automatically Generated Text on Creative Writing (20) Inspiration through Observation: Demonstrating the Influence of Automatically Generated Text on Creative Writing1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
DLゼミ
Inspiration through Observation: Demonstrating the
Influence of Automatically Generated Text on
Creative Writing
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
平田航大
2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
2
論文情報
• タイトル
– “Inspiration through Observation: Demonstrating the
Influence of Automatically Generated Text on Creative
Writing”
• 著者
– Melissa Roemmele
• Language Weaver (RWS Group)
• 発表
– International Conferences on Computational Creativity (ICCC)
2021
• 論文URL
– https://roemmele.github.io/publications/human_computer_a
uthoring.pdf
• 実装
– モデルの提案論文ではないため、なし
3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
3
観測によるインスピレーション
• コンピュータによる創作の方向性
1. コンピュータ自身がよい作品を生成
2. 人間の創作を支援 本論文の立場
観測前
“His hair was cropped
short, ….”
自動生成された作品
観測後
4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 自動生成された文を提示することで、創作能
力が増強される可能性を実験的に示した
– 文章生成における Creativity Support Tools (CSTs)
• Creativity の中でも storiability に注目し、
統計的分析により storiability の向上を確認
論文概要 4
※ storiability
• 「一文がどの程度魅力的なストーリー
を連想させるか」で定義
• 物語の質を測る一指標
5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 執筆者のタスク
– 3つの単語(プロンプト)をつなげ、「読み手が
続きを読みたくなるような一文を書く」
という穴埋めタスク
• 前述の storiability を強調した問題文
– 自動生成文を見る前(PRE sentence)、
自動生成文を見た後(POST sentence)
でそれぞれ2文を執筆
実験概要 5
プロンプト:“he town rain” →
“he rode his bike to town in the pouring rain.”
6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 評価者のタスク
– PRE sentence、 POST sentence、
自動生成文(GEN sentence)の3つを状態を伏せ
て提示し、「最も続きを読みたくなるような文」
を選択
• storiability を評価するためのタスク
実験概要 6
Instructions: “imagine
that each sentence is an
excerpt from a story and
pick the one that makes
you most want to read it”
図:実験時のスクリーンショット
(発表スライドより引用)
7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
GEN sentence の生成モデル
• GPT-2 [1]を用いて生成
• データ
– BookCorpus [2] の10,000作品から、
(prompt, sentence) のペアを生成
[1] Language Models are Unsupervised Multitask Learners, Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. and
Sutskever, arXiv, 2018
[2] Kobayashi, S. 2018. Homemade bookcorpus. https://github.com/BIGBALLON/cifar-10-cnn
training validation test
約 34 M 約 900 K 約 900 K
Figure1: 穴埋めモデルの概略図
8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
実験用プロンプトの選択とGEN生成
1. テストデータに前処理をし、約 23K のプロンプトを得る
2. Masked LM (DistilBERT [3]) で尤度的な確率を付与
– プロンプトの3単語が英語らしい並びとなっている確率
3. 2. で付与した確率をもとに、
– トップ 10% の確率がついたプロンプトに
“easy” ラベルを付ける (e.g., his, body, relax)
– 下位 10% の確率がついたプロンプトに
“hard” ラベルを付ける (e.g., peculiar, rob, more)
4. “easy”, “hard” ラベルがついたプロンプトに対し、以下の
条件を満たす GEN 文をそれぞれ5文生成
– プロンプトの語順を維持
– 7語以上50語以下
– 同じ単語の繰り返しがない
– 他の生成文と60%以上の被りがない
– 倫理的観点の問題がない
[3] Sanh, V.; Debut, L.; Chaumond, J.; and Wolf, T. 2019. DistilBERT, a distilled version of BERT: smaller, faster,
cheaper and lighter. arXiv preprint arXiv:1910.01108
9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• PRE ステージ
– “easy” or “hard” ラベルの付いたプロンプトをラン
ダムに表示
– 2文を執筆
実際の実験の流れ 9
10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• POST ステージ
– 自動生成文5文を表示
– 同じプロンプトに対し、2文を執筆
実際の実験の流れ 10
11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 評価フェーズ
– PRE sentence、POST sentence、GEN sentence
の3つの中から最も storiability の高いと感じるも
のを選択
実際の実験の流れ 11
評価フェーズで提示される文の例
12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 106 block の評価付きデータを収集
– 1 block =
PRE sentence 2文
POST sentence 2文
GEN sentence 5文
結果の分析 - 実験の規模 12
1 block のデータ
13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
結果の分析 - 人間作とAI作の比較
• 人間作(PRE, POST) はAI作(GEN) よりも有意に
評価者からの評価が高い (p < 0.05)
– GPT-2 は storiability が高まるように学習していな
いから?
• そのように学習させても、人間作の基準に届かなかった
研究もある [4]
• 以降はAIの介在による、人間の storiability の
変化に注目していく
[4] Lin, B. Y.; Zhou, W.; Shen, M.; Zhou, P.; Bhagavatula, C.; Choi, Y.; and Ren, X. 2020. CommonGen: A constrained
text generation challenge for generative commonsense reasoning. In Findings of the Association for
Computational Linguistics: EMNLP 2020
14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• “hard” ラベルの付いたプロンプトは、単語間
をつなぐためにより多くの単語が必要
• “hard” ラベルの付いたプロンプトはより複雑
なタスクであることが確認できる
結果の分析 – プロンプトの難易度分析 14
15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• POST ステージの方が有意に storiability の高
い文を執筆出来ている (p < 0.05)
– ただし、”hard” ラベルの付いたプロンプトのみ
– “easy” ラベルの付いたプロンプトは有意な差は見
られない
結果の分析 - ステージ間の比較 15
16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 自動生成文と人間作の文で意味的な類似度を算出
– DistillBERT を用いて文をベクトル化
𝑠𝑐𝑜𝑟𝑒 ℎ, 𝑠 = max
𝑔∈𝑔𝑠
𝑠𝑖𝑚(ℎ, 𝑔)
• h: 人間作の文(PRE, POST)
• gs: 対応するプロンプトの GEN 文集合
• sim(x, y): コサイン類似度
• PRE と POST 間で類似度に有意な差がみられる
– 人間が自動生成文に引っ張られるような影響が出てい
ることが確認できる
結果の分析 - 自動生成文が与える影響 16
17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• storiability が高いと評価された文はより GEN
と類似度が高い
– 自動生成文が、より storiability の高い文を書く
ための支援となっている
結果の分析 - 自動生成文が storiability を増強させるか 17
18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• プロンプトと “hair” を絡めるという発想を
GEN sentence から得ていると思われる
定性的な分析 18
プロンプト PRE sentence POST sentence GEN sentence
shoulders
waves
color
My shoulders were
aching but I was set
on diving through
the waves, the
color of the water
getting deeper the
further out I went.
Her new hair cut
had the length to
the shoulders, with
waves of a bright
pink color all the
way down.
His hair was
cropped short,
flowing down his
shoulders, but
there were waves
of the same color.
Table8から引用
19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• プロンプトの難易度で実験結果が変わったの
は意外
– 追加分析で、”easy” プロンプトについても
”hard” プロンプトと同様に、何らかの意味的な影
響を受けていることが分かった
• “easy” プロンプトでは自動生成文が人間の支援になって
いない?
• タスクが簡単すぎて自動生成文から得るものがない?
議論点 19
20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 自動生成された文を観測することで、
storiability の高い文を書くタスクをこなす
能力が増強されていることが確認できた
– 「観測によるインスピレーション」を実験的に示
した形
• 今後は、
– storiability 以外の指標
– 難易度による変化のさらなる分析
などで「観測によるインスピレーション」
をさらに検証
まとめ 20