Recursively Summarizing Books with Human Feedback

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
北海道大学大学院情報科学院情報理工学部門
複合情報工学分野調和系工学研究室
2021年10月27日(水) 博士2年吉田拓海
論文紹介ゼミ
Recursively Summarizing Books
with Human Feedback

1
論文情報
• 著者
– Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan
Lowe, Jan Leike, Paul Christiano
• OpenAI
• 発表
– arxiv
• 概要
– 書籍の abstractive な要約
• タスクの分解
• 人間のフィードバックを使用した強化学習
• 論文URL
– https://arxiv.org/abs/2109.10862

2
概要（手法）

3
概要（要約例）
https://openai.com/blog/summarizing-books/ (access 2021-10-25)
アリスはウサギの穴に落ち、不思議なボトルを飲んで巨大化してしまう。アリスは元の
大きさに戻すことに専念し、庭への道を探すことにする。そこで、あおむしに出会い、
きのこの片面を食べると背が高くなり、反対側を食べると背が低くなることを教えても
らう。アリスはキノコを食べて元の大きさに戻る。アリスはマッドハッターと三月ウサ
ギと一緒にパーティーに参加する。そこへ女王様がやってきて、バラの花を間違えた庭
師たちの処刑を命じる。アリスはバラを植木鉢に入れて救う。ハートの王様と女王様が
裁判をしている。女王は怒って、アリスに死刑を宣告する。アリスが目を覚ますと、傍
らには妹がいた。（DeepL翻訳）

4
Introduction
研究背景
• MLモデルの学習には行動の良悪を表す training signal が必要
– 一部のタスク(ゲームなど)では自動的に計算可能
– 多くのタスクでは人間がループの中で提供する必要あり
• 人間による監督，評価が困難なタスクにおいては，効果的な
training signal を生成するためのスケーラブルな手法が必要
– 監督，評価が困難：評価に時間や専門的な知識を要する
– 測定しやすい代理目標は実際の目標との不一致が課題
本稿でのアプローチ
• 書籍全体の要約の生成
– タスクの分解
– 人間のフィードバックからの学習

5
Related works
大規模タスク
• 本研究は大規模なタスクで人間のフィードバックを用いた強化
学習に関する基礎を築いた論文[1]に直接触発
• タスク分解は iterated amplification[2] の特定のインスタンス
• 再帰的報酬モデリング[3]の一形態
• 本稿の貢献はこれらのアプローチが困難で大規模なタスクに
現実的に適用可能なことを示すこと
人間のフィードバックによってモデルをfinetune
• 近年増えている
– 要約，会話，翻訳，意味解析，ストーリー生成，レビュー生成，
エビデンス抽出，シミュレーション環境におけるエージェント
• リファレンスは省略
[1] Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., and Amodei, D. (2017). Deep reinforcement learning from human
preferences. In Advances in Neural Information Processing Systems, pages 4299–4307.
[2] Christiano, P., Shlegeris, B., and Amodei, D. (2018). Supervising strong learners by amplifying weak experts. arXiv preprint
arXiv:1810.08575.
[3] Leike, J., Krueger, D., Everitt, T., Martic, M., Maini, V., and Legg, S. (2018). Scalable agent alignment via reward modeling: a
research direction. arXiv preprint arXiv:1811.07871.

6
Related works
小説などの長編フィクションの要約（比較的少ない）
• グラフベースの手法で映画の脚本を要約[1]
• CliffsNotesから収集した書籍の要約データセット[2]
• 小説の章を抽出的に要約[3]
• 物語の部分的な要約，物語のキャラクターの説明を生成[4]
• 物語の設定とキャラクターに関する情報を生成する抽出法[5]
• 書籍と人間が書いた要約を合わせる教師なし手法[6]
• [2]のデータセットを拡張しニューラルベースラインを評価[7]
– 本研究と同時期
[1] Gorinski, P. and Lapata, M. (2015). Movie script summarization as graph-based scene extraction. In Proceedings of the 2015
Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages
1066–1076.
[2] Mihalcea, R. and Ceylan, H. (2007). Explorations in automatic book summarization. In Proceedings of the 2007 joint conference on
empirical methods in natural language processing and computational natural language learning (EMNLP-CoNLL), pages 380–389.
[3] Ladhak, F., Li, B., Al-Onaizan, Y., and McKeown, K. (2020). Exploring content selection in summarization of novel chapters. arXiv
preprint arXiv:2005.01840.
[4] Zhang, W., Cheung, J. C. K., and Oren, J. (2019b). Generating character descriptions for automatic summarization of fiction. In
Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 7476–7483.
[5] Kazantseva, A. (2006). An approach to summarizing short stories. In Student Research Workshop.
[6] Bamman, D. and Smith, N. A. (2013). New alignment methods for discriminative book summarization. arXiv preprint
arXiv:1305.1319.
[7] Krysci ´ nski, W., Rajani, N., Agarwal, D., Xiong, C., and Radev, D. (2021). Booksum: A collection of ´ datasets for long-form
narrative summarization. arXiv preprint arXiv:2105.08209.

7
Related works
科学論文など他の種類の長文文書の要約（たくさんある）
• 階層的なエンコーダ[1,2,3]
• 抽出的な要約をした後に抽象的な要約[4,5,6,7]
– タスク分解の一形態
難しいタスクを複数のサブタスクに分解（NLP）
• 物語のプロンプトを生成，プロンプトを条件とした物語生成[8]
• 低レベルタスクのモデルで人間の高レベルタスクを支援[9]
[1] Cohan, A., Dernoncourt, F., Kim, D. S., Bui, T., Kim, S., Chang, W., and Goharian, N. (2018). A discourse-aware attention model
for abstractive summarization of long documents. arXiv preprint arXiv:1804.05685.
[2] Zhang, X., Wei, F., and Zhou, M. (2019c). Hibert: Document level pre-training of hierarchical bidirectional transformers for
document summarization. arXiv preprint arXiv:1905.06566.
[3] Liu, Y. and Lapata, M. (2019a). Hierarchical transformers for multi-document summarization. arXiv preprint arXiv:1905.13164.
[4] Subramanian, S., Li, R., Pilault, J., and Pal, C. (2019). On extractive and abstractive neural document summarization with
transformer language models. arXiv preprint arXiv:1909.03186.
[5] Liu, P. J., Saleh, M., Pot, E., Goodrich, B., Sepassi, R., Kaiser, L., and Shazeer, N. (2018). Generating wikipedia by summarizing
long sequences. arXiv preprint arXiv:1801.10198.
[6] Zhao, Y., Saleh, M., and Liu, P. J. (2020). Seal: Segment-wise extractive-abstractive long-form text summarization. arXiv preprint
arXiv:2006.10213.
[7] Gharebagh, S. S., Cohan, A., and Goharian, N. (2020). Guir@ longsumm 2020: Learning to generate long summaries from
scientific documents. In Proceedings of the First Workshop on Scholarly Document Processing, pages 356–361.
[8] Fan, A., Lewis, M., and Dauphin, Y. (2018). Hierarchical neural story generation. arXiv preprint arXiv:1805.04833.
[9] Fan, A., Piktus, A., Petroni, F., Wenzek, G., Saeidi, M., Vlachos, A., Bordes, A., and Riedel, S. (2020). Generating fact checking
briefs. arXiv preprint arXiv:2011.05448.

8
Approach
タスクの分解 Task Decomposition
• 親タスクをより単純なサブタスクに分解
• このタスク分解プロセスは再帰的に適用
– 分解が可能ならどんなタスクでも再帰的な手順で実行可能
– natural task がどの程度分解に適しているかは未解決の問題
図：一般的なタスク分解の疑似コード
• decompose_if_needed
• 分解が不要：Respond() を返す
• 分解が必要：Decompose(subtask) を返す
• answer_directory
• taskの回答を返す

9
Approach
書籍要約のための分解 Decomposition for book summarization
• テキストが十分に短ければ要約，長ければテキストを分割
図：基本的な書籍要約の分解の疑似コード
（以前の要約をコンテキストとして入力に使用しないver）

10
Approach
書籍要約のための分解 Decomposition for book summarization
leaf node の入力は約600token
Height=1では10~13の要約(各最大128token)を連結
各書籍は平均して約200のleaf nodeと約20のHeithg=1のnodeに分割される．
treeは通常，高さ3，稀に高さ4以上までいく
用語
first subtree:
図中のオレンジ色の木
first leaves:
first subtree の
leaf node

11
Approach
Training
• Stiennon et al. (2020) の手順に近い方法を採用
– pretrained language model と人間のラベラーを用意
– ラベラーからデモを収集し，Behavioral Cloning でモデルを訓練
– 報酬学習と強化学習を何度も繰り返し
• ラベラーからフィードバック（比較データ）を収集しながら
• アルゴリズム
– 書籍をタスクに分解
– tree から学習したい要約タスクに対応するノードをサンプリング
– ノードへの入力から訓練データを得る
• ラベラーに希望の要約を書かせる（デモ）
• モデルから得られる2つの要約を比較させる（比較データ）
– 訓練データを使ってモデルを finetune
• デモはBehavioral Cloning(BC) に使用
• 比較データは強化学習(RL)に使用

12
報酬モデルと要約ポリシーの学習について
先行研究[1]の論文から引用
[1] Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., and Christiano, P.
(2020). Learning to summarize from human feedback. arXiv preprint arXiv:2009.01325.

13
Approach
Auto-induced distributional shift (ADS)
• 各モデルは別のモデルが生成した入力で学習されるため
自身が生成した入力は学習分布から外れる
– tree の上位でより深刻
• この厳しさを体系的には測定してない
Training curriculum
• ADSのためにtreeの初期/下位のノードでの訓練を優先
first leaves の要約が
十分に良いと判断された場合
に first subtree に移行
…
同様にして tree 全体に移行

14
Approach
• モデルはGPT-3
– take 2048 tokens of context
– アーキテクチャやハイパーパラメータの選択は[1]に従う
Behavioral cloning and reward modeling
• データ収集
– first leaves : すべての first leaves のデータをまとめて収集
– first subtree : height 1 task のデータを独立して収集
– full tree : ランダムに depth を抽出，ランダムに task を選択
• 学習時には，過去の全てのデータを使用

15
Approach
Reinforcement learning
• カリキュラムの変更に応じて3つのバリエーション
– （first leaves）連続した葉のタスクを連続して学習．
– （first subtree）葉のタスクを連続して学習し，続いてそのサン
プリングされた出力を用いて合成タスク(height=1)を学習
– （full tree）ランダムなdepth=dを選びその深さにあるノードを
選択．N個の連続したdepth=d+1のタスクとそれらのN個の出力
を用いた単一のdepth=dの合成タスクを学習．
Advantages of decomposition
• 人間のフィードバックの収集が容易
• MLモデルのタスクも簡単
• タスクの一部を人間が実行したり評価できる
• デバッグが容易
• 学習データセット中の書籍の長さに関わらずテスト時に
無制限の長さの書籍に対応可能

16
Approach
➀Fixed chunking algorithmによって書籍のテキストを分割
➁各chunkを要約した人間のデモを収集
➂デモを使用してBCでMLモデルを訓練
④異なるモデルの出力を比較する人間の比較データを収集
⑤比較データを使用して報酬モデル，要約ポリシーを訓練
⑥Height=0 の要約を連結し，連結した要約を要約するための
データを収集し，この要約タスク(Height=1)でモデルをfinetune
（書籍全体を要約するまで再帰的に繰り返し）

17
Task details
Training dataset
• GPT-3の学習データに使用された書籍のサブセットを使用
– 書籍は主にフィクション
• 物語性があるフィクションを選んだ理由は要約が困難と考えたから
（後に得られた質的調査結果(Appendix J) でも支持される）
• ラベラーには物語以外はスキップするように指示
– 平均 100K words
Summarization task
• 抽象的な要約を目的
• 評価には事前学習や書籍データセットにもないデータを使用
– ラベラーは 1~7 のリッカート尺度で全体的な要約の質を評価
• 各要約のサブタスク
– 5~10倍の圧縮を目標とし，長さの上限は128~384 tokens

18
Results
Full book human evaluations
• 2020年に出版された最も人気のある40冊の本を使用
• 2人のラベラーに書籍を読ませ，要約を書かせる
• 各ラベラーはモデルの要約ともう一人のラベラーの要約を評価
– モデルの要約の相対的な質のラベラーの合意は約80%
• 比較するモデル
– サイズ：175B, 6B
– 学習方法：tree全体でRL，first subtreeでRL，tree全体でBC
first subtree
最初のHeight=1のタスクと
そのHeight=0の子タスク

19
Results
SL: 恐らくSupervised Learning，つまりBC
デモを使用した
教師有学習のみ
（tree全体からデータ収集）
BC + ラベラーによる要約の
比較を使用した強化学習
（tree全体からデータ収集）
人が作成した要約
BC + ラベラーによる要約の
比較を使用した強化学習
（first subtreeからデータ収集）

20
Results
175Bのbest modelによる要約には
人間レベルの品質に近いものが存在
(5%以上が6/7，15％以上が5/7)
ただし，平均すると
modelの要約は人間に著しく劣る

21
Results
first subtree のみでの学習は
full tree での学習と同等の効果

22
Results
175B modelでは
RLはBCを大幅に上回る
6B model ではその改善幅は小さい

23
Results
BookSum results
• BookSum[1]データセットでモデルを評価
• 比較するモデル
– BertExt[2] (best extractive model)
– T5[3] (best abstractive model)
– extractive oracle
• 参照要約を使用して最高のスコアに繋がる文を抽出
• 評価指標 ([1]とほぼ同様)
– ROUGE[4]
– BERTScore[5]
[1] Krysci´nski, W., Rajani, N., Agarwal, D., Xiong, C., and Radev, D. (2021). Booksum: A collection of datasets for long-form
narrative summarization. arXiv preprint arXiv:2105.08209.
[2] Liu, Y. and Lapata, M. (2019b). Text summarization with pretrained encoders. arXiv preprint arXiv:1908.08345.
[3] Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., and Liu, P. J. (2019). Exploring the
limits of transfer learning with a unified text-to-text transformer. arXiv preprint arXiv:1910.10683.
[4] Lin, C.-Y. and Och, F. J. (2004). Automatic evaluation of machine translation quality using longest common subsequence and
skip-bigram statistics. In Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics, page 605.
Association for Computational Linguistics.
[5] Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., and Artzi, Y. (2019a). Bertscore: Evaluating text generation with bert.
arXiv preprint arXiv:1904.09675.

24
Results
BookSum results
• 175B model
– ROUGE で oracle 以外に 3~4points 勝っている
– BERTScore は oracle 含む全てものモデルに勝っている
• BERTScoreは長い要約のスコアが低くなりがち[1]
– それを考慮しても今回の結論に大きな影響はない
• BookSumと事前学習データセットの重複は排除できない
– tree を手動で確認した結果，事前学習の記憶になっていなかった
[1] Krysci ´ nski, W., Rajani, N., Agarwal, D., Xiong, C., and Radev, D. (2021). Booksum: A collection of ´
datasets for long-form narrative summarization. arXiv preprint arXiv:2105.08209.

25
Results
Human label efficiency of RL vs. BC
• 要約比較でRLと高品質なデモでBCのどちらが良いかは未解決
– RL model は BC model より多くのデータで学習
– 先行研究[1]の結果
• RLによってBCよりも要約の品質が大幅に向上，
人間が書いた要約(参照要約)よりも優れていた
• 参照要約はRedditのTL;DRからスクレイピングされたもので
原文の要約として不十分であり，同数の高品質なデモを収集した
場合との比較にはなっていない
• 6B model の BC をデータ数を変えて(¼, ½, all)学習
• ¼ と ½ の BC model をRLで学習
• ここでは，書籍全体の要約ではなくfirst leafの要約で評価

26
Results
Human label efficiency of RL vs. BC
• データ数 5k~10k では RL は BC と同程度の効率
• データ数 10k~20k では RL は BC よりはるかに効率的
• RL用の比較データは BC用のデモの3倍の速さで収集された
比較データによるRL はデモデータによるBC よりも効率的

27
Appendix E: Human timing
ラベラーの作業にかかる時間について
First leaves
• 経験的に，比較はデモの2倍の速さ（読取時間を無視）
– 読取時間を含めると約40%速い
– だいたい読み取りに2.5分，デモが4分，比較に1.5分と推定
• 読取時間がコストの大部分を占める
– 比較は一度に3つの要約の比較をさせるので読取時間を節約
End-to-end baseline estimates
• ラベラーが1冊の書籍を読むのに平均12時間以上，要約を書く
のに1時間以上かかる（分解された要約タスクの50倍以上）
• 本稿の実験にかかった時間（10万件のデモと比較の収集）
を使えば最大2,000冊のデモを収集可能
• 1冊で複数の要約を書けば，読書時間を大きく削減可能
– ただ，実際にはなかなか難しいと考えた
• End-to-Endで書籍の要約については，今後の研究に期待

28
Limitations
提案モデルによる書籍の要約はまとまりに欠ける
• モデルによる要約は人間が書くようなまとまりのある要約
というより本の中の出来事のリスト
• tree のトップレベルの要約タスクでの RL の round を増やせば
この問題は解決できそうだが，tree の上の方での RL は難しい
タスクの分解が根本的に制限となる可能性
• タスクの分解は各タスクが独立して完了可能なことを前提
• 分解の手順を学習させることでこの問題を軽減できるかも
• どんなタスクが分解に適しているかの決定は未解決な問題
treeの上位タスクの訓練は難しい
• 下位レベルのエラーは上位タスクでの大きなエラーに繋がる
• カリキュラムの選択が重要になる可能性有り
– 本稿はカリキュラムとノードサンプル戦略をその場しのぎで選択
• full tree での訓練が上手くいかない件の詳細な調査は今後の課題

29
Open questions
学習関連
• より良いカリキュラムはあるのか？
• RLをよりオンポリシーに行う方が良い？
• 要約tree をon the flyで生成する方が良い？
• [1]のように報酬モデルをオンラインで訓練する方が良い？等
人間のフィードバックを使用した学習
• 二値比較以外のより効率的な方法はないか？
• expert iteration[2] 等の他の手法はより効率的？
他のタスクへの拡張
• 本手法が他のタスクにどのように拡張されるか？
• 固定の分解手法ではなくタスク分解モデルを学習することは
現実世界の難しいタスクに対して実現可能か？等
[1] Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., Christiano, P., and Irving, G. (2019). Fine-tuning language
models from human preferences. arXiv preprint arXiv:1909.08593.
[2] Anthony, T., Tian, Z., and Barber, D. (2017). Thinking fast and slow with deep learning and tree search. arXiv preprint arXiv:1705.08439.

30
Broader impacts
先行研究と同様
• 本研究は報酬モデリングに関する先行研究[1,2]を拡張したモノ
– 詳細は[2]の議論を参照
[2]から再掲するポイント
• ラベラーが強化する “良い” 行動の定義には注意が必要
• モデルを何にあるいは誰に合わせるべきか
書籍の自動要約について
• 本稿のモデルの要約は多くの間違いを含む
• 高い要約精度が必要とされる環境では展開するべきではない
[1] Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., Christiano, P., and Irving, G. (2019).
Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593.

31
まとめ
• 書籍の abstractive な要約
– 本稿のアプローチ
• タスクの分解
• 人間のフィードバックからの学習
– 要約のデモデータから教師付き学習を行うよりも
要約の比較データから強化学習を行う方が効率的
– 要約固有の手法を提案したが
本稿のアプローチ自体はあらゆるタスクに適用可能

32
参考（評価に使用した書籍）

33
参考（生成例 1/2 モデルの評価=2.0）

34
参考（生成例 2/2 モデルの評価=6.0）

35
参考 Appendix J.1: Limitations observed by labelers/researchers
ラベラーから報告されたモデルの要約の問題点
• 登場人物間でモデルが混乱し，行動の帰属を誤ることが多い
– 代名詞の間違いや長い対話によって悪化し
要約を連結することによっても悪化する可能性あり
• 重要な情報を選ぶことができない
– 物語の ”本質” が多くの要約に欠けている
• 例：「A Promised Land」でオバマ大統領の就任について言及しない
– ユニークな空想的・特殊的な要素を持つ書籍では
世界を構築する重要な詳細を統合することができない
• SFやファンタジーを要約するのは特に困難
• 特定の出来事を要約できない
– 登場人物の精神状態や作者の意図
– イベントの長い連鎖を１つのまとまったものに要約
• etc

36
参考 Appendix J.2: Preexisting knowledge
モデルは事前学習で得た知識を活用
• スターウォーズの世界ではアナキン・スカイウォーカーの娘が
レイアであることは文章中では言及されてないにも関わらず
モデルが利用
• 評価の対象となった「The Ballad of Songbirds and Snakes」は
既刊の三部作「Hunger Games」の前日談だが，前日談には登
場しない本編三部作のキャラクターを誤って言及
• バイリンガルテキストを翻訳
– “The woman at my mother‘s side reach out to touch her-vas a
estar bien, she told her before turning to walk back to her car. “
を”The woman accompanying them tells his mother she’ll be ok. “
と要約
• このことを確認するために，ハリーポッターの登場人物の名前
を置き換えたバージョンを要約
– ヴォルデモートが別の名前になってるのにも関わらず
“you-know-who”（例のあの人）をヴォルデモートと翻訳

Recursively Summarizing Books with Human Feedback

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Recursively Summarizing Books with Human Feedback

Ähnlich wie Recursively Summarizing Books with Human Feedback (20)

Mehr von harmonylab

Mehr von harmonylab (18)

Kürzlich hochgeladen

Kürzlich hochgeladen (8)

Recursively Summarizing Books with Human Feedback