SlideShare ist ein Scribd-Unternehmen logo
1 von 37
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
北海道大学大学院 情報科学院 情報理工学部門
複合情報工学分野 調和系工学研究室
2021年10月27日(水) 博士2年 吉田 拓海
論文紹介ゼミ
Recursively Summarizing Books
with Human Feedback
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
1
論文情報
• 著者
– Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan
Lowe, Jan Leike, Paul Christiano
• OpenAI
• 発表
– arxiv
• 概要
– 書籍の abstractive な要約
• タスクの分解
• 人間のフィードバックを使用した強化学習
• 論文URL
– https://arxiv.org/abs/2109.10862
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2
概要(手法)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
概要(要約例)
https://openai.com/blog/summarizing-books/ (access 2021-10-25)
アリスはウサギの穴に落ち、不思議なボトルを飲んで巨大化してしまう。アリスは元の
大きさに戻すことに専念し、庭への道を探すことにする。そこで、あおむしに出会い、
きのこの片面を食べると背が高くなり、反対側を食べると背が低くなることを教えても
らう。アリスはキノコを食べて元の大きさに戻る。アリスはマッドハッターと三月ウサ
ギと一緒にパーティーに参加する。そこへ女王様がやってきて、バラの花を間違えた庭
師たちの処刑を命じる。アリスはバラを植木鉢に入れて救う。ハートの王様と女王様が
裁判をしている。女王は怒って、アリスに死刑を宣告する。アリスが目を覚ますと、傍
らには妹がいた。(DeepL翻訳)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
Introduction
研究背景
• MLモデルの学習には行動の良悪を表す training signal が必要
– 一部のタスク(ゲームなど)では自動的に計算可能
– 多くのタスクでは人間がループの中で提供する必要あり
• 人間による監督,評価が困難なタスクにおいては,効果的な
training signal を生成するためのスケーラブルな手法が必要
– 監督,評価が困難:評価に時間や専門的な知識を要する
– 測定しやすい代理目標は実際の目標との不一致が課題
本稿でのアプローチ
• 書籍全体の要約の生成
– タスクの分解
– 人間のフィードバックからの学習
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
Related works
大規模タスク
• 本研究は大規模なタスクで人間のフィードバックを用いた強化
学習に関する基礎を築いた論文[1]に直接触発
• タスク分解は iterated amplification[2] の特定のインスタンス
• 再帰的報酬モデリング[3]の一形態
• 本稿の貢献はこれらのアプローチが困難で大規模なタスクに
現実的に適用可能なことを示すこと
人間のフィードバックによってモデルをfinetune
• 近年増えている
– 要約,会話,翻訳,意味解析,ストーリー生成,レビュー生成,
エビデンス抽出,シミュレーション環境におけるエージェント
• リファレンスは省略
[1] Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., and Amodei, D. (2017). Deep reinforcement learning from human
preferences. In Advances in Neural Information Processing Systems, pages 4299–4307.
[2] Christiano, P., Shlegeris, B., and Amodei, D. (2018). Supervising strong learners by amplifying weak experts. arXiv preprint
arXiv:1810.08575.
[3] Leike, J., Krueger, D., Everitt, T., Martic, M., Maini, V., and Legg, S. (2018). Scalable agent alignment via reward modeling: a
research direction. arXiv preprint arXiv:1811.07871.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
Related works
小説などの長編フィクションの要約(比較的少ない)
• グラフベースの手法で映画の脚本を要約[1]
• CliffsNotesから収集した書籍の要約データセット[2]
• 小説の章を抽出的に要約[3]
• 物語の部分的な要約,物語のキャラクターの説明を生成[4]
• 物語の設定とキャラクターに関する情報を生成する抽出法[5]
• 書籍と人間が書いた要約を合わせる教師なし手法[6]
• [2]のデータセットを拡張しニューラルベースラインを評価[7]
– 本研究と同時期
[1] Gorinski, P. and Lapata, M. (2015). Movie script summarization as graph-based scene extraction. In Proceedings of the 2015
Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages
1066–1076.
[2] Mihalcea, R. and Ceylan, H. (2007). Explorations in automatic book summarization. In Proceedings of the 2007 joint conference on
empirical methods in natural language processing and computational natural language learning (EMNLP-CoNLL), pages 380–389.
[3] Ladhak, F., Li, B., Al-Onaizan, Y., and McKeown, K. (2020). Exploring content selection in summarization of novel chapters. arXiv
preprint arXiv:2005.01840.
[4] Zhang, W., Cheung, J. C. K., and Oren, J. (2019b). Generating character descriptions for automatic summarization of fiction. In
Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 7476–7483.
[5] Kazantseva, A. (2006). An approach to summarizing short stories. In Student Research Workshop.
[6] Bamman, D. and Smith, N. A. (2013). New alignment methods for discriminative book summarization. arXiv preprint
arXiv:1305.1319.
[7] Krysci ´ nski, W., Rajani, N., Agarwal, D., Xiong, C., and Radev, D. (2021). Booksum: A collection of ´ datasets for long-form
narrative summarization. arXiv preprint arXiv:2105.08209.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
Related works
科学論文など他の種類の長文文書の要約(たくさんある)
• 階層的なエンコーダ[1,2,3]
• 抽出的な要約をした後に抽象的な要約[4,5,6,7]
– タスク分解の一形態
難しいタスクを複数のサブタスクに分解(NLP)
• 物語のプロンプトを生成,プロンプトを条件とした物語生成[8]
• 低レベルタスクのモデルで人間の高レベルタスクを支援[9]
[1] Cohan, A., Dernoncourt, F., Kim, D. S., Bui, T., Kim, S., Chang, W., and Goharian, N. (2018). A discourse-aware attention model
for abstractive summarization of long documents. arXiv preprint arXiv:1804.05685.
[2] Zhang, X., Wei, F., and Zhou, M. (2019c). Hibert: Document level pre-training of hierarchical bidirectional transformers for
document summarization. arXiv preprint arXiv:1905.06566.
[3] Liu, Y. and Lapata, M. (2019a). Hierarchical transformers for multi-document summarization. arXiv preprint arXiv:1905.13164.
[4] Subramanian, S., Li, R., Pilault, J., and Pal, C. (2019). On extractive and abstractive neural document summarization with
transformer language models. arXiv preprint arXiv:1909.03186.
[5] Liu, P. J., Saleh, M., Pot, E., Goodrich, B., Sepassi, R., Kaiser, L., and Shazeer, N. (2018). Generating wikipedia by summarizing
long sequences. arXiv preprint arXiv:1801.10198.
[6] Zhao, Y., Saleh, M., and Liu, P. J. (2020). Seal: Segment-wise extractive-abstractive long-form text summarization. arXiv preprint
arXiv:2006.10213.
[7] Gharebagh, S. S., Cohan, A., and Goharian, N. (2020). Guir@ longsumm 2020: Learning to generate long summaries from
scientific documents. In Proceedings of the First Workshop on Scholarly Document Processing, pages 356–361.
[8] Fan, A., Lewis, M., and Dauphin, Y. (2018). Hierarchical neural story generation. arXiv preprint arXiv:1805.04833.
[9] Fan, A., Piktus, A., Petroni, F., Wenzek, G., Saeidi, M., Vlachos, A., Bordes, A., and Riedel, S. (2020). Generating fact checking
briefs. arXiv preprint arXiv:2011.05448.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
Approach
タスクの分解 Task Decomposition
• 親タスク を より単純なサブタスク に分解
• このタスク分解プロセスは再帰的に適用
– 分解が可能ならどんなタスクでも再帰的な手順で実行可能
– natural task がどの程度分解に適しているかは未解決の問題
図:一般的なタスク分解の疑似コード
• decompose_if_needed
• 分解が不要:Respond() を返す
• 分解が必要:Decompose(subtask) を返す
• answer_directory
• taskの回答を返す
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
Approach
書籍要約のための分解 Decomposition for book summarization
• テキストが十分に短ければ要約,長ければテキストを分割
図:基本的な書籍要約の分解の疑似コード
(以前の要約をコンテキストとして入力に使用しないver)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
Approach
書籍要約のための分解 Decomposition for book summarization
leaf node の入力は約600token
Height=1では10~13の要約(各最大128token)を連結
各書籍は平均して約200のleaf nodeと約20のHeithg=1のnodeに分割される.
treeは通常,高さ3,稀に高さ4以上までいく
用語
first subtree:
図中のオレンジ色の木
first leaves:
first subtree の
leaf node
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
Approach
Training
• Stiennon et al. (2020) の手順に近い方法を採用
– pretrained language model と 人間のラベラー を用意
– ラベラーからデモを収集し,Behavioral Cloning でモデルを訓練
– 報酬学習と強化学習を何度も繰り返し
• ラベラーからフィードバック(比較データ)を収集しながら
• アルゴリズム
– 書籍をタスクに分解
– tree から学習したい要約タスクに対応するノードをサンプリング
– ノードへの入力から訓練データを得る
• ラベラーに希望の要約を書かせる(デモ)
• モデルから得られる2つの要約を比較させる(比較データ)
– 訓練データを使ってモデルを finetune
• デモはBehavioral Cloning(BC) に使用
• 比較データは強化学習(RL)に使用
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
報酬モデルと要約ポリシーの学習について
先行研究[1]の論文から引用
[1] Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., and Christiano, P.
(2020). Learning to summarize from human feedback. arXiv preprint arXiv:2009.01325.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
Approach
Auto-induced distributional shift (ADS)
• 各モデルは別のモデルが生成した入力で学習されるため
自身が生成した入力は学習分布から外れる
– tree の上位でより深刻
• この厳しさを体系的には測定してない
Training curriculum
• ADSのためにtreeの初期/下位のノードでの訓練を優先
first leaves の要約が
十分に良い と判断された場合
に first subtree に移行
…
同様にして tree 全体に移行
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
Approach
• モデルはGPT-3
– take 2048 tokens of context
– アーキテクチャやハイパーパラメータの選択は[1]に従う
Behavioral cloning and reward modeling
• データ収集
– first leaves : すべての first leaves のデータをまとめて収集
– first subtree : height 1 task のデータを独立して収集
– full tree : ランダムに depth を抽出,ランダムに task を選択
• 学習時には,過去の全てのデータを使用
[1] Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., and Christiano, P.
(2020). Learning to summarize from human feedback. arXiv preprint arXiv:2009.01325.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
Approach
Reinforcement learning
• カリキュラムの変更に応じて3つのバリエーション
– (first leaves)連続した葉のタスクを連続して学習.
– (first subtree)葉のタスクを連続して学習し,続いてそのサン
プリングされた出力を用いて合成タスク(height=1)を学習
– (full tree)ランダムなdepth=dを選びその深さにあるノードを
選択.N個の連続したdepth=d+1のタスクとそれらのN個の出力
を用いた単一のdepth=dの合成タスクを学習.
Advantages of decomposition
• 人間のフィードバックの収集が容易
• MLモデルのタスクも簡単
• タスクの一部を人間が実行したり評価できる
• デバッグが容易
• 学習データセット中の書籍の長さに関わらずテスト時に
無制限の長さの書籍に対応可能
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
Approach
➀Fixed chunking algorithmによって書籍のテキストを分割
➁各chunkを要約した人間のデモを収集
➂デモを使用してBCでMLモデルを訓練
④異なるモデルの出力を比較する人間の比較データを収集
⑤比較データを使用して報酬モデル,要約ポリシーを訓練
⑥Height=0 の要約を連結し,連結した要約を要約するための
データを収集し,この要約タスク(Height=1)でモデルをfinetune
(書籍全体を要約するまで再帰的に繰り返し)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
Task details
Training dataset
• GPT-3の学習データに使用された書籍のサブセットを使用
– 書籍は主にフィクション
• 物語性があるフィクションを選んだ理由は要約が困難と考えたから
(後に得られた質的調査結果(Appendix J) でも支持される)
• ラベラーには物語以外はスキップするように指示
– 平均 100K words
Summarization task
• 抽象的な要約を目的
• 評価には事前学習や書籍データセットにもないデータを使用
– ラベラーは 1~7 のリッカート尺度で全体的な要約の質を評価
• 各要約のサブタスク
– 5~10倍の圧縮を目標とし,長さの上限は128~384 tokens
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
Results
Full book human evaluations
• 2020年に出版された最も人気のある40冊の本を使用
• 2人のラベラーに書籍を読ませ,要約を書かせる
• 各ラベラーは モデルの要約 と もう一人のラベラーの要約 を評価
– モデルの要約の相対的な質のラベラーの合意は約80%
• 比較するモデル
– サイズ:175B, 6B
– 学習方法:tree全体でRL,first subtreeでRL,tree全体でBC
first subtree
最初のHeight=1のタスクと
そのHeight=0の子タスク
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
Results
Full book human evaluations
SL: 恐らくSupervised Learning,つまりBC
デモを使用した
教師有学習のみ
(tree全体からデータ収集)
BC + ラベラーによる要約の
比較を使用した強化学習
(tree全体からデータ収集)
人が作成した要約
BC + ラベラーによる要約の
比較を使用した強化学習
(first subtreeからデータ収集)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
Results
Full book human evaluations
175Bのbest modelによる要約には
人間レベルの品質に近いものが存在
(5%以上が6/7,15%以上が5/7)
ただし,平均すると
modelの要約は人間に著しく劣る
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
Results
Full book human evaluations
first subtree のみでの学習は
full tree での学習と同等の効果
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
22
Results
Full book human evaluations
175B modelでは
RLはBCを大幅に上回る
6B model ではその改善幅は小さい
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
23
Results
BookSum results
• BookSum[1]データセットでモデルを評価
• 比較するモデル
– BertExt[2] (best extractive model)
– T5[3] (best abstractive model)
– extractive oracle
• 参照要約を使用して最高のスコアに繋がる文を抽出
• 評価指標 ([1]とほぼ同様)
– ROUGE[4]
– BERTScore[5]
[1] Krysci´nski, W., Rajani, N., Agarwal, D., Xiong, C., and Radev, D. (2021). Booksum: A collection of datasets for long-form
narrative summarization. arXiv preprint arXiv:2105.08209.
[2] Liu, Y. and Lapata, M. (2019b). Text summarization with pretrained encoders. arXiv preprint arXiv:1908.08345.
[3] Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., and Liu, P. J. (2019). Exploring the
limits of transfer learning with a unified text-to-text transformer. arXiv preprint arXiv:1910.10683.
[4] Lin, C.-Y. and Och, F. J. (2004). Automatic evaluation of machine translation quality using longest common subsequence and
skip-bigram statistics. In Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics, page 605.
Association for Computational Linguistics.
[5] Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., and Artzi, Y. (2019a). Bertscore: Evaluating text generation with bert.
arXiv preprint arXiv:1904.09675.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
24
Results
BookSum results
• 175B model
– ROUGE で oracle 以外に 3~4points 勝っている
– BERTScore は oracle 含む全てものモデルに勝っている
• BERTScoreは長い要約のスコアが低くなりがち[1]
– それを考慮しても今回の結論に大きな影響はない
• BookSumと事前学習データセットの重複は排除できない
– tree を手動で確認した結果,事前学習の記憶になっていなかった
[1] Krysci ´ nski, W., Rajani, N., Agarwal, D., Xiong, C., and Radev, D. (2021). Booksum: A collection of ´
datasets for long-form narrative summarization. arXiv preprint arXiv:2105.08209.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
25
Results
Human label efficiency of RL vs. BC
• 要約比較でRLと高品質なデモでBCのどちらが良いかは未解決
– RL model は BC model より多くのデータで学習
– 先行研究[1]の結果
• RLによってBCよりも要約の品質が大幅に向上,
人間が書いた要約(参照要約)よりも優れていた
• 参照要約はRedditのTL;DRからスクレイピングされたもので
原文の要約として不十分であり,同数の高品質なデモを収集した
場合との比較にはなっていない
• 6B model の BC をデータ数を変えて(¼, ½, all)学習
• ¼ と ½ の BC model をRLで学習
• ここでは,書籍全体の要約ではなくfirst leafの要約で評価
[1] Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., and Christiano, P.
(2020). Learning to summarize from human feedback. arXiv preprint arXiv:2009.01325.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
26
Results
Human label efficiency of RL vs. BC
• データ数 5k~10k では RL は BC と同程度の効率
• データ数 10k~20k では RL は BC よりはるかに効率的
• RL用の比較データ は BC用のデモ の3倍の速さで収集された
比較データによるRL は デモデータによるBC よりも効率的
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
27
Appendix E: Human timing
ラベラーの作業にかかる時間について
First leaves
• 経験的に,比較はデモの2倍の速さ(読取時間を無視)
– 読取時間を含めると約40%速い
– だいたい読み取りに2.5分,デモが4分,比較に1.5分と推定
• 読取時間がコストの大部分を占める
– 比較は一度に3つの要約の比較をさせるので読取時間を節約
End-to-end baseline estimates
• ラベラーが1冊の書籍を読むのに平均12時間以上,要約を書く
のに1時間以上かかる(分解された要約タスクの50倍以上)
• 本稿の実験にかかった時間(10万件のデモと比較の収集)
を使えば最大2,000冊のデモを収集可能
• 1冊で複数の要約を書けば,読書時間を大きく削減可能
– ただ,実際にはなかなか難しいと考えた
• End-to-Endで書籍の要約については,今後の研究に期待
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
28
Limitations
提案モデルによる書籍の要約はまとまりに欠ける
• モデルによる要約は人間が書くようなまとまりのある要約
というより本の中の出来事のリスト
• tree のトップレベルの要約タスクでの RL の round を増やせば
この問題は解決できそうだが,tree の上の方での RL は難しい
タスクの分解が根本的に制限となる可能性
• タスクの分解は各タスクが独立して完了可能なことを前提
• 分解の手順を学習させることでこの問題を軽減できるかも
• どんなタスクが分解に適しているかの決定は未解決な問題
treeの上位タスクの訓練は難しい
• 下位レベルのエラーは上位タスクでの大きなエラーに繋がる
• カリキュラムの選択が重要になる可能性有り
– 本稿はカリキュラムとノードサンプル戦略をその場しのぎで選択
• full tree での訓練が上手くいかない件の詳細な調査は今後の課題
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
29
Open questions
学習関連
• より良いカリキュラムはあるのか?
• RLをよりオンポリシーに行う方が良い?
• 要約tree をon the flyで生成する方が良い?
• [1]のように報酬モデルをオンラインで訓練する方が良い? 等
人間のフィードバックを使用した学習
• 二値比較以外のより効率的な方法はないか?
• expert iteration[2] 等の他の手法はより効率的?
他のタスクへの拡張
• 本手法が他のタスクにどのように拡張されるか?
• 固定の分解手法ではなくタスク分解モデルを学習することは
現実世界の難しいタスクに対して実現可能か? 等
[1] Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., Christiano, P., and Irving, G. (2019). Fine-tuning language
models from human preferences. arXiv preprint arXiv:1909.08593.
[2] Anthony, T., Tian, Z., and Barber, D. (2017). Thinking fast and slow with deep learning and tree search. arXiv preprint arXiv:1705.08439.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
30
Broader impacts
先行研究と同様
• 本研究は報酬モデリングに関する先行研究[1,2]を拡張したモノ
– 詳細は[2]の議論を参照
[2]から再掲するポイント
• ラベラーが強化する “良い” 行動の定義には注意が必要
• モデルを何にあるいは誰に合わせるべきか
書籍の自動要約について
• 本稿のモデルの要約は多くの間違いを含む
• 高い要約精度が必要とされる環境では展開するべきではない
[1] Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., Christiano, P., and Irving, G. (2019).
Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593.
[2] Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., and Christiano, P.
(2020). Learning to summarize from human feedback. arXiv preprint arXiv:2009.01325.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
31
まとめ
• 書籍の abstractive な要約
– 本稿のアプローチ
• タスクの分解
• 人間のフィードバックからの学習
– 要約のデモデータから教師付き学習を行うよりも
要約の比較データから強化学習を行う方が効率的
– 要約固有の手法を提案したが
本稿のアプローチ自体はあらゆるタスクに適用可能
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
32
参考(評価に使用した書籍)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
33
参考(生成例 1/2 モデルの評価=2.0)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
34
参考(生成例 2/2 モデルの評価=6.0)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
35
参考 Appendix J.1: Limitations observed by labelers/researchers
ラベラーから報告されたモデルの要約の問題点
• 登場人物間でモデルが混乱し,行動の帰属を誤ることが多い
– 代名詞の間違いや長い対話によって悪化し
要約を連結することによっても悪化する可能性あり
• 重要な情報を選ぶことができない
– 物語の ”本質” が多くの要約に欠けている
• 例:「A Promised Land」でオバマ大統領の就任について言及しない
– ユニークな空想的・特殊的な要素を持つ書籍では
世界を構築する重要な詳細を統合することができない
• SFやファンタジーを要約するのは特に困難
• 特定の出来事を要約できない
– 登場人物の精神状態や作者の意図
– イベントの長い連鎖を1つのまとまったものに要約
• etc
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
36
参考 Appendix J.2: Preexisting knowledge
モデルは事前学習で得た知識を活用
• スターウォーズの世界ではアナキン・スカイウォーカーの娘が
レイアであることは文章中では言及されてないにも関わらず
モデルが利用
• 評価の対象となった「The Ballad of Songbirds and Snakes」は
既刊の三部作「Hunger Games」の前日談だが,前日談には登
場しない本編三部作のキャラクターを誤って言及
• バイリンガルテキストを翻訳
– “The woman at my mother‘s side reach out to touch her-vas a
estar bien, she told her before turning to walk back to her car. “
を”The woman accompanying them tells his mother she’ll be ok. “
と要約
• このことを確認するために,ハリーポッターの登場人物の名前
を置き換えたバージョンを要約
– ヴォルデモートが別の名前になってるのにも関わらず
“you-know-who”(例のあの人)をヴォルデモートと翻訳

Weitere ähnliche Inhalte

Was ist angesagt?

Ai勉強会20170127
Ai勉強会20170127Ai勉強会20170127
Ai勉強会20170127harmonylab
 
Calorie Estimation in a Real-World Recipe Service
Calorie Estimation in a Real-World Recipe ServiceCalorie Estimation in a Real-World Recipe Service
Calorie Estimation in a Real-World Recipe Serviceharmonylab
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasksharmonylab
 
Real-Time Semantic Stereo Matching
Real-Time Semantic Stereo MatchingReal-Time Semantic Stereo Matching
Real-Time Semantic Stereo Matchingharmonylab
 
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究harmonylab
 
2020年 研究室配属説明会 スライド資料
2020年 研究室配属説明会 スライド資料2020年 研究室配属説明会 スライド資料
2020年 研究室配属説明会 スライド資料harmonylab
 
Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...harmonylab
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Searchharmonylab
 
ECサイトにおける商品紹介文の作成支援システムの開発と評価に関する研究
ECサイトにおける商品紹介文の作成支援システムの開発と評価に関する研究ECサイトにおける商品紹介文の作成支援システムの開発と評価に関する研究
ECサイトにおける商品紹介文の作成支援システムの開発と評価に関する研究harmonylab
 
Which is Plagiarism: Fashion Image Retrieval based on Regional Representation...
Which is Plagiarism: Fashion Image Retrieval based on Regional Representation...Which is Plagiarism: Fashion Image Retrieval based on Regional Representation...
Which is Plagiarism: Fashion Image Retrieval based on Regional Representation...harmonylab
 
調和系工学研究室パンフレット
調和系工学研究室パンフレット調和系工学研究室パンフレット
調和系工学研究室パンフレットharmonylab
 
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade ConvolutionsPredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutionsharmonylab
 
Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Ba...
Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Ba...Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Ba...
Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Ba...harmonylab
 
単語の分散表現を用いた俳句における取り合わせの評価に関する研究
単語の分散表現を用いた俳句における取り合わせの評価に関する研究単語の分散表現を用いた俳句における取り合わせの評価に関する研究
単語の分散表現を用いた俳句における取り合わせの評価に関する研究harmonylab
 
Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?harmonylab
 
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究harmonylab
 

Was ist angesagt? (20)

Ai勉強会20170127
Ai勉強会20170127Ai勉強会20170127
Ai勉強会20170127
 
Calorie Estimation in a Real-World Recipe Service
Calorie Estimation in a Real-World Recipe ServiceCalorie Estimation in a Real-World Recipe Service
Calorie Estimation in a Real-World Recipe Service
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
 
Real-Time Semantic Stereo Matching
Real-Time Semantic Stereo MatchingReal-Time Semantic Stereo Matching
Real-Time Semantic Stereo Matching
 
2021 haizoku
2021 haizoku2021 haizoku
2021 haizoku
 
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
 
2020年 研究室配属説明会 スライド資料
2020年 研究室配属説明会 スライド資料2020年 研究室配属説明会 スライド資料
2020年 研究室配属説明会 スライド資料
 
Predictron
PredictronPredictron
Predictron
 
Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...
 
Mobilenet
MobilenetMobilenet
Mobilenet
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
 
ECサイトにおける商品紹介文の作成支援システムの開発と評価に関する研究
ECサイトにおける商品紹介文の作成支援システムの開発と評価に関する研究ECサイトにおける商品紹介文の作成支援システムの開発と評価に関する研究
ECサイトにおける商品紹介文の作成支援システムの開発と評価に関する研究
 
Which is Plagiarism: Fashion Image Retrieval based on Regional Representation...
Which is Plagiarism: Fashion Image Retrieval based on Regional Representation...Which is Plagiarism: Fashion Image Retrieval based on Regional Representation...
Which is Plagiarism: Fashion Image Retrieval based on Regional Representation...
 
調和系工学研究室パンフレット
調和系工学研究室パンフレット調和系工学研究室パンフレット
調和系工学研究室パンフレット
 
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade ConvolutionsPredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutions
 
Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Ba...
Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Ba...Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Ba...
Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Ba...
 
RAPiD
RAPiDRAPiD
RAPiD
 
単語の分散表現を用いた俳句における取り合わせの評価に関する研究
単語の分散表現を用いた俳句における取り合わせの評価に関する研究単語の分散表現を用いた俳句における取り合わせの評価に関する研究
単語の分散表現を用いた俳句における取り合わせの評価に関する研究
 
Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?
 
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
 

Ähnlich wie Recursively Summarizing Books with Human Feedback

MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...harmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Solving Quantitative Reasoning Problems with Language Models
Solving Quantitative Reasoning Problems with Language ModelsSolving Quantitative Reasoning Problems with Language Models
Solving Quantitative Reasoning Problems with Language Modelsharmonylab
 
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Textharmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...harmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
A Generalist Agent
A Generalist AgentA Generalist Agent
A Generalist Agentharmonylab
 
2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...harmonylab
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Gridharmonylab
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...harmonylab
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognitionharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...harmonylab
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...harmonylab
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Visionharmonylab
 

Ähnlich wie Recursively Summarizing Books with Human Feedback (20)

MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence ...
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Solving Quantitative Reasoning Problems with Language Models
Solving Quantitative Reasoning Problems with Language ModelsSolving Quantitative Reasoning Problems with Language Models
Solving Quantitative Reasoning Problems with Language Models
 
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
A Generalist Agent
A Generalist AgentA Generalist Agent
A Generalist Agent
 
2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example: Towards Good Generalizations...
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 

Mehr von harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究harmonylab
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANharmonylab
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detectionharmonylab
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identificationharmonylab
 
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmeticharmonylab
 

Mehr von harmonylab (18)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
 
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
 

Kürzlich hochgeladen

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 

Kürzlich hochgeladen (8)

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 

Recursively Summarizing Books with Human Feedback

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 北海道大学大学院 情報科学院 情報理工学部門 複合情報工学分野 調和系工学研究室 2021年10月27日(水) 博士2年 吉田 拓海 論文紹介ゼミ Recursively Summarizing Books with Human Feedback
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 1 論文情報 • 著者 – Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, Paul Christiano • OpenAI • 発表 – arxiv • 概要 – 書籍の abstractive な要約 • タスクの分解 • 人間のフィードバックを使用した強化学習 • 論文URL – https://arxiv.org/abs/2109.10862
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2 概要(手法)
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 概要(要約例) https://openai.com/blog/summarizing-books/ (access 2021-10-25) アリスはウサギの穴に落ち、不思議なボトルを飲んで巨大化してしまう。アリスは元の 大きさに戻すことに専念し、庭への道を探すことにする。そこで、あおむしに出会い、 きのこの片面を食べると背が高くなり、反対側を食べると背が低くなることを教えても らう。アリスはキノコを食べて元の大きさに戻る。アリスはマッドハッターと三月ウサ ギと一緒にパーティーに参加する。そこへ女王様がやってきて、バラの花を間違えた庭 師たちの処刑を命じる。アリスはバラを植木鉢に入れて救う。ハートの王様と女王様が 裁判をしている。女王は怒って、アリスに死刑を宣告する。アリスが目を覚ますと、傍 らには妹がいた。(DeepL翻訳)
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 Introduction 研究背景 • MLモデルの学習には行動の良悪を表す training signal が必要 – 一部のタスク(ゲームなど)では自動的に計算可能 – 多くのタスクでは人間がループの中で提供する必要あり • 人間による監督,評価が困難なタスクにおいては,効果的な training signal を生成するためのスケーラブルな手法が必要 – 監督,評価が困難:評価に時間や専門的な知識を要する – 測定しやすい代理目標は実際の目標との不一致が課題 本稿でのアプローチ • 書籍全体の要約の生成 – タスクの分解 – 人間のフィードバックからの学習
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 Related works 大規模タスク • 本研究は大規模なタスクで人間のフィードバックを用いた強化 学習に関する基礎を築いた論文[1]に直接触発 • タスク分解は iterated amplification[2] の特定のインスタンス • 再帰的報酬モデリング[3]の一形態 • 本稿の貢献はこれらのアプローチが困難で大規模なタスクに 現実的に適用可能なことを示すこと 人間のフィードバックによってモデルをfinetune • 近年増えている – 要約,会話,翻訳,意味解析,ストーリー生成,レビュー生成, エビデンス抽出,シミュレーション環境におけるエージェント • リファレンスは省略 [1] Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., and Amodei, D. (2017). Deep reinforcement learning from human preferences. In Advances in Neural Information Processing Systems, pages 4299–4307. [2] Christiano, P., Shlegeris, B., and Amodei, D. (2018). Supervising strong learners by amplifying weak experts. arXiv preprint arXiv:1810.08575. [3] Leike, J., Krueger, D., Everitt, T., Martic, M., Maini, V., and Legg, S. (2018). Scalable agent alignment via reward modeling: a research direction. arXiv preprint arXiv:1811.07871.
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 Related works 小説などの長編フィクションの要約(比較的少ない) • グラフベースの手法で映画の脚本を要約[1] • CliffsNotesから収集した書籍の要約データセット[2] • 小説の章を抽出的に要約[3] • 物語の部分的な要約,物語のキャラクターの説明を生成[4] • 物語の設定とキャラクターに関する情報を生成する抽出法[5] • 書籍と人間が書いた要約を合わせる教師なし手法[6] • [2]のデータセットを拡張しニューラルベースラインを評価[7] – 本研究と同時期 [1] Gorinski, P. and Lapata, M. (2015). Movie script summarization as graph-based scene extraction. In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 1066–1076. [2] Mihalcea, R. and Ceylan, H. (2007). Explorations in automatic book summarization. In Proceedings of the 2007 joint conference on empirical methods in natural language processing and computational natural language learning (EMNLP-CoNLL), pages 380–389. [3] Ladhak, F., Li, B., Al-Onaizan, Y., and McKeown, K. (2020). Exploring content selection in summarization of novel chapters. arXiv preprint arXiv:2005.01840. [4] Zhang, W., Cheung, J. C. K., and Oren, J. (2019b). Generating character descriptions for automatic summarization of fiction. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 7476–7483. [5] Kazantseva, A. (2006). An approach to summarizing short stories. In Student Research Workshop. [6] Bamman, D. and Smith, N. A. (2013). New alignment methods for discriminative book summarization. arXiv preprint arXiv:1305.1319. [7] Krysci ´ nski, W., Rajani, N., Agarwal, D., Xiong, C., and Radev, D. (2021). Booksum: A collection of ´ datasets for long-form narrative summarization. arXiv preprint arXiv:2105.08209.
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 Related works 科学論文など他の種類の長文文書の要約(たくさんある) • 階層的なエンコーダ[1,2,3] • 抽出的な要約をした後に抽象的な要約[4,5,6,7] – タスク分解の一形態 難しいタスクを複数のサブタスクに分解(NLP) • 物語のプロンプトを生成,プロンプトを条件とした物語生成[8] • 低レベルタスクのモデルで人間の高レベルタスクを支援[9] [1] Cohan, A., Dernoncourt, F., Kim, D. S., Bui, T., Kim, S., Chang, W., and Goharian, N. (2018). A discourse-aware attention model for abstractive summarization of long documents. arXiv preprint arXiv:1804.05685. [2] Zhang, X., Wei, F., and Zhou, M. (2019c). Hibert: Document level pre-training of hierarchical bidirectional transformers for document summarization. arXiv preprint arXiv:1905.06566. [3] Liu, Y. and Lapata, M. (2019a). Hierarchical transformers for multi-document summarization. arXiv preprint arXiv:1905.13164. [4] Subramanian, S., Li, R., Pilault, J., and Pal, C. (2019). On extractive and abstractive neural document summarization with transformer language models. arXiv preprint arXiv:1909.03186. [5] Liu, P. J., Saleh, M., Pot, E., Goodrich, B., Sepassi, R., Kaiser, L., and Shazeer, N. (2018). Generating wikipedia by summarizing long sequences. arXiv preprint arXiv:1801.10198. [6] Zhao, Y., Saleh, M., and Liu, P. J. (2020). Seal: Segment-wise extractive-abstractive long-form text summarization. arXiv preprint arXiv:2006.10213. [7] Gharebagh, S. S., Cohan, A., and Goharian, N. (2020). Guir@ longsumm 2020: Learning to generate long summaries from scientific documents. In Proceedings of the First Workshop on Scholarly Document Processing, pages 356–361. [8] Fan, A., Lewis, M., and Dauphin, Y. (2018). Hierarchical neural story generation. arXiv preprint arXiv:1805.04833. [9] Fan, A., Piktus, A., Petroni, F., Wenzek, G., Saeidi, M., Vlachos, A., Bordes, A., and Riedel, S. (2020). Generating fact checking briefs. arXiv preprint arXiv:2011.05448.
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 Approach タスクの分解 Task Decomposition • 親タスク を より単純なサブタスク に分解 • このタスク分解プロセスは再帰的に適用 – 分解が可能ならどんなタスクでも再帰的な手順で実行可能 – natural task がどの程度分解に適しているかは未解決の問題 図:一般的なタスク分解の疑似コード • decompose_if_needed • 分解が不要:Respond() を返す • 分解が必要:Decompose(subtask) を返す • answer_directory • taskの回答を返す
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 Approach 書籍要約のための分解 Decomposition for book summarization • テキストが十分に短ければ要約,長ければテキストを分割 図:基本的な書籍要約の分解の疑似コード (以前の要約をコンテキストとして入力に使用しないver)
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 Approach 書籍要約のための分解 Decomposition for book summarization leaf node の入力は約600token Height=1では10~13の要約(各最大128token)を連結 各書籍は平均して約200のleaf nodeと約20のHeithg=1のnodeに分割される. treeは通常,高さ3,稀に高さ4以上までいく 用語 first subtree: 図中のオレンジ色の木 first leaves: first subtree の leaf node
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 Approach Training • Stiennon et al. (2020) の手順に近い方法を採用 – pretrained language model と 人間のラベラー を用意 – ラベラーからデモを収集し,Behavioral Cloning でモデルを訓練 – 報酬学習と強化学習を何度も繰り返し • ラベラーからフィードバック(比較データ)を収集しながら • アルゴリズム – 書籍をタスクに分解 – tree から学習したい要約タスクに対応するノードをサンプリング – ノードへの入力から訓練データを得る • ラベラーに希望の要約を書かせる(デモ) • モデルから得られる2つの要約を比較させる(比較データ) – 訓練データを使ってモデルを finetune • デモはBehavioral Cloning(BC) に使用 • 比較データは強化学習(RL)に使用
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 報酬モデルと要約ポリシーの学習について 先行研究[1]の論文から引用 [1] Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., and Christiano, P. (2020). Learning to summarize from human feedback. arXiv preprint arXiv:2009.01325.
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 Approach Auto-induced distributional shift (ADS) • 各モデルは別のモデルが生成した入力で学習されるため 自身が生成した入力は学習分布から外れる – tree の上位でより深刻 • この厳しさを体系的には測定してない Training curriculum • ADSのためにtreeの初期/下位のノードでの訓練を優先 first leaves の要約が 十分に良い と判断された場合 に first subtree に移行 … 同様にして tree 全体に移行
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 Approach • モデルはGPT-3 – take 2048 tokens of context – アーキテクチャやハイパーパラメータの選択は[1]に従う Behavioral cloning and reward modeling • データ収集 – first leaves : すべての first leaves のデータをまとめて収集 – first subtree : height 1 task のデータを独立して収集 – full tree : ランダムに depth を抽出,ランダムに task を選択 • 学習時には,過去の全てのデータを使用 [1] Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., and Christiano, P. (2020). Learning to summarize from human feedback. arXiv preprint arXiv:2009.01325.
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 Approach Reinforcement learning • カリキュラムの変更に応じて3つのバリエーション – (first leaves)連続した葉のタスクを連続して学習. – (first subtree)葉のタスクを連続して学習し,続いてそのサン プリングされた出力を用いて合成タスク(height=1)を学習 – (full tree)ランダムなdepth=dを選びその深さにあるノードを 選択.N個の連続したdepth=d+1のタスクとそれらのN個の出力 を用いた単一のdepth=dの合成タスクを学習. Advantages of decomposition • 人間のフィードバックの収集が容易 • MLモデルのタスクも簡単 • タスクの一部を人間が実行したり評価できる • デバッグが容易 • 学習データセット中の書籍の長さに関わらずテスト時に 無制限の長さの書籍に対応可能
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 Approach ➀Fixed chunking algorithmによって書籍のテキストを分割 ➁各chunkを要約した人間のデモを収集 ➂デモを使用してBCでMLモデルを訓練 ④異なるモデルの出力を比較する人間の比較データを収集 ⑤比較データを使用して報酬モデル,要約ポリシーを訓練 ⑥Height=0 の要約を連結し,連結した要約を要約するための データを収集し,この要約タスク(Height=1)でモデルをfinetune (書籍全体を要約するまで再帰的に繰り返し)
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 Task details Training dataset • GPT-3の学習データに使用された書籍のサブセットを使用 – 書籍は主にフィクション • 物語性があるフィクションを選んだ理由は要約が困難と考えたから (後に得られた質的調査結果(Appendix J) でも支持される) • ラベラーには物語以外はスキップするように指示 – 平均 100K words Summarization task • 抽象的な要約を目的 • 評価には事前学習や書籍データセットにもないデータを使用 – ラベラーは 1~7 のリッカート尺度で全体的な要約の質を評価 • 各要約のサブタスク – 5~10倍の圧縮を目標とし,長さの上限は128~384 tokens
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 Results Full book human evaluations • 2020年に出版された最も人気のある40冊の本を使用 • 2人のラベラーに書籍を読ませ,要約を書かせる • 各ラベラーは モデルの要約 と もう一人のラベラーの要約 を評価 – モデルの要約の相対的な質のラベラーの合意は約80% • 比較するモデル – サイズ:175B, 6B – 学習方法:tree全体でRL,first subtreeでRL,tree全体でBC first subtree 最初のHeight=1のタスクと そのHeight=0の子タスク
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 Results Full book human evaluations SL: 恐らくSupervised Learning,つまりBC デモを使用した 教師有学習のみ (tree全体からデータ収集) BC + ラベラーによる要約の 比較を使用した強化学習 (tree全体からデータ収集) 人が作成した要約 BC + ラベラーによる要約の 比較を使用した強化学習 (first subtreeからデータ収集)
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 Results Full book human evaluations 175Bのbest modelによる要約には 人間レベルの品質に近いものが存在 (5%以上が6/7,15%以上が5/7) ただし,平均すると modelの要約は人間に著しく劣る
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 Results Full book human evaluations first subtree のみでの学習は full tree での学習と同等の効果
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 22 Results Full book human evaluations 175B modelでは RLはBCを大幅に上回る 6B model ではその改善幅は小さい
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 23 Results BookSum results • BookSum[1]データセットでモデルを評価 • 比較するモデル – BertExt[2] (best extractive model) – T5[3] (best abstractive model) – extractive oracle • 参照要約を使用して最高のスコアに繋がる文を抽出 • 評価指標 ([1]とほぼ同様) – ROUGE[4] – BERTScore[5] [1] Krysci´nski, W., Rajani, N., Agarwal, D., Xiong, C., and Radev, D. (2021). Booksum: A collection of datasets for long-form narrative summarization. arXiv preprint arXiv:2105.08209. [2] Liu, Y. and Lapata, M. (2019b). Text summarization with pretrained encoders. arXiv preprint arXiv:1908.08345. [3] Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., and Liu, P. J. (2019). Exploring the limits of transfer learning with a unified text-to-text transformer. arXiv preprint arXiv:1910.10683. [4] Lin, C.-Y. and Och, F. J. (2004). Automatic evaluation of machine translation quality using longest common subsequence and skip-bigram statistics. In Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics, page 605. Association for Computational Linguistics. [5] Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., and Artzi, Y. (2019a). Bertscore: Evaluating text generation with bert. arXiv preprint arXiv:1904.09675.
  • 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 24 Results BookSum results • 175B model – ROUGE で oracle 以外に 3~4points 勝っている – BERTScore は oracle 含む全てものモデルに勝っている • BERTScoreは長い要約のスコアが低くなりがち[1] – それを考慮しても今回の結論に大きな影響はない • BookSumと事前学習データセットの重複は排除できない – tree を手動で確認した結果,事前学習の記憶になっていなかった [1] Krysci ´ nski, W., Rajani, N., Agarwal, D., Xiong, C., and Radev, D. (2021). Booksum: A collection of ´ datasets for long-form narrative summarization. arXiv preprint arXiv:2105.08209.
  • 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 25 Results Human label efficiency of RL vs. BC • 要約比較でRLと高品質なデモでBCのどちらが良いかは未解決 – RL model は BC model より多くのデータで学習 – 先行研究[1]の結果 • RLによってBCよりも要約の品質が大幅に向上, 人間が書いた要約(参照要約)よりも優れていた • 参照要約はRedditのTL;DRからスクレイピングされたもので 原文の要約として不十分であり,同数の高品質なデモを収集した 場合との比較にはなっていない • 6B model の BC をデータ数を変えて(¼, ½, all)学習 • ¼ と ½ の BC model をRLで学習 • ここでは,書籍全体の要約ではなくfirst leafの要約で評価 [1] Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., and Christiano, P. (2020). Learning to summarize from human feedback. arXiv preprint arXiv:2009.01325.
  • 27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 26 Results Human label efficiency of RL vs. BC • データ数 5k~10k では RL は BC と同程度の効率 • データ数 10k~20k では RL は BC よりはるかに効率的 • RL用の比較データ は BC用のデモ の3倍の速さで収集された 比較データによるRL は デモデータによるBC よりも効率的
  • 28. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 27 Appendix E: Human timing ラベラーの作業にかかる時間について First leaves • 経験的に,比較はデモの2倍の速さ(読取時間を無視) – 読取時間を含めると約40%速い – だいたい読み取りに2.5分,デモが4分,比較に1.5分と推定 • 読取時間がコストの大部分を占める – 比較は一度に3つの要約の比較をさせるので読取時間を節約 End-to-end baseline estimates • ラベラーが1冊の書籍を読むのに平均12時間以上,要約を書く のに1時間以上かかる(分解された要約タスクの50倍以上) • 本稿の実験にかかった時間(10万件のデモと比較の収集) を使えば最大2,000冊のデモを収集可能 • 1冊で複数の要約を書けば,読書時間を大きく削減可能 – ただ,実際にはなかなか難しいと考えた • End-to-Endで書籍の要約については,今後の研究に期待
  • 29. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 28 Limitations 提案モデルによる書籍の要約はまとまりに欠ける • モデルによる要約は人間が書くようなまとまりのある要約 というより本の中の出来事のリスト • tree のトップレベルの要約タスクでの RL の round を増やせば この問題は解決できそうだが,tree の上の方での RL は難しい タスクの分解が根本的に制限となる可能性 • タスクの分解は各タスクが独立して完了可能なことを前提 • 分解の手順を学習させることでこの問題を軽減できるかも • どんなタスクが分解に適しているかの決定は未解決な問題 treeの上位タスクの訓練は難しい • 下位レベルのエラーは上位タスクでの大きなエラーに繋がる • カリキュラムの選択が重要になる可能性有り – 本稿はカリキュラムとノードサンプル戦略をその場しのぎで選択 • full tree での訓練が上手くいかない件の詳細な調査は今後の課題
  • 30. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 29 Open questions 学習関連 • より良いカリキュラムはあるのか? • RLをよりオンポリシーに行う方が良い? • 要約tree をon the flyで生成する方が良い? • [1]のように報酬モデルをオンラインで訓練する方が良い? 等 人間のフィードバックを使用した学習 • 二値比較以外のより効率的な方法はないか? • expert iteration[2] 等の他の手法はより効率的? 他のタスクへの拡張 • 本手法が他のタスクにどのように拡張されるか? • 固定の分解手法ではなくタスク分解モデルを学習することは 現実世界の難しいタスクに対して実現可能か? 等 [1] Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., Christiano, P., and Irving, G. (2019). Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593. [2] Anthony, T., Tian, Z., and Barber, D. (2017). Thinking fast and slow with deep learning and tree search. arXiv preprint arXiv:1705.08439.
  • 31. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 30 Broader impacts 先行研究と同様 • 本研究は報酬モデリングに関する先行研究[1,2]を拡張したモノ – 詳細は[2]の議論を参照 [2]から再掲するポイント • ラベラーが強化する “良い” 行動の定義には注意が必要 • モデルを何にあるいは誰に合わせるべきか 書籍の自動要約について • 本稿のモデルの要約は多くの間違いを含む • 高い要約精度が必要とされる環境では展開するべきではない [1] Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., Christiano, P., and Irving, G. (2019). Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593. [2] Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., and Christiano, P. (2020). Learning to summarize from human feedback. arXiv preprint arXiv:2009.01325.
  • 32. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 31 まとめ • 書籍の abstractive な要約 – 本稿のアプローチ • タスクの分解 • 人間のフィードバックからの学習 – 要約のデモデータから教師付き学習を行うよりも 要約の比較データから強化学習を行う方が効率的 – 要約固有の手法を提案したが 本稿のアプローチ自体はあらゆるタスクに適用可能
  • 33. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 32 参考(評価に使用した書籍)
  • 34. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 33 参考(生成例 1/2 モデルの評価=2.0)
  • 35. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 34 参考(生成例 2/2 モデルの評価=6.0)
  • 36. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 35 参考 Appendix J.1: Limitations observed by labelers/researchers ラベラーから報告されたモデルの要約の問題点 • 登場人物間でモデルが混乱し,行動の帰属を誤ることが多い – 代名詞の間違いや長い対話によって悪化し 要約を連結することによっても悪化する可能性あり • 重要な情報を選ぶことができない – 物語の ”本質” が多くの要約に欠けている • 例:「A Promised Land」でオバマ大統領の就任について言及しない – ユニークな空想的・特殊的な要素を持つ書籍では 世界を構築する重要な詳細を統合することができない • SFやファンタジーを要約するのは特に困難 • 特定の出来事を要約できない – 登場人物の精神状態や作者の意図 – イベントの長い連鎖を1つのまとまったものに要約 • etc
  • 37. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 36 参考 Appendix J.2: Preexisting knowledge モデルは事前学習で得た知識を活用 • スターウォーズの世界ではアナキン・スカイウォーカーの娘が レイアであることは文章中では言及されてないにも関わらず モデルが利用 • 評価の対象となった「The Ballad of Songbirds and Snakes」は 既刊の三部作「Hunger Games」の前日談だが,前日談には登 場しない本編三部作のキャラクターを誤って言及 • バイリンガルテキストを翻訳 – “The woman at my mother‘s side reach out to touch her-vas a estar bien, she told her before turning to walk back to her car. “ を”The woman accompanying them tells his mother she’ll be ok. “ と要約 • このことを確認するために,ハリーポッターの登場人物の名前 を置き換えたバージョンを要約 – ヴォルデモートが別の名前になってるのにも関わらず “you-know-who”(例のあの人)をヴォルデモートと翻訳