本研究は3つのドメインにおいて、人間または機械が作成したテキストを区別する能力を評価する実験を実施しました。
その結果、非エキスパートはGPT3と人間作成のテキストをチャンスレベルでしか区別できていないことがわかりました。
また、GPT3が作成したテキストをより適切に識別するために3つの訓練(詳細な説明、注釈付き問題例、ペア例)を被験者に施しましたが、精度は有意な向上が見られないことを明らかにしました。
そして実験の結果をもとに、NLG研究者に最先端のモデルから生成されたテキストの人間評価を改善するための提言を行いました。