GPT-2 Output Dataset 是一個包含 GPT-2 語言模型生成文本的資料集，它包含了來自 WebText 測試集的 250,000 篇文章，以及使用各種 GPT-2 模型（在 WebText 訓練集上訓練）產生的 250,000 篇隨機樣本和 250,000 篇使用 Top-K 截斷的樣本。

還有從 Amazon 評論中微調過的 GPT-2 模型產生的文本樣本，資料集位於 Google Cloud Storage 中，並提供了一個可以下載資料集的程式碼。

您可以將這個資料集用來做許多有趣的研究，例如，您可以試著訓練一個模型來偵測 GPT-2 模型產生的文本，並比較不同的 GPT-2 模型、不同的產生方法（如隨機或使用 Top-K 截斷）、以及微調過的模型產生的文本之間的可偵測度。

例如：GPT-2 Output Detector Demo 的 AI 內容偵測線上服務，其就是使用這資料集來建設的。

您也可以嘗試使用這些文本來訓練一個自然語言生成模型，或者將它們用於文本分類、摘要生成、情感分析等任務。

GPT-2 Output Dataset 資料集｜畫面截圖：Github

Types of	開發者工具
Github	https://github.com/openai/gpt-2-output-dataset
Is it free？	Free
Is it open source？	是
Development language	HTML, Python
Conditions of Use	Computer