GPT-2 Output Dataset 是一個包含 GPT-2 語言模型生成文本的資料集,它包含了來自 WebText 測試集的 250,000 篇文章,以及使用各種 GPT-2 模型(在 WebText 訓練集上訓練)產生的 250,000 篇隨機樣本和 250,000 篇使用 Top-K 截斷的樣本。
還有從 Amazon 評論中微調過的 GPT-2 模型產生的文本樣本,資料集位於 Google Cloud Storage 中,並提供了一個可以下載資料集的程式碼。
您可以將這個資料集用來做許多有趣的研究,例如,您可以試著訓練一個模型來偵測 GPT-2 模型產生的文本,並比較不同的 GPT-2 模型、不同的產生方法(如隨機或使用 Top-K 截斷)、以及微調過的模型產生的文本之間的可偵測度。
例如:GPT-2 Output Detector Demo 的 AI 內容偵測線上服務,其就是使用這資料集來建設的。
您也可以嘗試使用這些文本來訓練一個自然語言生成模型,或者將它們用於文本分類、摘要生成、情感分析等任務。
GPT-2 Output Dataset 資料集|畫面截圖:Github
Reviews
There are no reviews yet.