GPT-2 Output Dataset是一個包含GPT-2語言模型生成文本的資料集,它包含了來自WebText測試集的250,000篇文章,以及使用各種GPT-2模型(在WebText培訓集上培訓)生產的250,000篇隨著機樣本和250,000篇使用Top-K截斷的樣本。
還有來自Amazon 評論中微調過的GPT-2模型生成的文本,資料集位於Google Cloud Storage中,並提供了一個可以下載資料集的程序碼。
您可以將這個資料集用來做許許多有趣的研究,例如,您可以嘗試著訓練一個模型來測GPT-2模型生成的文本,並比較不同的GPT-2模型、不同的生成方法(如隨機或者使用Top-K截斷)、以及微調過的模型生成的文本之間的可偵測度。
例如:GPT-2 輸出檢測器演示 AI的內容偵測線上服務,其就是使用這些資料集合來構建的。
您也可以嘗試使用這些文本來訓練一個自然語言生成模型,或者將它們用於文本分類、摘要生成、情感分析等任務。
GPT-2輸出數據集資料集|截圖:Github
商品評價
目前沒有評價。