GPT-2 Output Dataset 是一个包含 GPT-2 语言模型生成文本的数据集,它包含了来自 WebText 测试集的 250,000 篇文章,以及使用各种 GPT-2 模型(在 WebText 训练集上训练)产生的 250,000 篇随机样本和250,000份使用Top-K截断的样本。
还有来自 Amazon 评论中的 GPT-2 模型产生的文本样本,数据集位于 Google Cloud Storage 中,并提供了一个可以下载数据集的程序代码。
您可以将这个数据集用来做许多有趣的研究,例如,您可以尝试训练一个模型来检测 GPT-2 模型产生的文本,并比较不同的 GPT-2 模型、不同的产生方法(如随机)或使用Top-K截断)、以及力矩过的模型产生的文本之间的可检测度。
例如:GPT-2 输出检测器演示 的AI内容检测线上服务,其就是利用这些数据集来建设的。
您也可以尝试使用这些文本来训练自然语言生成模型,或者将它们用于文本分类、摘要生成、情感分析等任务。
GPT-2输出数据集|截图:吉图布
评价
目前还没有评价