LLM2D
深入探究:互联网上人工智能生成内容的量化(合成数据)
Delving into: the quantification of Ai-generated content on the internet (synthetic data)
作者: Dirk HR Spennemann
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.08755v1

摘要

arXiv:2504.08755v1 跨学科公告类型 摘要:随着人们越来越清楚地认识到互联网正变得充斥着由生成式 AI 大型语言模型创建的内容,准确测量这一现象的规模却证明颇具挑战性。通过分析经常被 ChatGPT 使用的特定关键词频率,本文展示了这类语言标志可以有效用于估计互联网上生成式 AI 内容的存在。研究结果表明,至少有 30% 的活跃网页文本源于 AI 生成的来源,而实际比例可能接近 40%。考虑到自噬循环的潜在影响,这一发现令人警醒。