摘要
arXiv:2504.06549v1 类别: cross
摘要: 能够自动化认知任务的基础模型代表了一场技术变革,但它们的社会影响仍然不清楚。这些系统承诺带来了令人兴奋的进步,但也有可能将公式化的、同质化的和潜在误导性的合成内容泛滥到我们的信息生态系统中。因此,在这些风险最为显著的实际应用场景中开发基准测试至关重要。通过使用200万语言模型用户提示进行主题分析,我们发现创意组合任务是用户寻求帮助的一个常见类别,这些任务需要日常的创造力。我们的细粒度分析揭示了当前基准测试与这些任务使用模式之间的不匹配。最关键的是,我们认为当前缺乏充分评估的应用场景可能会导致负面的下游影响。本文立场认为,关注创意组合任务的基准测试是理解AI生成内容社会危害的必要步骤。我们呼吁提高使用模式的透明度,以指导开发能够有效衡量具有创意思维能力的模型的进展和影响的新基准测试。