LLM2D

摘要

随着生成式人工智能的持续发展，从文本到音频、图像和视频的生成，都在模仿人类生成内容方面不断提升。通过一系列感知研究，我们报告了人工智能生成声音在身份匹配和自然度方面的真实性。我们发现人类参与者无法可靠地识别人工智能生成声音的简短录音（少于 20 秒）。具体来说，参与者将人工智能声音的身份误认为其真实对应者的比例高达 80%，而正确识别声音为人工智能生成的比例仅为 60%。在所有情况下，性能都与说话者或听众的人口统计学特征无关。