LLM2D

摘要

arXiv:2504.09346v1 类型:交叉摘要：最近，人工智能（AI）语音生成和声音克隆技术在生成自然语音和准确的声音复刻方面取得了进展，但这些技术对不同口音和语言特征的跨领域社会技术系统的影响力尚未完全理解。这项研究通过结合使用调查和访谈的方法评估了两家合成AI声音服务（Speechify和ElevenLabs），以评估其技术性能并揭示用户的生活经验如何影响他们对这些语音技术中口音差异的感知。我们的研究发现，这五种区域性的英语口音在技术性能上存在差异，并展示了当前的语音生成技术如何无意中巩固语言特权和基于口音的歧视，可能会创造新的数字排斥形式。总体而言，我们的研究强调了需要包容性设计和监管，为开发者、决策者和组织提供了可操作的见解，以确保公平和具有社会责任感的人工智能语音技术。