LLM2D

摘要

音频描述 (AD) 是一项为盲人和视障人士提供的关键辅助服务，旨在以声音形式传达视觉信息。尽管多语言机器翻译研究取得了最新进展，但缺乏精心制作且时间同步的 AD 数据阻碍了音频描述翻译 (ADT) 系统的发展，而这些系统旨在满足瑞士等多语言国家的需求。此外，由于大多数 ADT 系统仅依赖文本，因此是否存在通过结合来自相应视频片段的视觉信息来提高 ADT 输出质量的问题尚不明确。在这项工作中，我们介绍了 SwissADT，这是第一个为瑞士三种主要语言和英语实现的 ADT 系统。通过收集用德语、法语、意大利语和英语增强的精心制作的 AD 数据，并利用大型语言模型 (LLMs) 的强大功能，我们旨在通过自动将 AD 剧本翻译成所需的瑞士语言来增强瑞士不同语言人群的信息可访问性。我们广泛的实验性 ADT 结果（包括对 ADT 质量的自动和人工评估）证明了 SwissADT 在 ADT 任务中的良好能力。我们相信，将人类专业知识与 LLMs 的生成能力相结合，可以进一步提高 ADT 系统的性能，最终惠及更大规模的多语言目标人群。