LLM2D

摘要

arXiv:2502.14892v1 通知类型: 交叉摘要: 在现实环境中的实时预测何时开始讲话仍然是对话代理的基本挑战。我们介绍了EgoSpeak，一种用于自 hardly 视频实时启动语音预测的新框架。通过从演讲者的第一人称视角建模对话，EgoSpeak 专门针对人类互动，其中对话代理必须持续观察其环境并动态决定何时讲话。我们通过整合四项关键能力弥合了简化实验设置与复杂自然对话之间的差距：（1）第一人称视角（2）RGB处理（3）在线处理（4）未剪辑视频处理。我们还介绍了来自 YouTube 的多样化的现实对话视频集合 YT-Conversation，作为大规模预训练的资源。在 EasyCom 和 Ego4D 上的实验表明，EgoSpeak 在实时性能上优于随机和基于静默的基线。我们的结果还突出了多模态输入和上下文长度在有效决定何时讲话时的重要性。