LLM2D

摘要

arXiv:2502.10636v1 通知类型: 新摘要: 将视觉语言模型集成到机器人系统中构成了使机器以更直观的方式与周围环境互动的一项重要进展。尽管视觉语言模型提供了丰富的跨模态推理能力，但现有方法缺乏针对用户的适应性，往往依赖于通用的交互模式，这些模式未能考虑到个体的行为、上下文或社会情感方面的细微差别。当尝试进行个性化定制时，由于未缓解的用户数据偏见引发的伦理问题有可能导致排斥或不公正的待遇。为了解决这两个挑战，我们提出了User-VLM 360°，这是一个将跨模态用户建模与意识偏见优化相结合的整体框架。我们的方法包括：(1) 用户意识调整，通过视觉语言信号实时适应交互；(2) 通过偏好优化缓解偏见；以及(3) 360°定制的社会情感交互数据集，其中包含人口统计、情绪和关系元数据。在八个基准测试中的评估表明，我们的方法取得了最先进的结果：个性化VQA中F1得分提高了35.3%，面部特征理解中的F1得分提高了47.5%，偏见减少了15%，并且比基线速度快了30倍。消融研究证实了各个组件的有效性，部署在Pepper机器人上验证了其在不同用户中的实时适应能力。我们开源了参数高效3B/10B模型以及一个道德验证框架，以促进负责的适应。