摘要
arXiv:2311.16137v2 公告类型:替换-交叉
摘要:知识图谱通常以灵活高效的方式表示结构化信息,但在情境对话中的应用仍然相对较少探索。本文提出了一种基于图的对话状态表示的新颖对话模型,用于人类-机器人交互。对话状态的知识图谱会持续地根据来自机器人传感器的新观察结果进行更新,包括语言、情境和多模态输入,并且还会通过其他模块进一步丰富,特别是用于空间理解。用于响应用户话语的神经对话模型依赖于一种简单但有效的图转文本机制,该机制通过遍历对话状态图并将遍历结果转化为自然语言形式。这种状态图到文本的转换是通过一组参数化函数来执行的,这些参数的值是基于少量的Wizard-of-Oz互动进行优化的。在这一转换后,对话状态图的文本表示作为大型语言模型解码代理响应时的一部分提示被包含进去。本文通过一项用户研究对这种基于大型语言模型的方法进行了实证评估,其中一个人形机器人作为对话伙伴来评估图到文本机制对响应生成的影响。在沿室内环境进行机器人导览之后,参与者使用口头对话与机器人互动,并评估机器人在导览过程中观察到的情况回答问题的能力。用户得分显示,在采用图到文本方法的情况下,机器人回答的准确性相比于使用结构化为语义三元组的输入的基线方法具有统计学上的显著提升。