arXiv:2502.14456v1 通知类型: 新
摘要: 为了增强游客的体验和沉浸感,本文提出了一种名为NarrativeGuide的叙事驱动旅行规划框架,该框架为旅行者生成基于地理与文化背景的叙述脚本,提供了旅程中的新颖角色扮演体验。初始阶段,NarrativeGuide构建了一个城市景点的知识图谱,然后根据知识图谱配置世界观、角色设定和开篇叙述。在此基础上,利用知识图谱生成每个景点的独立场景单元。在行程规划阶段,NarrativeGuide将叙事驱动的旅行规划建模为一个优化问题,利用遗传算法(GA)优化行程。在评估候选行程之前,为每对相邻景点生成转换脚本,这些转换脚本与场景单元共同形成完整脚本。然后,使用脚本一致性、旅行时间和景点得分的加权和作为适应度值来更新候选解集。在中国南京和扬州、法国巴黎和德国柏林四个城市的实验结果显示,叙事一致性、文化契合度显著提高,同时旅行时间显著减少,访问景点的质量也有所提高。我们的研究指出,结合外部进化优化能有效解决大型语言模型在旅行规划中的局限性。我们的代码可在https://github.com/Evan01225/Narrative-Driven-Travel-Planning获取。
arXiv:2502.14400v1 宣布类型: 新闻
摘要: 使大型语言模型(LLM)的响应与人类偏好对齐对于构建安全可控的人工智能系统至关重要。虽然基于Plackett-Luce(PL)和Bradley-Terry(BT)模型的偏好优化方法显示出潜力,但仍面临诸如不良内容处理不佳、不偏好响应利用效率低下以及,特别是对于PL,计算成本高昂等问题。为了解决这些问题,我们提出了一种新的框架——硬偏好采样(HPS),用于稳健且高效的对齐人类偏好。HPS引入了一种训练损失函数,优先选择最偏好响应并拒绝所有不偏好和有害的响应。它强调“硬”不偏好响应——那些与偏好响应非常相似的响应——以增强模型的拒绝能力。通过利用单次采样蒙特卡洛采样策略,HPS减少了计算开销同时保持对齐质量。从理论上讲,HPS提高了样本效率,超过了现有的PL方法,并最大化了偏好和不偏好响应之间的奖励差距,从而确保更清晰的区别。在HH-RLHF和PKU-Safety数据集上的实验验证了HPS的有效性,实现了与现有方法相当的BLEU和奖励评分,同时大幅提高了奖励差距,从而减少了有害内容的生成。
arXiv:2502.14361v1 宣布类型: 新发现
摘要: 尽管大规模语言模型(LLMs)在数学推理方面取得了显著进展,但过程奖励模型(PRMs)已开发用于评估推理步骤的逻辑有效性。然而,PRMs 仍然难以应对离群值分布(OOD)挑战。本文指出了关键的 OOD 问题,包括由于不同模型类型和规模的推理模式差异导致的步骤 OOD,以及由于训练数据和现实世界问题之间的数据集转移而产生的问题 OOD。为了解决这些问题,我们提出了检索增强过程奖励模型(RetrievalPRM),这是一种新颖的框架,旨在解决这些 OOD 问题。通过利用两阶段检索增强机制,RetrievalPRM 在暖启动阶段检索语义相似的问题和步骤,从而增强 PRM 的评估能力,并在不同模型和问题类型中提高泛化能力和推理一致性。我们广泛的实验表明,RetrievalPRM 在多个现实世界数据集上优于现有基准。我们的开源贡献包括一个检索增强的数据集、PRM 训练的调优框架以及 RetrievalPRM 模型,从而确立了 PRM 性能的新标准。
arXiv:2502.14345v1 宣布类型: 新颖
摘要: 将工作流程与大型语言模型(LLMs)集成能使基于LLM的代理执行预定义的程序,从而增强实际应用中的自动化程度。传统的基于规则的方法往往会限制LLM的固有灵活性,因为它们预先定义的执行路径限制了模型的行动空间,尤其是在遇到意外的流程外(OOW)查询时。相反,基于提示的方法允许LLM全面控制流程,这可能导致程序合规性的减弱。为了解决这些挑战,我们提出了FlowAgent,一个既能维护合规性又能保持灵活性的新型代理框架。我们提出了一种过程描述语言(PDL),它结合了自然语言的灵活性和代码的精确性,用于制定工作流程。基于PDL,我们开发了一个全面的框架,使LLM能够有效地管理OOW查询,同时将执行路径置于一组控制器的监督之下。此外,我们提出了一个新的评估方法,以严格评估LLM代理处理OOW场景的能力,超越了现有基准测试中常规流程合规性的测试。在三个数据集上的实验表明,FlowAgent不仅遵循工作流程,还能有效处理OOW查询,突显了其在合规性和灵活性方面的双重优势。代码可在 https://github.com/Lightblues/FlowAgent 获取。
arXiv:2502.14264v1 宣告类型: 新
摘要: 深度强化学习代理常常面临在高维感官输入环境中有效协调感知和决策模块的挑战,尤其是当特征的相关性在环境中变化时。本文引入了SPRIG(Stackelberg感知-强化学习与内部博弈动力学),这是一种将单个代理内的感知-策略交互建模为合作Stackelberg博弈的框架。在SPRIG中,感知模块作为领导者,战略性地处理原始感官状态,而策略模块则跟随,基于提取的特征进行决策。SPRIG通过修改后的贝尔曼算子提供了理论上的保证,同时保留了现代策略优化的优势。在Atari BeamRider环境中进行的实验结果表明,SPRIG具有有效性,通过其博弈论平衡特征提取和决策过程,相比于标准PPO实现了约30%更高的回报。
arXiv:2502.14219v1 宣告类型: 新
摘要: 大型语言模型(LLMs)在决策中越来越多地被使用,但它们容易受到认知偏差的影响仍然是一个紧迫的挑战。本研究探讨了个性特质如何影响这些偏差,并评估了各种模型架构下减轻策略的有效性。我们的研究结果确定了六种常见的认知偏差,而沉没成本偏差和团体归因偏差的影响最小。个性特质在放大或减少偏差方面起着关键作用,显著影响LLM对去偏见技术的响应方式。值得注意的是,尽责性和随和性通常可以增强偏见缓解策略的有效性,表明表现出这些特质的LLM对纠正措施更为敏感。这些发现强调了个性驱动的偏见动力学的重要性,并突显了需要有针对性的缓解方法以提高基于AI的辅助决策的公平性和可靠性。
arXiv:2502.14200v1 宣布类型: 新
摘要: 多智能体强化学习的可扩展性仍然是一个挑战,并且目前正受到广泛关注。一种名为均场强化学习(MFRL)的框架可以通过运用均场理论将多智能体问题转化为两智能体问题来缓解可扩展性问题。然而,这个框架缺乏在非站定环境识别关键交互的能力。因果关系包含在交互背后的相对不变机制,尽管环境是非站定的。因此,我们提出了一种名为因果均场Q学习(CMFQ)的算法,以解决可扩展性问题。尽管继承了MFRL的动作-状态空间压缩表示,CMFQ更能够应对智能体数量的变化。首先,我们将MFRL决策过程背后的因果关系建模为结构因果模型(SCM)。然后,通过干预SCM量化每个交互的关键程度。此外,我们设计了一种意识因果关系的紧凑表示,作为所有行为信息的加权和,根据它们的因果影响赋予不同权重。我们将在混合合作-竞争游戏和合作游戏中测试CMFQ。结果显示,我们的方法在包含大量智能体的环境中的训练和包含更多智能体的环境中的测试中展现出出色的可扩展性。
arXiv:2502.14155v1 Announce Type: 新
摘要:在计算认知建模中,超越最优行为,捕捉人类判断和决策过程的完整谱系是一项重大挑战。本研究探讨大型语言模型(LLMs)是否能够通过预测直观快速的System 1和审慎缓慢的System 2过程来模拟人类推理的广泛性。我们研究了人工智能模仿人类推理行为的潜力,涵盖了整个人群的多样性,我们称之为“完整推理谱系问题”。我们设计了一种新的自然语言推理(NLI)格式的变体作为推理任务,以评估LLMs复制人类推理的能力。这些问题的设计旨在激发System 1和System 2的反应。通过众包收集了人类反应,并对整个分布进行了建模,而不仅仅是大多数答案。我们采用了基于人格的提示,受到五大人格特质模型的启发,以激发反映特定人格特质的AI响应,捕捉人类推理的多样性,并探讨人格特质如何影响LLM的输出。结合遗传算法优化这些提示的权重,该方法与传统的机器学习模型一起进行了测试。结果显示,开源模型如Llama和Mistral在模拟人类响应分布方面优于专有的GPT模型。基于人格的提示,特别是在遗传算法优化下,显著增强了LLMs预测人类响应分布的能力,表明捕捉非最优的、符合自然的人类推理可能需要融合多种推理风格和心理特征的建模技术。研究结论认为,结合遗传算法的人格基于提示有潜力增强AI在推理中的“人性”。
arXiv:2502.14102v1 宣告类型: 新
摘要: 分布式约束优化问题(DCOP)表示法是一个强大的工具,可用于建模需要分布式解决的合作多代理问题。现有方法的核心假设是DCOP解决方案可以轻松被理解和接受,可以被采用,然而这一假设可能并不成立,这一点可以通过大量关于可解释人工智能的文献得到证据。在本文中,我们提出了一种解释可化简的DCOP(X-DCOP)模型,该模型扩展了DCOP,使其不仅包含解决方案,还包含该解决方案的对比查询。我们正式定义了一些关键属性,这些属性是对比解释满足的条件,使其被视为X-DCOP的有效解决方案,以及关于此类有效解释存在性的理论结果。为了求解X-DCOP,我们提出了一种分布式框架以及多种优化和次优变体来找到有效解释。我们还包括了一项用户研究,结果显示用户,不出所料,更偏好简短的解释而非长解释。我们的实证评估表明,我们的方法可以扩展到大规模问题,不同的变体提供了在解释长度和较小运行时间之间进行权衡的不同选项。因此,我们的模型和算法贡献扩展了现有的前沿,通过降低用户理解DCOP解决方案的障碍,促进了其在更多实际应用场景中的采用。
arXiv:2502.13149v2 宣告类型: 新
摘要: 评估从GUI中提取意图需要准确的细粒度度量标准。本文提出了一种名为Bi-Fact的新方法,该方法将意图分解为原子事实,并进行双向比较以评估精确度和召回率。实验表明,Bi-Fact与现有度量标准相比,其与人类判断的关联性更强,从而为基于UI的意图理解建立了更为 robust 的评估框架。