arXiv:2503.24378v1 宣布类型: 新
摘要: ACPBench 数据集提供了用于高效规划所需的原子推理任务。该数据集旨在将复杂的计划生成任务分解为最简单的原子推理任务,形式为布尔或多项选择题,模型需从提供的选项中选择正确的答案。虽然 ACPBench 的目标是测试关于操作和变化最简单的推理形式,但在规划任务中,模型通常没有可供选择的选项,因此规划所需的推理形式要求这些任务具有开放性,生成式的形式。为此,我们引入了 ACPBench Hard,这是一个生成版本的 ACPBench,包含开放式问题,模型需要回答这些问题。能够在这些任务中表现良好的模型原则上可以集成到一个规划器中,也可以直接用作策略。我们讨论了这些任务的复杂性以及验证其答案正确性的复杂性,并为每个任务呈现了验证算法。配备了这些验证器,我们测试了多种模型在我们的任务上的性能,发现对于这些任务中的大多数,即使是最大的模型的性能仍然不尽如人意。我们的实验表明,在这些任务中,没有一个模型的表现优于另一个,并且在测试的大多数语言模型中得分低于65%,这表明当前最前沿的语言模型在处理规划推理方面还有很长的路要走。事实上,所谓的推理模型在解决这些推理任务时也遇到了困难。ACPBench Hard 的集合可在以下链接获取: https://ibm.github.io/ACPBench
arXiv:2503.24328v1 宣告类型: 新颖
摘要: 为了减少在偏好度量过程中的人工干预,本文提出了一种基于更新的信任系统的新偏好协作度量框架,该框架还能提高偏好度量算法的准确性和效率。首先,定义了规则的距离和规则集的平均内部距离,用于规定规则之间的关系。为了发现所有用户共有的最具代表性的偏好,即共同偏好,提出了一种基于规则集平均内部距离的算法,PRA算法,旨在以最低的信息丢失率完成发现过程。此外,提出了共同信念的概念以更新信任系统,并且共同偏好成为更新信任系统的证据。在信任系统下,提出的信念度和偏差度用于判断一条规则是否支持信任系统,并将偏好规则分类为两类(通用或个性化),最终基于信念度和偏差度筛选出Top-K有趣的规则。在此基础上,提出了一种可扩展的兴趣度计算框架,可以应用各种公式以准确计算不同条件下的兴趣度。最后,提出了IMCos算法和IMCov算法作为示例,通过加权余弦相似性和相关系数作为信念度来验证框架的准确性和效率。在实验中,所提出的算法与两种最先进的算法进行了比较,结果显示IMCos和IMCov在大多数方面表现优于其他两种算法。
arXiv:2503.24228v1 宣告类型: 新
摘要:在电子商务中,为了进行决策而收集的行为数据往往成本高昂且耗时。使用LLM(大型语言模型)驱动的代理进行模拟正逐渐成为代表人类群体行为的一种有前景的替代方案。然而,众所周知,LLM表现出一定的偏见,如品牌偏见、评分偏见以及某些群体在人口中的有限表现,因此它们需要经过仔细的基准测试和与用户行为的对齐。最终,我们的目标是合成一个代理群体,并验证其集体行为近似于真实的人类样本。为此,我们提出了一个框架:(i) 通过自动挖掘匿名的历史购物数据中的个性特征来创建合成购物代理,(ii) 为代理配备特定零售工具以合成购物会话,并 (iii) 引入一套新颖的对齐套件,该套件在群体(即,人口)层面上而不是传统意义上的"个体"层面上衡量人类和购物代理之间的分布差异。实验结果表明,使用个性特征可以改善对齐套件的性能,尽管与人类行为之间仍存在差距。我们展示了该框架在自动代理A/B测试中的一种初步应用,并将其发现与人类结果进行比较。最后,我们讨论了应用、限制和挑战,为未来有影响力的进一步工作奠定了舞台。
arXiv:2503.24215v1 公告类型: 新
摘要:理論 POLIT 择 (ToM) 是人类认知的一个标志,允许个体思考他人的信念和意图。最近人工智能 (AI) 进展背后的工程师声称展示出了类似的能 力。本文介绍了一个模型,该模型超越了专门为3岁儿童设计的传统ToM测试,为AI系统中存在的ToM提供了强有力的支持。
arXiv:2503.24199v1 通知类型: 新
摘要:社交媒体平台上用户的参与度受历史背景、时间限制以及奖励驱动的互动影响。本研究提出了一种基于代理的模拟方法,该方法考虑了过往对话历史、动机和资源限制,以建模用户互动。利用德语推特数据中的政治对话,我们微调AI模型生成帖子和回复,同时纳入情感分析、讽刺检测和冒犯性分类。模拟采用短期最佳响应模型来管理代理行为,考虑基于预期奖励的决策。我们的结果显示了历史背景对AI生成响应的影响,并展示了在不同约束条件下参与度如何演变。
arXiv:2503.24110v1 通知类型: 新
摘要: 尽管在基于物理体验的AI方面取得了进步,代理推理系统仍然难以捕捉人类自然用于理解和与环境互动的基本概念结构。为了解决这个问题,我们提出了一种新的框架,该框架通过利用基于传感器-运动体验反复出现的模式的形式化表征,将基于体验的认知理论与代理系统相结合。通过定制LLM将自然语言描述翻译成基于这些传感器-运动模式的形式化表示,我们可以创建一个神经符号系统,使代理的理解扎根于基本概念结构中。我们认为,这种做法既提高了效率和可解释性,又使得通过共享的基于物理体验的理解实现了更直观的人机交互。
arXiv:2503.24047v1 宣告类型: 新
摘要:随着科学研究变得日益复杂,需要创新的工具来管理大量数据、促进跨学科合作并加速发现。大型语言模型(LLMs)现在正在演变为基于LLM的科学代理,这些代理自动化了从假设生成和实验设计到数据分析和模拟等一系列关键任务。与通用语言模型不同,这些专业化代理整合了领域特定知识、高级工具集和稳健的验证机制,使它们能够处理复杂的数据类型、保证可重复性并推动科学研究取得突破。本文综述了基于LLM的科学代理的体系结构、设计、基准测试、应用及伦理考量。我们强调了它们如何不同于通用代理,以及它们如何在各种科学领域推进研究。通过分析它们的发展和挑战,本文为研究人员和实践者提供了一个全面的路线图,以便他们能够更高效、可靠且符合伦理地利用这些代理以促进科学发现。
arXiv:2503.24028v1 公告类型: 新
摘要:指令调优已成为定制大型语言模型行为的关键方法。最近的工作揭示了通过有限数量的高质量指令数据进行微调可以使大型语言模型实现高性能的潜力。在此基础上,我们进一步探索指令数据选择的提示鲁棒性的影响。本文提出了一种开创性的高质量在线指令数据挖掘框架,专注于提示鲁棒性对数据挖掘过程的影响。我们的主要创新在于通过针对在线指令数据的提示进行攻击生成对抗指令数据。然后,我们引入了对抗指令跟随难度指标来衡量对抗指令数据对生成相应响应的帮助程度。此外,我们提出了一种新的对抗指令输出嵌入一致性的方法来选择高质量的在线指令数据。我们在两个基准数据集上进行了广泛的实验以评估性能。实验结果表明了我们提出的方法的有效性。此外,实验结果强调了考虑提示鲁棒性的重要实际意义。
arXiv:2503.23948v1 宣告类型: 新
摘要: 随着人工智能技术的发展,它正在跨行业推动创新,增加了可扩展的人工智能项目部署需求。然而,由于复杂环境配置、依赖冲突、跨平台适应性以及调试困难,部署仍然是一个关键挑战,这阻碍了自动化和采用。本文介绍了AI2Agent,这是一个端到端框架,通过基于指南的执行、自适应调试和案例及解决方案积累来自动化人工智能项目部署。AI2Agent 动态分析部署挑战,从过往案例中学习,并逐步改进其方法,显著减少了人工干预。为了评估其有效性,我们在 30 个 AI 部署案例上进行了实验,涵盖了 TTS、文本转图像生成、图像编辑和其他人工智能应用。结果表明,AI2Agent 显著减少了部署时间和提高了成功率。该代码和演示视频现已公开可用。
arXiv:2503.23923v1 声明类型: 新
摘要: 通用人工智能(AGI)是一个成熟的研究领域。然而,Melanie Mitchell等人质疑这个术语是否仍然有意义。由于AGI受到了大量的炒作和猜测,它已经成为一种罗夏墨迹测试。Mitchell指出,只有通过长期的科学调查,这场争论才会得到解决。鉴于此,这里提供了一个简短、易于理解且具有挑战性的AGI概览。我比较了智慧的定义,并将智慧视为适应性的理解,将AGI视为人工科学家。我从Sutton的“苦涩教训”中获得灵感,描述了构建适应系统所需的两类基本工具:搜索和近似。我比较了这些工具的优点、缺点、混合体和体系结构,如o3、AlphaGo、AERA、NARS和Hyperon。然后,我讨论了使系统行为更加智能的整体方法。我将它们分为基于“苦涩教训”、奥卡姆剃刀和Bennett剃刀的规模最大化、简洁最大化和约束最小化。这些方法分别最大化资源、形式的简洁性以及功能约束的松懈程度。我讨论了包括AIXI、自由能原理和语言模型膨胀在内的例子。我得出结论,尽管规模最大化的近似占据主导地位,但AGI将是工具和方法论的融合。语言模型膨胀得益于硬件的改进,现在瓶颈在于样本效率和能量效率。