arXiv:2402.11060v3 宣告类型: replace-cross
摘要:对大语言模型(LLMs)的个性化互动日益增长的需求促使人们寻求能够准确高效地识别用户意见和偏好的方法。检索增强策略因此成为一种有效的策略,因为它可以在无需微调成本的情况下容纳大量的用户。然而,现有研究主要集中在提升检索阶段的效果上,对优化数据库表示的探索却相对有限,而数据库表示对于个性化等任务至关重要。在这项工作中,我们从一个新的角度探讨了这一问题,重点在于如何更好地表示数据以提高在LLM定制化背景下的数据效率检索。为了应对这一挑战,我们提出了Persona-DB,这是一种简单而有效的框架,包含多层次构建过程以改进任务上下文间的泛化能力,以及协同精炼以有效弥合用户间的知识差距。在响应预测的评估中,Persona-DB在显著减小检索规模的情况下,仍能保持较高的上下文效率,这是在具有大量历史记录或有限上下文窗口的情况下的一项关键优势。此外,我们的实验结果还表明,在冷启动场景下,Persona-DB表现出超过10%的显著改进。当用户的数据非常稀疏时,这一点尤为重要。最后,我们的分析还揭示了随着检索能力的扩展,协同知识的重要性也在不断提升。
arXiv:2402.06104v4 宣告类型: replace-cross
摘要:回归是机器学习中的一个基本任务,在过去的几十年中引起了广泛的关注。传统的回归方法涉及使用损失函数,主要集中在将模型预测与每个单一数据样本的真实值对齐。近期的研究通过在潜在特征空间中引入标签相似性来扩展回归方法,通过施加额外的成对正则化,展示了其有效性。然而,这些方法存在两个缺点:i) 在潜在特征空间中的成对操作在计算上比传统的回归损失更昂贵;ii) 缺乏对这种正则化的理论依据。在本文中,我们提出了一种名为GAR(Gradient Aligned Regression)的竞争性替代方法,在标签空间中构造,该方法由传统回归损失和两个用于梯度对齐的成对标签差异损失组成,包括幅度和方向。GAR 享有:i) 传统回归损失相同的效率,因为提出的成对损失的二次复杂性可以降低到线性复杂性;ii) 通过学习成对标签差异来学习真实值函数的梯度的理论见解。我们将当前的范围限制在不包含噪声、离群值或分布偏移等干净数据设置下进行回归。我们在两个合成数据集和六个基准数据集上的八个广泛真实世界任务中和其他八个竞争基准方法上展示了所提出方法的有效性。运行时间实验证明,与潜在特征空间中带有成对正则化的现有方法相比,所提出的GAR具有更高的效率。消融研究表明了GAR中每个组件的有效性。
arXiv:2402.04676v3 宣布类型: 替换-交叉
摘要:数据集蒸馏(DD)作为一种广泛采用的技术,已经出现了,它用于构建一个合成数据集,捕捉训练数据集中的核心信息,从而促进准确的神经模型的训练。它的应用遍及各个领域,包括迁移学习、联邦学习和神经架构搜索。构建合成数据的最流行方法依赖于训练模型与合成数据集和训练数据集收敛属性的匹配。然而,使用经验损失作为标准应该被视为辅助手段,如同训练集是总体分布的近似替代品那样,后者才是我们关心的数据。尽管这种方法非常流行,但仍然未被探索的一个方面是数据集蒸馏与泛化之间的关系,特别是跨不常见子群的情况。也就是说,我们如何确保在训练数据集上训练的模型在面对低人口密度区域的样本时表现良好?在这种情况下,数据集的代表性与覆盖率比确保推理时的训练误差更为重要。从分布鲁棒优化中汲取灵感,我们提出了一种结合聚类与损失上的风险度量最小化的方法来进行数据集蒸馏。我们为我们的方法提供了理论依据,并通过数值实验证明了它在子群中的有效泛化能力和鲁棒性。源代码可在 https://github.com/Mming11/RobustDatasetDistillation 获取。
arXiv:2402.01454v4 宣布类型: replace-cross
摘要:在实际的统计因果发现(SCD)中,将领域专家知识作为约束嵌入到算法中对于创建一致性和有意义的因果模型非常重要,尽管系统获取背景知识的挑战很大。为克服这些挑战,本文提出了一种新方法,通过“统计因果提示(SCP)”将SCD与大型语言模型(LLM)的知识为基础的因果推理(KBCI)相结合,以及在SCD中添加LLM-KBCI先验知识增强。实验结果表明,LLM-KBCI和结合LLM-KBCI的SCD增强的结果更接近于地面真相,而没有先验知识的SCD结果则不尽如此。还发现,如果LLM经历了SCP,SCD结果可以进一步改进。此外,我们通过一个未公开的真实世界数据集,证明了LLM提供的背景知识可以改善这个数据集的SCD,即使这个数据集从未包含在LLM的训练数据中。对于未来在诸如医疗保健等关键领域实用化这一提出的方法,本文详细讨论了限制、重大错误的风险、LLM技术改进的预期以及结果专家检查的现实集成,包括各种成功和失败场景下的SCP模拟。这种工作中的建议方法的仔细和适当的运用,通过每个领域的改进和定制化,可以解决数据集偏差和限制等挑战,展示了LLM在跨多种科学领域改善数据驱动因果推理的潜力。本文中所使用的所有代码均可在以下网址获取:www.github.com/mas-takayama/LLM-and-SCD
arXiv:2401.14931v2 宣布类型: 替换-交叉
摘要:大规模语言模型(LLMs)在各种自然语言处理任务中展现了卓越的性能,但它们记忆结构化知识的能力尚未得到充分探索。在本文中,我们研究了通用预训练LLMs在保留并正确再现公开ontology中的概念标识符(ID)-标签关联方面的程度。我们利用Pythia-12B、Gemini-1.5-Flash、GPT-3.5和GPT-4等多种LLM,在Gene Ontology、Uberon、Wikidata和ICD-10等多个ontology资源上进行了系统性评估。我们的发现显示,只有少量ontology概念能够被准确记忆,而GPT-4表现出最高的性能。为了理解为什么某些概念比其他概念更有效地被记忆,我们分析了记忆准确性和概念在Web上的流行度之间的关系。我们的结果显示,概念在线出现的频率与其标签中准确检索其ID的可能性之间存在强烈的关联。这表明,LLMs主要通过间接的文本暴露获取此类知识,而不是直接从结构化ontology资源中获取。此外,我们引入了新的度量标准来量化预测不变性,证明模型响应在提示语言和温度设置变化下的稳定性可以作为估算记忆鲁棒性的代理。
arXiv:2312.16896v2 宣告类型: replace-cross
摘要: 我们研究了当代理人战略性地注册或复制自己的选项以最大化其收益时,如何设计复制抗性的多臂博弈机制的问题。具体来说,我们考虑的是只会知道自己的选项的平均奖励是从何种分布中采样的贝叶斯代理人,与 Shin 等人 2022 年的原始设置不同。有趣的是,与之前的文献相比,在单代理人的设置下,分析算法的复制抗性变得显著复杂。我们为单代理人设置提供了算法复制抗性的充分必要条件,并提出了一种满足这些性质的算法。这些结果围绕一些关注于 \emph{比较多个多臂博弈实例的预期懊悔} 的分析定理展开,因此由于它们在此之前一直未被研究,所以它们可能具有独立的研究价值。我们把这个结果扩展到多代理人设置,并为任何问题实例提供了一种复制抗性的算法。我们通过证明该算法具有亚线性的懊悔上界来最终完成结果,并且该上界与 Shin 等人 2022 年的结果相匹配。
arXiv:2312.12747v2 宣告类型: 替换-交叉
摘要:我们如何衡量语言模型解释方法的有效性?虽然已经开发了许多解释方法,但它们通常是在定制的任务上进行评估,这妨碍了直接比较。为了填补这一空白,我们提出了ALMANACS,一个语言模型解释基准。ALMANACS基于解释的模拟性来评估解释方法,即解释如何改善新输入的行为预测。ALMANACS的情景涵盖了十二个与安全相关的主题,如道德推理和高级人工智能行为;它们具有特定的前提条件,以引发特定模型的行为;并且它们具有训练-测试分布的变化,以鼓励忠实的解释。通过使用另一个语言模型根据解释来预测行为,ALMANACS是一个完全自动化的基准。虽然它不是人类评估的替代品,但我们希望ALMANACS成为一种补充的、自动化的工具,允许快速、高效的评估。使用ALMANACS,我们评估了反事实、合理化、注意和集成梯度解释。我们的结果令人警醒:总体而言,在所有主题上平均计算后,没有解释方法优于没有解释的控制组方法。我们得出结论,尽管以前的工作取得了 modest 成功,但在ALMANACS中开发一种有助于模拟性的解释方法仍然是一个开放的挑战。
arXiv:2311.18703v4 宣告类型: replace-cross
摘要:在强化学习(RL)中,代理没有表现出可预测行为的动力,并且通常通过使用策略熵正则化等方法被鼓励随机化其行为以进行探索。这常常使得其他代理和人类难以预测代理的行为,从而引发不安全的情景(例如,在人机交互中)。我们提出了一种新的方法来诱导RL代理展现出可预测的行为,称为预测性感知强化学习(PARL),并使用代理的轨迹熵率来量化预测性。该方法最大化标准折扣奖励和负熵率的线性组合,从而在最优性和可预测性之间进行权衡。我们展示了如何将熵率形式化为平均奖励,如何从学习模型中估计熵率价值函数,并将其整合到策略梯度算法中,还展示了这种方法如何在受人类机器人应用启发的任务中生成可预测(接近最优)的策略。
arXiv:2311.08820v4 宣告类型:替换-交叉
摘要:在日益迫切需要有效的城市和高速公路交通系统背景下,本文探讨了模型导向与学习导向策略之间的协同作用,通过提出一种创新的匝道流量控制方法,将强化学习(Reinforcement Learning, RL)技术嵌入模型预测控制(Model Predictive Control, MPC)框架中来增强交通流管理。将控制问题表述为一个RL任务,通过设计一个适合的阶段成本函数来代表交通状况、控制动作的变异性以及对接口队列中最大车辆数约束的违反。提出了一种基于MPC的RL方法,利用MPC最优问题作为RL算法的函数近似,以在系统模型存在不确定性和需求变化的情况下学习高效控制匝道并满足其约束。在基准的小规模高速公路网络上进行了仿真实验,将所提出的方法与其他最先进的控制方法进行了比较。结果表明,从一个具有不精确模型且调校不良的MPC控制器开始,所提出的方法能够有效学习改进控制策略,减少网络中拥堵并满足约束,从而获得优于其他控制器的性能提升。
arXiv:2311.02787v3 宣告类型: replace-cross
摘要: 变形物体操作在机器人领域既是极具吸引力的挑战,也是极其棘手的挑战。尽管之前的技术主要依赖于通过演示学习潜在动力学,通常以粒子或图像的形式表示,但存在一个关键的局限性:获取合适的演示,尤其是在学习长时任务时,往往难以实现。此外,完全基于演示来学习会限制模型超越所演示任务的能力。在本文中,我们介绍了一种无需演示的分层规划方法,它可以解决复杂的长时任务,而无需任何训练。我们利用大规模语言模型(LLMs)阐述与指定任务对应的高层次、阶段性的计划。对于每个单独的阶段,LLM 提供工具名称和用于生成中间子目标点云的 Python 代码。有了特定阶段的工具和子目标,我们提出了一种细粒度的闭环模型预测控制策略。该策略利用差分物理与点对点对应(DiffPhysics-P2P)损失,在地球移动距离(EMD)空间中迭代应用。实验结果表明,我们的方法在酥皮处理基准测试中表现出色,涵盖了短时和长时任务。值得注意的是,我们的模型展示了强大的泛化能力,可以应对全新的之前未遇到的复杂任务而无需任何预先的演示。我们还通过在实际机器人平台上进行实验验证了我们的方法。项目页面:https://qq456cvb.github.io/projects/donut。