LLM2D

arXiv 论文列表

arXiv:2312.14628v2 宣告类型: replace-cross 摘要:鉴于新兴的法律要求和政策更加关注隐私保护,各行各业的公司越来越倾向于采用联邦学习(FL)。这一去中心化的方法涉及多个客户端或孤岛,在中心服务器的协调下,利用各自的私人本地数据协作训练全局模型。与传统需要数据共享和传输的方法不同,跨孤岛联邦学习(Cross-Silo FL)允许客户端分享模型更新而非原始数据,从而增强隐私保护。尽管跨孤岛联邦学习正在被广泛应用,但由于该领域研究有限,对其碳影响的理解仍然不足。本研究旨在通过在整个AI产品生命周期中评估跨孤岛联邦学习的可持续性,来弥补这一空白,而不仅是停留在模型训练阶段的分析。我们系统地对比了这一去中心化方法与传统中心化方法,并提出了一种强大的定量框架,用于评估实际跨孤岛联邦学习环境中的成本和二氧化碳排放。我们的研究发现,在模型训练的能源消耗和成本方面,跨孤岛联邦学习与中心化学习是可比的。然而,中心化学习额外的数据传输和存储需求会导致显著且经常被忽视的二氧化碳排放。此外,我们引入了一个创新的数据和应用管理系统,将跨孤岛联邦学习和分析集成,旨在提高信息技术企业的可持续性和经济效率。
发布时间: 4/2/2025
查看原文
作者: Nicholas Thomas Walker, Stefan Ultes, Pierre Lison
arXiv:2311.16137v2 公告类型:替换-交叉 摘要:知识图谱通常以灵活高效的方式表示结构化信息,但在情境对话中的应用仍然相对较少探索。本文提出了一种基于图的对话状态表示的新颖对话模型,用于人类-机器人交互。对话状态的知识图谱会持续地根据来自机器人传感器的新观察结果进行更新,包括语言、情境和多模态输入,并且还会通过其他模块进一步丰富,特别是用于空间理解。用于响应用户话语的神经对话模型依赖于一种简单但有效的图转文本机制,该机制通过遍历对话状态图并将遍历结果转化为自然语言形式。这种状态图到文本的转换是通过一组参数化函数来执行的,这些参数的值是基于少量的Wizard-of-Oz互动进行优化的。在这一转换后,对话状态图的文本表示作为大型语言模型解码代理响应时的一部分提示被包含进去。本文通过一项用户研究对这种基于大型语言模型的方法进行了实证评估,其中一个人形机器人作为对话伙伴来评估图到文本机制对响应生成的影响。在沿室内环境进行机器人导览之后,参与者使用口头对话与机器人互动,并评估机器人在导览过程中观察到的情况回答问题的能力。用户得分显示,在采用图到文本方法的情况下,机器人回答的准确性相比于使用结构化为语义三元组的输入的基线方法具有统计学上的显著提升。
发布时间: 4/2/2025
查看原文
作者: Pavithra Harsha, Shivaram Subramanian, Ali Koc, Mahesh Ramakrishna, Brian Quanz, Dhruv Shah, Chandra Narayanaswami
arXiv:2310.12183v2 宣告类型: 交叉替换 摘要: 我们提出了一种新的数据驱动且分布无关的乐观稳健二模库存优化(BIO)策略,以有效地分配零售链中的库存,以满足时间变化且不确定的全渠道需求。BIO的二模性质源自其在传统鲁棒优化(RO)中的优势,后者专注于最坏情况的对抗性需求,同时又能提升平均情况下性能的潜力。这使得BIO在保持与RO同等的韧性的同时,能够捕获由于内生异常值而导致的其他收益的损失。全渠道库存规划为分析BIO的二模策略管理门店销售额损失与跨渠道电子商务履行成本之间权衡的有效性提供了合适的背景,这些因素由于不同渠道的行为而天生不对称。我们提供了关于BIO解的结构洞察,以及如何调整以实现稳健性和平均情况性能之间偏好的权衡。使用一家大型美国全渠道零售连锁的真实数据集,商业价值评估结果显示,在高峰期,BIO在实现平均盈利能力方面比纯粹的RO高27%,并且在不完美分布信息下,超过了其他竞争基线超过10%。这表明BIO提供了一种新颖的数据驱动和分布无关的替代传统RO的方法,在仔细平衡稳健性的同时实现了强大的平均性能。
发布时间: 4/2/2025
查看原文
作者: Wonwoong Cho, Hareesh Ravi, Midhun Harikumar, Vinh Khuc, Krishna Kumar Singh, Jingwan Lu, David I. Inouye, Ajinkya Kale
arXiv:2302.14368v4 宣告类型: replace-cross 摘要:随着扩散模型展示了令人鼓舞的性能,人们投入了许多努力来提高扩散模型的可控性。然而,在扩散模型的训练过程中如何构建分离的潜在空间,以及如何自然地将分离的条件纳入采样过程仍然存在不足。本文中,我们提出了一种用于扩散模型特征分离的训练框架(FDiff)。我们进一步提出了两种采样方法,这些方法可以增强我们的扩散模型的逼真度,并且增强可控性。简而言之,我们根据扩散模型的去噪过程的归纳偏差,以两种潜在特征、空间内容掩码和扁平化风格嵌入的形式对扩散模型进行条件训练。我们将姿势/布局信息编码到内容特征中,将语义/风格信息编码到风格特征中。关于采样方法,我们首先通过打破条件输入之间的独立性假定,对可组合扩散模型(GCDM)进行了泛化,实验表明这种做法在真实生成中是有效的。其次,我们提出了时间步长依赖的权重调度方法,以进一步提高性能。我们还观察到,与现有方法相比,在图像操作和图像转换方面,我们提出的方法具有更好的可控性。
发布时间: 4/2/2025
查看原文
作者: Jiaxin Wu, Ting Zhang, Rubing Chen, Wengyu Zhang, Chen Jason Zhang, Xiaoyong Wei, Li Qing
arXiv:2503.23668v2 宣告类型: 替换 摘要: 当前的分子理解方法主要关注人类感知的描述方面,提供了广泛的主题级洞见。然而,指称方面——将分子概念与具体的结构组件联系起来——仍然 largely unexplored。为了解决这一差距,我们提出了一种分子 grounding 基准测试,旨在评估模型的指称能力。我们将分子 grounding 与 NLP、化学信息学和分子科学中的既定规范相一致,展示了自然语言处理技术在科学人工智能运动中促进分子理解的潜力。此外,我们构建了迄今为止规模最大的分子理解基准测试,包含 79,000 个问答对,并开发了一个多智能体 grounding 原型作为概念验证。该系统在现有模型(包括 GPT-4o)中表现出色,并将其 grounding 输出集成到传统的任务中,如分子图像说明和 ATC(解剖学、治疗学、化学分类)分类中。
发布时间: 4/2/2025
查看原文
arXiv:2503.19326v2 通告类型: 替换 摘要:近期的推理大型语言模型(LLMs)通过长的推理链展示了令人瞩目的数学推理能力提升。这些模型的推理标记使其能够在推理链中进行自我纠正,增强其鲁棒性。这促使我们进行探索:推理LLMs对输入推理链中的细微错误有多脆弱?我们引入了“妥协的思考”(CPT)这一漏洞,即当模型面对包含篡改计算结果的推理标记时,往往会忽视正确的推理步骤,采用错误的结果。通过在多个推理LLMs上的系统性评估,我们设计了三种逐步明确的提示方法来衡量CPT的抵抗力,结果显示模型难以识别和纠正这些篡改。值得注意的是,与现有研究认为结构改动比内容修改对模型性能影响更大的观点相反,我们发现局部结束标记篡改对推理结果的影响大于结构改变。此外,我们发现DeepSeek-R1中存在一个安全漏洞,篡改的推理标记可以引发完全的推理终止。我们的工作增强了对推理鲁棒性的理解,并强调了推理密集型应用中的安全考虑。
发布时间: 4/2/2025
查看原文
作者: Yutong Xie, Qiaozhu Mei, Walter Yuan, Matthew O. Jackson
arXiv:2503.15752v2 公告类型: 重新提交 摘要:人工智能提供了一种解开人类行为动机的新工具。我们展示了通过调整大型语言模型的提示,可以在多种经典经济博弈的不同场景中诱发各种人类行为的整个范围。然后通过对哪些提示可以诱发哪些行为进行分析,我们可以推断(解开)人类行为背后的动机。我们还展示了如何分析提示以揭示经典经济博弈之间的关系,从而提供新的见解,了解不同的经济情境如何促使人们思考不同的事物。我们还展示了这种解译过程如何被用来理解不同人群的行为倾向差异。
发布时间: 4/2/2025
查看原文
arXiv:2503.13275v2 通知类型: 更新 摘要: 我们介绍了一个由大型语言模型(LLM)驱动的代理框架,该框架通过利用动态演变的知识来迭代地精炼查询并过滤上下文证据。该系统的一个关键特征是将外部来源与内部知识缓存分离,后者是逐步更新的,以指导查询生成和证据选择。这种设计减轻了偏见增强循环的影响,并使动态、可追溯的搜索探索路径得以实现,从而优化了探索多样信息与通过自主代理决策维持准确性之间的权衡。我们对该方法在广泛开放领域问答基准测试中进行了评估,包括多步骤任务,这些任务模拟了真实世界场景,其中整合来自多个来源的信息是至关重要的,尤其是在LLMs缺乏明确推理或规划能力的情况下。结果表明,所提出系统不仅在任何任务难度情况下都优于单一步骤基线,而且与传统的迭代检索方法相比,在复杂任务中通过精确基于证据的推理和增强效率,显示出明显的优越性。所提出系统支持更新上下文的竞合共享,从而能够扩展为多代理系统。随着任务难度增加,多代理配置的优势尤为明显。收敛步骤的数量随任务难度而增加,表明该系统具有成本效益的可扩展性。
发布时间: 4/2/2025
查看原文
作者: Francesco Calimeri, Giovambattista Ianni, Francesco Pacenza, Simona Perri, Jessica Zangari
arXiv:2412.17143v4 说明类型:替换 摘要:DLV2 是一个用于知识表示与推理的 AI 工具,支持基于逻辑的声明形式化的回答集编程(ASP),已在学术和工业应用中成功应用。给定一个表示计算问题的逻辑程序,DLV2 的执行会产生所谓的回答集,这些回答集与问题的实际解一一对应。DLV2 的计算过程依赖于典型的“地面化与求解”方法,其中地面化步骤将输入程序转换为一个新的等价的地面程序,随后的求解步骤则应用命题算法来寻找这些回答集。最近,在流推理和事件处理等背景下,新兴应用对多轮推理提出了需求:在这种情况下,系统需要在快速变化的数据上反复执行时保持反应性。在这项工作中,我们介绍了一个新的增量推理器,它是 DLV2 向迭代推理演化而来的。与从头开始重新计算不同,系统在多次执行中保持活跃,并且逐步处理内部的地面化过程。在每次执行中,系统利用之前的计算来构建和维护一个更大、更通用的地面程序,从这个程序中确定并使用一个更小但仍然等价的部分来计算回答集。值得注意的是,增量过程对用户来说是完全透明的。我们描述了该系统、其用法、适用范围和在某些实际相关领域的性能。该论文正在《逻辑编程理论与实践》(TPLP)上审稿中。
发布时间: 4/2/2025
查看原文
作者: Gabriela Ben-Melech Stan, Estelle Aflalo, Man Luo, Shachar Rosenman, Tiep Le, Sayak Paul, Shao-Yen Tseng, Vasudev Lal
arXiv:2412.01487v3 宣告类型: 替换 摘要:大规模视觉语言模型(LVLMs)在处理文本和视觉输入时展现出了非凡的推理能力。然而,这些模型仍然容易生成错误信息。识别和缓解不具依据的响应对于开发可信的人工智能至关重要。传统的解释性方法,如梯度基相关性图,可以提供模型决策过程的见解,但往往是计算成本高昂且不适合实时输出验证。在本文中,我们引入了FastRM,这是一种高效的方法来预测LVLMs的相关性图。此外,FastRM还提供了模型置信度的定量和定性评估。实验结果表明,FastRM在计算时间上实现了99.8%的减少,在内存占用上实现了44.4%的减少,相较于传统的相关性图生成方法。FastRM使得可解释的人工智能更加实用和可扩展,从而促进其实现在世界范围内的部署,并使用户能够更有效地评估模型输出的可靠性。
发布时间: 4/2/2025
查看原文