LLM2D

arXiv 论文列表

作者: Arno Geimer, Beltran Fiz, Radu State
arXiv:2405.08044v3 宣告类型: replace-cross 摘要:联邦学习(FL)是一种协作且保护隐私的机器学习范式,允许在无需集中敏感数据的情况下开发稳健的模型。FL 中的一个关键挑战在于公平且准确地分配多样参与者所作的贡献。不准确的分配会损害信任、导致不公平的补偿,因此参与者可能缺乏加入或积极贡献给联邦的动机。目前提出了各种补偿策略,包括基于拍卖的方法和基于Shapley值的方法,后者提供了一种量化每个参与者贡献的方式。然而,很少有研究探讨这些贡献评估方法的稳定性。在本文中,我们使用基于梯度的模型重建技术与Shapley值来评估联邦学习中的参与者贡献,并将基于轮次的贡献与经典的 数据贡献测量方案进行比较。我们对Shapley值在一系列聚合策略下的差异进行了详尽分析,并在整体和每个客户端级别上进行了检查。我们展示了,在不同的聚合技术之间,Shapley值会导致参与者之间的奖励分配不稳定。我们的分析涵盖各种数据异质性分布,包括独立同分布(IID)和非IID场景。
发布时间: 4/4/2025
查看原文
作者: Prannay Kaul, Zhizhong Li, Hao Yang, Yonatan Dukler, Ashwin Swaminathan, C. J. Taylor, Stefano Soatto
arXiv:2405.05256v2 宣告类型: replace-cross 摘要:在大型视觉-语言模型(LVLM)中减轻幻觉的问题仍然是一个开放性问题。最近的基准测试没有解决开放性自由形式回答中的幻觉,我们将其称为“类型 I 幻觉”。相反,它们关注的是对特定问题格式的幻觉反应——通常是关于某个特定物体或属性的多项选择答案——我们将其称为“类型 II 幻觉”。此外,这些基准测试通常需要调用外部 API,这些 API 可能会更改。实践中,我们观察到类型 II 幻觉的减少并没有导致类型 I 幻觉的减少,反而这两类幻觉经常是反相关的。为了解决这个问题,我们提出了 THRONE,这是一种新颖的对象导向的自动框架,用于定量评估 LVLM 自由形式输出中的类型 I 幻觉。我们使用公共语言模型(LMs)来识别 LVLM 响应中的幻觉,并计算具有信息性的指标。通过使用公共数据集对多种最近的 LVLM 进行评估,我们展示了现有指标的改进并不能减少类型 I 幻觉,而且现有衡量类型 I 幻觉的标准基准是不完整的。最后,我们提供了一种简单而有效的数据增强方法来减少类型 I 和类型 II 幻觉,作为强基准。代码现在可在 https://github.com/amazon-science/THRONE 获取。
发布时间: 4/4/2025
查看原文
作者: Kang Wang, Zhishu Shen, Zhen Lei, Tiehua Zhang
arXiv:2404.11014v2 宣告类型: replace-cross 摘要:交通信号控制系统(TSCSs)是智能交通管理的关键组成部分,有助于高效的车辆流动。传统方法通常将道路网络简化为标准图形,未能考虑相邻交叉口的动态交通数据,从而忽略了对于实时控制至关重要的更高阶互联。为解决这一问题,我们提出了一种新的TSCS框架,以实现智能交通控制。该框架与多个相邻的边缘计算服务器合作,收集道路网络中的交通信息。为了提高交通信号控制的效率,我们开发了一种多智能体软演员-评论家(MA-SAC)强化学习算法。在此算法中,每个交叉口处部署一个代理人,旨在通过优化道路网络中的交通流共同实现优化。此外,我们还将超图学习引入MA-SAC的学习者网络中,以促进道路网络中多个交叉口的空间-时间互动。该方法结合了超图和空间-时间图结构来编码交通数据,并捕捉多个交叉口之间的复杂空间-时间关系。我们的实证评估,在多种数据集上进行测试,证明了我们框架在最小化平均车辆行驶时间和保持高吞吐量性能方面的优越性。本工作有助于推动更加智能的城市交通管理解决方案的发展。我们将在 https://github.com/Edun-Eyes/TSC 上发布代码以支持本工作的可再现性。
发布时间: 4/4/2025
查看原文
作者: Raffaele Galliera, Konstantinos Mitsopoulos, Niranjan Suri, Raffaele Romagnoli
arXiv:2404.01551v2 Announce Type: replace-cross 摘要:在安全性关键环境中解决复杂的协同任务对于多代理系统来说提出了重大挑战,特别是在部分可观测条件下。我们专注于一个动态网络桥接任务,其中代理必须学会在两个移动目标之间维持通信路径。为了在训练和部署过程中确保安全性,我们集成了一种控制理论安全过滤器,通过局部设定点更新来执行碰撞避免。我们开发并评估了多代理强化学习知情的消息传递方法,表明将安全过滤器的激活作为边级特征进行编码可以提高协调性。结果表明,在分布式多代理任务中,局部安全执行和分散学习可以有效结合。
发布时间: 4/4/2025
查看原文
作者: Chanwoo Park, Xiangyu Liu, Asuman Ozdaglar, Kaiqing Zhang
arXiv:2403.16843v4 更新类型: replace-cross 摘要: 大型语言模型(LLMs)已被越来越多地用于(交互式)决策中,通过基于LLM的自主代理的发展。尽管它们在决策任务中取得了显著的成功,但LLM代理在决策中的性能尚未通过定量指标进行全面研究,尤其是在它们相互交互的多智能体设置中,这是当前LLM代理应用中一个典型的场景。为了更好地理解LLM代理在这些交互环境中的限制,我们建议通过绩效指标“遗憾”在在线学习和博弈论的标准决策制定设置中研究它们的交互。我们首先从经验上研究LLM在经典的(非平稳)在线学习问题中的无遗憾行为,以及当LLM代理通过反复玩游戏相互交互时,它们之间的平衡现象的出现。然后,在某些关于监督预训练和生成数据的人类决策制定者理性模型的假设下,我们对LLM代理的无遗憾行为提供了一些理论见解。值得注意的是,我们还发现了GPT-4等先进LLM在无遗憾行为方面失败的情况。为了促进无遗憾行为,我们提出了一个新颖的无监督训练损失“遗憾损失”,与监督预训练损失不同,该损失不需要(最优)动作的标签。然后,我们为遗憾损失最小化建立了统计保证泛化界限,并探讨了最小化这种损失可能会自动导致已知无遗憾学习算法的优化保证。进一步的实验表明了我们提出的遗憾损失的有效性,尤其是在解决上述“遗憾”情况方面的优势。
发布时间: 4/4/2025
查看原文
作者: Maximilian B\"other, Abraham Sebastian, Pranjal Awasthi, Ana Klimovic, Srikumar Ramalingam
arXiv:2402.16442v3 宣布类型: 替换-交叉 摘要:现代数据集包含数十亿个样本,使得在所有可用数据上进行训练变得不可行。选择一个高质量的子集有助于降低训练成本并提升模型质量。子调和性,即连续凸性的离散对应,常用于解决此类子集选择问题。然而,现有的子调和函数优化算法是顺序进行的,而现有的分布式方法至少需要一台中央机器来适应目标子集。在规模达到十亿数据点时,即使子集也可能不能容纳在一台机器中,而顺序算法会变得极其缓慢。在本文中,我们通过提出一种具有可证明近似保证的新型分布式边界算法,放宽了对中央机器的要求。该算法通过迭代地对最小和最大效用值进行边界约束,以选择高质量点并丢弃不重要的点。当边界约束未能找到完整子集时,我们使用多轮次、基于分区的分布式贪婪算法来识别剩余子集。我们讨论了如何在分布式数据处理框架中实现这些算法,并进行了不同的配置的实验分析。我们发现,在CIFAR-100和ImageNet数据集上找到高质量的子集,与集中式方法相比,几乎没有或没有质量损失,并能扩展到包含130亿个点的数据集。
发布时间: 4/4/2025
查看原文
作者: Yehui Tang, Kai Han, Fangcheng Liu, Yunsheng Ni, Yuchuan Tian, Zheyuan Bai, Yi-Qi Hu, Sichao Liu, Shangling Jui, Yunhe Wang
arXiv:2402.02791v4 通知类型: replace-cross 摘要:大型语言模型(LLMs)的力量已经在大量的数据和计算资源中得到了展示。然而,在移动设备上应用语言模型面临着巨大的计算和内存成本挑战,因此,迫切需要高性能的小型语言模型。由于训练过程的高复杂性限制,优化语言模型的许多细节很少被仔细研究。在此研究中,基于一个具有1B参数的小型语言模型,我们精心设计了一系列实证研究,以分析每个组件的影响。主要从三个视角进行了讨论,即神经架构、参数初始化和优化策略。一些设计公式被实证证明尤其有效,包括标记化器压缩、架构微调、参数继承和多轮训练。然后,我们在1.6T的多语种语料库上训练了Pangu-$\pi$-1B Pro和Pangu-$\pi$-1.5B Pro,遵循已建立的公式。实验结果表明,改进的优化和架构在基准评估集上为Pangu-$\pi$-1B Pro带来了明显的平均改进,达到8.87。此外,Pangu-$\pi$-1.5B Pro在更大的模型规模范围内超过了多种当前最佳模型,验证了其优越的性能。相关代码可在https://github.com/YuchuanTian/RethinkTinyLM获取。
发布时间: 4/4/2025
查看原文
作者: Lena G. M. Bauer, Collin Leiber, Christian B\"ohm, Claudia Plant
arXiv:2312.12050v2 通告类型: replace-cross 摘要:在过去的十年里,拐点检验(Dip-test)作为单一维度样本中模态性的参数自由统计检验方法,在数据挖掘社区中获得了越来越多的关注。该检验返回一个所谓的拐点值(Dip-value)和一个相应的样本单模性的概率(Dip-p-value)。这两个值之间的关系呈S形。然而,这种特定的变换依赖于样本大小。许多基于Dip的聚类算法使用经过自助采样的查找表,将拐点值(Dip)转换为特定范围内某些样本大小的拐点概率值(Dip-p)。我们提出了一种特别设计的S形函数,作为这些最先进的查找表的替代品。这加速了计算,并为每个单独的样本大小提供了从拐点值(Dip)到拐点概率值(Dip-p)的变换的近似值。此外,该函数是可微的,因此可以轻松地集成到使用梯度下降的机器学习方案中。我们通过将我们的函数应用于一种新的子空间聚类算法Dip'n'Sub来展示这一点。通过广泛的实验,我们强调了我们提议的不同优点。
发布时间: 4/4/2025
查看原文
作者: Luca Scimeca, Alexander Rubinstein, Damien Teney, Seong Joon Oh, Yoshua Bengio
arXiv:2311.16176v5 宣告类型: replace-cross 摘要:数据中的虚假相关性,即多个线索能够预测目标标签,常常导致模型依赖于错误的、易于学习的线索,而忽视可靠的线索。在本工作中,我们提出了一种名为DiffDiv的集成多样性框架,利用扩散概率模型(DPMs)来缓解这种类型的偏差。我们展示了在特定的训练时间段内,DPMs可以在训练过程中生成具有新颖特征组合的图像,即使输入特征之间存在相关性。我们利用这一关键属性生成合成的反事实数据,通过集成分歧增加模型的多样性。我们证明,仅通过DPM指导的多样性生成即可消除对捷径线索的依赖,而无需额外的监督信号。我们进一步通过多种多样性目标的实验证实了其有效性,并最终展示了与依赖辅助数据收集的先前工作相当的改进的泛化能力和多样性。
发布时间: 4/4/2025
查看原文
作者: Manwen Liao, Yan Zhu, Giulio Chiribella, Yuxiang Yang
arXiv:2311.01727v2 误差修正类型: replace-cross 摘要:量子误差缓解是一种从其噪声版本中恢复目标过程统计信息的数据处理技术,对于近期内的量子技术至关重要。目前大多数现有方法需要噪声模型或噪声参数的先验知识。深度神经网络有可能克服这种需求,但当前模型仍需要在没有噪声的情况下由理想过程生成的训练数据。在这里,我们构建了一个神经模型,该模型在没有任何噪声先验知识且无需在无噪声数据上进行训练的情况下实现了量子误差缓解。为实现这一特性,我们引入了一种量子误差缓解技术。我们的方法适用于量子电路以及多体和连续变量量子系统的动力学,可适应各种类型的噪声模型。我们通过在模拟的噪声电路以及实际量子硬件上进行测试,展示了其有效性。
发布时间: 4/4/2025
查看原文