LLM2D

arXiv 论文列表

作者: Xuchuang Wang, Qirun Zeng, Jinhang Zuo, Xutong Liu, Mohammad Hajiesmaili, John C. S. Lui, Adam Wierman
arXiv:2504.15812v1 类型: cross 摘要: 本文探讨了在每次决策轮次收集绝对(奖励)反馈和相对(对弈)反馈的随机臂问题中这两种反馈类型的融合。我们推导出一个遗憾下界,证明有效的算法对于每种单个臂只能承受两者中较小的遗憾。我们提出了两种融合方法:(1) 一种基于消除的融合算法,它利用两种反馈类型来探索所有臂,并通过共享一个候选臂集合来统一收集到的信息;(2) 一种分解融合算法,它根据哪种反馈更有效来探索相应的臂,并且在每一轮中随机为探索分配一种反馈类型,为利用分配另一种反馈类型。由于消除融合方法中对弈消除的固有次优性,它在遗憾中经历了候选臂数量的次优乘性项。相比之下,在共同假设下,分解融合算法达到了遗憾下界的常数倍。大量的实验证明了我们算法和理论结果的有效性。
发布时间: 4/23/2025
查看原文
作者: Kai Luo, Juan Tang, Mingchao Cai, Xiaoqing Zeng, Manqi Xie, Ming Yan
arXiv:2504.15806v1 Announce Type: 宽映射 摘要:Kolmogorov-Arnold 网络(KANs)由于其在数据驱动建模中优于多层感知机(MLPs)的功能拟合能力,已成为一种有前途的替代方案。本文提出了一种新的框架 DAE-KAN,通过将 KANs 与物理信息神经网络(PINNs)集成,以解决高索引微分代数方程(DAEs)。该框架不仅保留了传统 PINNs 对受物理定律支配的复杂系统的建模能力,还能通过利用 KANs 的功能拟合优势来提高其性能。数值实验表明,对于从索引-1 到索引-3 的 DAE 系统,DAE-KAN 在微分变量和代数变量上将绝对误差降低了一个到两个数量级,相较于传统 PINNs。为评估该方法的有效性,我们分析了漂移误差,并发现无论是 PINNs 还是 DAE-KAN 在控制这种现象方面均优于经典的数值方法。我们的结果强调了神经网络方法,特别是 DAE-KAN,在解决高索引 DAEs 时具有显著的计算精度和泛化能力的潜力,为解决具有挑战性的偏微分代数方程提供了一个有希望的解决方案。
发布时间: 4/23/2025
查看原文
作者: Ning Wang, Bingkun Yao, Jie Zhou, Yuchen Hu, Xi Wang, Nan Guan, Zhe Jiang
arXiv:2504.15804v1 交叉类型:cross 摘要:大型语言模型(LLMs)在从自然语言描述生成Verilog代码方面展示了强大的性能。然而,确保生成代码的功能正确性仍然是一个重大挑战。本文介绍了一种方法,该方法将验证洞察力整合到Verilog生成LLMs的训练中,使训练与硬件设计的根本目标——功能正确性——保持一致。在使用LLMs进行Verilog代码生成时的主要障碍是缺乏足够的功能验证数据,特别是与设计规范和代码配对的测试平台。为了解决这一问题,我们引入了一种自动测试平台生成管道,该管道分解了过程,并使用Verilog编译器模拟器(VCS)的反馈来减少虚构并确保正确性。然后,我们使用测试平台评估生成的代码并收集它们进行进一步训练,在此过程中引入验证洞察力。我们的方法采用了强化学习(RL),特别是直接偏好优化(DPO),通过基于测试平台结果训练偏好对来调整Verilog代码生成与功能正确性的符合程度。在对VerilogEval-Machine、VerilogEval-Human、RTLLM v1.1、RTLLM v2和VerilogEval v2的评估中,我们的方法在生成功能正确的Verilog代码方面始终优于最先进的基线。我们在https://anonymous.4open.science/r/VeriPrefer-E88B 开源所有训练代码、数据和模型。
发布时间: 4/23/2025
查看原文
arXiv:2504.15801v1 声明类型: cross 摘要: 随着大规模语言模型(LLMs)及其基于LLM的代理越来越多地在决策情境中与人类互动,人类与AI代理之间的信任动态理解变得至关重要。虽然有大量的文献研究人类如何信任AI代理,但基于LLM的代理如何发展有效的信任机制尚未得到充分理解。基于LLM的代理可能依赖于某种形式的信任相关上下文中的有效信任(例如,评估个人贷款申请),以辅助和影响决策。通过成熟的行为理论,我们开发了一种方法,研究LLM的信任是否依赖于人类主体的三大信任维度:能力、善意和正直。我们还研究了人口统计变量如何影响有效信任。在43,200次模拟实验中,对于五种流行的语言模型,在五种不同的情景中,我们发现基于LLM的代理信任发展的总体模式与人类信任发展的模式相似。我们发现,在大多数但并非所有案例中,基于LLM的代理的信任高度依赖于信任维度,而在某些情况下,年龄、宗教和性别也对有效信任产生了一定影响,尤其是在金融情境中。这种情况在文献中常见的场景和新模型中尤为明显。尽管整体模式与人类有效的信任形成机制相一致,但不同的模型在估计信任方面存在差异;在某些情况下,信任维度和人口统计因素并不是有效信任的强预测指标。这些发现呼吁更好地理解AI与人类之间的信任动态,以及监控偏见和信任发展模式,以防止在信任敏感的AI应用中出现无意的甚至可能有害的结果。
发布时间: 4/23/2025
查看原文
作者: Ruizhe Li, Chiwei Zhu, Benfeng Xu, Xiaorui Wang, Zhendong Mao
arXiv:2504.15784v1 跨领域公告类型: 摘要:创造性的写作是大型语言模型(LLMs)的关键能力,具有在文学、讲故事以及各种创意领域中的潜在应用。然而,评估机器生成文本的创意性仍然是一个重大挑战,因为现有的方法要么依赖于昂贵的手动注释,要么无法与人类评估紧密对齐。在本文中,我们提出了基于托兰斯写作创意测试(TTCW)的有效自动化评估方法,该测试评估创造性作为产品。该方法采用参考文本为基础的李克特量表方法,在各种测试中对生成的创造性文本与高质量参考文本进行评分。实验结果表明,我们的方法显著改善了LLM评估与人类评估之间的对齐,准确率达到0.75(+15%)。
发布时间: 4/23/2025
查看原文
作者: Aaron J. Gutknecht, Fernando E. Rosas, David A. Ehrlich, Abdullah Makkeh, Pedro A. M. Mediano, Michael Wibral
arXiv:2504.15779v1 Announce Type: cross 摘要:分布式系统,如生物和人工神经网络,通过多个子系统之间的复杂交互处理信息,导致在不同尺度上产生具有独特特性的高阶模式。由于难以定义合适的多元度量标准并确保其在大型系统中的可扩展性,如何研究这些系统的信息处理仍然是一个挑战。为了解决这些挑战,我们引入了一种基于我们称之为“香农不变量”的新框架——这些量以仅依赖于熵的定义的方式捕获高阶信息处理的基本特性,并且可以高效地计算大型系统的熵。我们的理论结果展示了香农不变量如何被用来解决长期以来广泛使用的多元信息论度量在解释中的模糊性。此外,我们的实验结果揭示了各种深度学习架构在不同层面上独特的信息处理特征,这为这些系统如何处理信息以及训练过程中这些过程如何演变提供了新的见解。总体而言,我们的框架解决了分析高阶现象的基本限制,并提供了广泛的理论发展和实证分析的机会。
发布时间: 4/23/2025
查看原文
作者: Cong Liu, Sharvaree Vadgama, David Ruhe, Erik Bekkers, Patrick Forr\`e
arXiv:2504.15773v1 宣告类型: cross 摘要: 本文探讨了利用克利福德代数的表达能力来增强$\E(n)$-等变扩散模型。我们利用克利福德多旋量之间的几何积以及克利福德子空间中编码的丰富几何信息,在克利福德扩散模型(CDMs)中加以利用。我们将扩散过程扩展到不仅仅是克利福德一旋量,而是包括所有更高阶的多旋量子空间。数据被嵌入到$K$阶子空间中,这使得我们可以对完整的多旋量应用潜在扩散。这使得CDMs能够捕捉代数中不同子空间之间的联合分布,通过更高阶的特征来融入更丰富的几何信息。我们在QM9数据集上提供了无条件分子生成的实证结果,表明CDMs为生成建模提供了一个有前景的方向。
发布时间: 4/23/2025
查看原文
作者: Tobias Demmler, Lennart Hartung, Andreas Tamke, Thao Dang, Alexander Hegai, Karsten Haug, Lars Mikelsons
arXiv:2504.15766v1 Announce Type: cross 摘要:在自动驾驶中,准确预测其他交通参与者的运动至关重要,因为它显著影响车辆的规划过程。现代轨迹预测模型旨在从代理和地图数据中解释复杂的模式和依赖关系。Motion Transformer(MTR)架构及其后续工作在Waymo Open Motion Benchmark等通用基准测试中定义了最准确的方法。MTR模型使用预生成的静态意图点作为轨迹预测的初始目标点。然而,这些静态点的特性在特定交通场景中经常与地图数据不匹配,导致不可行或不现实的目标点。我们的研究通过将场景特定的动态意图点集成到MTR模型中来解决这一局限性。对Waymo Open Motion Dataset的训练和评估结果显示,将动态意图点纳入模型对轨迹预测准确性产生了显著的积极影响,尤其是在长时间预测方面。此外,我们分析了与地图数据不一致或非法的操作的地面真实轨迹的影响。
发布时间: 4/23/2025
查看原文
作者: Seung Gyu Jeong, Sung Woo Nam, Seong Kwan Jung, Seong-Eun Kim
arXiv:2504.15743v1 Announce Type: 交叉 摘要:呼吸听诊对于儿科肺炎的早期检测至关重要,该病在未得到及时干预的情况下会迅速恶化。在医生访问受限的地区,有效的听诊颇具挑战性。我们提出了一种基于智能手机的系统,利用内置麦克风和先进的深度学习算法来检测表明肺炎风险的异常呼吸声音。我们的端到端深度学习框架通过领域泛化将大型电子听诊器数据集与小型智能手机数据集结合起来,从而在无需昂贵设备的情况下实现稳健的特征学习以进行准确的呼吸评估。伴随的移动应用程序指导看护人在高质量肺部声音样本的采集上,并提供潜在肺炎风险的即时反馈。用户研究显示了强大的分类性能和高度的接受度,证明了该系统的 ability 促进主动干预和减少可预防的儿童肺炎死亡。通过无缝集成到普遍使用的智能手机中,这种方法为更公平和全面的远程儿科护理提供了有前景的道路。
发布时间: 4/23/2025
查看原文
作者: Yiannis Papageorgiou, Yannis Thomas, Alexios Filippakopoulos, Ramin Khalili, Iordanis Koutsopoulos
arXiv:2504.15724v1 共享类型: 交叉 摘要:联邦学习(FL)基于服务器和客户端之间的模型交换进行操作,并且会遭受显著的客户端计算和通信负担。分割式联邦学习(SFL)通过将模型分为两部分并顺序训练来提供一种有前景的解决方案:客户端训练模型的第一部分(客户端模型),并将该部分传输给服务器,服务器则训练第二部分(服务器模型)。尽管现有的SFL方案在不同计算能力的客户端参与时仍然存在较长的训练延迟和显著的通信开销,但提出了一种新的方案——协作分割式联邦学习(C-SFL),该方案将模型划分为三部分,即在计算能力较弱的客户端训练的模型部分,在计算能力较强的客户端训练的模型部分,以及在服务器上训练的模型部分。与现有工作不同,C-SFL能够在客户端和服务器上并行训练和聚合模型的部分,从而减少训练延迟和通信开销,同时提高模型的准确性。实验结果验证了C-SFL相对于现有方案的多种优势。
发布时间: 4/23/2025
查看原文