LLM2D

arXiv 论文列表

作者: Mohammad Akbar-Tajari, Mohammad Taher Pilehvar, Mohammad Mahmoody
arXiv:2504.19019v1 类型: cross 摘要: 确保大型语言模型(LLMs)与社会标准一致的挑战日益引起关注,因为这些模型仍然容易受到绕过其安全机制的对抗性劫持攻击。识别这些漏洞对于增强LLMs的抗这种攻击的稳健性至关重要。我们提出了GoAT(攻击图),一种使用《思想图》框架[Besta等人,2024]的方法,用于生成对抗性提示以测试LLMs对齐的稳健性。GoAT在生成高效对抗性劫持提示方面表现优异,所需查询次数比最先进的攻击方法少,对抗性劫持对抗稳健模型(如Llama)的成功率最高可高出五倍。值得注意的是,GoAT可以生成高质量、可读性高的提示,无需访问目标模型的参数,使其成为一个黑盒攻击。与受限于树形推理的方法不同,GoAT的推理基于更复杂的数据结构。通过使同时进行的攻击路径意识到彼此的进度,这个动态框架允许更深层次的推理路径集成和优化,显著增强了对LLMs的对抗性漏洞的协作探索。从技术层面来看,GoAT以图形结构开始,并通过组合和改进思想反复优化它,使不同思想路径之间能实现协同效应。我们的实现代码可以在以下链接中找到:https://github.com/GoAT-pydev/Graph_of_Attacks。
发布时间: 4/29/2025
查看原文
作者: J\'ulia Vicens Figueres, Juliette Vanderhaeghen, Federica Bragone, Kateryna Morozovska, Khemraj Shukla
arXiv:2504.19013v1 Announce Type: 综合 摘要:物理知情神经网络(PINNs)是一种用于解决具有嘈杂和稀疏初始和边界数据的偏微分方程(PDEs)的新计算方法。尽管在大规模多尺度问题中有效地量化已知和统计不确定性仍然具有挑战性。我们提出了一种名为\$PINN的新方法,通过结合局部贝叶斯物理知情神经网络(BPINN)和域分解方法来计算PDEs中的全局不确定性,使用贝叶斯框架。通过在相邻子域接口处强制流量连续性来获得子域解的连续性。为了证明\$PINN的有效性,我们在1D和2D空间域上的PDE中进行了一系列计算实验。尽管我们采用了保守的PINNs(cPINNs),该方法可以无缝扩展到其他域分解技术。结果表明,所提出的方法通过准确并行计算每个子域中的局部不确定性,更有效地恢复了全局不确定性。通过向训练数据添加高达15%的不相关随机噪声并对不同域大小进行测试,验证了\$PINN的鲁棒性。
发布时间: 4/29/2025
查看原文
arXiv:2504.18961v1 宣布类型: cross 摘要:随着多模态大规模语言模型(MLLMs)的快速发展,越来越多的研究人员正在探索其在推荐系统中的应用。然而,大型模型的高延迟为这些用例带来了重大挑战。EReL@MIR研讨会为实验改进多模态表示学习以提高信息检索任务效率的各种方法提供了宝贵的机会。作为比赛的要求之一,参赛者被要求提交一份技术报告,详细说明他们的方法和发现。我们团队荣幸地获得了Task 2 - 优胜者(多模态点击率预测)的奖项。在这份技术报告中,我们介绍了我们的方法和关键发现。此外,我们还提出了几个未来工作的方向,特别关注如何有效地将推荐信号集成到多模态表示中。我们的实现代码库已公开发布在:https://github.com/Lattice-zjj/MMCTR_Code,训练好的模型权重可在此访问:https://huggingface.co/FireFlyCourageous/MMCTR_DIN_MicroLens_1M_x1。
发布时间: 4/29/2025
查看原文
作者: Marco Mezzina, Pieter De Backer, Tom Vercauteren, Matthew Blaschko, Alexandre Mottrie, Tinne Tuytelaars
arXiv:2504.18954v1 类别:交叉领域 摘要:目的:自动手术阶段识别(SPR)使用人工智能(AI)将手术工作流程分割为其关键事件,作为高效视频审查、手术教育以及技能评估的基础构建块。之前的研究所关注的都是短且线性的手术过程,并没有探讨时间上下文是否影响专家更好地分类手术阶段的能力。这项研究填补了这些空白,专注于高度非线性的机器人辅助部分肾切除术(RAPN)。方法:不同熟练程度的泌尿科医生被分组,并被要求在单个帧和视频片段上使用自定义网络平台标记RAPN的手术阶段。参与者报告了他们在决策中的置信水平和使用的视觉地标。随后,基于Cholec80数据集训练和评估的无时间上下文和有时间上下文的AI架构被应用于这个RAPN数据集。结果:视频片段和特定视觉地标的存在在所有组中提高了阶段分类的准确性。外科医生在分类中表现出高水平的置信度,并且优于表现出色但难以区分阶段的初学者。在两项研究中,当集成时间上下文时,AI模型的表现与调查中的外科医生相当,都有所改进。结论:专家外科医生和计算机视觉在SPR任务中都是复杂的工作,当给予相同的上下文时,两者表现相当。当提供时间信息时,性能会有所提高。手术工具和器官是人类解释的关键地标,并有望塑造自动SPR的未来。
发布时间: 4/29/2025
查看原文
作者: Sahar Ramezani Jolfaei, Sepehr Khodadadi Hossein Abadi
arXiv:2504.18953v1 类别: cross 摘要:本文介绍了基于智能精英移民灵感的群智能启发式算法——Brain Drain Optimization (BDO) 算法在 N-Queens 问题上的应用。N-Queens 问题作为经典的组合优化问题,为应用 BDO 提供了挑战。设计的成本函数引导搜索过程,通过基于 TOPSIS 的多准则决策过程调优配置。BDO 在解决方案质量方面始终优于其他替代方案,实现了较少的威胁和更好的目标函数值。为了评估 BDO 的效果,将其与几种已建立的启发式算法进行基准测试,包括粒子群优化 (PSO)、遗传算法 (GA)、帝国竞争算法 (ICA)、迭代局部搜索 (ILS) 和基本局部搜索 (LS)。研究表明,BDO 具有作为组合问题通用求解器的潜力,为人工智能其他领域未来应用开辟了道路。
发布时间: 4/29/2025
查看原文
作者: Martin Berger, Nathana\"el Fijalkow, Mojtaba Valizadeh
arXiv:2504.18943v1 Announce Type: 交叉 摘要:程序合成是一个从规范生成程序和逻辑公式的总称。借助GPU对深度学习性能的显著提升,自然地提出了一个问题:我们能否在GPU上实现基于搜索的程序合成器,以实现类似性能提升?在这篇文章中,基于最近的研究工作,我们讨论了对这个问题的一些见解。目标是在GPU上构建一个合成器,该合成器以正例和负例跟踪作为输入,并返回一个接受正例并拒绝负例跟踪的逻辑公式。通过使用友好的GPU编程技术——利用公式的语义来减少数据移动并减少数据依赖性分支——我们的合成器能够处理显著更大的合成问题,并且比基于CPU的先前最先进的方法运行得更快。我们认为,使我们的方法对GPU友好的洞察具有广泛潜力,可以提高其他形式化方法(FM)工作的性能。
发布时间: 4/29/2025
查看原文
作者: Debarati Das, Khanh Chi Le, Ritik Sachin Parkar, Karin De Langis, Brendan Madson, Chad M. Berryman, Robin M. Willis, Daniel H. Moses, Brett McDonnell, Daniel Schwarcz, Dongyeop Kang
arXiv:2504.18942v1 类型: cross 摘要:法律从业人员,特别是初入职业生涯的从业者,面临着复杂、高风险的任务,这些任务需要适应性和上下文相关的推理能力。虽然人工智能在支持法律工作方面具有潜力,但现有的数据集和模型主要集中于孤立的子任务,而未能捕捉到在实际法律实践中的端到端决策过程。为了填补这一空白,我们介绍了LawFlow,这是一个源自受训法律学生,基于实际企业实体创立情景的完整端到端法律工作流程数据集。与专注于输入-输出对或线性思维链条的先前数据集不同,LawFlow捕捉到了动态、模块化和迭代的推理过程,这些过程反映了法律实践中模糊性、修订和客户适应性的策略。利用LawFlow,我们比较了人类和生成式大模型的工作流程,揭示了结构、推理灵活性和计划执行方面的系统性差异。人类工作流程往往具有模块化和适应性,而生成式大模型的工作流程则更为序列化、详尽,并且对下游影响不那么敏感。我们的研究结果还表明,法律专业人士更倾向于让人工智能承担辅助角色,如头脑风暴、识别盲点和提出替代方案,而不是执行复杂的端到端工作流程。基于这些发现,我们提出了基于实证观察的一套设计建议,旨在通过混合规划、适应性执行和决策点支持,使人工智能援助与人类旨在提高清晰度、完整性、创造力和效率的目标相一致。我们的结果突出显示了生成式大模型在支持复杂法律工作流程方面的当前局限性,以及开发更多协作和推理意识的法律人工智能系统的机遇。所有数据和代码均可在我们的项目页面(https://minnesotanlp.github.io/LawFlow-website/)上获取。
发布时间: 4/29/2025
查看原文
作者: Dong Whi Yoo, Jiayue Melissa Shi, Violeta J. Rodriguez, Koustuv Saha
arXiv:2504.18932v1 宣告类型: cross 摘要: 近期大型语言模型(LLMs)的发展使得聊天机器人能够处理各种查询,包括敏感的心理健康情境。尽管对它们的效果和可靠性存在不确定性,这些领域的LLM开发仍在增长,可能带来潜在的危害。为了更好地识别和减轻这些危害,理解有 lived experience 人士的价值观与这些危害之间的关系至关重要。在本研究中,我们开发了一种技术探测,一种基于 GPT-4o 的名为 Zenny 的聊天机器人,使参与者能够参与由先前研究启发的抑郁自我管理情景。我们使用 Zenny 对 17 名有抑郁 lived experience 的个体进行了访谈。我们的主题分析揭示了关键价值:信息支持、情感支持、个性化、隐私和危机管理。本研究探索了 lived experience 的价值观、潜在危害及其对心理健康 AI 聊天机器人设计建议之间的关系,旨在增强自我管理支持并降低风险。
发布时间: 4/29/2025
查看原文
arXiv:2504.18931v1 宣布类型: cross 摘要:高级驾驶辅助系统(ADAS)和高级驾驶系统(ADS)是提高道路安全的关键,但大多数现有的实现主要关注前方车辆,忽视了后方车辆的行为。这种不足通常会在高密度、高速交通中导致连锁反应碰撞,特别是在中间车辆突然刹车且后方车辆无法及时做出反应的情况下。为解决这一关键缺口,我们提出了一种新型纵向控制和碰撞避免算法,该算法将自适应巡航控制与紧急制动集成在一起。利用深度强化学习,我们的方法同时考虑了前车和后车。通过一个数据预处理框架来校准实际传感器数据,我们增强了训练过程的稳定性和可靠性,确保学习的策略能够处理各种驾驶条件。在模拟高风险情境下(例如,密集交通中的紧急制动),该算法有效地防止了潜在的堵车碰撞事件,即使在涉及重型车辆的情况下也是如此。此外,在典型的高速公路场景中,当三辆车减速时,提出的DRL方法的成功率达到99%,远超联邦公路管理局速度概念指南下的标准方法,在相同条件下仅有36.77%的成功率。
发布时间: 4/29/2025
查看原文
arXiv:2504.18929v1 宣告类型: cross 摘要:压缩一直是理解Transformer成功的关键视角。过去,我们通常采用目标分布作为评估模型压缩性能的标准。然而,要准确评估模型在压缩过程中是否成功实现压缩,并在压缩过程中比较学习分布与目标分布的信息内容往往极具挑战性,因为目标分布通常未知,熵计算往往成本高昂。在本工作中,我们在受控的实验设置下探讨了这些问题。我们发现,Transformer 在数据压缩中表现出独特的归纳偏见:除了接近目标分布外,它们倾向于学习低熵分布,随着模型规模的增大,这种倾向愈发明显。这种偏好阻止Transformer 完美地与目标分布对齐,反而进一步压缩其信息内容。此外,我们证明FFN模块在驱动这种偏见方面起着关键作用。同时,在压缩过程中,模型从数据中消除了信息冗余,但在其参数中也表现出冗余,这使得压缩成为可能,并且可以通过动态稀疏性来表征。然而,Transformer,特别是注意力和FFN模块中的动态稀疏性模式,仍需进一步探索。为此,我们显示,更大的Transformer 对通过残差连接绕过注意力计算表现出更强的偏好,并且活跃神经元的比例较低。令人有趣的是,我们还发现,在更大规模的模型中,训练不稳定性和突然增加的失活神经元数量之间存在强烈的关联。我们的研究为从熵和动态稀疏性的视角更深入地理解Transformer做出了贡献。
发布时间: 4/29/2025
查看原文