arXiv 论文列表

作者: Lucas Beerens, Desmond J. Higham

arXiv:2504.08782v1 交叉公告类型：攻击策略摘要：我们介绍了一种新的攻击范式，通过微调直接将隐藏的对抗能力嵌入到扩散模型中，而不改变其可观察的行为或推理过程中的修改。与之前针对特定图像或调整生成过程以产生对抗输出的方法不同，我们的方法将对抗功能集成到模型本身中。由此产生的篡改模型生成高质量的图像，这些图像与原始图像无法区分，但这些图像在下游分类器中以高频率导致错误分类。错误分类可以针对特定输出类。用户可以不知情地使用这种被篡改的模型，因为它与标准扩散模型的功能完全相同。我们展示了我们方法的有效性和隐蔽性，揭示了一种隐蔽攻击向量，引发了新的安全问题。本研究揭示了使用外部提供的模型带来的一种风险，并强调了在生成模型中对抗隐藏威胁时需要更强健的模型验证和防御机制的迫切需要。代码可在 https://github.com/LucasBeerens/CRAFTed-Diffusion 提供。

发布时间: 4/15/2025

查看原文

大型语言模型的高效评估通过协作过滤

作者: Xu-Xiang Zhong, Chao Yi, Han-Jia Ye

arXiv:2504.08781v1 交叉验证类型：跨验证摘要：随着大规模语言模型（LLMs）的发展，已经提出了许多基准来衡量和比较不同LLMs的能力。然而，由于测试实例的数量庞大以及推理速度较慢，评估LLMs的成本较高。本文旨在探索如何在基于基准中少量采样的测试实例的评估结果的基础上，高效地估计给定基准中模型的真实性能。受推荐系统（RS）中协同过滤（CF）的启发，我们将LLMs视为用户，将测试实例视为项目，并提出了一种两阶段方法。在第一阶段，我们将实例选择视为向用户推荐产品，以选择能够容易区分模型性能的实例。在第二阶段，我们将性能预测视为RS中的评分预测问题，以预测未选择实例中目标LLM的行为。在多个LLMs和数据集上的实验表明，我们的方法可以准确地估计目标模型的性能，同时大幅减少其推理开销。

发布时间: 4/15/2025

查看原文

AI能否掌握建筑管理（CM）？基于最先进的大型语言模型在建筑管理认证考试上的评估

作者: Ruoxin Xiong, Yanyu Wang, Suat Gunhan, Yimin Zhu, Charles Berryman

arXiv:2504.08779v1 交叉类型：综合摘要：建筑管理(CM)项目的复杂性日益增加，加上严格监管要求和劳动力短缺等挑战，需要专门的分析工具来简化项目工作流程并提高性能。尽管大型语言模型（LLMs）在通用推理任务上表现出色，但它们在解决CM特定问题方面的有效性，例如精确的量化分析和法规解释，仍然缺乏充分探索。为弥合这一差距，本研究引入了CMExamSet，这是一个全面的基准数据集，包含689道来自四个国家级认证CM资格考试的真实多项选择题。我们的零样本评估评估了总体准确率、主题领域（例如施工安全）、推理复杂性（单步和多步）以及问题形式（纯文本、图参考和表格参考）。结果显示，GPT-4o和Claude 3.7超出了典型的70%通过率，平均准确率分别为82%和83%。此外，两者在单步任务上的表现更好，准确率分别为85.7%（GPT-4o）和86.7%（Claude 3.7）。多步任务更具挑战性，准确率分别下降到76.5%和77.6%。此外，这两种LLM在图参考问题上的表现也存在明显局限性，准确率分别下降到约40%。我们进一步的错误模式分析表明，概念误解是最常见的（44.4%和47.9%），凸显了增强领域特定推理模型的必要性。这些发现强调了LLMs作为CM有价值的补充分析工具的潜力，同时也指出了在复杂决策中需要领域特定的改进和持续的人类监督。

发布时间: 4/15/2025

查看原文

从令牌到格子：语言模型中的 emergent 格子结构

作者: Bo Xiong, Steffen Staab

arXiv:2504.08778v1 通知类型: cross 摘要: 预训练的掩蔽语言模型（MLMs）展示了令人印象深刻的理解和编码概念知识的能力，揭示了概念之间的晶格结构。这提出了一个关键问题：这些概念化是如何从MLM预训练中产生的？在这篇论文中，我们从形式概念分析（FCA）的角度探讨了这个问题，形式概念分析是一种从对象-属性关系观察中推导概念晶格的数学框架。我们表明，MLM的目标隐式学习了一个描述对象、属性及其依赖性的\emph{形式语境}，这使得通过FCA重构概念晶格成为可能。我们提出了一种从预训练的MLM构建概念晶格的新框架，并研究了MLM在晶格结构学习中的归纳偏置的来源。该框架不同于以往的工作，因为它不依赖于人工定义的概念，并允许发现“潜在”的概念，这些概念超越了人工定义。我们创建了三个数据集进行评估，实验证据验证了我们的假设。

发布时间: 4/15/2025

查看原文

相似深度的层生成相似激活 Across LLM 架构

作者: Christopher Wolfram, Aaron Schein

arXiv:2504.08775v1 交叉类型公告：摘要：独立训练的大型语言模型（LLM）使用的潜在空间彼此之间有何关系？我们研究了24个开源权重LLM不同层次激活引起的最近邻关系，并发现它们1) 在同一模型的不同层之间变化，且2) 大约在不同模型的相应层之间共享。Claim 2 表明这些最近邻关系并非任意的，因为它们在不同模型之间是共享的，但Claim 1 表明它们也不是“显而易见”的，因为并不存在一个普遍共享的最近邻关系集。这两者共同表明，LLM 从一层到另一层生成了一种激活几何体的演变，但这种整个演变在不同模型之间是大体共享的，并且被拉伸和挤压以适应不同的架构。

发布时间: 4/15/2025

查看原文

基于离线强化学习的大型视觉-语言模型奖励生成

作者: Younghwan Lee, Tung M. Luu, Donghoon Lee, Chang D. Yoo

arXiv:2504.08772v1 宣布类型: cross 摘要：在离线强化学习（RL）中，从固定数据集学习为那些实时与环境交互昂贵或存在风险的领域提供了一种有前景的解决方案。然而，为离线数据集设计密集的奖励信号需要大量的人力和专业领域知识。带有人类反馈的强化学习（RLHF）已成为一种替代方案，但由于需要人工参与的过程，它仍然是昂贵的，从而激发了自动奖励生成模型的兴趣。为了解决这个问题，我们提出了一种基于大型视觉-语言模型的奖励生成方法（RG-VLM），它利用LVLM的推理能力从离线数据生成奖励，而无需人工参与。RG-VLM 在长期任务上增强了泛化能力，并且可以无缝地与稀疏的奖励信号结合，以提高任务性能，展现了其作为辅助奖励信号的潜力。

发布时间: 4/15/2025

查看原文

生成短视频推荐的浏览过程

作者: Chao Feng, Yanze Zhang, Chenghao Zhang

arXiv:2504.08771v1 交叉公告类型摘要：本文介绍了一种新的模型来生成短视频推荐的浏览过程，并提出了通过用户互动反馈的片段内容感知模型（SCAM），用于视频推荐中的观看时间预测。与现有的方法依赖多模态特征来理解视频内容不同，SCAM 通过用户的 histórico 观看行为隐式地建模视频内容，使段级理解能够在不使用复杂多模态数据的情况下实现。通过根据持续时间将视频划分为片段，并采用类似 Transformer 的架构，SCAM 捕捉了片段之间的序列依赖性，同时减轻了持续时间偏差。在工业规模和公开数据集上的广泛实验表明，SCAM 在观看时间预测方面的性能处于领先地位。提出的这种方法通过利用段级建模和用户互动反馈提供了一种可扩展且有效的视频推荐解决方案。

发布时间: 4/15/2025

查看原文

高阶展开神经常微分方程流

作者: Dario Izzo, Sebastien Origer, Giacomo Acciarini, Francesco Biscani

arXiv:2504.08769v1 Announce Type: cross 摘要：人工神经网络，在其在机器学习中的重要作用被广泛认可的同时，现在正在改变常微分方程（ODEs）的研究，将数据驱动建模与经典动力系统联系起来，并促进无限深度神经模型的发展。然而，这些模型的实际应用受到其学习动力学的不透明性限制，这些动力学作为具有有限解释性的黑盒系统运作，从而阻碍了对其部署的信任。现有的这些动力系统分析方法主要局限于由于计算约束而获得的一阶梯度信息，从而限制了可实现的洞察深度。在这里，我们引入了事件转换张量这一基于高阶微分的框架，它提供了神经ODE动力学在事件流形上的严格数学描述。我们展示了其在各种应用中的灵活性：在数据驱动的捕食者-猎物控制模型中表征不确定性，分析神经最优反馈动力学，以及在三体神经哈密顿系统中映射着陆轨迹。在所有情况下，我们的方法通过显式的数学结构增强了神经ODE的可解释性和严谨性。我们的研究结果为事件触发神经微分方程提供了更深厚的理论基础，并为解释复杂系统动力学提供了数学构造。

发布时间: 4/15/2025

查看原文

WebMap — 基于大型语言模型的网页语义链接诱导

作者: Shiraj Pokharel, Georg P. Ro{\ss}rucker, Mario M. Kubek

arXiv:2504.08763v1 交叉发布类型：cross 摘要：当前的网络搜索引擎仅在不充分地支持科研任务，甚至对其构成阻碍。因此，本文提出了WebMap的功能扩展，WebMap是一种基于语义诱导的网络层链接结构，旨在内在地促进科研活动。这些扩展功能支持文档集群的动态确定和重新分组，创建网络中的语义指针，并交互式地追溯主题的起源。

发布时间: 4/15/2025

查看原文

交互式调研：一个基于LLM的个性化互动调研论文生成系统

作者: Zhiyuan Wen, Jiannong Cao, Zian Wang, Beichen Guo, Ruosong Yang, Shuaiqi Liu

arXiv:2504.08762v1 交叉公告类型：跨领域摘要：学术文献的指数级增长迫切需要全面的综述论文，但手动撰写仍耗时且劳动密集型。近期大型语言模型（LLMs）和检索增强生成（RAG）的进步促进了从多个参考文献合成综述论文的研究，但目前大多数现有工作限制用户只能输入标题且固定输出，忽视了综述论文创作的个性化过程。本文介绍了基于LLM的个性化和交互式综述论文生成系统——InteractiveSurvey。InteractiveSurvey可以通过在线检索和用户上传从多个参考文献生成结构化且多模态的综述论文，并按照参考文献分类。更重要的是，用户可以在生成过程中通过直观的界面连续定制和精炼中间组件，包括参考文献分类、提纲和综述内容。内容质量评估、时间效率评估以及用户研究显示，InteractiveSurvey是一种易用且高效的综述论文生成系统，在输出内容质量上超越了大多数LLM和现有方法，同时保持了非常高的时间效率。

发布时间: 4/15/2025

查看原文