arXiv 论文列表

复杂任务的推理时扩展：我们现在的位置和未来的前景

作者: Vidhisha Balachandran, Jingya Chen, Lingjiao Chen, Shivam Garg, Neel Joshi, Yash Lara, John Langford, Besmira Nushi, Vibhav Vineet, Yue Wu, Safoora Yousefi

arXiv:2504.00294v1 宣传类型：跨领域摘要：推理时的扩展可以增强大规模语言模型（LLMs）在需要逐步解决问题的复杂问题上的推理能力。虽然延长生成的草稿簿长度在数学任务中已被证明是有效的，但此方法在其他任务上的更广泛影响还不是很清楚。在本文中，我们探讨了九个最先进的模型和八个具有挑战性的任务（包括数学和STEM推理、日历规划、NP难问题、导航和空间推理）上的扩展方法的优势和局限性。我们通过涉及重复模型调用的评估协议，将传统模型（例如GPT-4o）与为推理时扩展而微调的模型（例如o1）进行了比较，这些评估协议可以独立进行也可以顺序进行并提供反馈。这些评估逼近了每个模型的下限和上限性能以及未来的性能改进潜力，无论是通过增强训练还是多模型推理系统。我们广泛的经验分析揭示出，推理时扩展的优势在不同任务上有所不同，并且随着问题复杂度的增加而减弱。此外，简单地使用更多标记并不一定能够在这些具有挑战性的条件下转化为更高的准确性。使用完美验证器的多个独立运行的传统模型的结果表明，对于某些任务，这些模型可以达到接近当今最先进推理模型平均性能的水平。但对于其他任务，即使在极高的扩展范围下，也仍存在显著的性能差距。令人鼓舞的是，所有模型在使用完美验证器或强烈反馈进一步扩展推理时都显示出显著的提升，这表明未来的改进潜力巨大。

发布时间: 4/2/2025

查看原文

中国的模型说中文了吗？

作者: Andrea W Wen-Yi, Unso Eun Seo Jo, David Mimno

arXiv:2504.00289v1 交叉公告类型：摘要：顶级开源大语言模型的发布已经确立了中国在全球人工智能开发领域的领先地位。这些模型支持中国使用的语言吗？还是与西方模型使用的语言相同？比较多语言能力有两方面的原因。首先，语言能力提供了有关预训练数据收集的洞察，从而揭示了资源分配和开发优先事项。其次，中国有着悠久的语言政策历史，政策内容从少数语言包容到以普通话为主。为了测试当今中国和西方开源大语言模型是否反映了关于中国语言的议程，我们在东亚区域和中国少数民族语言上测试了这些模型的性能。我们的实验显示，中国模型在这几种语言上的表现（信息平等和阅读理解）与西方模型的相关性很强（r=0.93），唯一的例外是普通话更优秀。有时，中国模型无法识别如哈萨克语和维吾尔语等中国少数民族的语言，尽管它们在法语和德语上表现良好。这些结果揭示了当前的开发优先事项，提供了未来发展的选项，并为最终用户提供了指导。

发布时间: 4/2/2025

查看原文

生物制药制造中的数字孪生：人类-机器协作智能的综述与展望

作者: Mohammed Aatif Shahab, Francesco Destro, Richard D. Braatz

arXiv:2504.00286v1 命名类型: cross 摘要：生物制药行业越来越发展数字孪生技术以数字化和自动化制造过程，以应对不断增长的市场需求。然而，这一转变对人工操作员提出了重大挑战，因为信息的复杂性和体积可能会超出他们的管理能力。如果数字孪生在设计时没有考虑到与操作员的互动和协作，特别是在异常情况下的监控和评估，这些问题会变得更加严重。我们对生物制药数字孪生当前发展趋势的综述揭示了一个主要关注技术的趋势，而往往忽视了人工操作员的关键作用。为了弥合这一差距，本文提出了一种协作智能框架，强调将操作员与数字孪生进行整合。本文介绍了可以增强操作员信任并提高人机界面使用的系统设计方法。此外，还讨论了为使操作员能够理解并利用数字孪生而创新的培训计划。本文中概述的框架旨在通过充分发挥操作员和数字孪生的优势，有效促进生物制药制造中的协作，提升其韧性和生产率。

发布时间: 4/2/2025

查看原文

SciReplicate-Bench: 在代理驱动的算法再现研究论文中的大型语言模型基准测试

作者: Yanzheng Xiang, Hanqi Yan, Shuyin Ouyang, Lin Gui, Yulan He

arXiv:2504.00255v1 文章类型: cross 摘要: 本研究评估了大型语言模型（LLMs）从最近的NLP论文中生成代码的能力。该任务需要两种关键能力：(1) 算法理解：从论文和学术文献中综合信息以理解实现逻辑，以及(2) 编码专业知识：识别依赖关系并正确实现必要的API。为了促进严格的评估，我们引入了SciReplicate-Bench，这是一个包含来自2024年36篇NLP论文的100个任务的基准，这些任务配有详细的注释和全面的测试案例。基于SciReplicate-Bench，我们提出了Sci-Reproducer，这是一个由多个代理组成的框架，其中包括文献代理，该代理解释文献中的算法概念，代码代理则从仓库中检索依赖关系并实现解决方案。为了评估算法理解能力，我们引入了推理图准确度这一指标，该指标量化了生成的推理图与从代码注释和结构中提取的参考推理图之间的相似性。对于评估实现质量，我们采用了执行准确度、CodeBLEU以及仓库依赖关系/API召回率等度量标准。在我们的实验中，我们评估了各种强大的非推理LLMs和推理LLMs作为基础模型。使用Sci-Reproducer的最佳表现的LLM仅实现了39%的执行准确度，突显了基准的难度。我们的分析指出，缺失或不一致的算法描述是成功再现的重要障碍。我们将开放源代码benchmark和相关代码，可在https://github.com/xyzCS/SciReplicate-Bench上获取。

发布时间: 4/2/2025

查看原文

ElaLoRA: 拓展与可学习的低秩适应以实现高效的模型微调

作者: Huandong Chang, Zicheng Ma, Mingyuan Ma, Zhenting Qi, Andrew Sabot, Hong Jiang, H. T. Kung

arXiv:2504.00254v1 Announce Type: cross 摘要：低秩适应（LoRA）已成为一种广泛采用的技术，用于在极少参数更新的情况下微调大规模预训练模型。然而，现有方法依赖于固定的秩或仅专注于秩的剪枝或扩展，无法在训练过程中根据不同层的重要性动态地调整秩。在这项工作中，我们提出了一种名为ElaLoRA的自适应低秩适应框架，它基于梯度导出的重要性评分动态地进行秩的剪枝和扩展。据我们所知，ElaLoRA是第一个能够在微调过程中同时实现秩的剪枝和扩展的方法。在多个基准测试中的实验表明，ElaLoRA在不同的参数预算下始终优于现有的PEFT方法。此外，我们的研究证实，分配较高秩的层对模型性能贡献更为显著，从而为我们的自适应策略提供了理论依据。通过引入一个原则性和自适应的秩分配机制，ElaLoRA提供了一种可扩展且高效的微调解决方案，特别适合资源受限的环境。

发布时间: 4/2/2025

查看原文

多形态构建：按需图谱构建

作者: S. Mazdak Abulnaga, Andrew Hoopes, Neel Dey, Malte Hoffmann, Marianne Rakic, Bruce Fischl, John Guttag, Adrian Dalca

arXiv:2504.00247v1 Announce Type: cross 摘要：我们提出了MultiMorph，这是一种快速且高效的方法，可以在短时间内构建解剖学图谱。图谱捕获了一组图像的典型结构，并对于跨群体量化解剖学变异性至关重要。然而，当前的图谱构建方法通常需要几天到几周的计算时间，从而抑制了快速实验的进行。因此，许多科学研究依赖于来自不匹配群体的次优预计算图谱，这对后续分析产生了负面影响。MultiMorph 使用前馈模型，可以在单次前向传播中快速生成高质量、针对任何3D脑部数据集的群体特定图谱，而无需任何微调或优化。MultiMorph 基于线性组交互层，该层在输入图像的组内聚合和共享特征。此外，通过利用辅助的合成数据，MultiMorph 在测试时可以推广到新的成像模态和群体组。实验上，MultiMorph 在小样本和大样本设置中均优于最先进的优化和学习驱动的图谱构建方法，时间减少了一百倍。这使得MultiMorph 成为没有机器学习背景的生物医学研究人员可访问的框架，能够快速生成多样化的高质量图谱。

发布时间: 4/2/2025

查看原文

使用大语言模型合成公众意见：角色创建、影响及对eDemocracy的未来

作者: Rabimba Karanjai, Boris Shor, Amanda Austin, Ryan Kennedy, Yang Lu, Lei Xu, Weidong Shi

arXiv:2504.00241v1 目标类型: 横截面摘要：本文探讨了使用大语言模型（LLMs）合成公众意见数据的方法，解决了传统调查方法中响应率下降和无响应偏差等挑战。我们引入了一种新的技术：基于知识注入的角色创建，这是一种利用RAG和HEXACO模型及人口统计信息指定的人格特征进行上下文学习的方法，并使用这些信息为动态生成的提示。该方法使得LLMs能够比现有的提示工程方法更准确地模拟多样化的意见。我们通过将结果与具有标准少量示例提示的预训练模型进行对比来验证这一点。使用合作选举研究（CES）中的问题进行的实验表明，我们提出的角色创建方法显著提高了LLM生成的意见与实际人类调查响应的一致性，从而提高了答案的符合度。此外，我们还讨论了面临的挑战、限制以及未来的研究方向。

发布时间: 4/2/2025

查看原文

注视LLM：整合人类视觉注意力的多模态大语言模型

作者: Jun Rekimoto

arXiv:2504.00221v1 交叉公告类型：跨领域摘要：大型语言模型（LLMs）正在向多模态大型语言模型（MLLMs）发展，能够处理图像、音频和视频以及文本。通过结合第一人称视频，多模态LLMs展示了通过视频和音频理解人类活动的巨大潜力，这使得很多人类-计算机交互和人类增强应用成为可能，例如支持人类活动、实际世界代理和技能向机器人或其他个体的转移。然而，处理高分辨率和长时间的视频会产生大量潜在表示，导致显著的内存和处理需求，限制了MLLMs能够处理的长度和分辨率。降低视频分辨率可以减少内存使用，但通常会牺牲理解度。本文介绍了一种通过整合眼动数据优化第一人称视频分析的方法，并提出了一种将第一人称视觉视频分解为关注区域的方法。通过处理这些选择性关注输入，我们的方法在任务理解上能够达到或甚至优于处理全分辨率图像的效果，但视频数据输入量显著减少（像素数量减少到十分之一），提供了一种高效利用MLLMs解释和运用人类技能的解决方案。

发布时间: 4/2/2025

查看原文

扩散模型能够解码出独立成分吗？一个理论视角

作者: Liming Wang, Muhammad Jehanzeb Mirza, Yishu Gong, Yuan Gong, Jiaqi Zhang, Brian H. Tracey, Katerina Placek, Marco Vilela, James R. Glass

arXiv:2504.00220v1 Announce Type: 横向摘要：本文提出了一种新的理论框架，用于理解扩散模型如何学习分离表示。在此框架内，我们建立了通用分离潜在变量模型的可识别性条件，分析了训练动态，并推导了分离潜在子空间模型的采样复杂性界。为了验证我们的理论，我们在包括潜在子空间高斯混合模型的子空间恢复、图像着色、图像去噪以及语音转换（用于语音分类）在内的多种任务和模态下进行了分离性实验。此外，我们的实验表明，受到我们理论启发的训练策略，例如风格指导正则化，能够一致地提高分离性能。

发布时间: 4/2/2025

查看原文

《 Agents Under Siege 》：使用优化提示攻击破解实用多代理LLM系统

作者: Rana Muhammad Shahroz Khan, Zhen Tan, Sukwon Yun, Charles Flemming, Tianlong Chen

arXiv:2504.00218v1 安全类型: cross 摘要：关于大型语言模型（LLM）安全性的大多数讨论都集中在单智能体设置上，但多智能体LLM系统现在因为其行为依赖于智能体之间的通信和去中心化的推理而产生了新的对抗性风险。在这项工作中，我们创新性地关注攻击具有限制性约束（如有限的令牌带宽、消息传输延迟和防御机制）的实用系统。我们设计了一种$\textit{不变性对抗攻击}$，通过优化延迟和带宽受限网络拓扑中的提示分布，来绕过系统内的分布式安全机制。我们将攻击路径表述为$\textit{最大流最小成本}$问题，并结合新型$\textit{不变性逃避损失（PIEL）}$，利用基于图的优化技术来最大化攻击成功率，同时最小化检测风险。在包括$\texttt{Llama}$、$\texttt{Mistral}$、$\texttt{Gemma}$、$\texttt{DeepSeek}$及其他变种的多个模型以及$\texttt{JailBreakBench}$和$\texttt{AdversarialBench}$等多种数据集上进行评估，我们的方法相比传统攻击性能提升最多$7$倍，揭示了多智能体系统中的关键漏洞。此外，我们展示了现有的防御措施，包括$\texttt{Llama-Guard}$和$\texttt{PromptGuard}$的变体，都无法阻止我们的攻击，强调了迫切需要专门针对多智能体的安全机制。

发布时间: 4/2/2025

查看原文