arXiv 论文列表

作者: Jannik Endres, Oliver Hahn, Charles Corbi\`ere, Simone Schaub-Meyer, Stefan Roth, Alexandre Alahi

arXiv:2503.23502v1 交叉公告类型：交叉学科摘述：全方位深度感知对于需要全方位360°视场场景理解的移动机器人应用是必不可少的。基于相机的设置通过使用立体深度估计生成密集的高分辨率深度图，从而提供一种成本效益高的选择，无需依赖昂贵的主动传感。然而，现有的全方位立体匹配方法在多变的环境中、不同的深度范围和光照条件下，仅能实现有限的深度准确性，这主要是由于现实世界数据的稀缺性。我们提出了DFI-OmniStereo，一种新颖的全方位立体匹配方法，该方法利用大规模预训练的基础模型在迭代优化基础上的立体匹配架构中进行相对单目深度估计。我们引入了一种专用的两阶段训练策略，在进行尺度不变性微调之前先利用相对单目深度特性进行全方位立体匹配。DFI-OmniStereo在现实世界的Helvipad数据集上达到了最先进的结果，与之前最好的全方位立体匹配方法相比，将视差MAE降低了约16%。

发布时间: 4/1/2025

查看原文

POINT$^{2}$: 聚合物信息化训练与测试数据库

作者: Jiaxin Xu, Gang Liu, Ruilan Guo, Meng Jiang, Tengfei Luo

arXiv:2503.23491v1 宣传类型:横跨领域摘要：聚合物信息学的进步在整合机器学习（ML）技术的帮助下显著推进了，这使得聚合物性质的快速预测成为可能，并加速了高性能聚合材料的发现。然而，该领域缺乏一个涵盖预测准确性、不确定性量化、ML可解释性和聚合物合成性的标准化工作流程。在本研究中，我们引入了POINT$^{2}$（POlymer INformatics Training and Testing），这是一个全面的基准数据库和协议，旨在解决这些关键挑战。利用现有的带标签数据集和未标记的PI1M数据集——这是通过训练在现实聚合物上的递归神经网络生成的一百多万种虚拟聚合物的集合，我们开发了一个ML模型集合，包括分位数随机森林、具有丢弃的多层感知机、图神经网络以及预训练的大语言模型。这些模型与不同的聚合物表示相结合，如Morgan、MACCS、RDKit、拓扑、原子对指纹和基于图的描述符，以实现一系列性质的性能预测、不确定性估计、模型可解释性以及基于模板的聚合物合成，包括气体渗透性、热导率、玻璃转变温度、熔点、自由体积分数和密度。POINT$^{2}$数据库可以作为聚合物信息学社区进行聚合物发现和优化的重要资源。

发布时间: 4/1/2025

查看原文

微调的顺序无关性

作者: Katrina Brown, Reid McIlroy

arXiv:2503.23483v1 类型: cross 摘要: 大型语言模型（LLMs）在许多自然语言处理任务中表现出色，但在很大程度上表现出序依赖性：简单地重新排序具有语义相同性的标记（例如，多项选择问题中的答案选项）会导致不一致的预测。最近的工作提出了基于集的方法（Set-Based Prompting，SBP）来删除指定标记子集中的顺序信息，从而减轻位置偏差。然而，在基础模型上应用SBP会诱导出一种分布外的输入格式，这可能会降低分布内性能。我们提出了一种微调策略，将SBP整合到训练过程中，“拉近”这些集格式的提示与模型的训练流形。我们展示了SBP可以通过微调整合到模型中。我们的实验在分布内（MMLU）和分布外（CSQA，ARC挑战）的多项选择任务中表明，SBP微调显著提高了准确性和对答案顺序排列的鲁棒性，同时保留了更广泛的语言建模能力。我们讨论了防变模型的广泛含义，并概述了构建更公平、更一致的LLMs的未来方向。

发布时间: 4/1/2025

查看原文

处理实时强化学习中的延迟

作者: Ivan Anokhin, Rishav Rishav, Matthew Riemer, Stephen Chung, Irina Rish, Samira Ebrahimi Kahou

arXiv:2503.23478v1 公告类型：交叉摘要：实时强化学习（RL）引入了若干挑战。首先，由于硬件限制，策略每秒只能采取固定数量的动作。其次，在网络仍然在计算动作时，环境可能会发生变化，导致观察延迟。第一个问题可以通过流水线处理部分解决，从而提高吞吐量并有可能获得更好的策略。然而，第二个问题依旧存在：如果每个神经元并行操作且执行时间为 $\tau$，那么一个 $N$ 层前馈网络会经历 $\tau N$ 的观察延迟。减少网络层数可以降低这一延迟，但会牺牲网络的表达能力。在本工作中，我们探讨了减少延迟与网络表达能力之间的权衡。我们提出了一种基于理论动机的解决方案，结合了时间跳跃连接和历史增强观察。我们评估了几种架构，并表明那些包含时间跳跃连接的架构在不同神经元执行时间、强化学习算法和环境（包括四个 MuJoco 任务和所有 MinAtar 游戏）中实现了强大的性能。此外，我们展示了并行神经元计算可以在标准硬件上加速推理 6%-350%。我们对时间跳跃连接和并行计算的研究为进一步提高实时设置下的 RL 代理效率铺平了道路。

发布时间: 4/1/2025

查看原文

代码漏洞：来自Codeforces的 Competitive Programming问题对抗测试数据集

作者: Max Hort, Leon Moonen

arXiv:2503.23466v1 类型: cross 摘要：软件在我们的日常生活中被用于关键应用，并且保证其正确性非常重要。一种流行的方法是通过测试来评估软件的正确性。如果某个测试失败，这表明所测试的软件存在故障；如果所有测试都正确通过，那么可以假定该软件是正确的。然而，这些结果的可靠性取决于所考虑的测试集，存在误报的风险（即通过所有可用测试但仍然包含错误的软件，因为有些情况未被测试）。因此，在评估软件时考虑引入错误的测试案例是重要的。为了支持数据驱动创建这样一种测试集，尤其对于从大型语言模型合成的软件测试特别感兴趣，我们收集了一个包含编程问题及其对应引入错误的测试案例（即“技巧”）的数据集（Codehacks）。该数据集来自野外，特别是从Codeforces在线裁判平台收集。该数据集包含288,617个技巧，针对5,578个编程问题，每个问题都有自然语言描述，以及2,196个提交的解决方案的源代码，这些解决方案可以通过其对应的技巧被破解。关键词：竞技编程，语言模型，数据集

发布时间: 4/1/2025

查看原文

语义保留变换作为变异操作符：对其在缺陷检测有效性研究

作者: Max Hort, Linas Vidziunas, Leon Moonen

arXiv:2503.23448v1 宣告类型：交叉摘要：最近在缺陷检测中使用了语言模型。现有工作通过增强训练数据来提高模型在处理语义相同代码时的鲁棒性（即，预测结果应相同）。然而，在应用工具时，并未考虑使用语义相同代码来改进工具，这一概念与变形测试密切相关。我们的研究目标是确定是否可以使用保留语义的变换，类似于突变操作，来提高缺陷检测工具在测试阶段的性能。我们首先收集了实现了保留语义变换的现有文献，并共享了它们的实现，以便可以重新使用这些实现。我们实证研究了三种不同的集成策略，以增强缺陷检测工具的效能。我们对包含漏洞作为缺陷类型的 Devign 数据集以及两个微调的大语言模型（VulBERTa，PLBART）应用了收集到的变换。我们发现了 28 篇文献，涉及 94 种不同的变换。我们选择了四项文献中的 39 种变换来实现，但手动检查发现其中 23 种变换更改了代码语义。使用剩余的 16 种正确的变换和三种集成策略，我们未能提高缺陷检测模型的准确性。我们的结果显示，重新使用共享的保留语义变换具有挑战性，有时甚至会导致语义的错误变化。

发布时间: 4/1/2025

查看原文

推测结束转弯检测器以实现高效的语音聊天机器人助手

作者: Hyunjong Ok, Suho Yoo, Jaeho Lee

arXiv:2503.23439v1 宣告类型: cross 摘要：由大型语言模型驱动的语音对话系统在理解人类语音和生成合适的语音响应方面展现了非凡的能力。然而，这些系统在结束轮次检测（ETD）方面存在局限性——即区分用户轮次结束和犹豫的能力。这一局限性往往导致响应过早或延迟，破坏了语音对话的流畅性。在本文中，我们引入了ETD数据集，这是首个公开的结束轮次检测数据集。ETD数据集包含使用文本到语音模型生成的合成语音数据和从网络来源收集的真实语音数据。我们还提出了一种名为SpeculativeETD的新颖协作推理框架，该框架平衡了效率和准确性，以提高资源有限环境中的实时ETD。我们的方法联合使用了一个基于轻量级GRU的模型，在本地设备上实时快速检测非说话单元，以及一个在服务器上运行的高性能Wav2vec模型，以进行更具有挑战性的区分终结轮次与仅暂停的分类。实验表明，提出的SpeculativeETD在保持所需计算量较低的情况下显著提高了ETD的准确性。数据集和代码将在审稿后提供。

发布时间: 4/1/2025

查看原文

什么是有效的评价标准？常见的陷阱与最佳实践

作者: Gil Gekker, Meirav Segal, Dan Lahav, Omer Nevo

arXiv:2503.23424v1 安全评估类型：交叉摘要：随着近年来人工智能（AI）能力的迅速提升，AI 社区对潜在安全风险表示了担忧。为了支持对AI系统的安全使用和发展的决策，高质量的危险模型能力评估变得越来越重要。尽管已经尝试提供了此类评估，但尚无一致的定义来说明什么是“好的评估”。在本文中，我们基于模型评估的前期工作，通过网络安全领域的示例，提出了一套安全评估的最佳实践。我们首先讨论初始思考过程的步骤，将威胁建模与评估设计联系起来。然后，我们提供使评估有用的特征和参数。最后，我们从构建特定评估到构建完整和综合的评估套件中，讨论了其他注意事项。

发布时间: 4/1/2025

查看原文

基于LLM的代理解码方法分析：忠实多跳问答

作者: Alexander Murphy, Mohd Sanad Zaki Rizvi, Aden Haussmann, Ping Nie, Guifu Liu, Aryo Pradipta Gema, Pasquale Minervini

arXiv:2503.23415v1 交叉类型公告摘要：大型语言模型（LLMs）经常生成事实性不准确的输出，这种现象称为幻觉，这限制了它们在知识密集型NLP任务中的准确性。检索增强生成和主动框架（如Reasoning and Acting，ReAct）可以通过让模型访问外部知识来解决这一问题。然而，LLMs往往未能忠实地重现检索到的信息。如果LLMs需要对检索到的信息进行推理，这一点尤其重要。近期研究探索了无训练解码策略，以提高模型生成的准确性。我们对ReAct框架与解码策略（即DeCoRe、DoLa和CAD）的结合如何影响LLM生成答案的准确性进行了系统的分析。结果显示，结合用于知识检索的主动框架与增强忠实性的解码方法可以提高下游多跳问答任务的准确性。例如，使用ReAct和DoLa时，我们在HotpotQA上的F1得分从19.5提高到32.6。

发布时间: 4/1/2025

查看原文

从内容创作到引用膨胀：一个GenAI案例研究

作者: Haitham S. Al-Sinani, Chris J. Mitchell

arXiv:2503.23414v1 Announce Type: cross 摘要：本文调查了可疑的人工智能生成的学术论文在广泛使用的预印本 repositories 中的存在及其影响，重点关注其在引用操纵中的作用。受我们在增强型生成AI网络安全研究中观察到的可疑模式的启发，我们确定了可疑论文及其作者的集群和概况。这些论文经常表现出技术内容匮乏、结构重复、作者身份不可验证以及一组反复出现的作者之间的互为支持的引用模式。为了评估此类做法的可行性和影响，我们进行了一个受控实验：使用生成AI生成一篇假论文，嵌入到疑似可疑论文的引用中，并将其上传到一个这样的 repository（ResearchGate）。我们的研究发现表明，这类论文可以避开平台检查，保持公开展示，并有助于提高引用指标，如H指数和i10指数。我们对涉及的机制进行了详细的分析，突出了内容管理中的系统性弱点，并提出了在生成AI时代提高平台问责制和维护学术诚信的建议。

发布时间: 4/1/2025

查看原文