arXiv 论文列表

RobuNFR：评估大型语言模型在非功能需求感知代码生成中的稳健性

arXiv:2503.22851v2 宣告类型：替换-交叉摘要：在使用语言模型（LLMs）处理非功能性需求（NFRs）时，开发人员的行为可能会有所不同（例如，以不同的措辞表达相同的NFR）。稳健的LLMs应该在这些变化中输出一致的结果；然而，这一方面尚未得到充分探索。我们提出了RobuNFR，用于在代码生成中评估LLMs在NFR意识下的鲁棒性，涵盖四个NFR维度：设计、可读性、可靠性和性能，使用三种方法：提示变化、回归测试和多样化的流程。我们的实验表明，RobuNFR揭示了在考虑代码生成中的NFR时测试中的LLMs中的鲁棒性问题。具体而言，在提示变化的情况下，包括NFR会导致Pass@1的下降最多达39%，而标准差从0.48增加到2.48，相比之下，基础模型中没有NFR（即功能仅限）的情况下。虽然整合NFR通常会提高总体的NFR指标，但也导致了更高的提示敏感性。在回归设置中，一些LLMs在不同版本之间表现出差异，一种方面的改进（例如，减少代码异味）常常伴随另一种方面的退步（例如，降低正确性），揭示了不一致性，挑战了它们的鲁棒性。在改变流程时，测试中的LLMs在两种流程之间显示出了显著不同的NFR意识的代码生成能力：（1）将NFRs与功能需求整合到初始提示中；（2）使用相同的NFR增强功能仅限生成的代码。

发布时间: 4/4/2025

查看原文

基于吉尔福德结构理论的认知提示方法

作者: Oliver Kramer

arXiv:2503.22036v2 通知类型: 替换-交叉摘要：大型语言模型（LLMs）展示了强大的语言生成能力，但在结构推理方面经常遇到困难，导致解决问题时出现不一致或次优的结果。为了缓解这一限制，采用智力理论中的基本框架——Guilford的智力结构模型（SOI模型）作为认知提示工程的基础。SOI模型将认知操作分类为模式识别、记忆检索和评估等，提供了一种系统的方法来增强LLM的推理和决策能力。本文立场文件介绍了一种新的认知提示方法，旨在通过模仿SOI的推理方式来提高模型响应的清晰性、连贯性和适应性。

发布时间: 4/4/2025

查看原文

维纳bench：视觉叙事忠实性和一致性基准

作者: Silin Gao, Sheryl Mathew, Li Mi, Sepideh Mamooler, Mengjie Zhao, Hiromi Wakaki, Yuki Mitsufuji, Syrielle Montariol, Antoine Bosselut

arXiv:2503.20871v3 通知类型: replace-cross 摘要：视觉叙事生成将文本叙述转换为展示文本内容的图像序列。然而，生成既忠实于输入文本又在生成图像之间自洽的视觉叙事仍然是一个开放的挑战，原因是对用于规划故事的知识约束不足。在这项工作中，我们提出了一个新的基准——VinaBench，以应对这一挑战。我们的基准为视觉叙事样本标注了底层的常识性和语用性约束，提供了一个系统的学习视觉叙事隐含策略的支架。基于整合的叙事约束，我们进一步提出了新的度量标准，以更紧密地评估生成叙事图像的一致性和生成与输入文本叙事的对齐程度。我们在三种生成视觉模型中的结果表明，使用VinaBench的知识约束进行学习有效提升了生成视觉叙事的忠实性和连贯性。

发布时间: 4/4/2025

查看原文

Token 动态：面向高效动态视频Token表示的视频大型语言模型

作者: Haichao Zhang, Yun Fu

arXiv:2503.16980v3 宣告类型: replace-cross 摘要：基于令牌的视频表示已成为使大语言模型（LLM）能够解释视频内容的一个有前途的方法。然而，现有的令牌减少方法，如令牌修剪和令牌合并，往往会破坏重要的空间-时间位置嵌入，无法在较少的令牌与计算效率之间取得充分的平衡。因此，这些方法会产生较长的令牌序列，限制了它们在需要极端令牌压缩的场景中的适用性，例如视频大语言模型。在这篇论文中，我们引入了极端缩短令牌减少这一新的任务，旨在用最少的令牌表示大量的视频序列。为了解决这一挑战，我们提出了令牌动力学，这是一种新的视频表示框架，能够动态减少令牌数量同时保持空间-时间连贯性。具体来说，我们通过分离视觉嵌入与网格级别的运动信息，将其结构化为：1. 一个紧凑的令牌哈希表，通过聚类描述物体级内容的令牌创建；2. 一个令牌索引键图，捕捉跨网格的详细空间-时间运动模式；3. 一个令牌哈希函数，将令牌哈希表向量量化，从键图重建令牌序列。此外，我们引入了一种跨动力学注意力机制，该机制在不增加令牌长度的情况下将运动特征整合到令牌基础中，从而保持紧凑性和空间-时间完整性。实验结果表明，令牌数量减少了原始令牌的0.07%，性能下降仅为1.13%。此外，我们在极端令牌减少中提议了两个新的子任务（固定长度和自适应长度压缩）。我们的方法提供了显著较低的理论复杂度、更少的令牌和更高的吞吐量，因此为视频LLM提供了高效的解决方案。

发布时间: 4/4/2025

查看原文

医学AI中的信任极限

作者: Joshua Hatherley

arXiv:2503.16692v2 公告类型: replace-cross 摘要：人工智能（AI）预计将会革命化医学实践。近年来，在深度学习领域的进展已经在各种临床任务中取得了成功：从图像中检测糖尿病视网膜病变、预测住院再入院、帮助发现新药物等。然而，AI在医学领域的进步引发了关于这项技术可能对临床实践中信任关系产生影响的担忧。在本文中，我将 argue，这些担忧是有道理的，因为AI系统可以被依赖，能够可靠，但不能被信任，不具备值得信赖的能力。鉴于患者在医疗决策中必须依赖于AI系统，这有可能在临床实践中产生信任关系的缺陷。

发布时间: 4/4/2025

查看原文

第一人称视角视觉的挑战与趋势：一个综述

作者: Xiang Li, Heqian Qiu, Lanxiao Wang, Hanwen Zhang, Chenghao Qi, Linfeng Han, Huiyu Xiong, Hongliang Li

arXiv:2503.15275v2 通知类型: 交叉替换摘要：随着人工智能技术与可穿戴设备的迅速发展，自视点视觉理解已成为一个新的且具有挑战性的研究方向，并逐渐吸引了学术界和工业界的广泛关注。自视点视觉通过人体佩戴的摄像机或传感器捕捉视觉和多模态数据，提供了一种模拟人类视觉体验的独特视角。本文全面介绍了自视点视觉理解的研究，系统分析了自视点场景的组成部分，并将任务划分为四大类：主体理解、物体理解、环境理解以及混合理解。我们详细探讨了每个类别内的子任务。我们还总结了当前领域存在的主要挑战和趋势。此外，本文概述了高质量的自视点视觉数据集，为未来的研究提供了宝贵资源。通过总结最新的进步，我们展望了自视点视觉技术在增强现实、虚拟现实和实体智能等领域中的广泛应用，并基于最新的领域发展提出了未来的研究方向。

发布时间: 4/4/2025

查看原文

PromptMap：一种基于AI的图像生成的替代交互方式

作者: Krzysztof Adamkiewicz, Pawe{\l} W. Wo\'zniak, Julia Dominiak, Andrzej Romanowski, Jakob Karolus, Stanislav Frolov

arXiv:2503.09436v2 公告类型: replace-cross 摘要：近期的技术进步使得图像生成在普通公众中变得流行起来。然而，对于初学者用户来说，制定有效的提示可能存在困难。为了解决这一挑战，我们开发了 PromptMap，这是一种新的面向文本到图像 AI 的交互样式，允许用户通过地图视图和语义缩放自由探索大量的合成提示。PromptMap 根据语义相似性视觉化地分组图像，使用户能够发现相关的示例。我们在一个跨被试的在线研究 (n=60) 和一个单被试定量研究 (n=12) 中评估了 PromptMap。我们发现 PromptMap 通过提供示例支持用户制定提示。我们还展示了使用大语言模型 (LLMs) 创造庞大示例集合的可行性。我们的工作贡献了一种新的交互样式，支持不熟悉提示的用户获得令人满意的图像输出。

发布时间: 4/4/2025

查看原文

GenDR：闪电生成细节修复器

作者: Yan Wang, Shijie Zhao, Kai Chen, Kexin Zhang, Junlin Li, Li Zhang

arXiv:2503.06790v2 宣告类型: 替换-交叉摘要: 最近将文本到图像（T2I）扩散模型应用于实际场景超分辨率（SR）的研究取得了显著的成果。然而，T2I和SR目标之间的基本不一致导致了推断速度和细节保真度之间的难题。具体来说，T2I任务优先采用多步逆向合成与文本提示一致的输出，并缩小潜在空间以减少生成复杂性。相反，SR任务在保留下分辨率输入信息的同时仅恢复高频细节，因此需要足够的潜在空间和较少的推断步骤。为了弥合这一差距，我们提出了一种一步扩散模型用于生成性细节恢复（GenDR），该模型源自一个潜在空间更宽的定制扩散模型。具体而言，我们通过表示对齐训练了一个新的SD2.1-VAE16（0.9B）以扩展潜在空间而不增加模型规模。关于步骤蒸馏，我们提出了一致评分身份蒸馏（CiD），它将SR任务特定的损失融入评分蒸馏中，以便利用更多的SR先验条件并使训练目标对齐。此外，我们提出了包含对抗学习和表示对齐的CiD（CiDA）以提升感知质量并加快训练。我们还优化了流程以实现更高效的推理。实验结果表明，GenDR在定量指标和视觉保真度方面均取得了最优性能。

发布时间: 4/4/2025

查看原文

GraphGen+: 推进分布式子图生成和工业图上的图学习

作者: Yue Jin, Yongchao Liu, Chuntao Hong

arXiv:2503.06212v2 Announce Type: replace-cross 摘要：基于图的计算在广泛的应用中至关重要，其中图可以扩展到万亿条边。为了在如此大的图上实现高效的训练，常用的方法是采用小批量子图采样，这使得无需将整个图加载到内存中即可进行训练。然而，现有的解决方案面临着显著的权衡：如DGL和PyG这样的框架中的在线子图生成仅限于单个机器，导致严重的性能瓶颈，而在如GraphGen这样的预先计算子图方法中，虽然提高了采样效率，但也引入了较大的存储开销和较高的训练I/O成本。为了解决这些挑战，我们提出了**GraphGen+**，这是一种集成框架，实现了分布式子图生成与内存中图学习的同步，消除了对外部存储的需求，同时显著提高了效率。GraphGen+相对于传统的SQL-like方法在子图生成上实现了**27倍**的加速，并且相对于GraphGen实现了**1.3倍**的加速，支持每轮迭代训练100万节点，并消除了预先计算子图带来的开销，使其成为一种适用于大规模工业图学习的可扩展且实用的解决方案。

发布时间: 4/4/2025

查看原文

模型反转稳健性与条件熵最大化在协作推理系统中的理论洞察

作者: Song Xia, Yi Yu, Wenhan Yang, Meiwen Ding, Zhuo Chen, Ling-Yu Duan, Alex C. Kot, Xudong Jiang

arXiv:2503.00383v2 宣布类型: 替换-交叉摘要：通过局部编码原始数据为中间特征，协作推断使得终端用户能够利用强大的深度学习模型而不暴露敏感的原始数据给云服务器。然而，近期的研究发现，这些中间特征可能不能充分保护隐私，因为信息可以通过模型反向搜索攻击（MIAs）泄露，原始数据可以通过这些攻击重新构建。基于混淆的方法，如噪声污染、对抗性表示学习和信息过滤，通过混淆无关任务的冗余性来增强反向搜索的鲁棒性。然而，量化这种冗余性的方法仍然难以捉摸，关于这种冗余性最小化与反向搜索鲁棒性增强之间的显式数学关系尚未建立。为了解决这个问题，这项工作首先理论证明了给定中间特征的输入条件熵提供了任何MIAs下重建均方误差（MSE）的有保证的下界。然后，我们基于高斯混合估计推导出一个可微分且可求解的度量，用于在一个条件下边界限制条件熵，并提出了一种条件熵最大化（CEM）算法以增强反向搜索鲁棒性。在四个数据集上的实验结果表明，我们提出的CEM方法的有效性和适应性；在不牺牲特征效用和计算效率的情况下，将提出的CEM插入基于混淆的防御机制中，持续增强了其反向搜索鲁棒性，平均提升幅度在12.9%到48.2%之间。代码可访问 https://github.com/xiasong0501/CEM。

发布时间: 4/4/2025

查看原文