arXiv 论文列表

作者: Mark Harman, Peter O'Hearn, Shubho Sengupta

arXiv:2504.16472v1 宣布类型: cross 摘要：尽管在自动化软件测试方面进行了几十年的研究与实践，仍有许多基本概念界定不明确且未得到充分探索，但这些概念却具有巨大的实际影响潜力。我们展示了这些概念在大型语言模型用于软件测试生成的背景下提出了令人兴奋的新挑战。更具体而言，我们正式定义并研究了加固测试和捕获测试的属性。加固测试是一种旨在防止未来回归的测试，而捕获测试是一种能在新功能引入的代码更改中捕获此类回归或故障的测试。加固测试可以在任何时间生成，且当未来的回归被捕获时，它可能成为捕获测试。我们还定义并阐述了捕获“即时”（Just-in-Time, JiT）挑战，其中测试在捕获新故障之前即时生成。我们展示了任何解决捕获JiT测试生成问题的方法也可以重新用于捕获遗留代码中的潜在故障。我们列出了加固测试、捕获测试和JiT测试可能的结果，并讨论了开放的研究问题、部署选项以及我们在Meta上自动化的LLM加固工作初步结果。该论文\footnote{作者顺序按字母排列。对应作者是Mark Harman。}撰写的目的是与作者在ACM国际软件工程会议（FSE）2025的主旨演讲相伴随。

发布时间: 4/24/2025

查看原文

ManipDreamer：通过动作树和视觉引导增强机器人 manipulation 世界模型

作者: Ying Li, Xiaobao Wei, Xiaowei Chi, Yuming Li, Zhongyu Zhao, Hao Wang, Ningning Ma, Ming Lu, Shanghang Zhang

arXiv:2504.16464v1 宣布类型: cross 摘要：尽管在机器手操作视频合成方面取得了最近的进步，但在确保有效指令遵循和实现高质量视觉效果方面仍存在重大挑战。最近的方法，如RoboDreamer，利用语言分解将指令分解为单独的低级原始操作，根据这些原始操作条件化世界模型，以实现组合指令遵循。然而，这些单独的原始操作并未考虑它们之间的关系。此外，最近的方法忽视了有价值的应用视觉指导，包括深度和语义指导，这些都是提高视觉质量至关重要的因素。本文提出了ManipDreamer，这是一种基于行动树和视觉指导的高级世界模型。为了更好地学习指令原始操作之间的关系，我们将指令表示为行动树，并为树节点分配嵌入，每个指令可以通过导航行动树来获得其嵌入。指令嵌入可以用来引导世界模型。为了提高视觉质量，我们通过引入与世界模型兼容的视觉指导适配器，将深度和语义指导结合起来。这个视觉适配器增强了视频生成的时间一致性和物理一致性。基于行动树和视觉指导，ManipDreamer显著提升了指令遵循能力和视觉质量。在机器人操作基准上的综合评估表明，与最近的RoboDreamer模型相比，在新任务中，ManipDreamer在视频质量度量上取得了巨大改进，峰值信噪比（PSNR）从19.55提升到21.05，结构相似性指数（SSIM）从0.7474提升到0.7982，在新任务中将流错误（Flow Error）从3.506减少到3.201。此外，我们的方法在平均6个RLbench任务中将机器人操作任务的成功率提高了2.5%。

发布时间: 4/24/2025

查看原文

T-VEC：一种通过深度三元组损失微调以增强语义理解的电信专用向量模型

作者: Vignesh Ethiraj, Sidhanth Menon, Divya Vijay

arXiv:2504.16460v1 交叉公告类型摘要：电信行业的专业词汇和复杂概念为标准自然语言处理模型带来了显著挑战。通用文本嵌入往往无法捕捉到电信特有的语义，从而影响下游任务的性能。我们引入了T-VEC（电信向量模型），这是一种专门为电信领域定制的嵌入模型，通过深度微调实现。由NetoAI开发的T-VEC通过在精心策划的大规模电信特定数据集上使用三元组损失目标来适应最新的gte-Qwen2-1.5B-instruct模型。这个过程涉及到对基模型338层权重的大量修改，确保了广泛的专业知识集成，远超表面的适应技术。我们通过权重差异分析量化了这一深度的变化。一个关键贡献是开发并公开发布了（MIT许可）首个专用的电信特定分词器，增强了对行业术语的处理能力。T-VEC在MTEB平均得分上名列前茅（0.825），与现有模型相比表现优异，并在我们的内部电信特定三元组评估基准上展示了显著优于其他模型（0.9380 vs. 小于0.07）的表现，表明其对领域特异性微妙之处的极佳掌握，这一点通过嵌入分割的改进得到了视觉确认。这项工作将NetoAI置于电信AI创新的前沿，为社区提供了强大、深度适应的开源工具。

发布时间: 4/24/2025

查看原文

EMRModel：一个用于提取医疗咨询对话的结构化医疗记录的大语言模型

作者: Shuguang Zhao, Qiangzhong Feng, Zhiyang He, Peipei Sun, Yingying Wang, Xiaodong Tao, Xiaoliang Lu, Mei Cheng, Xinyue Wu, Yanyan Wang, Wei Liang

arXiv:2504.16448v1 类别：交叉摘要：医疗咨询对话包含关键的临床信息，但由于其非结构化的性质，在诊断和治疗中的有效利用受到阻碍。传统的方法依赖于基于规则或浅层机器学习技术，难以捕捉深层次和隐含的语义。最近，大型预训练语言模型和基于低秩适应（LoRA）的轻量级微调方法显示出结构化信息提取的潜力。我们提出了EMRModel，这是一种新颖的方法，将基于LoRA的微调与代码风格的提示设计相结合，旨在高效地将医疗咨询对话转换为结构化的电子医疗记录（EMRs）。此外，我们构建了一个高质量、实际落地的数据集，该数据集包含详细的注释，医疗咨询对话。我们还引入了医疗咨询信息提取的细粒度评估基准，并提供了一种系统评估方法，从而推动了医疗自然语言处理（NLP）模型的优化。实验结果表明，EMRModel 的F1分数达到了88.1%，相比标准预训练模型提高了49.5%。与传统的LoRA微调方法相比，我们的模型显示出了更好的性能，突显了其在结构化医疗记录提取任务中的有效性。

发布时间: 4/24/2025

查看原文

基于偏好优化合成数据的隐私联邦学习

作者: Charlie Hou, Mei-Yu Wang, Yige Zhu, Daniel Lazar, Giulia Fanti

arXiv:2504.16438v1 类型: cross 摘要: 在实际应用场景中，不同ially私密联邦学习(DP-FL)是用于从私有设备客户端数据中训练模型的主导方法。最近的研究表明，使用差分隐私合成数据的方法可能可以增强或超越DP-FL (Wu等，2024；Hou等，2024)。为FL应用生成DP合成数据的主要算法需要基于公开信息和/或迭代的私有客户端反馈进行精细的提示工程。我们的主要见解是，以前的DP合成数据方法(Hou等，2024；Xie等，2024)收集的私有客户端反馈可以被视为偏好排序。我们的算法，偏好优化私有客户端数据(POPri)，利用偏好优化算法(如直接偏好优化DPO)来微调LLM，以生成高质量的DP合成数据。为了评估POPri，我们发布了LargeFedBench，这是一个新的联邦文本基准，用于无污染的LLM评估。在LargeFedBench数据集和Xie等(2024)的一个现有基准上，POPri显著提高了DP合成数据的实用性。与之前在LargeFedBench数据集上的工作以及Xie等(2024)的一个现有基准相比，POPri将全私有和非私有设置下的下一个标记预测精度差距缩小了多达68%，而之前的合成数据方法为52%，最先进的DP联邦学习方法为10%。相关代码和数据可在https://github.com/meiyuw/POPri获取。

发布时间: 4/24/2025

查看原文

可解释的时间序列预测：柯尔莫果罗夫-阿诺尔德网络

作者: Ziran Liang, Rui An, Wenqi Fan, Yanghui Rao, Yuxuan Liang

arXiv:2504.16432v1 宣告类型: cross 摘要：随着时间的推移，特定领域的数据表现出预测性，促使时间序列预测从历史数据中预测未来趋势。然而，当前的深度预测方法虽能取得令人印象深刻的表现，但通常缺乏可解释性，这阻碍了其在自动驾驶和医疗保健等关键安全应用中的可信度和实际部署。本文中，我们提出了一种新的可解释模型iTFKAN，用于可靠的时序预测。iTFKAN由于其通过模型符号化实现的可解释性，能够进一步探索模型决策理据和潜在的数据模式。此外，iTFKAN开发了两种策略，先验知识注入和时频协同学习，以有效地指导在复杂交织的时间序列数据下的模型学习。广泛的实验结果表明，iTFKAN在实现令人鼓舞的预测性能的同时，还具备高度的解释能力。

发布时间: 4/24/2025

查看原文

大型语言模型能帮助多模态语言分析吗？MMLA：一个综合基准

作者: Hanlei Zhang, Zhuohang Li, Yeshuang Zhu, Hua Xu, Peiwu Wang, Jinchao Zhang, Jie Zhou, Haige Zhu

arXiv:2504.16427v1 宣告类型：交叉摘要：多模态语言分析是一个快速发展的领域，它利用多种模态来增强对人类对话表达背后的高层次语义的理解。尽管其重要性不言而喻，但很少有研究探讨多模态大型语言模型（MLLMs）理解认知级语义的能力。在本文中，我们介绍了MMLA，这是一种专门设计来填补这一空白的综合性基准。MMLA包含超过61,000个来自排练场景和现实场景的多模态表达，涵盖了多模态语义的六个核心维度：意图、情感、对话行为、情绪、说话风格和沟通行为。我们使用三种方法（零样本推理、监督微调和指令微调）评估了八种主流的大规模语言模型和多模态大型语言模型。广泛的实验表明，即使经过微调的模型也只能达到约60%~70%的准确率，突显了当前MLLMs在理解复杂人类语言方面的局限性。我们认为MMLA将为探索多模态语言分析中大型语言模型的潜力提供坚实的基础，并为推进这一领域提供宝贵的资源。相关数据集和代码已开源，可在 https://github.com/thuiar/MMLA 获得。

发布时间: 4/24/2025

查看原文

基于基础模型的推荐系统综述：从特征基础、生成到自主范式

作者: Chengkai Huang, Hongtao Huang, Tong Yu, Kaige Xie, Junda Wu, Shuai Zhang, Julian Mcauley, Dietmar Jannach, Lina Yao

arXiv:2504.16420v1 交叉类型：公告摘要：推荐系统（RS）已成为过滤信息和个性化内容的重要工具。传统上，RS技术依靠特定于每个任务的模型来建模用户和项目的交互以及内容特征。作为基础模型（FMs）的出现，这些大规模模型在大量数据（如GPT、LLaMA和CLIP）上进行训练，正在重塑推荐范式。本综述提供了关于推荐系统基础模型（FM4RecSys）的全面概述，涵盖其在三个方面中的集成：（1）基于特征的表示增强，（2）生成型推荐方法，以及（3）代理交互系统。我们首先回顾了RS的数据基础，从传统的显式或隐式反馈到多模态内容源。然后介绍FMs及其在RS上下文中的表示学习、自然语言理解以及多模态推理的能力。综述的核心部分讨论了FMs在不同范式中如何增强RS。之后，我们探讨了FMs在各种推荐任务中的应用。通过分析最近的研究，我们强调了已经实现的关键机会以及遇到的挑战。最后，我们概述了下一代FM4RecSys的研究方向和技术挑战。本综述不仅回顾了最先进的方法，还对基于特征的、生成型的和代理型范式之间的权衡关系进行了批判性分析，指出了关键的开放问题和未来的研究方向。

发布时间: 4/24/2025

查看原文

PixelWeb：首个带有像素级标签的Web GUI数据集

作者: Qi Yang, Weichen Bi, Haiyang Shen, Yaoqi Guo, Yun Ma

arXiv:2504.16419v1 标注类型：交叉摘要：图形用户界面（GUI）数据集对各种下游任务至关重要。然而，GUI数据集通常通过自动标注生成注释信息，这通常会导致GUI元素边界框（BBox）注释的不准确性，包括缺失、重复或无意义的边界框。这些问题会降低这些数据集上训练的模型的性能，限制其在实际应用中的有效性。此外，现有的GUI数据集仅提供了视觉上的边界框注释，这限制了与GUI视觉相关的下游任务的发展。为了解决这些问题，我们引入了PixelWeb，这是一个包含超过100,000个标注网页的大规模GUI数据集。PixelWeb利用一种新颖的自动标注方法构建，该方法结合了视觉特征提取和文档对象模型（DOM）结构分析，通过两个核心模块：信道提取和层级分析进行构建。信道提取确保在遮挡和重叠元素情况下GUI元素的准确定位，通过提取BGRA四通道位图注释来实现。层级分析使用DOM来确定元素的可见性和叠加顺序，提供精确的边界框注释。此外，PixelWeb还包括丰富的元数据，如元素图像、轮廓和掩码注释。三位独立的标注员的手动验证确认了PixelWeb注释的高质量和准确性。在GUI元素检测任务上的实验结果显示，PixelWeb在mAP95指标上的性能比现有数据集高出3-7倍。我们认为，PixelWeb在GUI生成和自动化用户交互等下游任务中的性能改进方面具有巨大的潜力。

发布时间: 4/24/2025

查看原文

FeedQUAC：快速不显侵扰的AI生成评论

作者: Tao Long, Kendra Wannamaker, Jo Vermeulen, George Fitzmaurice, Justin Matejka

arXiv:2504.16416v1 宣告类型: cross 摘要：设计得益于反馈。然而，在设计过程中不断收集反馈可能既耗费精力又具有干扰性。我们探索了AI如何通过提供无缝和背景化的反馈来填补这一空白。我们介绍了一种名为FeedQUAC的设计伴侣，它通过不同的角色提供实时生成的多视角评论。一项涉及八名参与者的设计探索研究突显了设计师如何利用快速且背景化的AI反馈来增强其创作工作流程。参与者强调了这种轻量级反馈代理所带来的便利性、趣味性、自信提升和创意启发，同时也提出了附加功能的建议，如聊天交互和上下文精简。我们讨论了AI反馈的角色、其优势和局限性以及如何在保持用户参与的同时将其整合到现有的设计工作流程中。我们的研究结果还表明，在未来创意支持系统的设计和评估中，背景交互是一个有价值的考量因素。

发布时间: 4/24/2025

查看原文