arXiv 论文列表

作者: Stefan Rass, Martin Dallinger

arXiv:2503.18497v1 类型: cross 摘要：训练人工智能模型的数据只能与该数据的质量一样好。训练数据中存在的偏差传递到机器学习模型的输出是一个已记录和理解的现象，但防止这些不良影响的机制的开发还相对较少。在数据收集过程中使用意识到偏差的采样等确保数据干净的努力，在数据收集实体也训练AI的情况下最有效。当数据已经可用时，我们如何找出数据是否已被操纵，即“中毒”，从而使不希望的行为被训练进机器学习模型中？这是一项与仅仅提高拟合精度或效率不同基础的根本挑战，我们提出了一种方法来测试训练数据中的缺陷，为后续机器学习模型（任何类型）的训练建立可靠的基础事实。不同于利用从数据中生成的模糊规则来近似数据这一已广泛研究的问题，我们的方法依赖于在看到被测试数据之前对规则的先验定义。因此，所提出的方法还可以发现隐藏的错误模式，这些模式也可能产生重大影响。我们的方法扩展了传统统计测试的能力，允许“测试条件”是用于描述数据中模式的任意布尔条件，我们希望确定其是否存在。该方法将模糊推理纳入回归模型，从而结合了模糊逻辑的可解释性和统计性质以及回归的诊断能力，最终也适用于“小数据集”，因此不需要像深度学习方法那样依赖大量数据集。我们提供了一个开源实现来进行演示和实验。

发布时间: 3/25/2025

查看原文

基于逻辑的行动验证保障移动GUI代理安全

作者: Jungjae Lee, Dongjae Lee, Chihun Choi, Youngmin Im, Jaeyoung Wi, Kihong Heo, Sangeun Oh, Sunjae Lee, Insik Shin

arXiv:2503.18492v1 类型: cross 摘要: 大规模基础模型（LFMs）为人机交互开辟了新的可能性，特别是在移动图形用户界面（GUI）代理崛起之际，这些代理能够解释GUI。这些代理承诺通过简单的自然语言指令自动化复杂的移动任务，从而彻底改变移动计算。然而，LFMs固有的概率性质，加上移动任务的模糊性和上下文依赖性，使得基于LFMs的自动化不可靠且容易出错。为了解决这一关键挑战，我们提出了VeriSafe Agent（VSA）：一种作为移动GUI代理逻辑基础的安全措施的正式验证系统。VSA 是一种设计来确定性地确保代理的动作严格符合用户意图然后再执行动作。其核心是引入了一种新颖的自形式化技术，将自然语言用户指令转化为可以在我们领域特定语言（DSL）中表达的形式可验证规范。这使得可以在运行时，基于规则的验证成为可能，VSA 可以检测并防止执行动作时的错误行为，通过提供纠正反馈或停止不安全行为。据我们所知，VSA 是第一次将形式验证的严谨性引入GUI代理，有效地弥合了由LFM驱动的自动化与形式软件验证之间的差距。我们使用现成的LLM服务（GPT-4o）实现VSA，并在18个广泛使用的移动应用上对300条用户指令进行了评估。结果表明，VSA 在验证代理动作方面的准确率为94.3%-98.33%，比现有的基于LLM的验证方法提高了20.4%-25.6%，从而提高了GUI代理任务完成率90%-130%。

发布时间: 3/25/2025

查看原文

大型语言模型驱动的网络攻击检测：架构、机遇与案例研究

作者: Xinggong Zhang, Qingyang Li, Yunpeng Tan, Zongming Guo, Lei Zhang, Yong Cui

arXiv:2503.18487v1 交叉发布公告类型：网络攻击检测摘要：网络攻击检测是识别网络异常和分类恶意流量的关键技术。大型语言模型（LLMs）在大量文本语料库上训练，积累了显著的上下文理解和常识知识能力。这为网络威胁检测开启了新局面。研究人员已经开始讨论在特定网络安全任务中应用LLMs的可能性。然而，关于如何挖掘LLMs在网络安全威胁检测中的潜力、机遇与挑战方面，仍然缺乏全面的阐述。在本文中，我们主要从LLMs的能力角度出发，关注恶意流量的分类。我们提供了一种以LLMs为基础的网络攻击检测架构的整体视图，包括预训练、微调和检测。尤其是，通过探索LLMs的知识和能力，我们确定了LLMs在网络攻击检测中可以扮演的三种独特角色：\[分类器、编码器和预测器\]。对于每一种角色，我们详细阐述了建模范式、机遇和挑战。最后，我们以DDoS检测为例展示我们的设计。所提出的框架通过利用LLMs在上下文挖掘方面的能力，实现了对地毯式DDoS攻击的精确检测。评估表明其有效性，相比现有系统，其效果提高了近35%。

发布时间: 3/25/2025

查看原文

词语作为桥梁：探索跨学科翻译工作的计算支持

作者: Calvin Bao, Yow-Ting Shiue, Marine Carpuat, Joel Chan

arXiv:2503.18471v1 公告类型：跨领域摘要：学者们通常会探索其研究领域之外的相关文献。这个探索过程往往受到领域特定的专业术语的阻碍。以往的计算工作通常集中在通过简化和总结来去除这些专业术语，从而支持翻译工作；在这里，我们探索了一种不同的方法，保留专业术语作为连接新概念空间的有用桥梁。具体而言，我们将不同的学术领域视为不同的语言使用者社群，并探讨如何利用无监督跨语言词嵌入对齐的技术来探索特定领域词嵌入空间之间的概念对齐。我们开发了一个原型跨领域搜索引擎，使用对齐的特定领域嵌入来支持概念探索，并在两个案例研究中测试了该原型。我们讨论了这种方法在翻译工作中的潜力和局限性，并提出了对未来提供计算支持以跨领域信息搜索的界面设计的见解。

发布时间: 3/25/2025

查看原文

MetaSpatial：增强元宇宙中VLMs的3D空间推理能力

作者: Zhenyu Pan, Han Liu

arXiv:2503.18470v1 类别: cross 摘要: 我们提出了MetaSpatial，这是第一个基于强化学习(RL)的框架，旨在增强视觉语言模型(VLMs)的三维空间推理能力，从而无需硬编码优化即可实现实时三维场景生成。MetaSpatial解决了两个核心挑战：(i) 视觉语言模型内部缺乏三维空间推理能力，限制了它们生成逼真布局的能力；(ii) 传统监督微调(SFT)在布局生成任务中效率低下，因为完美的 ground truth 注释不可用。我们的主要创新是一个基于多回合RL的优化机制，它将物理感知约束和渲染图像评估结合起来，确保生成的三维布局具有连贯性、物理可信性和美学一致性。方法上，MetaSpatial引入了一种自适应、迭代的推理过程，其中视觉语言模型通过分析渲染输出，在多回合中逐步细化空间排列，逐阶段提高场景的连贯性。实证评估表明，MetaSpatial显著提高了各种规模模型的空间一致性与格式稳定性。训练后，物体放置更为真实、对齐且功能协调，验证了RL在元宇宙、AR/VR、数字孪生和游戏开发等应用中的三维空间推理有效性。我们的代码、数据和训练管道可在 https://github.com/PzySeere/MetaSpatial 公开获取。

发布时间: 3/25/2025

查看原文

PALATE: 特殊应用的总体期望定律以增强深度生成模型的评估

作者: Tadeusz Dziarmaga, Marcin K\k{a}dzio{\l}ka, Artur Kasymov, Marcin Mazur

arXiv:2503.18462v1 宣告类型: cross 摘要: 深度生成模型（DGMs）在机器学习领域引起了范式转变，为图像合成、自然语言处理及其他相关领域带来了显著的进步。然而，考虑到生成样本的忠实度、多样性和新颖性之间的三角关系，对这些模型进行全面评估依然是一个艰巨的挑战。为应对这一挑战而新兴的一种有前景的方法是特征似然散度（FLD），这种方法提供了一个基于理论推导的实际工具，但也存在一些计算上的挑战。本文提出了PALATE，一种对DGMs评估的新颖增强方法，以解决现有度量标准的限制。我们这种方法基于对表示可访问真实数据的随机变量应用总期望法则的独特应用。当与MMD基线度量标准和DINOv2特征提取器结合使用时，PALATE提供了一个全面的评估框架，能够匹配或超越最先进的解决方案，同时在大规模数据集上具有更高的计算效率和可扩展性。通过一系列实验，我们展示了PALATE增强的有效性，贡献了一个计算效率高、全面的评估方法，推动了DGMs评估领域的发展，特别是在检测样本记忆化方面和评估泛化能力方面尤其突出。

发布时间: 3/25/2025

查看原文

ModiGen：基于大型语言模型的多任务Modelica代码生成工作流

作者: Jiahui Xiang, Tong Ye, Peiyu Liu, Yinan Zhang, Wenhai Wang

arXiv:2503.18460v1 Announce Type: 交叉摘要：Modelica 是广泛采用的一种用于模拟复杂物理系统的语言，然而有效的模型创建和优化仍然需要大量的领域专业知识。尽管大型语言模型（LLMs）在代码生成方面展示了潜力，但它们在建模中的应用尚未得到充分探索。为解决这一差距，我们开发了专门设计的基准数据集，旨在评估 LLMs 在生成 Modelica 组件模型和测试案例方面的性能，并进行测试。我们的评估揭示了当前 LLMs 的显著局限性，因为生成的代码往往无法成功模拟。为了克服这些挑战，我们提出了一种专门的工作流，该工作流结合了监督微调、图检索增强生成和反馈优化，以提高 Modelica 代码生成的准确性和可靠性。评估结果表明显著的性能增益：组件生成任务中的 pass@1 最大改进达到了 0.3349，测试案例生成任务中的最大改进达到了 0.2457。这项研究强调了 LLMs 在推进智能建模工具方面的潜力，并为系统建模和工程应用的未来开发提供了有价值的见解。

发布时间: 3/25/2025

查看原文

通过强化学习的教学使大语言模型实现步骤级自动数学纠正

作者: Junsong Li, Jie Zhou, Yutao Yang, Bihao Zhan, Qianjun Pan, Yuyang Ding, Qin Chen, Jiang Bo, Xin Lin, Liang He

arXiv:2503.18432v1 类型：交叉研究摘要：自动数学纠错旨在通过人工智能技术检查学生解决数学问题的答案。现有的大多数研究重点关注在问题层面判断最终答案，而忽视了在数学问题解决过程中每个步骤的详细反馈，这需要语义理解和推理的能力。在本文中，我们提出了一种基于强化学习（RL）的方法，以增强大型语言模型（LLM）的步骤级别自动数学纠错能力，该方法命名为StepAMC。特别地，我们将步骤级别的自动数学纠错转换为文本分类任务中的RL问题，以提升LLM的推理能力。然后，我们设计了一个空间约束的策略网络来提高RL的稳定性。接着，我们引入了一个细粒度的奖励网络，将二元的人类反馈转换为连续值。我们在两个基准数据集上进行了广泛的实验，结果表明，我们的模型优于强基线的十一个版本。

发布时间: 3/25/2025

查看原文

生成式AI在知识工作中：数据导航和决策制定的设计影响

作者: Bhada Yun, Dana Feng, Ace S. Chen, Afshin Nikzad, Niloufar Salehi

arXiv:2503.18419v1 Announce Type: cross 摘要：我们对20名知识工作者的研究揭示了一个共同的挑战：在多个平台上分散的信息难以综合以做出明智的决策。根据他们对理想知识综合工具的愿景，我们开发了Yodeai这一人工智能驱动的系统，以探索人工智能在知识工作中的机遇与局限性。通过与16名产品经理的使用研究，我们确定了生成型人工智能在知识工作中需要满足的三个关键要求：灵活的用户控制、透明的合作机制以及将背景知识与外部信息整合的能力。然而，我们也发现了显著的局限性，包括过度依赖AI、用户孤立以及AI无法触及的上下文因素。随着AI工具在专业环境中的日益普及，我们提出了旨在强调适应多样化工作流程、在个人和合作上下文中的问责制以及上下文感知的互操作性的人机中心AI系统设计原则，以指导针对产品经理和知识工作者的人本AI系统的开发。

发布时间: 3/25/2025

查看原文

基于知识图谱增强的生成多模态模型用于类别增量学习

作者: Xusheng Cao, Haori Lu, Linlan Huang, Fei Yang, Xialei Liu, Ming-Ming Cheng

arXiv:2503.18403v1 类型: cross 摘要：计算机视觉中的持续学习面临着灾难性遗忘的关键挑战，模型在适应新任务时难以保留先前的知识。尽管最近的研究试图利用预训练模型的泛化能力来缓解当前任务上的过拟合，但随着任务的发展，模型仍然倾向于忘记之前学习的类别的细节，导致分类错误。为了解决这些限制，我们提出了一种新颖的基于知识图谱增强的生成多模态模型（KG-GMM），在整个学习过程中构建一个不断进化的知识图谱。我们的方法利用知识图谱中的关系来增强类标签，并为相似的类别分配不同的关系，以增强模型的区分能力。在测试阶段，我们提出了一种知识图谱增强推理方法，通过分析生成文本中的关系来定位特定的类别，从而减少学习新知识时旧类别的详细信息流失，并缓解遗忘问题。实验结果表明，我们的方法有效地利用关系信息帮助模型纠正错误预测，在传统的持续学习场景（CIL）和少样本持续学习场景（few-shot CIL）中均达到了最先进的性能，证实了知识图谱在持续学习场景中保留知识的有效性。

发布时间: 3/25/2025

查看原文