arXiv 论文列表

作者: Lingxiang Wang, Hainan Zhang, Qinnan Zhang, Ziwei Wang, Hongwei Zheng, Jin Dong, Zhiming Zheng

arXiv:2504.21043v2 宣告类型：替换-交叉摘要：大型语言模型（LLMs）在从自然语言指令生成代码方面表现出色，然而它们往往缺乏对安全漏洞的理解。这一限制使得LLMs难以避免生成代码中的安全风险，特别是在智能合约开发等高安全性编程任务中。研究人员试图通过训练模型识别出漏洞代码和修复后的代码片段来增强这些模型的安全意识。然而，这种方法严重依赖于手动标记的漏洞数据，而这些数据只有对于像Python和C++这样的流行语言才有。对于Solidity这样的低资源语言，它在智能合约中的使用，大规模标注的数据集稀缺且难以获得。为了解决这一挑战，我们引入了CodeBC，这是一种专门设计用于生成区块链中安全智能合约的代码生成模型。CodeBC采用了基于CodeLlama的三阶段微调方法，与之前的方法不同，它不依赖于成对的漏洞位置标注。相反，它利用漏洞和安全标签来教导模型区分漏洞代码和安全代码。在推理阶段，模型利用安全标签生成安全且稳健的代码。实验结果表明，CodeBC在BLEU、CodeBLEU和编译通过率等方面优于基线模型，同时显著降低了漏洞率。这些发现验证了我们三阶段微调策略的有效性和成本效益，使CodeBC成为生成安全智能合约代码的有前途的解决方案。

发布时间: 5/8/2025

查看原文

野生环境中的洞见：数据增强在实际多跳推理中的应用（基于 Transformer）

作者: Roman Abramov, Felix Steinbauer, Gjergji Kasneci

arXiv:2504.20752v2 宣告类型: replace-cross 摘要：_transformers 在众多自然语言处理 (NLP) 任务中取得了巨大成功，但仍然在多步骤事实推理方面表现出明显的不足，尤其是在现实世界知识稀少的情况下。最近在理解 (Grokking) 方面的进步表明，一旦神经网络检测到潜在的逻辑模式，它们就可以从记忆过渡到完美泛化；然而，这些研究主要使用的是小型、合成任务。本文首次将理解扩展到实际世界的事实数据，并通过将精心设计的合成数据添加到现有的知识图中，增加了推断事实与原子事实的比例 \(\phi_r\)，使其超过理解所需的阈值，从而解决了数据集稀疏性的挑战。令人惊讶的是，我们发现即使合成数据本身事实不正确，也能增强涌现的推理电路，而不是降低准确性，因为这使得模型依赖于关系结构而不是记忆。在多跳推理基准测试中，我们的方法在2WikiMultiHopQA 上达到了 95-100% 的准确率，显著优于强大的基线，并且与当前的最先进的结果相匹配或超过。我们进一步深入分析了增加 \(\phi_r\) 如何推动 Transformer 内部泛化电路的形成。我们的研究结果表明，基于理解的数据增强可以解锁隐含的多跳推理能力，从而为大型语言模型中的更强健和可解释的事实推理打开大门。_

发布时间: 5/8/2025

查看原文

一种简单的ensemble策略用于LLM推理：朝着更稳定的文本分类方向

作者: Junichiro Niimi

arXiv:2504.18884v2 宣告类型: replace-cross 摘要：随着大型语言模型（LLMs）的发展，LLMs 已被应用于各种任务。然而，现有文献中大多忽视了每次 LLMs 试验结果的可变性和重现性问题，而在实际的人工标注中，通常通过多数投票来解决注释员之间的分歧。因此，本研究引入了一种简单的集成策略用于使用 LLMs 进行情感分析。结果显示，使用多个中间规模的 LLMs 进行集成推理比使用单一尝试的大模型能够产生更为稳健和准确的结果，RMSE 降低了 18.6%。

发布时间: 5/8/2025

查看原文

测试它再信任它：应用软件测试以实现可信赖的上下文学习

作者: Teeradaj Racharak, Chaiyong Ragkhitwetsagul, Chommakorn Sontesadisai, Thanwadee Sunetnanta

arXiv:2504.18827v2 公告类型: 替换-交叉摘要：上下文自适应学习（ICL）已经成为大规模语言模型（LLMs）的强大能力，使它们能够在不进行显式微调的情况下，基于提供的少量示例执行新任务。尽管这些模型具有出色的适应性，但在面对语言变体时，它们仍然容易受到微妙的对抗性扰动的影响，并表现出不可预测的行为。借鉴软件测试的原则，我们引入了一种基于软件测试框架的方法，名为MMT4NL，用于通过利用对抗性扰动和软件测试技术来评估上下文自适应学习的可信度。该框架包括各种语言能力的测试方面，以测试LLMs的ICL能力。MMT4NL围绕构建变换对抗性示例的概念进行了构建，以便量化并定位所设计的ICL提示中的错误。我们的哲学是将任何LLM视为软件，并像测试软件一样验证其功能。最后，我们在情感分析和问答任务中演示了MMT4NL的应用。我们的实验可以揭示最先进的语言模型中的各种语言错误。

发布时间: 5/8/2025

查看原文

Towards a HIPAA 兼容的医疗保健代理人工智能系统

作者: Subash Neupane, Sudip Mittal, Shahram Rahimi

arXiv:2504.17669v2 公告类型: 替换-交叉摘要：由大型语言模型（LLMs）作为其基础推理引擎的代理人工智能系统正在通过自主分析敏感医疗健康数据并以最少的人为监督执行决策，从而改变临床工作流，例如医疗报告生成和临床总结。然而，其采用需要严格遵守《健康保险便携性和责任法案》（HIPAA）等监管框架，特别是在处理受保护的健康信息（PHI）时。这份工作中的论文介绍了一种符合HIPAA要求的代理人工智能框架，该框架通过动态、上下文感知的策略执行来保障合规性。我们的框架集成了三个核心机制：（1）基于属性的访问控制（ABAC）以实现细粒度的PHI治理，（2）结合正则表达式模式和BERT模型的混合PHI脱敏管道，以减少泄漏，以及（3）不可变的审计跟踪以进行合规性验证。

发布时间: 5/8/2025

查看原文

面向用户中心设计的执法中人工智能辅助决策设计

作者: Vesna Nowack, Dalal Alrajeh, Carolina Gutierrez Mu\~noz, Katie Thomas, William Hobson, Patrick Benjamin, Catherine Hamilton-Giachritsis, Tim Grant, Juliane A. Kloess, Jessica Woodhams

arXiv:2504.17393v2 通知类型: 替换-交叉摘要：人工智能（AI）已成为我们日常生活中不可或缺的一部分，但在警用领域设计AI辅助系统方面，用户需求仍然不清楚。为解决这一差距，我们在一家执法机构内进行了质性研究，旨在识别现有实践的局限性、探索用户需求并理解人类期望在这些系统中承担的责任。研究参与者强调，需要一个能够高效处理和分析大量数据的系统，以帮助犯罪检测和预防。此外，该系统应满足可扩展性、准确性、合理性、可信性和适应性的要求，以适应这一领域。参与者还强调了对用户审查AI难以解释的输入数据以及验证生成输出以确保系统准确性的重视。为了跟上执法领域不断变化的性质，用户需要帮助系统适应犯罪行为和政府指导的变化，并需要技术专家定期监督和监控系统。此外，与系统的用户友好交互对于其被采用至关重要，研究的部分参与者确认他们愿意参与并提供系统可以学习的必要反馈。最后，我们认为由于执法领域的动态和复杂性，系统实现完全自动化的机会非常小。

发布时间: 5/8/2025

查看原文

变分量子神经网络中的数值梯度逆向攻击

作者: Georgios Papadopoulos, Shaltiel Eloul, Yash Satsangi, Jamie Heredge, Niraj Kumar, Chun-Fu Chen, Marco Pistoia

arXiv:2504.12806v2 宣告类型: replace-cross 摘要：变量子神经网络（VQNNs）的损失景观随着量子比特数量的增加呈现出指数级增长的局部最小值。因此，在训练过程中，从模型梯度中恢复信息比从经典神经网络（NNs）的梯度中恢复信息更具挑战性。在本文中，我们提出了一种数值方案，能够成功从可训练的VQNNs的梯度中重构输入训练数据、实际世界和实用的数据。该方案基于梯度反演，通过结合梯度估计与有限差分方法以及自适应低通滤波来实现。此外，该方案通过卡尔曼滤波进一步优化以获得高效的收敛性。我们的实验表明，在量子神经网络模型足够参数化的情况下，我们的算法可以重构批训练数据。

发布时间: 5/8/2025

查看原文

基于混合数据平衡和反事实推理的代谢综合症预测增强方法

作者: Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma, Hassan Ghasemzadeh

arXiv:2504.06987v2 通知类型: replace-cross 摘要：代谢综合征（MetS）是一系列相互关联的风险因素，显著增加了心血管疾病和2型糖尿病的风险。尽管其具有全球流行性，但由于数据不平衡、数据稀缺以及现有研究方法上的不一致性等问题，准确预测MetS仍然具有挑战性。在本文中，我们通过系统地评估和优化用于MetS预测的机器学习（ML）模型来应对这些挑战，利用先进的数据平衡技术以及反事实分析。我们训练了多种ML模型，包括XGBoost、随机森林、TabNet等，并在随机过采样（ROS）、SMOTE、ADASYN和CTGAN等多种数据平衡技术下进行了比较。此外，我们引入了MetaBoost，这是一种新颖的混合框架，将SMOTE、ADASYN和CTGAN集成在一起，通过加权平均和迭代权重调整优化合成数据生成，以提高模型的性能（相对于单独的数据平衡技术，精度提高最多可达1.87%）。我们还进行了全面的反事实分析，以量化从高风险类别转向低风险类别所需的特征级变化。结果表明，血糖（50.3%）和甘油三酯（46.7%）是最常被修改的特征，突显了它们在降低MetS风险方面的临床意义。此外，概率分析显示，血糖（85.5%的可能性）和甘油三酯（74.9%的后验概率）是最强的预测因素。这项研究不仅提高了MetS预测的方法论严谨性，还为临床医生和研究人员提供了可操作的见解，突显了机器学习在减轻代谢综合征公共卫生负担方面的潜力。

发布时间: 5/8/2025

查看原文

FAST: 基于基础模型的联邦主动学习，用于高效通信的采样和训练

作者: Haoyuan Li, Mathias Funk, Jindong Wang, Aaqib Saeed

arXiv:2504.03783v3 更新类型: 替换-交叉摘要：联邦主动学习（FAL）已发展成为一种有前景的框架，在不透明客户端之间利用大量未标记数据的同时保护数据隐私。然而，由于高注释成本和在跨孤岛设置中通信密集型的采样过程，实际部署仍然受到限制，尤其是在客户端拥有大量本地数据集的情况下。本文解决了关键问题：在最少注释员努力的情况下，如何减少循环中人类在环学习中的通信成本？现有的FAL方法通常依赖于迭代注释过程，将主动采样与联邦更新分开，导致多次昂贵的通信和注释轮次。为应对这一挑战，我们提出了FAST，这是一种两阶段的FAL框架，在第一阶段利用基础模型进行弱标注，第二阶段专注于最不确定的样本进行精炼。通过利用基础模型的知识表示，并在一整套工作流中集成精炼步骤，FAST显著降低了迭代主动采样带来的开销。在多种医学和自然图像基准测试上的广泛实验表明，在5%有限标注预算下，FAST相比现有的FAL方法平均提高了4.36%，通信轮次减少了八倍。

发布时间: 5/8/2025

查看原文

带有量子退火的Steiner旅行 SALESMAN 问题

作者: Alessia Ciacco, Francesca Guerriero, Eneko Osaba

arXiv:2504.02388v2 宣告类型: 交叉替换摘要：Steiner旅行商问题（STSP）是经典的旅行商问题的一种变体。STSP涉及引入Steiner节点，这些节点不是原始必需访问的节点，但可以添加到路径中以增强整体解决方案并最小化总旅行成本。鉴于STSP的NP难性质，我们提出了一种量子方法来解决这一问题。具体而言，我们使用D-Wave的硬件进行量子退火，以探索其解决此问题的潜力。为了增强计算可行性，我们开发了一种预处理方法，有效减少了网络规模。我们的实验结果表明，这种缩减技术显著降低了问题复杂性，使二次无约束二元优化形式化，这是量子退火器的标准输入，更适合现有的量子硬件。此外，结果突显了量子退火作为解决STSP的一种有前途和创新的方法的潜力。

发布时间: 5/8/2025

查看原文