arXiv:2502.11711v1 宣告类型: cross
摘要: 分子表示学习在预测分子性质和推进药物设计方面起着关键作用。传统的研究方法主要依赖于同质图编码,其局限性在于无法集成外部知识并以不同粒度表示分子结构。为了解决这些局限性,我们提出了一种范式转变,即将分子图编码为异质结构,引入了一种新型框架:知识感知对比异质分子图学习(KCHML)。该方法利用对比学习来通过嵌入的外部知识丰富分子表示。KCHML 通过三种不同的图视图——分子视图、元素视图和药理视图——结合异质分子图和双重消息传递机制来概念化分子。这种设计不仅为性质预测提供了全面的表示,还为诸如药物-药物相互作用(DDI)预测等下游任务提供了全面的表示。广泛的基准测试展示了KCHML 在最先进的分子性质预测模型中的优越性,突显了其捕捉复杂分子特征的能力。
arXiv:2502.11705v1 交叉类型: cross
摘要:工具使用已将大型语言模型(LLMs)转变为强大的代理,它们可以通过动态利用外部软件组件执行复杂多步骤的任务。然而,这些工具必须由人类开发者提前实现,这阻碍了LLM代理在需要大量高度专业化工具的领域中的应用,例如生命科学和医学。鉴于科学研究中越来越多地伴随有公共代码仓库的趋势,我们提出了一种名为ToolMaker的新代理框架,该框架能够自主地将带有代码的论文转换为与LLM兼容的工具。给定一个简短的任务描述和一个仓库URL,ToolMaker自主安装所需的依赖项并生成代码以执行任务,使用一个封闭回路的自我纠正机制来迭代诊断和纠正错误。为了评估我们的方法,我们引入了一个基准,其中包括15个涵盖医学和非医学领域的多样而复杂的计算任务,并包含超过100个单元测试以客观评估工具的正确性和鲁棒性。ToolMaker成功实现了80%的任务,显著优于当前最先进的软件工程代理。因此,ToolMaker是完全自主的基于代理的科学工作流程的一个重要步骤。
arXiv:2502.11687v1 Announce Type: 横向
摘要:后门攻击将隐藏功能嵌入深度神经网络(DNN)中,在特定输入下触发恶意行为。高级防御措施监控异常的DNN推断以检测此类攻击。然而,隐藏的后门通过保持低预部署攻击成功率(ASR)并在部署后通过机器遗忘恢复高ASR来逃避检测。现有的隐藏后门往往受限于需要白盒或黑盒访问或辅助数据,这在这些访问或数据不可用时限制了其实用性。本文介绍了ReVeil,一种针对DNN训练流水线中的数据收集阶段的隐藏后门攻击,不需要模型访问或辅助数据。ReVeil在四个数据集和四种触发模式下保持低预部署ASR,并成功逃避三种流行的方法的检测,并通过机器遗忘在部署后恢复高ASR。
arXiv:2502.11684v1 交叉公告类型:cross
摘要:数学推理是推动大型语言模型(LLMs)发展的关键前沿领域。尽管逐步方法已成为LLMs中数学问题解决的主要范式,但训练数据中推理步骤的质量从根本上限制了模型的表现。最近的研究表明,更详细的中间步骤可以提高模型性能,然而现有的步骤扩展方法要么需要更强大的外部模型,要么会带来巨大的计算成本。在本文中,我们引入了MathFimer,一种以代码补全任务中的“填空”任务为灵感的数学推理步骤扩展新框架。通过将解决方案链分解为前缀-后缀对,并训练模型重构缺失的中间步骤,我们使用精心挑选的NuminaMath-FIM数据集开发了一个专门的模型MathFimer-7B。然后,我们将这些模型应用到现有的数学推理数据集中,通过将详细的中间步骤插入到解决方案链中,创建了MathFimer扩展版本。通过在包括MathInstruct、MetaMathQA等多个数学推理数据集上的全面实验,我们证明了基于MathFimer扩展数据训练的模型在各种基准测试,如GSM8K和MATH中,始终优于基于原始数据训练的模型。我们的方法提供了一种实用且可扩展的解决方案,可在不依赖于强大外部模型或昂贵的推断程序的情况下增强LLMs的数学推理能力。
arXiv:2502.11681v1 宣告类型: cross
摘要:对齐调整对于确保大型语言模型(LLMs)表现得符合伦理并提供帮助至关重要。当前的对齐方法需要高质量的标注和大量的训练资源。本文提出了一种低成本、无调优的方法,利用上下文学习(ICL)来增强LLM对齐。通过对高质量的ICL演示案例的分析,我们确定了风格是影响LLM对齐能力的关键因素,并根据这一风格框架显式地重构了ICL示例。此外,我们将重构的示例结合起来,在LLM对齐的两个相互冲突的方面——事实性和安全性之间达到了平衡。我们将重构的示例打包成提示词,触发少量学习,从而改善LLM对齐。与最好的基线方法相比,该方法在Alpaca任务中的最高得分为4.60(从4.50提升),在Just-eval基准中的提升为4.56(从4.34提升),在MT-Bench数据集中的最高提升为3.85(从3.53提升)。我们已在https://github.com/AnonymousCode-ComputerScience/RIDE发布了代码和数据。
arXiv:2502.11671v1 类别: cross
摘要: 数据增强是自然语言处理(NLP)中的一个重要技术,通过生成多样化的样本来丰富训练数据集。这一过程对于提高NLP模型的稳健性和泛化能力至关重要。然而,仍然存在一个重大挑战:\textit{样本分布多样性关注不足}。大多数现有方法侧重于增加样本数量,而忽视了样本分布的多样性,这可能导致模型过拟合。为应对这一挑战,我们探索了数据增强对数据集多样性的影响,并提出了一种\textbf{\underline{D}}多样性-\textbf{\underline{o}}导向的数据\textbf{\underline{Aug}}增强框架(\textbf{DoAug})。% \(\mathscr{DoAug}\) 具体来说,我们利用一种多样性导向的微调方法训练一个LLM作为多样性的改写器,该改写器能够通过生成多样化的改写来增强文本数据集。然后,我们应用LLM改写器到一组高度信息性的样本选择核心集,并将改写内容与原始数据集成,以创建一个更具多样性的增强数据集。最后,我们在12个真实世界的文本数据集上进行了广泛的实验。结果表明,我们的微调LLM增强器在保持标签一致性的同时提高了多样性,从而增强了下游任务的稳健性和性能。特别是在性能上,它实现了平均 \(10.52\%\) 的提升,超过了亚军基线超过三个百分点。
arXiv:2502.11658v1 类别: cross
摘要:虽然移动设备在用户日常生活中带来了许多便利,但也引发了诸多隐私问题。例如,它们可以泄露从位置数据中推断出的敏感信息。这些位置数据通过服务提供商和移动应用程序进行共享。了解用户如何以及与谁共享位置数据,以及用户对潜在隐私风险的看法,是设计可使用隐私增强技术的重要概念。在本项工作中,我们通过对 n=99 名年轻成年人(即数字原住民)进行调查,进行定量和定性分析,探讨他们对位置数据共享的意识、感知和自述行为。我们将声明的行为与实际行为进行对比,以更好地理解他们的心理模型,并在检查地理位置痕迹及其可以推断出的信息之前和之后,对受访者的隐私风险理解进行了调查。
我们的实证结果表明,参与者存在具有风险的隐私行为:大约 54% 的参与者低估了他们授予数据访问权限的移动应用程序的数量,而且 33% 的参与者忘记或没有考虑到撤销数据访问权限。此外,通过使用演示器从位置数据中进行推断,我们观察到略超过一半的参与者(57%)对推断出的信息量感到惊讶,且 47% 的参与者计划通过权限设置来减少数据访问权限。最后,大多数参与者缺乏更好地保护自己的工具知识,但仍愿意遵循提高隐私的建议(51%)。通过透明工具向包括数字原住民在内的人们解释隐私风险,似乎是一种有前途的方法。
arXiv:2502.11651v1 Announce Type: cross
摘要:大型视觉-语言模型(LVLMs)在医疗应用中显示出巨大的潜力,特别是在医学视觉问答(MedVQA)和医学图像诊断方面。然而,现有的数据集和模型往往未能考虑医学诊断中的关键方面,例如历史记录的整合以及疾病进展的分析。在本文中,我们介绍了MMXU(多模态和多X光理解),这是一个专门用于MedVQA的新数据集,旨在识别患者两次就诊之间特定区域的改变。与主要关注单图像问题的先前数据集不同,MMXU 支持多图像问题,结合了当前和历史患者数据。我们证明了目前的LVLMs在MMXU-test中识别疾病进展方面的局限性,即使在传统基准测试中表现良好的模型也不例外。为了解决这一问题,我们提出了一种MedRecord-Augmented Generation(MAG)方法,结合了全局和局部历史记录。我们的实验结果显示,整合历史记录显著提高了诊断准确性至少20%,填补了当前LVLMs与人类专家表现之间的差距。此外,我们在MMXU-dev上对MAG进行了模型微调,这展示了明显的改进。我们希望这项工作能够揭示通过强调医疗图像解释中的历史背景来推动LVLMs在医学诊断中的应用的研究路径。我们的数据集可在 \href{https://github.com/linjiemu/MMXU}{https://github.com/linjiemu/MMXU} 上获得。
arXiv:2502.11647v1 通知类型: cross
摘要: 大型语言模型(LLMs)广泛应用于决策制定,但它们的部署受到囚徒破解攻击的威胁,在这种攻击中,恶意用户操控模型行为以规避安全措施。现有的防御机制,如安全微调和模型编辑,要么需要大量的参数修改,要么缺乏精确性,导致在通用任务上的性能下降,这不适合部署后的安全性对齐。为了解决这些挑战,我们提出了 DELMAN(用于 LLMs 的动态编辑防破解),这是一种利用直接模型编辑的新方法,以实现对破解攻击的精确、动态保护。DELMAN 直接更新一组相关的参数,以消除有害行为的同时保留模型的实用性。为了避免在良性环境中触发安全响应,我们引入了 KL-散度正则化,以确保更新后的模型在处理良性查询时与原始模型保持一致。实验结果表明,在保护模型实用性的同时,DELMAN 能够更有效地缓解破解攻击,并能够无缝适应新的攻击实例,为部署后模型保护提供了一个实用而高效的解决方案。
arXiv:2502.11644v1 宣传类型:交叉
摘要:随着物联网(IoT)的迅速扩展,传感器、智能手机和穿戴设备已成为日常生活的重要组成部分,推动了智能家居自动化、医疗保健和智能交通等智能应用的发展。然而,由于传统基于云的机器学习(ML)框架施加的延迟和带宽限制,这些进步面临着重大挑战。随着云计算面临增加的延迟和网络拥塞问题,创新解决方案的需求变得显而易见。尽管之前的尝试将ML管道的部分功能卸载到边缘和云层中尚未完全解决问题,但由于边缘设备的计算能力限制,这些问题往往导致系统响应时间延长和网络拥塞问题恶化。为应对这些挑战,本研究引入了InTec(集成事物边缘计算)框架,这是物联网架构的一项开创性创新。不同于现有方法,InTec充分利用了三层架构的潜力,通过战略性地将ML任务分配到事物层、边缘层和云层,实现了全面的方法。这种综合方法实现了在数据生成点进行实时数据处理,显著减少了延迟,优化了网络流量,并增强了系统可靠性。通过使用MHEALTH数据集进行人体运动检测在智能家居中的实证评估,InTec的有效性得到验证,表现出在关键指标上的显著改进:响应时间减少了81.56%,网络流量减少了10.92%,吞吐量提高了9.82%,边缘设备能耗减少了21.86%,云能耗减少了25.83%。这些进步确立了InTec作为可扩展、响应迅速和能效高的物联网应用的新基准,展示了其在边缘人工智能(EI)系统中如何集成ML管道的革命性潜力。