arXiv 论文列表

作者: Henry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou

arXiv:2502.15027v1 交互类型: 横向研究摘要：现有的基准测试并没有检测大型多模态模型（LMMs）与人类用户的交互智能，这对开发通用人工智能助手至关重要。我们设计了一个交互框架 InterFeedback，可以应用于任何 LMM 和数据集，以自主评估这一能力。在此基础上，我们引入了 InterFeedback-Bench，它使用两个代表性数据集 MMMU-Pro 和 MathVerse 评估交互智能，测试了 10 种不同的开源 LMMs。此外，我们还提出了 InterFeedback-Human，这是一个新收集的包含 120 个案例的数据集，专门用于手动测试领先模型（如 OpenAI-o1 和 Claude-3.5-Sonnet）的交互性能。我们的评估结果显示，即使是最先进的 LMM（如 OpenAI-o1）也能通过少于 50% 的人类反馈来修正其结果。我们的研究发现表明需要方法来增强 LMMs 从反馈中理解和受益的能力。

发布时间: 2/24/2025

查看原文

面向物理引导的基础模型

作者: Majid Farhadloo, Arun Sharma, Mingzhou Yang, Bharat Jayaprakash, William Northrop, Shashi Shekhar

arXiv:2502.15013v1 宣传类型: 交叉摘要：传统的基础模型在广泛的数据集上进行预训练，以减少对广泛下游任务进行微调所需的培训资源（例如，时间、能量、标注样本）。然而，传统的基础模型在处理分布外预测方面存在困难，并且可能会生成不切实际且物理上不可能的输出。我们提出了物理指导的基础模型（PGFM）的概念，即融合了广泛或通用领域（例如，科学）物理知识的基础模型，这些物理知识适用于广泛下游任务。

发布时间: 2/24/2025

查看原文

Vault 中的图形：借助可信执行环境保护边GNN推理

作者: Ruyi Ding, Tianhong Xu, Aidong Adam Ding, Yunsi Fei

arXiv:2502.15012v1 安全公告类型: 交叉摘要：将机器学习模型广泛部署在边缘设备上已经使得模型知识产权（IP）和数据隐私变得脆弱。我们提出了GNNVault，这是首个基于可信执行环境（TEE）的图神经网络（GNN）部署策略。GNNVault遵循“训练前分区”的设计，并包括一个私有的GNN校正器，以补充公有的骨干模型。这样，重要的GNN模型参数和推理过程中使用的私有图都在安全的TEE隔间中受到保护。使用Intel SGX的实际实现表明，GNNVault能够防止最先进的链接窃取攻击，同时准确率下降不到2%。

发布时间: 2/24/2025

查看原文

Obliviate: 保护大型语言模型中知识产权的高效遗忘方法

作者: Mark Russinovich, Ahmed Salem

arXiv:2502.15010v1 通知类型: 交叉摘要：最近，AI公司与内容创作者之间的版权协议凸显出了对语言模型复制受版权保护的内容时需要精确控制的需求。虽然现有的方法依赖于通过遗忘完全删除概念或简单的输出过滤，我们提出了一种名为Obliviate的新型后训练技术，该技术能够选择性地防止复制特定文本，同时保留语义理解。 Obliviate通过选择记忆序列中的标记，并修改模型的概率分布，以防止精确复制同时保持上下文理解。我们在多个大型语言模型（LaMA-3.1 8B、LaMA-3.1指令8B、Qwen-2.5-7B、Yi-1.5 6B）上对Obliviate进行了评估，涵盖合成记忆任务和自然版权内容。我们的结果显示，Obliviate在保持模型性能基本不变的情况下（与基线在HellaSwag、MMLU、TruthfulQA和Winogrande等标准基准上的性能差异在1%以内），可实现数量级的减轻，例如在精确记忆方面减少了100倍。这使得Obliviate特别适用于实际部署场景，在这些场景中，公司需要高效地处理预训练模型中的版权问题，而不会削弱其一般能力。

发布时间: 2/24/2025

查看原文

LLM-显微镜：揭露标点符号在Transformer上下文记忆中的隐藏作用

作者: Anton Razzhigaev, Matvey Mikhalchuk, Temurbek Rahmatullaev, Elizaveta Goncharova, Polina Druzhinina, Ivan Oseledets, Andrey Kuznetsov

arXiv:2502.15007v1 交叉类型: cross 摘要: 我们介绍了量化大型语言模型 (LLMs) 如何编码和存储上下文信息的方法，揭示了通常被视为次要的标点符号（例如，限定词、标点符号）实际上携带着令人惊讶的高上下文信息。值得注意的是，即使只删除无关的标记，如停用词、冠词和逗号，也一致地降低了MMLU和BABILong-4k的性能。我们的分析还显示，上下文化与线性度之间存在强烈的关联，线性度衡量的是从一个层的嵌入到下一个层的转换能否近似为单一的线性映射的程度。这些发现突显了填充标记在保持上下文中的潜在重要性。为了进一步探索，我们提出了LLM-Microscope，一个开源工具包，用于评估标记级别的非线性、评估上下文记忆、通过调整后的Logit Lens可视化中间层贡献，并测量表示的内在维数。这个工具包揭示了看似平凡的标记在长距离理解中的关键作用。

发布时间: 2/24/2025

查看原文

安全超越地平线：基于神经控制屏障函数的高效采样 MPC

作者: Ji Yin, Oswin So, Eric Yang Yu, Chuchu Fan, Panagiotis Tsiotras

arXiv:2502.15006v1 公告类型: cross 摘要: 在实践中使用模型预测控制（MPC）时的一个常见问题是，在预测 horizon 之外满足安全性规范。虽然理论工作表明，通过施加合适的终端集约束或足够长的预测 horizon，可以保证安全，但这些技术在实际应用中很难实施，因此很少被实际从业者使用，尤其是在一般非线性动力学情况下。为了解决这个问题，我们通过学习一个近似的离散时间控制障碍函数，并将其集成到基于采样方法的MPC（VIMPC）中，来在精确递归可行性和计算可处理性之间以及对“黑盒”动力学的适用性之间进行权衡。为处理由此产生的状态约束，我们进一步提出了一种新的采样策略，该策略大大减少了估计最优控制的方差，提高了采样效率，并使CPU上的实时规划成为可能。所得到的Neural Shield-VIMPC (NS-VIMPC)控制器，在成本函数设计不良的情况下，相比现有的基于采样方法的MPC控制器，能够显著提高安全性。我们在仿真和实际硬件实验中均验证了该方法的有效性。

发布时间: 2/24/2025

查看原文

一种苏格拉底式检索聚合方法，用于将研究主题的自然语言查询与知识组织系统连接起来

作者: Lew Lefton, Kexin Rong, Chinar Dankhara, Lila Ghemri, Firdous Kausar, A. Hannibal Hamdallahi

arXiv:2502.15005v1 通告类型: cross 摘要：在本文中，我们提出了一种检索增强生成（RAG）代理，该代理将关于研究主题的自然语言查询映射为精确且可由机器解释的语义实体。我们的方法结合了RAG和苏格拉底式对话，以使用户的直观研究主题理解与现有知识组织系统（KOS）相一致。所提出的方法将有效地将“小语义”（特定领域的KOS结构）与“大语义”（广泛的文献计量存储库）联系起来，使复杂的学术分类学更具可访问性。此类代理有广泛建立的潜力。我们通过一个名为CollabNext的示例应用程序进行了说明，该应用程序是一个以人为中心的知识图谱，将人员、组织和研究主题连接起来。我们进一步描述了应用程序设计如何有针对性地关注HBCUs和新兴研究人员，以提高历史上在当前科学研究系统中被边缘化的人的可见性。

发布时间: 2/24/2025

查看原文

面部识别技术准确性和偏差快速测试方法

作者: Manuel Knott, Ignacio Serna, Ethan Mann, Pietro Perona

arXiv:2502.14996v1 公告类型: cross 摘要：衡量面部识别（FR）系统的准确性对于提高性能和确保负责任地使用该技术至关重要。准确性通常通过大型标注数据集进行估算，但这些数据集成本高且难以获得。我们提出了一种新颖的1:1面部验证方法，可以在无需手动标注的情况下快速评估FR系统，从近似标签（例如来自网络搜索结果）开始。不同于之前用于训练集标签清理的方法，我们利用了被评估模型的嵌入表示，实现了在较小测试数据集上的高准确性。我们的方法可靠地估计了FR的准确性和排名，显著降低了手动标注所需的时间和成本。我们还介绍了首个公开发布的五种FR云服务基准测试，揭示了人口统计学上的偏见，尤其是亚裔女性的准确性较低。我们的快速测试方法可以将FR测试民主化，促进对该技术的审查和负责任地使用。我们的方法已作为可公开访问的工具提供在 https://github.com/caltechvisionlab/frt-rapid-test

发布时间: 2/24/2025

查看原文

超越拒绝阈值：量化AI过度拒绝和情感依附边界

作者: David Noever, Grant Rosario

arXiv:2502.14975v1 交叉公告类型摘要：我们提出了一种开源基准和评估框架，用于评估大型语言模型（LLMs）在情绪边界处理方面的表现。利用涵盖六种语言的1156个提示数据集，我们评估了三种领先的大语言模型（GPT-4o、Claude-3.5 Sonnet和Mistral-large）在通过模式匹配响应分析维持适当情绪边界的能力。我们的框架量化了七个关键模式的响应：直接拒绝、道歉、解释、偏移、认可、边界设定和情绪意识。结果表明，在边界处理方法上存在显著差异，Claude-3.5在整体得分上最高（8.69/10），并产生更长、更复杂的回应（平均86.51个单词）。我们发现英语（平均得分25.62）和非英语互动之间的显著性能差距（<0.22），英语回应中的拒绝率明显更高（43.20% vs. 低于1%的非英语）。模式分析揭示了模型特定的策略，例如Mistral倾向于偏移（4.2%），并在所有模型中保持一致的低共情评分（<0.06）。局限性包括通过模式匹配可能的简化处理，响应分析中缺乏上下文理解，以及复杂情绪回应的二元分类。未来的研究应探索更细致的评分方法，扩大语言覆盖面，并调查文化差异在情绪边界期望方面的影响。我们的基准和方法提供了一个系统评估LLM情绪智能和边界设定能力的基础框架。

发布时间: 2/24/2025

查看原文

CyberSentinel: 一种AI安全领域的新兴威胁检测系统

作者: Krti Tallam

arXiv:2502.14966v1 通报类型: 交叉摘要：人工智能（AI）的迅速发展显著扩大了由AI驱动的网络安全威胁的攻击面， necessitating 亟需适应性防御策略。本文介绍了CyberSentinel，一个统一的单代理系统，用于新兴威胁检测，旨在实时识别和缓解新型安全风险。CyberSentinel集成了：(1) 通过SSH日志分析进行暴力攻击检测，(2) 使用域名黑名单和启发式URL评分进行钓鱼威胁评估，以及(3) 通过基于机器学习的异常检测进行新兴威胁检测。通过不断适应不断演变的敌对战术，CyberSentinel加强了主动网络安全防御，解决了AI安全中的关键漏洞。

发布时间: 2/24/2025

查看原文