arXiv:2503.16392v2 宣告类型: 替换-交叉
摘要:随着基于AI的软件变得越来越普遍,利用其能力(如高自动化和复杂模式识别)的风险可能会显著增加。将AI用于攻击非AI资产的AI称为进攻性AI。
当前的研究探讨了如何利用进攻性AI以及如何对其使用进行分类。此外,为了组织中的基于AI的资产,正开发威胁建模方法。然而,仍存在需要解决的空白。首先,需要量化构成AI威胁的因素。其次,需要创建分析被AI攻击的风险,以进行全面漏洞评估的威胁模型。特别是在云环境中尤为关键和具有挑战性,因为复杂的基础设施和访问控制环境非常普遍。能够量化并进一步分析进攻性AI所构成的威胁,使分析师能够评估漏洞并优先实施主动的应对措施。
为了填补这些空白,本文引入了努力图(Graph of Effort)方法,这是一种直观、灵活且有效的威胁建模方法,用于分析对手利用进攻性AI进行漏洞利用所需的努力。虽然威胁模型具有功能性并提供了有价值的支持,但其设计选择需要在未来的工作中进行进一步的实证验证。
arXiv:2503.15514v2 通知类型: 替换-交叉
摘要:随着人工智能在某些任务上超过人类的表现,披露超人类能力给公平性、问责制和信任带来了独特的挑战。然而,此类披露对不同用户的态度和行为的影响尚不清楚,尤其是关于可能的负面反应,如沮丧或过度依赖。本文通过使用Persona Cards(一种经过验证的标准合成人格集,旨在模拟多样化的用户反应和公平性观点)来研究这些影响。我们进行了一个经过伦理委员会批准的研究(N=32),利用这些人格来研究能力披露如何影响与超级游戏AI在竞争性星际争霸II场景中的行为。我们的结果显示透明性是一把双刃剑:虽然披露可以缓解怀疑,但它也可能在合作场景中引发初学者的沮丧和战略悲观,以及在竞争环境中引发过度依赖。有经验的竞争玩家将披露视为不可战胜对手的确认,从而转向非最优目标。我们发布了Persona Cards数据集,包括个人档案、提示、互动日志和协议,以促进人类对齐AI设计的可重复研究。这项工作表明,透明性并非万能药;成功利用披露增强信任和问责制需要针对用户特征、领域规范和具体公平目标进行精细的调整。
arXiv:2503.13868v2 宣告类型: replace-cross
摘要:时间序列数据经常表现出分布偏移、多样化的潜在特征和非平稳的学习动态,特别是在开放和不断演变的环境中。这些特性为离域(OOD)泛化带来了显著的挑战。尽管已经取得了显著的进步,但这些进步的系统综合仍然缺乏。为了弥补这一差距,我们首次对时间序列的OOD泛化方法进行了全面回顾,组织结构旨在界定该领域的演化轨迹和当前研究景观。我们在三个基础维度上对我们的分析进行了组织:数据分布、表示学习和OOD评估。对每个维度,我们详细介绍了几种流行的算法。此外,我们强调了关键的应用场景,并强调了其实际影响。最后,我们确定了持续存在的挑战,并提出了未来的研究方向。有关回顾的详细方法总结可以在此处访问:https://tsood-generalization.com。
arXiv:2503.13500v2 Announce Type: replace-cross
摘要:长时 horizon 任务的视觉指令至关重要,因为它们能够直观地阐明复杂概念,并在执行多步操作时增强记忆的保留。直接使用文本到图像模型生成一系列图像而不考虑前一步骤的上下文会导致图像不一致,增加认知负荷。此外,生成的图像往往会遗漏对象,或者对象的属性如颜色、形状和状态不准确。为了解决这些挑战,我们提出了 LIGER,这是一种无需训练的第一个长时 horizon 任务指令生成框架,结合了逻辑和属性自我反思。LIGER 首先使用历史提示和前一步骤的视觉记忆为每个步骤生成草图图像。这种逐步生成的方法在长时 horizon 任务中保持了图像的一致性。此外,LIGER 利用了各种图像编辑工具来纠正包括错误的属性、逻辑错误、对象冗余和身份不一致在内的草图图像中的错误。通过这一自我反思机制,LIGER 提高了图像的逻辑和对象属性准确性。为了验证生成的图像是否有助于人类的理解,我们手动策划了一个新的基准,包含各种长时 horizon 任务。人类标注的 ground truth 表达反映了人类定义的标准,即图像应该如何出现以起到说明作用。实验表明,LIGER 生成的视觉指令比基准方法更加全面。
arXiv:2503.11299v2 Announce Type: replace-cross
摘要:本文报告了第一个仿脑大型语言模型(BriLLM)。这是一款非Transformer、非GPT、非传统机器学习输入输出控制的生成型语言模型。该模型基于神经网络中有向图上的信号全连接流动(SiFu)定义,并且在整个模型的图中的所有节点都具有可解释性,而非传统机器学习模型仅在输入和输出端具有有限的可解释性。在语言模型场景中,标记被定义为图中的一个节点。按照“最小阻力”原则,随机或用户定义的信号流在网络节点之间流动。预测或生成的目标节点或标记是信号流的目标。作为一种语言模型,BriLLM理论上支持无限长的$n$-gram模型,当模型大小与模型的输入和预测长度无关时。模型的工作中信号流提供了类似于人类大脑认知模式的回忆激活和固有的多模态支持的可能性。目前,我们发布了第一个中文版本的BriLLM,拥有4000个标记、32维度的节点宽度、16个标记长的序列预测能力,其语言模型预测性能与GPT-1相当。更多的计算能力将帮助我们探索上述的无限可能性。
arXiv:2503.10714v2 宣告类型: 替换交叉引用
摘要:键值(KV)缓存内存的线性增长和注意力机制中计算复杂性的二次增长为大规模语言模型(LLM)在长上下文处理中带来了显著瓶颈。尽管现有的KV缓存优化方法通过分词剪裁或特征合并来解决这些挑战,但它们往往会导致不可逆的信息损失或需要昂贵的参数重新训练。为了解决这些问题,我们提出了ZSMerge,这是一种动态KV缓存压缩框架,旨在高效地管理缓存,具有三个关键操作:(1)由头级多维度分词重要性度量引导的精细内存分配,(2)一种残差合并机制,通过补偿注意力评分来保留关键上下文,以及(3)一种与各种LLM架构兼容的零样本适应机制,无需重新训练。ZSMerge显著提高了内存效率和推理速度,同时在LLM中几乎没有性能退化。当应用于LLaMA2-7B时,它证明了20:1的缓存压缩比(将内存足迹降低到基线的5%),同时保持了可比的生成质量,并在极端54k分词上下文中实现了三倍的吞吐量增益,从而消除了内存不足的失败。代码可在https://github.com/SusCom-Lab/ZSMerge 获取。
arXiv:2503.10296v2 公告类型: replace-cross
摘要:本文讨论了移动机器人设计中的集成挑战与策略,重点关注通过优化硬件和软件的选择来平衡安全、效率以及最少的成本、能源消耗、计算需求和重量。我们强调感知与运动规划在决策中的相互作用,通过引入占用查询的概念来量化基于采样的运动规划器的感知需求。传感器和算法性能通过假阴性率(False Negative Rate, FNR)和假阳性率(False Positive Rate, FPR)在几何关系、物体属性、传感器分辨率和环境条件等各种因素下进行评估。通过将感知需求与感知性能相结合,我们提出了一种整数线性规划(Integer Linear Programming, ILP)方法,以实现传感器和算法的选择与布置的高效优化。这种方法构成了一个包括机器人本体、运动规划器、感知管道和计算单元的协同设计优化的基础。我们将解决移动机器人协同设计问题的框架称为CODEI,即协同设计嵌入式智能。关于在城市场景中开发自主车辆(AV)的研究为设计师提供了实用信息,并展示了复杂任务如何增加资源需求,任务性能如何影响自主堆栈的选择。该研究表明,资源优先级影响传感器选择:对于成本效益和轻量化设计,偏好使用摄像头;而对于更好的能效和计算效率,则选择激光雷达传感器。
arXiv:2503.09334v2 安全类型: replace-cross
摘要:将大型语言模型(LLMs)集成到网络安全应用中带来了显著的机会,如增强威胁分析和恶意软件检测,但也可能引入关键风险和安全问题,包括个人数据泄露和自动生成新的恶意软件。为应对这些挑战,我们开发了CyberLLMInstruct数据集,包含54,928组指令-响应对,涵盖了恶意软件分析、鱼叉式网络钓鱼模拟和零日漏洞等网络安全任务。该数据集通过多阶段过程构建而成。这包括从多个资源获取数据、过滤并结构化为指令-响应对,以及与现实世界场景对齐以增强其适用性。选择了七个开源LLM进行测试:Phi 3 Mini 3.8B、Mistral 7B、Qwen 2.5 7B、Llama 3 8B、Llama 3.1 8B、Gemma 2 9B和Llama 2 70B。在我们的主要示例中,我们使用OWASP top 10框架严格评估了微调模型的安全性,发现微调降低了所有测试的LLM和每种对抗攻击的安全韧性(例如,对Llama 3.1 8B的提示注入攻击下的安全得分为0.95降至0.15)。在我们的第二个示例中,我们证明了这些相同的微调模型在CyberMetric基准上能够达到高达92.50%的准确率。这些发现突显了性能与安全之间的权衡,并表明进行对抗测试的重要性以及进一步研究能够减轻安全风险但仍提高性能的方法的重要性。创建数据集的管道以及详尽的文档、示例和复现我们结果所需的所有资源,已在https://github.com/Adelsamir01/CyberLLMInstruct 公开可供访问。
arXiv:2503.07591v2
Announce Type: replace-cross
摘要:大规模视觉-语言模型(LVLMs)的视觉指令调整(VIT)需要大量的图像-指令对的数据集进行训练,这可能会很昂贵。近期在VIT数据选择方面的努力旨在选择少量高质量的图像-指令对,从而减少VIT的运行时间,同时保持与全量训练相当的性能。然而,一个常被忽视的重大挑战是,从未标记的图像中为VIT生成指令是非常昂贵的。现有的大多数VIT数据集依赖于人工注释或付费服务(如GPT API),这限制了资源受限的用户为自定义应用创建VIT数据集的能力。为了解决这个问题,我们介绍了一种更实用的数据选择范式——Pre-Instruction数据选择(PreSel),它直接选择最有益的未标记图像,并仅为选定的图像生成指令。PreSel首先估算VIT数据集中每个视觉任务的相对重要性,以推导出任务相关的采样预算。然后,它在每个任务中聚类图像特征,使用预算选择最具代表性的图像。这种方法减少了在VIT数据形成期间和LVLM微调中的计算开销。通过仅为图像的15%生成指令,PreSel在LLaVA-1.5和Vision-Flan数据集上的性能与全量数据VIT相当。我们的项目页面链接:https://bardisafa.github.io/PreSel
arXiv:2503.06778v2 通知类型: replace-cross
摘要:事件标注对于识别市场变化、监测突发新闻以及理解社会趋势至关重要。尽管专家标注者制定了黄金标准,但人工编码成本高昂且效率低下。与专注于单一上下文的信息提取实验不同,我们评估了一种整体工作流,该工作流去除了无关文档、合并关于同一事件的文档,并标注这些事件。虽然基于LLM的自动化标注方法比传统TF-IDF基于的方法或事件集整理更好,但与人类专家相比,它们仍然是不可靠的标注者。然而,将LLM添加到帮助专家进行事件集整理中可以减少变量标注所需的时间和心理努力。当使用LLM提取事件变量以辅助专家标注者时,他们与完全自动化的LLM标注的提取变量的同意度更高。