arXiv:2505.00887v1 宣告类型: cross
摘要: 有效地建模时间信息并将这些信息融入涉及时间顺序事件的应用或模型中是至关重要的。现实世界中的场景通常涉及多样化且复杂的时序模式,这对时间编码方法提出了重大挑战。尽管之前的方法侧重于捕捉时间模式,但很多方法依赖于特定的归纳偏见,例如使用三角函数来建模周期性。这种对单一模式建模的狭窄关注使它们在处理现实世界时间模式的多样性和复杂性方面效果较差。在本文中,我们研究了如何改进现有的常用时间编码方法,并引入了可学习转换为基础的广义时间编码(LeTE)。我们提出使用深度函数学习技术来参数化时间编码中的非线性转换,使其成为可学习的,并能建模包括多样性和复杂性在内的广义时间模式,包括各种复杂的时序动态。通过使转换可学习,LeTE 包含了之前的方法作为特殊案例,并允许无缝集成到广泛的任务中。通过在不同领域的广泛实验,我们展示了 LeTE 的多功能性和有效性。
arXiv:2505.00886v1 类型: cross
摘要: 准确建模用户偏好不仅对于提升推荐性能至关重要,而且对于增强推荐系统透明度也同样重要。传统的用户画像方法,如计算项目嵌入的平均值,往往忽略了用户兴趣的演变性质,特别是在短期偏好与长期偏好之间的相互作用上。在本工作中,我们利用大型语言模型(LLMs)生成用户的互动历史的自然语言摘要,区分近期行为与更持久的倾向。我们的框架不仅建模了时间上的用户偏好,而且还生成了可以解释推荐的自然语言概要。这些文本化的概要通过预训练模型进行编码,并通过注意机制动态融合短期和长期嵌入,构成为一个全面的用户表示。除了在多个基准上提升推荐准确性之外,我们的方法自然支持可解释性:可以将可解释的文本摘要和注意权重暴露给最终用户,提供推荐特定项目的洞察。在实际数据集上的实验证明了性能提升,并展示了生成更清晰和透明的内容基推荐理据的可能性。
arXiv:2505.00871v1 交叉公告类型
摘要:机器人被强烈期望用作替代人类任务的手段。如果机器人具有类似人类的物理特性,那么替代人类任务的可能性会增加。对于家用服务机器人而言,它们应该具有类似人类的尺寸,以便在其操作环境中与人类共存而不变得过于庞大。然而,具有尺寸限制的机器人由于机械限制(如关节角度限制)往往难以解决逆向运动学(IK)。相反,如果能减轻这种限制带来的困难,可以预期使用此类机器人的价值会增加。在用于高自由度(DOF)机器人的数值IK求解器中,IK的可解性取决于传递给求解器的初始猜测。因此,本文提出了一种方法,用于给定目标手部配置生成良好的初始猜测。为了实现这一目标,我们使用比例雅可比矩阵来定义初始猜测的好坏,该矩阵可以考虑到关节限制计算可操作性指数。这两个因素与解决IK的难度有关。我们通过遗传算法(GA)优化初始猜测的好坏来生成初始猜测。为了枚举更多的IK解,我们使用代表机器人手部在臂基坐标系中可达区域的可达性地图。我们进行了定量评估,并证明使用根据好坏值判断为更好的初始猜测可以增加IK求解的概率。最后,作为所提方法的应用,我们展示了通过生成良好的初始猜测,实际使机器人实现了三种典型场景。
arXiv:2505.00850v1 宣告类型: cross
摘要: 大型语言模型(LLMs)的快速部署突显了高效低位宽后训练量化(PTQ)的必要性,因为它们占用大量内存。权重量化中的一个关键挑战是存在异常值,这会扩大量化范围并导致大量错误。虽然已经提出了一些异常值抑制技术,但它们要么未能有效缩小量化范围,要么引入(相寎)较高的位开销。在本文中,我们提出了一种名为ICQuant的新框架,该框架利用异常值统计设计了一种高效的索引编码方案,以实现具有异常值感知能力的权重量化。与需要约1位开销来减半量化范围的现有异常值抑制技术相比,ICQuant只需要约0.3位;在极端压缩情况(例如,每权重2-3位)下,这是一个显著的节省。ICQuant可以在任何现有量化器之上使用,以消除异常值,从而提高量化质量。使用每权重仅为2.3位和简单的标量量化器,ICQuant将2位的Llama3-70B模型的零样本准确度分别提高了130%和150%,并优于QTIP和QuIP#的表现;并且在无需微调的情况下,其性能与目前已知的最佳微调量化器(PV-tuning)相当。
arXiv:2505.00843v1 类型: cross
摘要:大规模语言模型(LLMs)在自然语言理解和生成方面表现出卓越的能力,使其在各个领域得到了广泛的应用。然而,它们对提示注入攻击的易感性带来了显著的安全风险,因为敌对输入可以操控模型的行为并覆盖预期的指令。尽管存在许多防御策略,但在适应性敌对场景下严格评估其效果的标准框架仍然缺乏。为了解决这一缺口,我们引入了OET,这是一种基于优化的评估工具包,利用适应性测试框架系统地对来自各种数据集的提示注入攻击和防御进行基准测试。我们的工具包具有模块化的流程,能够促进敌对字符串生成、动态攻击执行和全面的结果分析,提供了一个统一的平台评估对抗鲁棒性。至关重要的是,适应性测试框架利用优化方法,在拥有白盒和黑盒访问的情况下生成最坏情况的敌对样本,因此可以进行严格的红队测试。广泛的实验强调了现有防御机制的局限性,即使在实施安全增强措施后,某些模型仍然容易受到攻击。
arXiv:2505.00841v1 类型: cross
摘要:本报告探讨了大型语言模型(LLMs)与网络安全的融合,综合了网络 security、人工智能、形式方法和以人为中心设计领域的跨学科见解。报告考察了LLMs在软件和网络安全中的新兴应用、5G 漏洞分析以及生成性安全工程的应用。报告强调了自主 LLM 在自动化复杂任务、提高操作效率以及实现基于推理的安全分析方面的作用。与LLMs部署相关的社会技术挑战,包括信任、透明度和伦理考虑,可以通过人工干预系统、角色特定培训和主动鲁棒性测试等策略来解决。报告还概述了确保基于LLM的系统可解释性、安全性和公平性的重要研究挑战,特别是在高风险领域。通过将技术进步与组织和社会考虑结合起来,本报告提出了一个前瞻性的研究议程,以确保 LLM 在网络安全中的安全和有效采用。
arXiv:2505.00817v1 Announce Type: cross
摘要:共享硬件资源侧信道攻击越来越威胁着保密性,尤其是在大型语言模型(LLMs)兴起的情况下。本文我们介绍了Spill The Beans,这是一种利用缓存侧信道来泄露由LLM生成的令牌的新方法。通过将攻击过程与受害模型放置在同一硬件上,我们刷新并重新加载嵌入层中的嵌入向量,其中每个令牌对应一个唯一的嵌入向量。在生成令牌时,这会导致在共享的较低级缓存上由我们的攻击可检测到的缓存命中。
一个重大挑战是大型语言模型的巨大尺寸,由于其计算密集型操作的本性,它们会迅速将嵌入向量从缓存中移除。我们通过平衡监控的令牌数量与泄露的信息量来解决这一问题。监控更多的令牌可以增加词汇库泄露的可能性,但会提高缓存命中由于驱逐而被忽略的风险;监控较少的令牌可以提高检测可靠性,但会限制词汇库覆盖范围。
通过广泛的实验,我们演示了通过缓存侧信道从大型语言模型中泄露令牌的可行性。我们的发现揭示了大型语言模型部署中的一个新的脆弱性,这表明即使是复杂模型也容易受到传统侧信道攻击的影响。我们讨论了在大型语言模型服务基础设施中的隐私和安全影响,并提出了减轻此类威胁的考虑。作为概念证明,我们考虑了两种具体的攻击场景:我们的实验表明,在单次监控下,攻击者可以恢复高达80%-90%的高熵API密钥。而对于英文文本,单次监控可以达到40%的恢复率。我们应当指出,该恢复率高度依赖于监控的令牌集,通过针对更专门的输出领域,这些比率可以得到提高。
arXiv:2505.00812v1 宣告类型: cross
摘要: 近期的研究表明,在噪声监督下,深度神经网络的一般化性能会下降。现有的方法主要集中在隔离干净子集或纠正噪声标签,但面临着高计算成本、复杂的超参数调整过程和粗粒度优化的局限性。为了应对这些挑战,我们提出了一种新型的两阶段噪声学习框架,通过动态加权损失函数实现实例级别的优化,避免了超参数调整。为了获得稳定且准确的噪声建模信息,我们引入了一个简单而有效的度量标准,称为“错误事件”,它能够动态地表征个体样本的清洁度和难度,同时保持计算成本。我们的框架首先收集错误事件信息并建立一个强基础模型。然后我们在基础模型上进行噪声鲁棒训练,使用概率模型处理样本的错误事件信息。在五个合成和真实世界的LNL基准测试上进行的实验表明,我们的方法在性能上超越了最先进的方法,实现了近75%的计算时间减少,并提高了模型的可扩展性。
arXiv:2505.00808v1 宣告类型: 横向
摘要:机制可解释性旨在通过因果解释来理解神经网络。我们提出了解释观假设:机制可解释性研究是理解模型的一种原则性方法,因为神经网络中包含隐含的解释,这些解释可以被提取和理解。因此,我们证明了解释忠实度是一个确定解释与模型匹配程度的评估是合理的。我们提出了机制可解释性(MI)的定义,即在模型层面、实体层面、因果机制层面及可证伪地解释神经网络的做法,使得我们能够区分机制可解释性与其他可解释性范式,并详细阐述机制可解释性的固有限制。我们提出了解释乐观原则这一假设,并 argue 认为这是机制可解释性成功的一个必要先决条件。
arXiv:2505.00803v1 宣告类型: cross
摘要:边缘装配交叉(EAX)算法是解决旅行商问题(TSP)的最先进的启发式方法。它在各种TSP实例集上通常优于其他方法,例如林- Kernighan-Helsgaun启发式算法(LKH)。本质上,EAX采用了一种两阶段机制,首先在局部层面,然后在全局层面改进当前解决方案。尽管算法的第二阶段在过去已经被彻底研究、配置和优化,尤其是在第一阶段方面几乎没有被研究过。
因此,在本文中,我们聚焦于EAX的第一阶段,并引入了一种新的方法,可以快速验证在内部优化过程中生成的AB-环是否产生了有效的环路——或者是否需要修复。在应用其他强大的交叉操作符(如广义分区交叉操作符GPX)之前,了解这一点尤为重要。基于我们的见解,我们提出了并评估了几种改进的EAX版本。根据我们在10000个不同TSP实例上的基准研究,我们提出的最有希望的EAX变体在与现有最先进的EAX算法相比时,对先前较为困难的实例显示出了更好的计算效率和解决方案质量。