LLM2D

arXiv 论文列表

作者: Mirza Samad Ahmed Baig, Syeda Anshrah Gillani, Abdul Akbar Khan, Shahid Munir Shah
arXiv:2504.12088v1 宣告类型: cross 摘要: 基于Transformer的架构在自然语言处理、计算机视觉和语音领域的各种任务中取得了最先进的性能。然而,它们巨大的容量往往会导致过拟合,特别是在训练数据有限或噪声较大时。我们提出了一种新的统一的随机正则化技术家族,直接作用于自我注意力分布。我们介绍了三种变体: 1. 硬注意力掩码:在每个查询中随机清零 top-k 注意力结果,以鼓励多样化的内容利用。 2. 模糊注意力平滑:在注意力结果上应用动态高斯卷积,以分散过于尖锐的分布。 3. 一致性正则化注意力失活:通过基于 KL 散度的一致性损失,强制在多个独立的注意力失活扰动下输出的稳定性。
发布时间: 4/17/2025
查看原文
arXiv:2504.12082v1 宣传类型:交叉 摘要:仇恨言论检测是自然语言处理领域一个至关重要的研究领域,对于确保在线社区的安全至关重要。然而,对于隐含的仇恨言论检测——其中有害意图以微妙或间接的方式传达——仍然是一个主要挑战。与明确的仇恨言论不同,隐含的表达往往依赖于上下文、文化细微之处和隐藏的偏见,这使得它们更难以一致地识别。此外,此类言论的解释受到外部知识和人口统计学偏见的影响,导致不同的语言模型在检测结果上存在差异。此外,大型语言模型往往对有毒语言和对脆弱群体的提及显示出高度敏感性,这可能导致错误分类。这种过度敏感性导致了假阳性(错误地将无害的陈述识别为仇恨言论)和假阴性(未能检测到真正有害的内容)。要解决这些问题,需要不仅提高检测精度,还能减少模型偏见并增强鲁棒性的方法。为了应对这些挑战,我们提出了一种新方法,该方法利用上下文学习,无需对模型进行微调。通过适应性地检索专注于类似群体或具有最高相似度评分的示例,我们的方法增强了上下文理解。实验结果显示,我们的方法在当前最先进的技术中表现出色。详细的实现细节和代码可参见 TBD。
发布时间: 4/17/2025
查看原文
作者: Harrie Oosterhuis, Rolf Jagerman, Zhen Qin, Xuanhui Wang
arXiv:2504.12063v1 类别: cross 摘要:现代检索系统并不依赖单一的排名模型来构建其排名。相反,它们通常采取一种级联的方法,在多个重新排名阶段应用一系列的排名模型。通过这种方式,它们在保持顶级文档排名质量的同时,限制每个模型需要重新排名的文档数量,从而平衡排名质量和计算成本。然而,级联方法并不是模型之间唯一可能的交互方式,形成检索系统的方法。 我们提出了复合检索系统的概念,作为一类更广泛的检索系统,这些系统应用了多个预测模型。这种概念包含了级联模型,但还允许其他类型的交互,而不仅仅是排名最靠前的文档的重新排名。特别是,我们允许与大规模语言模型(LLMs)的交互,这些模型可以提供相关性的相对比较。我们专注于优化复合检索系统的设计,这种设计的独特之处在于学习如何应用各个组件模型以及如何将它们的预测综合成最终的排名。我们的研究展示了我们的复合方法如何可以将经典的BM25检索模型与最先进的(成对的)LLM相关性预测相结合,同时优化给定的排名度量和效率目标。实验结果表明,优化的复合检索系统在有效性和效率之间提供了更好的权衡,即使在自我监督的情况下也是如此。 通过引入复合检索系统,我们希望激励信息检索领域更多地从预测模型如何交互以形成排名的角度进行创新思考。
发布时间: 4/17/2025
查看原文
arXiv:2504.12039v1 宣告类型: cross 摘要:基于雷达的人体活动识别(HAR)已经成为了替代穿戴设备和基于摄像头系统的有前景的替代方案,尤其是因其独特的隐私保护和鲁棒性优势。然而,现有的基于卷积和递归神经网络的解决方案虽然有效,但在部署时计算需求较高,这限制了它们在资源受限场景或需要多个传感器的场景中的应用。先进的架构,如ViT和SSM架构,提供了增强的建模能力,并朝着轻量级设计做出了努力。然而,它们的计算复杂度仍然相对较高。为了利用transformer架构的优点,同时提高准确性并降低计算复杂度,本文提出了RadMamba,一种面向雷达的HAR的参数高效的Mamba SSM,具有雷达微多普勒导向的特点。在三个不同的数据集中,RadMamba仅使用前一个最佳模型1/400的参数实现了与DIAT数据集99.8%的分类准确率相当的性能,并且相对于CI4R数据集的领先模型,使用了它们1/10的参数实现了92.0%的准确率。在针对UoG2020数据集进行连续动作序列评估的情况下,RadMamba通过仅使用6.7k参数就超越了其他参数数量显著更多的模型,提高了至少3%的准确率。我们的代码可在以下链接获得:https://github.com/lab-emi/AIRHAR。
发布时间: 4/17/2025
查看原文
作者: Ekaterina Komendantskaya
arXiv:2504.12031v1 宣布类型: cross 摘要:这篇文章介绍了一种“证明携带神经符号代码”的概念,并从“神经”和“符号”的角度解释了其含义和价值。讲座概述了这一新研究领域面临的首次成功和挑战。
发布时间: 4/17/2025
查看原文
arXiv:2504.12011v1 类型: cross 摘要:图上的自监督学习(SSL)已经引起了显著的关注,特别是在使用图神经网络(GNNs)和最初为其他领域设计的预训练任务,如对比学习和特征重构的情况下。然而,这些方法是否有效地反映了图的重要属性,即准确的表示相似性与邻居相似仍然不确定。我们观察到,现有方法位于图嵌入平滑度的一个光谱两端,每一端对应于特定下游任务上的表现胜出。通过信息论框架将SSL目标分解为三个术语,并引入邻居表示变量揭示,这种极化源于这些术语之间的不平衡,而现有方法可能未能有效保持这一平衡。进一步的研究表明,在极值之间保持平衡可以在更广泛的下游任务中实现更好的性能。一种名为BSG(Balancing Smoothness in Graph SSL)的框架引入了新颖的损失函数,这些损失函数旨在通过平衡三部分术语补充基于图的SSL表示质量:邻居损失、最小损失和分歧损失。我们从SSL和图平滑性两个角度对这些损失函数的效果进行了理论分析,强调了它们的重要性。在节点分类和链接预测等多个真实世界数据集上的广泛实验一致表明,BSG 达到了最先进的性能,优于现有方法。我们的实现代码可以在https://github.com/steve30572/BSG 获取。
发布时间: 4/17/2025
查看原文
作者: Haohao Qu, Wenqi Fan, Shanru Lin
arXiv:2504.12007v1 交叉公告类型 摘要:近年来,基于大型语言模型(LLM)的推荐系统(RecSys)取得了显著的发展趋势。当前的研究主要集中在将复杂的用户-物品交互表示在离散空间内,以符合语言模型固有的离散性质。然而,这种方法由于其离散性质存在局限性:(i)在离散化过程中信息常常被压缩;(ii)在真实场景中由于词汇量的限制,用户和物品的分词和生成受到约束。拥抱连续化数据为提高表达能力提供了一种有前景的替代方案,尽管这种方法仍处于初期阶段。为解决这一问题,我们提出了一种新颖的框架DeftRec,该框架结合了去噪扩散模型,使基于LLM的RecSys能够无缝支持连续的分词作为输入和目标。首先,我们引入了一个具有掩码操作和增广K路架构的 robust 分词器来为用户和物品索引,将它们的复杂协作关系捕捉到连续的分词中。最关键的是,我们开发了一种去噪扩散模型,该模型在连续域内处理用户偏好,通过预训练的大语言模型指导推理内容进行条件化。在去噪过程中,我们将目标重新定义为包含负交互,构建全面理解用户偏好的方式,从而实现有效的准确的推荐生成。最后,给定连续的分词作为输出,可通过基于评分的检索轻松生成推荐。广泛的实验表明所提出方法的有效性,展示了DeftRec在传统和新兴的基于LLM的RecSys基准中均超越了竞争性基准。
发布时间: 4/17/2025
查看原文
arXiv:2504.11997v1 通知类型: 交叉 摘要: 我们研究了具有线性MDP的无限展望期平均奖励设置中的强化学习。先前的工作通过将平均奖励设置近似为折扣设置,并采用基于价值迭代的算法,通过裁剪来限制价值函数的跨度以提高统计效率来解决这个问题。然而,裁剪过程需要在整个状态空间中计算价值函数的最小值,而在线性MDP设置中,状态空间可能是庞大的,甚至是无限的,这种计算是不可行的。在本文中,我们引入了一种具有高效裁剪操作的价值迭代方法,该方法只需要在算法访问的状态集中计算价值函数的最小值。我们的算法与先前的工作具有相同的后悔上限,同时在计算上是高效的,其计算复杂度与状态空间的大小无关。
发布时间: 4/17/2025
查看原文
arXiv:2504.11986v1 类型: cross 摘要:本文提出了一种将大型语言模型(LLMs)与准晶体类比的观点:这些系统表现出全局一致性而不具有周期性重复,并且是通过局部约束生成的。虽然大型语言模型通常从预测准确性、事实性或对齐性的角度来看待它们,但这种结构视角表明,它们最典型的特征行为是生成内部共振的语言模式。就像准晶体迫使人们对物理系统的有序性重新定义一样,将大型语言模型视为生成准结构化语言的系统,为评估和设计开辟了新的途径:更重视约束的传播,而不是标记级别的准确性;更重视形式的一致性,而不是固定的意义。大型语言模型的输出不应仅仅根据它们所言的内容来解读,而应根据其组织它们的约束模式和一致性模式来解读。这种转变将生成性语言重新定义为空间中的涌现模式:LLMs 既不是完全随机的,也不是严格基于规则的,而是由约束、共振和结构深度的逻辑定义的。
发布时间: 4/17/2025
查看原文
作者: Yifei Dong, Fengyi Wu, Sanjian Zhang, Guangyu Chen, Yuzhi Hu, Masumi Yano, Jingdong Sun, Siyu Huang, Feng Liu, Qi Dai, Zhi-Qi Cheng
arXiv:2504.11967v1 安全类型:横跨领域 摘要:无人机(UAV)对于基础设施检查、监视及相关任务至关重要,但也带来了关键的安全挑战。这篇综述对反无人机领域进行了广泛考察,主要围绕分类、检测和跟踪三大核心目标,详细介绍了诸如基于扩散的数据合成、多模态融合、视觉语言建模、自我监督学习和增强学习等新兴方法。我们系统性地评估了单模态和多传感器管道(涵盖RGB、红外、音频、雷达和RF)中最先进的解决方案,并讨论了大规模和对抗性的基准测试。我们的分析揭示了实时性能、隐蔽检测和基于 swarm 的场景中的持续性差距,强调了对于稳健、适应性的反无人机系统的需求。通过突出开放式研究方向,我们旨在促进创新并引导下一代防御策略的发展,在无人机使用广泛的背景下显得尤为重要。
发布时间: 4/17/2025
查看原文