arXiv:2502.11195v1 类型: cross
摘要:尽管深度伪造技术主要因其潜在的滥用而受到批评,但我们的研究展示了它们在检测、衡量和减轻关键社会领域中偏见方面的显著潜力。通过使用深度伪造技术生成受控的面部图像,我们将传统对应研究的范围扩展到不仅仅是文本操控。这种扩展在疼痛评估等场景中尤为重要,在这些场景中,面部图像中的敏感特征引发的主观偏见可能严重影响结果。我们的研究结果表明,深度伪造不仅保持了对应研究的有效性,还推动了偏见测量和修正技术的突破性进展。本研究强调了深度伪造技术在促进社会公平与正义方面的重要作用。
arXiv:2502.11191v1 安全公告类型: 横向
摘要: 大型语言模型(LLMs)在金融、法律和医学等专业领域取得了显著的进展。然而,在网络安全领域,我们注意到缺少开源数据集,特别是缺乏高质量的网络安全预训练语料库,尽管许多研究表明,LLMs在其预训练过程中获取了知识。为了解决这一问题,我们提供了一整套涵盖所有主要训练阶段的数据集,包括预训练、指令微调和针对网络安全的推理提炼,其中包含特定的自我反思数据。广泛的消融研究证明了它们在公开的网络安全基准测试中的有效性。特别是,持续使用我们的数据集进行预训练导致整体评分提高了15.88%,而推理提炼则使CISSP安全认证得分提高了10%。我们将使用ODC-BY和MIT许可证释放所有数据集和训练的网络安全LLMs,以鼓励社区进一步开展研究。欲访问所有数据集和模型权重,请参见https://huggingface.co/collections/trendmicro-ailab/primus-67b1fd27052b802b4af9d243。
arXiv:2502.11190v1 Announce Type: cross
摘要:当前针对大型语言模型的去学习方法通常依赖于反向优化来减少目标标记的概率。然而,这种范式破坏了后续标记的预测,降低了模型性能和语义连贯性。此外,现有的评价指标过分强调上下文遗忘,而对生成的流畅性和相关性评估不足。为了解决这些挑战,我们提出了ReLearn,一种有效去学习的数据增强和微调管道,以及一个全面的评价框架。这个框架引入了知识遗忘率(KFR)和知识保留率(KRR)来衡量知识级别的保存,并引入了语言分数(LS)来评估生成质量。我们的实验表明,ReLearn成功实现了目标遗忘,同时保持高质量的输出。通过机制分析,我们进一步证明了反向优化如何破坏连贯文本生成,而ReLearn则保留了这一关键能力。代码可以在https://github.com/zjunlp/unlearn获取。
arXiv:2502.11187v1 交叉类型:cross
摘要:在本文中,我们介绍了TituLLMs,这是首个公开的大型预训练孟加拉语语言模型,提供1B和3B参数版本。由于在训练和推理过程中受到计算资源的限制,我们专注于较小的模型。为了训练TituLLMs,我们收集了一个大约包含370亿个标记的预训练数据集。我们扩展了Llama-3.2分词器,使其包含语言和文化特定的知识,这也有助于更快的训练和推理。缺乏针对孟加拉语的基准测试数据集,对此我们开发了五个基准测试数据集。我们对包括TituLLMs在内的多种语言模型进行了基准测试,并展示了TituLLMs在多个任务上优于其最初的多语言版本。然而,这并不总是成立,突显了语言适应的复杂性。我们的工作为基础多语言开源模型适应其他低资源语言奠定了基础。为了促进更广泛的应用和技术研究,我们已将TituLLMs模型和基准测试数据集公开发布(https://huggingface.co/collections/hishab/titulm-llama-family-6718d31fc1b83529276f490a)。
arXiv:2502.11184v1 安全类型: cross
摘要: 多模态大型语言模型(MLLMs)通过启用通过文本和图像进行交互,扩展了传统语言模型的能力。然而,确保这些模型的安全性仍然是一个重大挑战,特别是在准确识别多模态内容是否安全或不安全方面——我们称之为安全性意识。在本文中,我们介绍了MMSafeAware,这是第一个全面的多模态安全性意识基准测试,旨在评估MLLMs在29种安全场景中使用1500个仔细筛选的图像-提示对的效果。MMSafeAware包括不安全和过度安全子集,以评估模型正确识别不安全内容并避免过度敏感(这可能阻碍其有用性)的能力。使用MMSafeAware对九种广泛使用的MLLMs进行评估发现,当前的模型还不够安全,往往过于敏感;例如,GPT-4V将36.1%的不安全输入错误分类为安全输入,将59.9%的良性输入错误分类为不安全输入。我们进一步探讨了三种提高安全性意识的方法——基于提示的方法、视觉对比解码和以视觉为中心的推理微调,但发现没有一种能达到令人满意的效果。我们的发现突显了在开发具有稳健安全性意识的MLLMs方面面临的巨大挑战,强调了在这一领域进一步研究的必要性。所有代码和数据都将公开,以促进未来的研究。
arXiv:2502.11181v1 声明类型:交叉
摘要:在科学领域等专门领域中,构建大规模的人工标注数据集由于需要领域专业知识而成为一个重大挑战。最近的方法使用了大型语言模型生成合成查询,这些查询作为实际用户查询的代理。然而,这些方法在生成内容时缺乏控制,常常导致学术概念在文档中的覆盖面不完整。我们介绍了基于概念覆盖的查询集生成(CCQGen)框架,该框架旨在生成一套全面覆盖文档概念的查询集。CCQGen 的一个关键区别在于它会根据之前生成的查询自适应地调整生成过程。我们识别出之前查询未充分覆盖的概念,并将其作为后续查询生成的条件。这种方法指导每个新查询来补充之前的查询,有助于对文档进行彻底的理解。广泛的实验证明,CCQGen 显著提高了查询质量和检索性能。
arXiv:2502.11179v1 Announce Type: 广义交叉学科分类
摘要:传统的中医针灸方法在临床实践中往往因其高主观性而引起争议。此外,当前的智能辅助针灸系统具有两个主要限制:针灸点定位速度缓慢和准确性低。为了解决这些限制,一种新方法利用了状态空间模型Mamba出色的推理效率,同时保留了传统DETR架构中注意力机制的优势,实现了高效的整体信息整合,并为针灸点定位任务提供高质量的特征信息。此外,通过采用残差似然估计的概念,该方法去掉了复杂的上采样过程,从而加速了针灸点定位任务。我们的方法在人体背部针灸点的私有数据集上达到了最先进的(SOTA)准确性,平均欧氏距离像素误差(EPE)为7.792,每次定位任务平均耗时10.05毫秒。与第二好的算法相比,我们的方法在准确性和速度上分别提高了约14%。这项重大进展不仅提高了针灸治疗的有效性,还展示了自动化针灸机器人系统商业应用的潜力。我们方法的访问地址为:https://github.com/Sohyu1/RT-DEMT
arXiv:2502.11168v1 宣告类型: cross
摘要: 受其端到端的流水线和有希望的结果影响,变压器在时空视觉定位生成(STVG)中受到了越来越多的关注。现有的基于变压器的STVG方法通常利用一组对象查询,这些查询简单地初始化为零,然后通过与多模态特征的迭代交互逐渐学习目标位置信息,以实现空间和时间的定位。尽管简单,但由于缺乏目标特定的线索,这些零对象查询在复杂场景下(例如存在干扰物或遮挡)很难通过与多模态特征的交互学习区分性目标信息,导致性能下降。为了解决这一问题,我们引入了一种新的目标感知变压器(TA-STVG)用于STVG,它旨在通过探索给定的视频-文本对中的目标特定线索,自适应地生成对象查询,以改善STVG。关键在于两个简单而有效的模块,包括文本引导的时间采样(TTS)和属性感知的空间激活(ASA),它们在级联中工作。前者专注于利用整体文本信息从视频中选择与目标相关的时间线索,而后者旨在进一步从先前的目标感知时间线索中利用对象的细粒度视觉属性信息,将其应用于对象查询的初始化。与利用零初始化查询的方法相比,我们的TA-STVG直接从给定的视频-文本对中生成的对象查询自然携带目标特定的线索,使它们更具适应性,并能更好地与多模态特征交互,以学习更多具有区分性的信息,从而改善STVG。在三个基准上的实验结果显示,TA-STVG达到了最先进的性能,并显著优于基线,验证了其有效性。
arXiv:2502.11149v1 类型:交叉学科
摘要:准确预测物理系统的三维结构和动力学在科学应用中至关重要。现有的依赖几何图神经网络(GNNs)的方法有效地施加了 $\mathrm{E}(3)$-等变性,但它们往往难以充分利用广泛的外部信息。虽然可以直接应用大规模语言模型(LLMs)来整合外部知识,但它们缺乏以保证等变性的方式进行空间推理的能力。在本文中,我们提出了一种名为 EquiLLM 的新框架,该框架无缝地将 $\mathrm{E}(3)$-等变性与 LLM 能力整合在一起。具体而言,EquiLLM 包含四个关键组件:几何感知提示、等变编码器、LLM 和等变适配器模块。本质上,受指导性提示引导的 LLM 作为复杂的不变特征处理器,而 3D 方向信息则通过等变编码器和适配器模块单独处理。实验结果表明,EquiLLM 在分子动力学模拟、人体运动模拟和抗体设计等领域中显著优于以前的方法,突出显示了其强大的泛化能力。
arXiv:2502.11147v1 声明类型: cross
摘要: 大型语言模型(LLMs)已经在各个领域展示了强大的能力,特别是在数学和编程等具有挑战性的推理任务中取得了近期进展。然而,解决推理任务通常需要较长的解码链(即思维链),这导致了$O(N)$的时间和内存消耗,其中$N$是链的长度。为了缓解$O(N)$的时间和内存消耗,现有的基于稀疏性的算法仅保留最重要的中间token(即键值缓存)并丢弃其余部分。然而,这些现有算法难以兼顾准确度、时间和内存。例如,最先进的算法Quest在时间复杂度为$O(L)$的情况下实现了高准确度($L$是缓存预算,$L \ll N$),但在内存消耗为$O(N)$。为了解决这一问题,本文在推理任务的解码阶段鉴定出一个新的注意模式,其中关键里程碑token(类似于数学证明中的引理)出现、被使用,随后不再重要。基于这一模式,我们提出了一种新的算法RaaS,仅在不再需要时识别并保留这些关键里程碑token,从而在时间复杂度为$O(L)$和内存复杂度为$O(L)$的情况下实现了高准确度。