arXiv 论文列表

作者: Ruoxi Xu, Yunjie Ji, Boxi Cao, Yaojie Lu, Hongyu Lin, Xianpei Han, Ben He, Yingfei Sun, Xiangang Li, Le Sun

arXiv:2504.00472v1 动态类型：跨学科摘要：尽管大型语言模型（LLMs）在知识回忆和推理方面表现出色，但由于其静态特性，在现实世界发生变化或适应领域特定知识时，会导致信息过时，突显了有效知识注入的必要性。然而，当前的知识注入研究仍然表面化，主要集中在知识的记忆和检索上。本文提出了一种四级知识注入框架，系统地界定了知识注入的层次：记忆、检索、推理和关联。基于此框架，我们引入了DeepKnowledge，这是一种合成的实验测试床，旨在对三种知识类型（新颖的、增量的和更新的）的知识注入深度进行细粒度评估。然后，我们探索了各种知识注入场景，并在基准测试上评估了每种场景的知识注入深度。实验结果揭示了使LLMs达到每种知识注入层次的关键因素，并建立了一个知识注入层次与相应适用注入方法之间的映射，旨在提供一种全面的方法，以在各种层次上高效地实现知识注入。

发布时间: 4/2/2025

查看原文

基于学习的近似非线性模型预测控制运动模拟器

arXiv:2504.00469v1 Announce Type: cross 摘要：运动提示算法（MCAs）将模拟车辆的运动编码为可以由运动模拟器重现的运动，以在机器的能力范围内提供现实的驾驶体验。本文介绍了一种新型的学习导向的MCA，适用于基于串联机器人运动模拟器。该方法基于可微预测控制框架，结合了非线性模型预测控制（NMPC）的主要优点——非线性约束处理和精确的运动学建模，同时又利用了机器学习的计算效率。通过将计算负担转移到离线训练阶段，新的算法能够以高控制率进行实时操作，从而克服了基于NMPC的运动提示的关键挑战。所提出的MCA采用了一个非线性关节空间植物模型，并训练了一个策略网络，使其模仿NMPC的行为同时考虑关节加速度、速度和位置的限制。在多个运动提示场景的仿真实验中，所提出的算法在RMSE和与参考信号的相关系数衡量的运动提示质量方面与最先进的基于NMPC的替代方案表现相当。然而，所提出的算法比NMPC基线快约400倍。此外，该算法成功地泛化到了未见过的操作条件，包括不同车辆的运动提示场景和实时基于物理的仿真。

发布时间: 4/2/2025

查看原文

MetaLoRA：张量增强的自适应低 rank 调优

作者: Maolin Wang, Xiangyu Zhao

arXiv:2504.00460v1 Announce Type: cross 摘要：神经网络模型的部署显著增加，这给模型适应和微调带来了巨大的挑战。高效的适应对于维护模型在多种任务和领域中的性能至关重要。虽然低秩适应（LoRA）作为一种参数高效的微调方法而崭露头角，但其固定参数特性限制了其有效处理动态任务需求的能力。适应新任务可能会因需要大量微调而变得具有挑战性。当前的LoRA变体主要关注一般的参数减少，而忽视了动态参数调整和元学习能力的重要性。此外，现有的方法主要处理静态适应，忽视了任务感知参数生成在处理多样化任务分布方面的潜在好处。为了解决这些限制，本博士研究提出了一种LoRA生成方法来建模任务关系，并引入了结合元学习原理的MetaLoRA，这是一种新颖的参数高效适应框架。这项工作开发了一个综合架构，将元参数生成与自适应低秩分解相结合，使得能够高效处理任务特定特征和任务无关特征。MetaLoRA通过整合元学习机制和动态参数调整策略，准确捕捉任务模式。据我们所知，这项研究是首次尝试提供一种增强的元学习 LoRA 变体，它在保持模型微调的计算效率的同时，提供了改进的适应能力。

发布时间: 4/2/2025

查看原文

将多视图扩散模型提炼为3D生成器

作者: Hao Qin, Luyuan Chen, Ming Kong, Mengxu Lu, Qiang Zhu

arXiv:2504.00457v1 类型: cross 摘要: 我们引入了DD3G，这是一种通过高斯绘制将多视角扩散模型（MV-DM）提炼成3D生成器的公式。DD3G通过模拟其常微分方程（ODE）轨迹，从MV-DM中压缩和整合了大量的视觉和空间几何知识，确保提炼出的生成器在仅依靠3D数据训练的生成器之上有更好的泛化能力。与之前的近似优化方法不同，我们对MV-DM和3D生成器的表示空间进行了对齐，以便将教师的概率流转移给学生，从而避免由于概率采样导致的优化目标的一致性问题。引入概率流以及3D正态分布的各种属性之间的耦合在生成过程中带来了挑战。为了解决这一问题，我们提出了PEPD，这是一个由模式提取和渐进解码两个阶段组成的生成器，使概率流的有效融合成为可能，并在0.06秒内将单张图像转换为3D高斯分布。此外，为了减少知识损失并克服稀疏视角监督，我们设计了一个联合优化目标，通过明确的监督和隐式的验证确保生成样本的质量。利用现有的2D生成模型，我们收集了120,000张高质量的RGBA图像进行提炼。在合成和公开数据集上的实验展示了我们方法的有效性。我们的项目页面为: https://qinbaigao.github.io/DD3G_project/

发布时间: 4/2/2025

查看原文

没有免费的午餐附带约束条件

作者: Divyanshu Kumar, Nitin Aravind Birur, Tanay Baswa, Sahil Agarwal, Prashanth Harshangi

arXiv:2504.00441v1 安全护栏类型: 横向对比摘要: 随着大型语言模型(LLMs)和生成性AI的广泛采用，安全护栏已成为确保其安全使用的关键工具。然而，增加安全护栏并非没有权衡；强化的安全措施可能会降低实用性，而更具灵活性的系统则可能会为对抗性攻击留下漏洞。在本文中，我们探讨了当前的安全护栏是否在保持实用性的同时有效防止滥用。我们提出了一种框架来评估这些权衡，测量不同安全护栏在权衡风险、安全性和实用性方面的情况，并构建了一个高效的安全护栏。我们的研究结果证实，安全护栏并非免费的午餐；增强安全性通常会以牺牲实用性为代价。为解决这一问题，我们提出了一个设计更好的安全护栏的蓝图，以在最小化风险的同时保持实用性。我们评估了各种行业安全护栏，包括Azure内容安全、Bedrock安全护栏、OpenAI的审核API、Guardrails AI、Nemo安全护栏以及我们自己定制的安全护栏。此外，我们还评估了GPT-4o、Gemini 2.0-Flash、Claude 3.5-Sonnet和Mistral Large-Latest等LLM在不同系统提示下的反应，包括简单的提示、详细的提示以及带有思维链(CoT)推理的详细提示。我们的研究提供了不同安全护栏性能的清晰比较，并突显了在平衡安全性和实用性方面的挑战。

发布时间: 4/2/2025

查看原文

Suite-IN++：一种集成苹果套装全局和局部运动特征的灵活穿戴体网鲁棒惯性导航系统

作者: Lan Sun, Songpengcheng Xia, Jiarui Yang, Ling Pei

arXiv:2504.00438v1 宣传类型: 创新交叉摘要：可穿戴技术的普及已经建立了由智能手机、智能手表和耳机组成的支持普遍行人人本地化的关键生态系统。然而，传统的行人人本地化（PDR）在应对多种运动模式时遇到了困难，尽管数据驱动的方法在提高准确性方面取得了进展，但由于其依赖单一设备设置，因此通常缺乏鲁棒性。因此，一个有前景的解决方案是充分利用现有可穿戴设备形成一种灵活穿戴的身体网络，以实现鲁棒和准确的行人人本地化。本文提出了Suite-IN++，这是一种基于灵活穿戴身体网络的深层学习框架的行人人本地化方法。Suite-IN++结合了不同身体部位的可穿戴设备中的运动数据，通过对比学习来区分全局和局部运动特征。它基于每个设备的数据可靠性融合全局特征以捕捉整体运动趋势，并使用注意力机制来揭示局部特征中的跨设备相关性，提取有助于准确局部化的运动细节。为了评估我们的方法，我们构建了一个实际的灵活穿戴身体网络数据集，涵盖了多种步行模式和设备配置，并整合了Apple Suite（iPhone、Apple Watch和AirPods）。实验结果表明，Suite-IN++在实际行人人本地化场景中实现了卓越的定位准确性和鲁棒性，显著优于最先进的模型。

发布时间: 4/2/2025

查看原文

LLM辅助的主动威胁情报以实现自动化推理

作者: Shuva Paul, Farhad Alemi, Richard Macwan

arXiv:2504.00428v1 Announce Type: cross 摘要：成功防御动态演变的网络威胁需要先进的和复杂的防御技术。本文提出了一种新的方法，通过将大型语言模型（LLMs）和检索增强生成（RAG）系统与持续的威胁情报流相结合，以增强实时网络安全威胁检测和响应。利用最近在LLMs领域的进展，特别是GPT-4o，并创新地应用了RAG技术，我们的方法通过融入动态、实时的数据源，解决了传统静态威胁分析的局限性。我们利用RAG实时获取最新的威胁情报信息，这是当前GPT-4o模型无法实现的。我们采用了Patrowl框架来自动检索包括通用漏洞和暴露（CVE）、通用弱点枚举（CWE）、利用预测评分系统（EPSS）和已知利用漏洞（KEV）数据库在内的各种网络安全威胁情报流，并将这些数据与all-mpnet-base-v2模型结合，进行高维向量嵌入，存储和查询于Milvus。通过对一系列案例研究，展示了该系统的有效性，与基线GPT-4o相比，在解决最近披露的漏洞、KEV和高EPSS评分的CVE方面取得了显著改进。这项研究不仅推进了LLMs在网络安全中的应用，还为自动化智能网络威胁信息管理系统的发展奠定了坚实的基础，填补了当前网络安全实践中的一些关键缺口。

发布时间: 4/2/2025

查看原文

多模态LLM在历史文档中的OCR、OCR后校正及命名实体识别中应用

作者: Gavin Greif, Niclas Griesshaber, Robin Greif

arXiv:2504.00414v1 Announce Type: cross 摘要：我们研究了多模态大规模语言模型（mLLMs）如何帮助研究人员转录历史文件，提取相关信息，并从历史来源构建数据集。具体而言，我们研究了mLLMs在以下任务上的能力：（1）光学字符识别（OCR），（2）OCR后校正，以及（3）命名实体识别（NER），这些任务是基于1754年至1870年间出版的德语城市目录。首先，我们比较了mLLMs和传统OCR模型的现成转录准确性。我们发现，表现最好的mLLM模型显著优于传统的最先进的OCR模型和其他前沿的mLLMs。其次，我们首次使用mLLMs对OCR输出进行多模态后校正。我们发现，这种新颖的方法在转录准确性上取得了 drastic 的改进，并且一致地产生了非常准确的转录结果（CER <1%），而无需进行任何图像预处理或模型微调。第三，我们展示了mLLMs如何高效地识别历史文件转录中的实体，并将它们解析为结构化数据集格式。我们的发现为mLLMs在未来改变历史数据收集和文档转录方法的长期潜力提供了初步证据。

发布时间: 4/2/2025

查看原文

语义掌握：通过高级自然语言理解增强LLMs

作者: Mohanakrishnan Hariharan

arXiv:2504.00409v1 交叉公告类型摘要：大规模语言模型（LLMs）在执行NLP任务方面的能力有了很大的提高。然而，更深层次的语义理解、上下文连贯性和更细致的推理仍然是难以获得的。本文讨论了最先进的方法，这些方法通过引入更先进的自然语言理解（NLU）技术，如语义解析、知识集成和上下文强化学习来推动LLMs的发展。我们分析了结构化知识图谱、检索增强生成（RAG）以及与人类水平理解相匹配的微调策略的使用。此外，我们还探讨了基于变换器的架构、对比学习以及混合符号-神经方法在处理复杂NLP任务（如问答、文本摘要和对话生成）中的事实视角所涉及的问题（如幻觉、歧义和不一致）时的应用。我们的发现表明了语义精度对增强AI驱动的语言系统的重要性，并提出了未来研究方向，以弥合统计语言模型与真正自然语言理解之间的差距。

发布时间: 4/2/2025

查看原文

从直感到理解：使用AI同伴克服物理误解

作者: Ruben Weijers, Denton Wu, Hannah Betts, Tamara Jacod, Yuxiang Guan, Vidya Sujaya, Kushal Dev, Toshali Goel, William Delooze, Reihaneh Rabbany, Ying Wu, Jean-Fran\c{c}ois Godbout, Kellin Pelrine

arXiv:2504.00408v1 Announce Type: cross 摘要：生成式AI有潜力改变教育的个性化和可访问性。然而，这引发了关于准确性和帮助学生成为独立批判性思考者的严重担忧。在本研究中，我们设计了一个有助于学生的“AI同龄人”，以帮助学生纠正与牛顿力学概念相关的物理学误解。与寻求近乎完美的准确性来创建权威AI导师或教师的方法不同，我们直接告知学生，该AI可能无法正确回答多达40%的问题。在一项针对165名学生的随机对照试验中，与对照组的学生讨论物理学历史相比，与AI同龄人进行有针对性对话的学生，在测试后的得分平均高出了10.5个百分点，且经过标准化增益后的得分高出超过20个百分点。定性反馈表明，治疗组中91%的AI互动被评定为有益。此外，通过比较学生在关于同一概念的预测试和后测试中的表现，以及专家对AI互动的注释，我们发现了初步证据，表明性能提高并不依赖于AI的准确性。通过进一步的研究，这里描述的AI同龄人模型可能为如何学习、适应和与AI一起发展打开新的可能性。

发布时间: 4/2/2025

查看原文