arXiv:2503.22524v1 类别: cross
摘要: 示范学习(IL)已被证明对于通过专家示范使机器人获得知觉运动技能是有效的。然而,传统的IL方法受到其依赖高质量且往往稀缺的专家数据的限制,并且遭受协变量偏移的影响。为解决这些挑战,最近的离线IL进展将次优且未标记的数据集纳入了训练中。在本文中,我们提出了一种通过利用与任务相关的轨迹片段和丰富的环境动力学来增强从混合质量离线数据集中学习策略的新方法。具体而言,我们引入了一种基于状态的搜索框架,该框架从不完美的示范中缝合状态-动作对,生成更多多样且信息丰富的训练轨迹。在标准的IL基准测试和实际机器人任务上的实验结果展示了我们提出的方法在通用性和性能方面有了显著改进。
arXiv:2503.22517v1 宣告类型: cross
摘要: 在这项工作中,我们致力于在保留原始语言生成能力的同时,通过满足两个核心约束来增强预训练的仅文本大型语言模型(LLMs)的生成能力,同时保留其原有的性能几乎无降级:C1 保留原始语言生成能力,性能降级可忽略不计,C2 遵循较小的参数预算来学习新的模态,确保可扩展性和效率。与当前方法不同,这些方法通过添加专用模块大幅增加参数量,我们提出了一种方法,利用深度模型中未充分利用的能力。具体而言,我们利用混合专家(MoE)中的参数冗余作为学习新模态的额外容量的来源,从而实现更好的参数效率(C1)。此外,我们通过仅对新模态的标记应用低秩适应,保留原始语言生成能力(C2)。此外,我们引入了一种基于格罗默-瓦尔什距离的新型参数初始化方案,以提高收敛性和训练稳定性。通过对路由机制的广泛分析,我们发现了模态特定路径的涌现和专家内部冗余的减少,这可以高效地解锁多模态生成能力。总体而言,我们的方法可以无缝应用于各种现代LLMs,提供了一条从单模态向多模态架构过渡的新途径。
arXiv:2503.22513v1 交叉类型: 自监督学习
摘要:自监督学习已成为利用大规模未标记数据提高各种领域模型性能的一种强大方法。在本文中,我们探索了对文本识别变换器进行遮蔽自监督预训练。具体来说,我们在预训练阶段提出了两种修改:逐步增加遮蔽概率,并将损失函数修改为同时包含遮蔽和非遮蔽片段。我们使用包含5000万未标注文本行的数据集进行预训练,并使用四个不同大小的标注数据集进行微调。此外,我们还将我们的预训练模型与采用迁移学习训练的模型进行了比较,展示了自监督预训练的有效性。特别是,预训练一致地提高了模型的字符错误率,在某些情况下相对提高了30%。而且其效果与迁移学习相当,但不需要额外的标注文本行。
arXiv:2503.22478v1 类别: cross
摘要: 通过展示随机梯度下降(SGD)在分形景观上的有效扩散过程,我们证明了SGD的行为与贝叶斯统计相关。分形维度可以通过纯粹的贝叶斯方式来进行计算。通过这种方式,我们表明SGD可以被视为一种修正后的贝叶斯采样器,它可以考虑到由损失景观的分形结构引起的可访问性约束。我们通过检查训练期间权重的扩散来实验证明了我们的结果。这些结果为决定学习过程的因素提供了见解,并似乎回答了SGD与纯粹贝叶斯采样之间的关系问题。
arXiv:2503.22458v1 交叉公告类型:cross
摘要:本文回顾了基于大型语言模型(LLM)的代理在多轮对话场景中的评估方法。利用受PRISMA启发的框架,我们系统地回顾了近250篇学术文献,涵盖了各种出版平台的前沿成果,并为我们的分析奠定了坚实的基础。我们的研究提供了一种结构化的分析方法,通过开发两个相关的分类系统:一个定义了“要评估什么”,另一个解释了“如何评估”。第一个分类系统识别了基于LLM的代理在多轮对话中的关键组件及其评估维度,包括任务完成情况、响应质量、用户体验、记忆和上下文保留,以及规划和工具集成。这些组件确保了对话代理的性能被全面且有意义地评估。第二个分类系统侧重于评估方法。它将方法分类为基于注释的评估、自动化指标、结合人类评估与定量测量的混合策略,以及利用LLM进行自我评判的方法。该框架不仅捕捉了传统来自语言理解领域的指标,如BLEU和ROUGE得分,还整合了反映多轮对话动态和交互性质的高级技术。
arXiv:2503.22456v1 类型: cross
摘要: 我们介绍了熵导向序列加权(Entropy-Guided Sequence Weighting, EGSW),这是一种新颖的方法,通过根据生成输出的优性和熵动态分配权重来增强强化学习(Reinforcement Learning)基础的大语言模型( Large Language Model, LLM)微调中的探索与利用权衡。EGSW 将熵正则化与基于优性的加权相结合,以平衡策略更新,从而在高维状态空间中实现有效的探索。通过使用温度缩放的 softmax 加权序列,EGSW 优先考虑高奖励、高不确定性步骤,同时保持训练稳定性。尽管最初是为改进大语言模型微调过程中组相对策略优化(Group Relative Policy Optimization, GRPO)而开发的,但EGSW 可以推广到其他强化学习(Reinforcement Learning, RL)算法,并且可以在步骤级和轨迹级设置中实现。实证评估表明,EGSW 提升了 GRPO 的推理能力,提高了样本效率。未来的研究将探索 EGSW 在更先进的 RL 方法中的应用。
arXiv:2503.22454v1 宣告类型:交叉
摘要:关于算法决策系统的公平性研究经常将复杂的决策过程,例如保释或贷款批准,简化为二元分类任务。然而,这些方法忽略了这样的决策本质上并非二元的(例如,批准或不批准保释或贷款);它们还涉及影响后续结果(例如,还款或再犯)的非二元治疗决策(例如,保释条件或贷款条款)。本文认为,非二元治疗决策是决策过程的关键部分,由决策者控制,因此在算法决策公平性分析中应占据核心地位。我们提出了一种因果框架,该框架扩展了公平性分析,并明确区分了决策主体的协变量和治疗决策。这种规定允许决策者使用我们的框架 (i) 在历史数据中衡量治疗不平等及其后续影响,并通过反事实推理 (ii) 在自动化决策制定时减轻过往不公平治疗决策的影响。我们利用我们的框架对四个广泛使用的贷款批准数据集进行实证分析,揭示了非二元治疗决策及其对结果的歧视性影响,强调了在公平性评估中纳入治疗决策的必要性。此外,通过干预治疗决策,我们展示了我们的框架有效地减轻了历史数据中的治疗歧视,确保了公平的风险评分估计和符合所有相关方利益的(非二元)决策制定过程。
arXiv:2503.22424v1 宣告类型: cross
摘要: 大型语言模型(LLMs)显著促进了自主软件工程的发展,导致越来越多的软件工程代理程序帮助开发者进行自动程序修复。问题定位是准确生成补丁的基础。然而,由于LLMs上下文窗口长度的限制,现有的问题定位方法在兼顾简洁有效的上下文和充分全面的搜索空间方面面临挑战。本文介绍了一种名为CoSIL的方法,这是一个基于LLM、简单而强大的函数级别问题定位方法,无需进行训练或索引。CoSIL通过模块调用图减少搜索空间,迭代搜索函数调用图以获取相关上下文,并使用上下文剪枝来控制搜索方向并有效地管理上下文。重要的是,调用图是在搜索过程中由LLM动态构建的,消除了预解析的需要。实验结果显示,使用Qwen2.5 Coder 32B,CoSIL在SWE bench Lite和SWE bench Verified上的Top-1定位成功率分别为43%和44.6%,比现有方法提高8.6%至98.2%。当CoSIL用于指导补丁生成阶段时,修复率进一步提高9.3%至31.5%。
arXiv:2503.22406v1 宣传类型: 横跨
摘要: 泰普斯夸特是一种长期存在的网络威胁,它利用人们在输入网址时的错误来欺骗用户、分发恶意软件并进行网络钓鱼攻击。随着域名数量和新的顶级域名(TLDs)的增多,泰普斯夸特技术变得越来越复杂,对个人、企业和国家网络安全基础设施构成了显著风险。传统的检测方法主要集中在已知的冒名顶替模式上,留下了识别更复杂攻击的空白。本研究介绍了一种新的方法,利用大型语言模型(LLLs)来增强泰普斯夸特的检测。通过训练一个大型语言模型在字符级转换和基于模式的启发式方法上,而不是特定领域的数据,形成了一个更灵活且更具韧性的检测机制。实验结果表明,当适当微调时,Phi-4 14B模型的表现优于其他测试模型,仅使用几千个训练样本就达到了98%的准确率。本研究突显了大语言模型在网络安全应用中的潜在价值,特别是减轻基于域名的欺骗手段,并提供了优化机器学习策略以进行威胁检测的见解。
arXiv:2503.22402v1 宣告类型: cross
摘要: Text-to-SQL 自动将自然语言查询翻译成 SQL,从而允许非技术人员在无需专门 SQL 知识的情况下从数据库中检索数据。尽管基于先进语言模型 (LLM) 的 Text-to-SQL 方法在排行榜上取得了成功,但其不可持续的计算成本——往往被忽略——成为了当前排行榜驱动研究中的“房间里的大象”,限制了其在实际部署中的经济实用性以及广泛的采用。为了解决这个问题,我们提出了一个名为 EllieSQL 的复杂性感知路由框架,根据估计的复杂性将查询分配给合适的 SQL 生成管道。我们研究了多种路由方法,以将简单的查询导向高效的方法,并将计算密集型的方法保留给复杂的情况。借鉴经济学,我们引入了 Token 弹性绩效 (TEP) 指标,通过量化性能提升相对于 SQL 生成中 token 投资的响应性来衡量成本效率。实验表明,相比于在我们研究中始终使用最先进的方法,使用 Qwen2.5-0.5B-DPO 路由器的 EllieSQL 在 Bird 发展集上性能无任何损失的情况下,token 使用量减少了超过 40%,TEP 指标超过了没有路由方法的 2 倍以上。这不仅促进了成本效益型 Text-to-SQL 的发展,还邀请社区将资源效率与性能相结合,促进可持续 Text-to-SQL 的进展。