arXiv:2502.00894v1 宣布类型: cross
摘要:分词是自然语言处理(NLP)的基础,直接影响模型效率和语义准确性。尽管字节对编码(BPE)在大型语言模型(LLMs)中被广泛使用,但它往往忽略了形态学边界,导致分词次优,特别是在形态学丰富的语言中。我们介绍了MorphBPE,这是一种形态学意识的BPE扩展,将语言结构整合到子词分词中,同时保持统计效率。此外,我们提出了两个基于形态学的评估指标:(i)形态一致性F1分数,它量化了形态共享与分词共享之间的一致性,有助于LLM训练收敛,以及(ii)形态编辑距离,它衡量了形态学与分词在可解释性方面的对齐情况。在参数量为300M和1B的英语、俄语、匈牙利语和阿拉伯语的LLM上进行的实验表明,MorphBPE一致地减少了交叉熵损失,加速了收敛,并提高了形态学对齐得分。MorphBPE完全兼容现有的LLM管道,集成时所需修改很少。MorphBPE代码库和分词器游乐场可在以下链接访问:https://github.com/llm-lab-org/MorphBPE 和 https://tokenizer.llm-lab.org
arXiv:2502.00874v1 宣告类型: cross
摘要:顶级人工智能(AI)和机器学习(ML)会议提交量的迅速增长促使许多会议平台从封闭式转为开放式评审平台。一些会议完全采用了公开同行评审,允许在整个过程中保持透明度,而另一些则采用混合方法,如仅在最终决定公布后才公开评审,或者尽管使用开放同行评审系统但仍保持隐私。在本文中,我们分析了这些模型的优点和局限性,强调了透明同行评审日益增长的社区兴趣。为了支持这一讨论,我们探讨了Paper Copilot网站的见解,该网站于两年前启动,旨在汇总和分析AI / ML会议数据,并吸引全球观众积极参与。该网站吸引了超过200,000名早期职业研究人员,特别是来自177个国家、年龄在18-34岁之间的许多研究人员,他们积极参与同行评审过程。基于我们的研究成果,本文倡导更具透明度、开放性和良好监管的同行评审,以促进社区参与和推动该领域的进步。
arXiv:2502.00870v1 宣言类型: cross
摘要:联邦强化学习(FedRL)在保持隐私的同时提高了样本效率,然而,现有的大部分研究假设各代理是同质的,这限制了其在实际应用场景中的适用性。本文探讨了在具有异质代理的黑盒设置下的FedRL,每个代理使用不同的策略网络和训练配置,并且不会披露其内部细节。知识蒸馏(KD)是促进异质模型之间知识共享的一种有前途的方法,但在应用于FedRL时,它面临着公共数据集稀缺和知识表示的局限性等挑战。为了解决这些挑战,我们提出了联邦异质策略蒸馏(FedHPD),通过使用行为概率分布作为知识共享的媒介来解决异质FedRL的问题。我们提供了在标准假设下的FedHPD收敛性的理论分析。广泛的实验证明,FedHPD在各种强化学习基准任务中显示出显著的改进,进一步验证了我们的理论发现。此外,额外的实验表明,FedHPD可以在无需精心选择公共数据集的情况下有效运行。
arXiv:2502.00865v1 宣布类型: cross
摘要:本文应对了消费者合同中日益严重的信息不对称问题,这些问题由日益普及的支持复杂用户协议的在线服务所加剧,而这些协议很少甚至不会被阅读。尽管已经开展了针对自动分析方法的研究,但由于一般倾向于英语语言的机器学习方法和主要管辖区(如欧盟),这一问题变得更加严重。我们提出了一种新的方法论和大量数据集来解决这一缺口。我们提出了一种新颖的注释方案,包括四个类别和总共20个子类别,并将其应用于智利使用的50个在线用户协议。对于基于变换器的模型的评估揭示了语言特定或领域特定的预训练、少量样本数量以及模型结构等因素如何影响潜在滥用条款的检测和分类。结果显示不同任务和模型间性能差异很大,检测任务的宏观F1分数范围从79%到89%,微F1分数最高可达96%,而分类任务的宏观F1分数范围从60%到70%,微F1分数范围从64%到80%。值得注意的是,这是第一个针对法律条款的多标签分类数据集,适用于智利法律,并提供了对西班牙语法律领域模型的全面评估。我们的工作为未来罕见考虑的法律分析方法的发展奠定了基础,并可能有助于支持智利和拉丁美洲整体的消费者权益。
arXiv:2502.00850v1 宣告类型: cross
摘要:由于合成数据与现实数据之间的分布不匹配,离线强化学习代理面临着重大的部署挑战。虽然之前的大部分研究集中在提高合成采样的保真度和引入离策机制上,但直接集成的范式往往在偏差模型和底层环境动态中无法确保策略行为的一致性,这些偏差本质上源于行为策略与学习策略之间的差异。在本文中,我们首先将焦点从模型可靠性转移到策略差异上,同时优化预期回报,然后自洽地引入合成数据,从而推导出一种新的演员-评论家范式,双对偶最小最大化优化(DAMO)。这是一种统一框架,旨在确保模型-环境策略一致性以及合成数据和离线数据的兼容性。内部的最小化执行双重保守价值估计,使策略和轨迹对齐,避免出现分布外的状态和动作,而外部的最大化确保策略改进与内部价值估计保持一致。实证评估表明,DAMO 有效地确保了模型和策略对齐,实现了在多种基准任务中的竞争性能。
arXiv:2502.00847v1 安全类型:交叉
摘要:随着大语言模型(LLM)在普通用户中的流行度日益增加,隐私保护和对抗鲁棒性已成为LLM基服务的迫切需求,这两方面需求虽然已经分别追求,但很少联合追求。在本文中,据我们所知,我们是首次尝试通过紧密整合两个不相连的领域:隐私推理和提示聚合并,来实现鲁棒性和私密性的LLM推理。前者通过加密LLM传输和处理的推理数据来保护用户的隐私,而后者通过从多个提示后LLM响应中获得聚合输出来增强对抗鲁棒性。尽管单独使用时被认为非常有效,但结合用于提示聚合并的隐私推理会带来新的挑战,使得现有技术的简单组合效率低下。为了克服这些困难,我们提出了SecPE,它为提示聚合并的核心算法构建块设计了高效的全同态加密(FHE)对应物。我们在8个任务上进行了广泛的实验,以评估SecPE的准确度、鲁棒性和效率。结果显示,SecPE保持了高纯净准确度,并且与基础隐私推理方法相比,仅增加了2.5%的效率开销,表明其具有令人满意的“准确度-鲁棒性-效率”平衡。对于对提示聚合并造成重大速度放缓的加密Argmax操作的效率,SecPE比最先进的同类方法快35.4倍,这可以在本研究之外独立引起兴趣。
arXiv:2502.00840v1 宣布类型: cross
摘要: 大型语言模型(LLMs)在各个领域展现了令人瞩目的能力。伴随着LLMs能力的不断提升和部署场景的扩展,由于其庞大的规模以及在著名模型系列(如Llama、Gemma和Mistral)中广泛应用的高级但复杂的激活设计,其部署挑战愈发严峻。这些挑战在资源受限的部署场景中尤为突出,其中缓解推理效率瓶颈变得至关重要。在众多近期的努力中,激活近似已成为追求推理效率的一种有希望的方法,甚至在私人推理等应用中被视为必不可少的方法。尽管激活近似实现了显著的速度提升,且对功能的影响最小,甚至在实际部署中显得合理有效,但其安全性影响仍然是不明确的。在这项工作中,我们通过进行第一次系统性的安全评估,填补了LLM安全性方面的这一关键空白,揭示了在十种安全对齐的LLM上,七种最新的技术在三种流行类别中的安全性能一直下降。
arXiv:2502.00837v1 类型: cross
摘要:自然语言处理(NLP)已成为医疗保健、金融和客户关系管理等许多关键领域不可或缺的基础。特别是在GPT架构和BERT等先进模型的发展和应用中,这些模型在决策过程中被广泛使用。然而,这些先进NLP模型的黑箱性质迫切需要提高透明度和可解释性。本文回顾了可解释的NLP(XNLP),重点探讨其实际部署和真实世界应用,检查其在特定领域中的实现以及面临的挑战。文章强调了NLP中的可解释性的重要性,并提供了一个全面的观点,说明如何设计XNLP以满足各种行业的独特需求,从医疗保健领域对清晰洞察的需求到金融领域对欺诈检测和风险评估的重视。此外,本文旨在通过提供特定领域探索并讨论未充分研究的领域来弥合XNLP文献中的知识空白,例如实际应用、度量评估以及人类互动在模型评估中的作用。文章最后建议未来的研究方向,旨在增强对XNLP的理解和更广泛的适用性。
arXiv:2502.00828v1 宣言类型: cross
摘要:本文通过将大型语言模型(LLMs)与决策导向学习相结合,解决了投资组合优化中的预测与决策质量之间的关键脱节问题。我们从理论上和实验上都表明,仅最小化预测误差会导致次优的投资组合决策。我们的目标是利用LLMs的投资决策表示能力。注意机制处理资产关系、时间依赖性和宏观经济变量,这些然后直接集成到投资组合优化层中。这使模型能够捕捉到复杂的市场动态,并使预测与决策目标保持一致。在S&P100和DOW30数据集上的广泛实验表明,我们的模型在与最先进的深度学习模型相比时表现一直更优。此外,基于梯度的分析显示,我们的模型优先考虑对决策最重要的资产,从而减轻了预测误差对投资组合表现的影响。这些发现强调了将决策目标纳入预测中对于更稳健和更具情境意识的投资组合管理的价值。
arXiv:2502.00802v1 类型: cross
摘要: 深度强化学习(DRL)系统往往倾向于过度拟合于早期经验,这一现象被称为早期优势偏见(PB)。这种偏见严重阻碍了学习效率和最终性能,尤其是在复杂环境中的表现。本文通过费歇尔信息矩阵(FIM)的视角对PB进行了全面的研究。我们通过FIM迹的不同模式来表征PB,识别学习过程中关键的记忆重构阶段。基于这一理解,我们提出了费歇尔引导的选择性遗忘(FGSF)方法,这是一种新颖的方法,利用参数空间的几何结构来选择性地修改网络权重,防止早期经验主导学习过程。在DeepMind控制套件(DMC)环境中进行的经验结果表明,FGSF在复杂任务中始终优于基线方法。我们分析了PB对演员和评论家网络的不同影响,重播比率在加剧这一影响中的作用,以及简单噪声注入方法的有效性。我们的研究结果为PB提供了更深的理解,并提出了实际的缓解策略,提供了基于FIM的几何视角来推进DRL的发展。