arXiv:2502.09188v1 宣言类型:交叉
摘要:文本语料库对于训练用于摘要、翻译和大规模语言模型(LLMs)的任务的模型至关重要。尽管已经在多种语言中努力收集单语和多语种数据集,但由于数据收集和预处理资源有限,波斯语往往受到忽视。现有的波斯语数据集通常规模较小且缺乏内容多样性,主要由博客文章和新闻文章组成。由于高质量、多样化的数据的缺乏阻碍了波斯语NLP模型和开源LLMs的发展,波斯语模型的性能很大程度上依赖于训练数据的质量,我们通过介绍一个新的波斯语语料库——Matina语料库,解决了这一差距,该语料库包含729亿个标记,经过精心预处理和去重,以确保高质量的数据。我们进一步通过在关键NLP任务上训练和评估基于变压器的模型来评估其有效性。数据集和预处理代码均已公开,使研究人员能够在此基础上进一步发展和改进这一资源,促进未来波斯语NLP的发展。
arXiv:2502.09183v1 类型: cross
摘要: 随着大型语言模型(LLMs)的兴起,代码生成已经引起了越来越多的关注。许多研究通过合成代码相关指令数据并应用监督微调来发展强大的代码LLMs。然而,这些方法受到教师模型蒸馏的限制,并且忽略了通过自我生成的代码进行迭代 refinement 的潜在价值。在本文中,我们提出了自适应批评精炼(ACR),使模型能够通过自我生成的代码和外部批评来精炼自己,而不是直接模仿教师模型的代码响应。具体来说,ACR 包括一个综合评分系统,其中LLM作为评判者来评估代码响应的质量,以及一个选择性批评策略,其中LLM作为批评者来批评自我生成的低质量代码响应。我们通过迭代应用ACR 开发了RefineCoder系列,在多个代码生成基准上实现了持续的性能提升。与同规模的基线相比,我们提出的RefineCoder系列可以在使用更少数据的情况下实现相当甚至更优的性能。
arXiv:2502.09175v1 声明类型:交叉
摘要:大语言模型(LLMs)的快速发展引入了在调节用户-模型交互方面的重要挑战。尽管LLMs表现出非凡的能力,但它们仍然容易受到对抗性攻击的影响,特别是“破铜烂铁”技术,这些技术能够绕过内容安全措施。当前的内容审核系统主要依赖于输入提示过滤,已 proven 不足,例如,Best-of-N (BoN) 破铜烂铁技术在对抗流行的大语言模型时的成功率达到80%或更高。在本文中,我们介绍了灵活的大语言模型辅助审核引擎(FLAME):这是一种新的方法,将重点从输入过滤转移到输出审核。与传统意义上的断路方法对用户查询进行分析不同,FLAME 评估模型响应,提供了几个关键优势:(1) 在训练和推理方面都具有计算效率,(2) 对 BoN 破铜烂铁攻击的抵抗力更强,以及 (3) 通过可定制的主题过滤,在定义和更新安全标准方面更加灵活。我们的实验表明,FLAME 显著优于当前的审核系统。例如,FLAME 将 GPT-4o-mini 和 DeepSeek-v3 的攻击成功率降低了约9倍,同时保持了低计算开销。我们在各种大语言模型上进行了全面评估,并分析了该引擎相对于最先进的破铜烂铁技术的效率。这项工作为大语言模型开发更 robust 和更具适应性的内容审核系统做出了贡献。
arXiv:2502.09173v1 交叉公告类型:交叉学科
摘要:在远程医疗监测中,时间序列表示学习可以从高频数据中揭示关键的患者行为模式。本研究通过提出一种针对发掘低秩结构定制的两阶段自监督学习方法,对痴呆症患者的生活活动数据进行分析。第一阶段将时间序列活动转换为由预训练语言模型编码的文字序列,并利用基于PageRank的方法提供一个丰富且高维的潜在状态空间。该PageRank向量捕获潜在状态转换,有效地将复杂的行为数据压缩成简洁形式,提高了可解释性。这种低秩表示不仅增强了模型的可解释性,还促进了聚类和状态转移分析,揭示了与临床指标如MMSE和ADAS-COG评分相关的关键行为模式。我们的研究结果表明,该框架在支持认知状态预测、个性化护理干预以及大规模健康监测方面具有潜力。
arXiv:2502.09125v1 剪枝类型: cross
摘要:大多数剪枝方法集中在神经网络的不重要滤波器上。然而,由于缺乏针对类别的数据考虑,它们在剪枝过程中面临着统计信息丢失的问题。在本文中,从利用精确的类别信息进行模型剪枝的角度出发,我们利用结构化lasso,并提供信息瓶颈理论的指导。我们的方法确保在剪枝过程中保留统计信息。借助这些技术,我们提出了两种创新的自适应网络剪枝方案:基于信息瓶颈的稀疏图结构lasso剪枝(\textbf{sGLP-IB})和基于信息瓶颈的稀疏树导向lasso剪枝(\textbf{sTLP-IB})。关键方面是使用sGLP-IB和sTLP-IB剪枝模型滤波器,以更好地捕捉类别相关的性。在大量实验中,与多种最先进的方法相比,我们的方法在三个数据集和六种模型架构上均表现更优。例如,使用VGG16模型在CIFAR-10数据集上,我们实现了85%的参数减少、61%的FLOPs减少,并保持了94.10%的准确率(比原始模型高出0.14%);使用ResNet架构在ImageNet上,我们减少了55%的参数,准确率为76.12%(仅下降0.03%)。总之,我们成功地减小了模型的规模和计算资源的使用,同时保持了准确性。我们的代码可在https://anonymous.4open.science/r/IJCAI-8104获取。
arXiv:2502.09122v1 类型: 综合交叉学科
摘要: 对于深度回归任务,保留目标相对于特征表示的序关系可以改进各种任务的性能。然而,序关系带来的好处的理论解释仍然缺乏。本文揭示了保留序关系可以降低条件熵 $H(Z|Y)$,其中 $Z$ 是表示,$Y$ 是目标。然而,我们的发现表明,典型的回归损失对降低 $H(Z|Y)$ 的影响甚微,尽管这对于泛化性能至关重要。出于这一动机,我们引入了一种基于最优传输的正则化项,以保留特征空间中目标的相似关系并降低 $H(Z|Y)$。此外,我们还引入了一种简单且有效的策略,即复制回归器目标,同样旨在降低 $H(Z|Y)$。在三个真实世界的回归任务上的实验验证了我们策略的有效性,可以提高深度回归性能。代码: https://github.com/needylove/Regression_tightness
arXiv:2502.09104v1 分类类型: cross
摘要: 一次联邦学习(One-shot Federated Learning, OFL)是一种分布式机器学习范式,它将客户端-服务器通信限制在一个回合,解决了传统联邦学习(FL)中多轮数据交换所涉及的隐私和通信开销问题。OFL展示了与未来需要协作训练模型的方法(如大语言模型, LLMs)集成的实际潜力。然而,当前的OFL方法面临两大主要挑战:数据异质性和模型异质性,这导致了与传统FL方法相比的较差性能。更糟糕的是,尽管已有大量研究解决这些局限性,但缺乏全面的总结。为了解决这些差距,本文系统分析了OFL面临的挑战,并详细回顾了当前的方法。我们还提供了一种创新的分类方法,并分析了各种技术的权衡。此外,我们讨论了OFL领域最有前景的未来方向以及应该整合的技术。本文旨在为未来的研究提供指导和见解。
arXiv:2502.09083v1 Announce Type: cross
摘要:大语言模型和生成型AI在在线媒体中的普及加剧了对有效自动事实核查的需求,以帮助事实核查人员应对日益增多且日益复杂的信息误导。事实核查的复杂性要求自动事实核查系统提供使事实核查人员能够审查其输出的解释。然而,尚未明确这些解释应如何与事实核查人员的决策和推理过程对齐,以便有效地整合到他们的工作流程中。通过半结构化的访谈,我们通过以下方式弥合了这一差距:(i)提供了一种描述事实核查人员评估证据、做出决策并解释其过程的方法;(ii)考察了事实核查人员在实践中如何使用自动工具;以及(iii)确定了事实核查人员对自动事实核查工具的解释需求。研究发现表明存在未满足的解释需求,并确定了对于可重复的事实核查解释至关重要的标准,这些标准能够追踪模型的推理路径、引用特定证据、并强调不确定性与信息缺失。
arXiv:2502.09082v1 Announce Type: cross
摘要:角色扮演语言代理(RPLAs)已成为大型语言模型(LLMs)的有前途的应用之一。然而,模拟已有的角色对RPLAs来说是一项具有挑战性的任务,因为缺乏真实的角色数据集以及使用此类数据进行细致评估的方法。本文中,我们提出了CoSER,它包含一个高质量的数据集、开放模型以及一种有效的角色扮演评价协议,以促进已有的角色的角色扮演语言代理的发展。CoSER数据集涵盖了来自771本名著的17,966个角色。它提供了具有现实世界复杂性的真实对话,以及对话设置、角色经历和内部想法等多种数据类型。借鉴表演方法,我们引入了给定情境表演法,用于训练和评估角色扮演的LLMs,在这种方法中,LLMs按顺序在书中的场景中扮演多个角色。利用我们的数据集,我们开发了CoSER 8B和CoSER 70B,即基于LLaMA-3.1模型的先进的开放式角色扮演LLMs。广泛的实验表明,CoSER数据集对于RPLA的训练、评估和检索具有价值。此外,CoSER 70B在我们的评价和三个现有基准上表现出了最先进的性能,分别在InCharacter和LifeChoice基准上实现了75.80%和93.47%的准确率,超越或与GPT-4o持平。
arXiv:2502.09056v1 并集类型:交叉
摘要:本文探讨了数据选择和模型合并方法,旨在将类似 DeepSeek R1 的高级推理能力融入特定语言的大语言模型(LLMs),特别关注泰语 LLM。我们的目标是在保持特定语言能力的同时增强特定语言 LLM 的推理能力。DeepSeek R1 在推理方面表现出色,但主要惠及高资源语言如英语和汉语。然而,由于以英语为中心的训练数据和模型优化占据了主导地位,这限制了这些语言的表现。这种限制导致这些语言中的代码转换不可靠,并且在低资源语言的任务中效果减弱。与此同时,本地和区域 LLM 项目试图通过开发专注于提高本地语言准确性的特定语言 LLM 来弥合这一差距。我们展示了,仅使用公开可用的数据集和 120 美元的计算预算,可以在不损害目标语言任务性能的情况下,增强特定语言 LLM 的推理能力,使其达到与 DeepSeek R1 相当的水平。