arXiv:2502.08661v1 公告类型: cross
摘要: 随着大规模语言模型(LLMs)的发展,它们在上下文学习和少样本语言生成方面的能力得到了极大的提升。这使得使用LLMs生成高质量的合成数据以增强小型模型如在线检索器或弱LLMs的性能变得更加常见。然而,LLM生成的合成数据在关键语言属性(如风格、语调、内容比例等)上经常与真实数据不符。这可能导致直接将合成数据与真实数据混合,从而扭曲原始数据分布,潜在地妨碍性能提升。为了解决这个问题,我们提出了SynAlign:一种基于关键属性分布匹配的合成数据生成和过滤框架。在生成之前,SynAlign采用由高斯过程模型代理的不确定性跟踪器,迭代选择与已选择的数据集群不同的集群,作为新数据合成的示例,从而促进对真实数据多样性的高效探索。然后,采用潜在属性推理方法:LLM总结示例的语言属性,然后基于这些属性生成新数据。这种方法有助于生成具有真实数据中出现的语言属性的多样化数据。生成后,使用最大均值偏差作为目标函数学习每条合成数据的采样权重,以确保与真实数据的分布匹配。我们在多个文本预测任务上的实验显示了显著的性能提升。我们还在在线检索器上进行了在线A/B测试,以证明SynAlign的有效性。
arXiv:2502.08658v1 类型:交叉
摘要:近年来,借助人工智能(AI)的非线性车辆编队动力学建模在预测和优化车辆之间的相互作用中发挥着重要作用。现有努力缺乏对编队尺度上车辆行为互动特征的提取和捕捉。更重要的是,保持高建模精度同时不失去物理可分析性的问题仍未解决。为了解决这些问题,本文提出了一种新的物理编码深度学习网络,名为PeMTFLN,用于建模非线性车辆编队动力学。具体而言,设计了一个可分析参数编码计算图(APeCG),以指导编队响应前导车辆的驾驶行为,同时确保局部稳定性。此外,构建了一个多尺度轨迹特征学习网络(MTFLN),以捕获编队跟随模式并从轨迹数据中推断APeCG所需的物理参数。使用人工驾驶车辆轨迹数据集(HIGHSIM)对提出的PeMTFLN进行了训练。轨迹预测实验结果表明,与基线模型相比,PeMTFLN在速度和间距预测精度方面表现出色。稳定性分析结果显示,在真实世界条件下,APeCG中的物理参数能够重现编队稳定性。在仿真实验中,PeMTFLN在编队轨迹生成中的推理误差较低。此外,PeMTFLN还准确地再现了真实的安全统计结果。提出的PeMTFLN的代码是开源的。
arXiv:2502.08657v1 安全对齐类型: 交叉
摘要: 最近的AI代理,如ChatGPT和LLaMA,主要依靠指令调优和强化学习来校准大型语言模型(LLMs)的输出,以符合人类意图,确保输出是无害和有帮助的。现有的方法严重依赖高质量正面样本的手动标注,同时也面临着标签噪声和受青睐和不受欢迎响应数据之间细微差别的问题。然而,易于获取的具有明确安全差别的有毒样本通常会被过滤掉,这去除了有助于LLM安全对齐的有价值的负面参考。为了解决这一问题,我们提出PT-ALIGN,这是一种新型的安全自我对齐方法,通过自动精炼正面和有毒样本来减少人类监督,并进行细粒度的双重指令调优。正面样本是非害的内容,而有毒样本故意包含极有害的内容,作为新的监督信号。具体而言,我们利用LLM本身迭代生成和精炼训练实例,仅探索不到50个人标注。然后,我们使用两种损失,即最大似然估计(MLE)和细粒度的反可能性训练(UT),共同学习以增强LLM的安全性。MLE损失鼓励LLM在正面样本的基础上最大化生成非害内容。相反,细粒度的UT损失根据负面样本在词级指导下LLM尽量减少有害词汇的输出,从而引导模型解耦安全与有效性,将其导向更安全的微调目标,增加生成有用和可靠内容的可能性。在9个流行的开源LLM上的实验表明,我们的PT-ALIGN在安全性校准方面有效,同时保持了可比的有用性和帮助性。
arXiv:2502.08652v1 Announce Type: cross
摘要:本研究介绍了一种名为LegalScore的专业指数,用于评估生成人工智能模型在巴西选定范围的职业考试中的表现,这些考试要求具备法律背景。该指数评估了十四种不同类型的生成人工智能模型,在这些考试中回答客观问题的表现,涵盖了从 proprietary 模型到开源模型。研究揭示了当将英语训练的大语言模型应用于巴西法律情景时,模型的响应情况,这促使我们反思生成人工智能模型中特定于巴西的训练数据的重要性和必要性。表现分析显示,虽然 proprietary 和大多数知名模型在整体上取得了更好的结果,但本地和规模较小的模型也表现出色,因为它们在训练中的巴西语境对齐。通过建立包括准确率、置信区间和标准化评分在内的评价框架,LegalScore 使人们能够系统性地评估生成人工智能在巴西法律考试中的表现。尽管研究展示了生成人工智能在考试准备和问题开发方面的潜在价值,但它也指出,在人工智能能够达到人类在高级法律评估中的表现之前,还需要进行显著的改进。该基准为继续研究奠定了基础,强调了生成人工智能发展中本地适应的重要性。
arXiv:2502.07352v1 声明类型: cross
摘要:本文提出了一种框架,利用大规模语言模型(LLMs)自动评估科学文献中动态演变的主题分类体系。在数字图书馆系统中,主题建模在高效组织和检索学术内容、引导研究者通过复杂的知识领域方面扮演着关键角色。随着研究领域的增多和变化,传统的以人为中心和静态的评估方法难以保持相关性。所提出的方法借助LLMs测量关键的质量维度,如连贯性、重复性、多样性和主题文档匹配,而不需要对专家注释者或狭窄的统计指标的大量依赖。定制化提示语引导LLM评估,确保在各种数据集和建模技术下的一致性和可解释性评估。基准语料库上的实验表明该方法的稳健性、可扩展性和适应性,强调其作为传统评估策略更为全面和动态的替代方案的价值。
arXiv:2502.06772v1 声称类型: cross
摘要:我们展示了通过扩展思辨模板进行分层LLM推理可以有效地优化推理搜索空间,并在数学推理能力方面超越了诸如OpenAI o1-preview和DeepSeek V3等强大LLM的能力。我们仅用8个GPU训练了我们的ReasonFlux-32B模型,并引入了三项创新:(i)一个结构化且通用的思辨模板库,包含约500个高级思辨模板,能够泛化到类似或相关的问题推理;(ii)在一个序列的思辨模板上进行分层强化学习,而不是长期的长串思维过程(CoTs),优化基础LLM以计划出用于逐步处理复杂问题的最佳模板轨迹;(iii)一种全新的推理扩展系统,能够在推理时适配性地扩展思辨模板,使分层LLM推理成为可能。我们的ReasonFlux-32B在模板轨迹包含按顺序排列的思辨模板的情况下,显著提高了数学推理能力到最先进的水平。值得注意的是,在MATH基准测试中,其准确度达到了91.2%,比o1-preview高出6.7%。在USA数学奥林匹克(AIME)基准测试中,ReasonFlux-32B解决了平均56.7%的问题,分别超越了o1-preview和DeepSeek-V3 27%和45%。代码:https://github.com/Gen-Verse/ReasonFlux
arXiv:2502.09601v1 通告类型: 新
摘要: 链式思考极大地增强了模型的推理能力,但同时也因长链而导致推理成本显著增加。经过观察,在容易的任务上,推理路径可以轻易被压缩,但在困难的任务上则会遇到挑战。为此,我们探索了一种只使用一个模型弹性控制推理路径长度的可能性,从而根据任务难度动态地减少推理模型的推理开销。我们引入了一种新的调优和推理策略,名为 CoT-Valve,设计用于使模型能够生成不同长度的推理链。为了实现这一目标,我们提出了一种方法,即识别参数空间中的一个方向,在调整该方向时,可以有效控制生成的链式思考(CoT)的长度。此外,我们展示了这种属性在压缩推理链方面的价值。我们构建了从长链到短链的相同问题的数据集,并探索了 CoT-Valve 的两种增强策略:(1) 精确长度可压缩的 CoT 调优方法,以及 (2) 逐步链式思考长度压缩方法。我们的实验表明,CoT-Valve 成功地实现了推理链的可控性和压缩性,并且在性能上优于基于提示的控制。我们将这种方法应用于 QwQ-32B-Preview,将 GSM8K 的推理链从 741 个 token 减少到 225 个 token,性能略有下降(95.07% 到 94.92%),而在 AIME 上将 token 从 6827 减少到 4629,只增加了一个额外的错误答案。
arXiv:2502.09596v1 宣告类型: 新增
摘要:以大规模语言模型(LLMs)为支持的知识密集型对话已成为在各个方面都能帮助人们的一种最流行和最有用的应用程序。目前许多知识密集型应用集中在检索增强生成(RAG)技术上。虽然有许多开源RAG框架促进了RAG应用程序的开发,但在处理由主题和格式异质性、对话上下文管理和对低延迟响应时间的要求带来的复杂场景时,它们往往表现不佳。本技术报告提出了一种可配置的知识集成多代理系统KIMAs,以应对这些挑战。KIMAs 特点包括:1)具有上下文管理和查询重写机制,以提高检索准确性并增强多轮对话的一致性;2)高效的知识路由和检索;3)简单但有效的过滤和参考生成机制;4)优化的可并行执行的多代理管道。我们的研究工作提供了一个可扩展的框架,以推动LLMs在实际场景中的部署。为了展示KIMAs如何帮助开发者构建具有不同规模和侧重的知识密集型应用,我们展示了如何根据实际可靠的表现配置系统,以应用到三个已经在运行的应用中。
arXiv:2502.09565v1 宣告类型: 新闻
摘要: 分子动力学(MD)模拟对于理解生物分子系统至关重要,但仍然难以自动化。近年来,大型语言模型(LLM)的进步已经展示了使用基于LLM的代理自动化复杂科学任务的成功。在本文中,我们介绍了MDCrow,这是一种能够自动化MD工作流程的代理式LLM助手。MDCrow使用链式思维处理和处理文件、设置模拟、分析模拟输出,并从文献和数据库中检索相关信息。我们评估了MDCrow在25个不同难度和所需子任务的测试任务中的性能,并评估了代理在困难和提示风格方面的鲁棒性。\texttt{gpt-4o}能够以低变异度完成复杂的任务,紧随其后的是\texttt{llama3-405b},这是一个很有吸引力的开源模型。虽然提示风格对最佳模型的性能没有影响,但对较小的模型却有显著影响。
arXiv:2502.09560v1 通知类型: 新
摘要: 利用多模态大型语言模型(MLLMs)创建具身代理为解决现实世界任务提供了有希望的途径。尽管语言为中心的具身代理获得了大量关注,但由于缺乏全面的评估框架,基于MLLM的具身代理仍然未被充分探索。为弥补这一差距,我们引入了EmbodiedBench,这是一种广泛基准测试,旨在评估视觉驱动的具身代理。EmbodiedBench 特征包括:(1) 覆盖四个环境的1,128种多样化的测试任务,从高级语义任务(如家庭)到涉及原子动作(如导航和操作)的低级任务;以及(2) 用于评估具身代理关键能力的六个精心策划的子集,这些子集涉及常识推理、复杂指令理解、空间意识、视觉感知和长期计划。通过广泛的实验,我们在EmbodiedBench中评估了13种领先的自有产权和开源MLLMs。我们的发现表明:MLLMs 在高级任务中表现出色,但在低级操作方面存在困难,最佳模型GPT-4o仅在平均分数上达到28.9%。EmbodiedBench 提供了一个多方面的标准化评估平台,不仅突出了现有挑战,还为推进基于MLLM的具身代理提供了宝贵的见解。我们的代码可在 https://embodiedbench.github.io 获取。