LLM2D

arXiv 论文列表

作者: Kai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen
arXiv:2504.00509v1 类型:新论文 摘要:近年来,LLM基准测试从 elementary 学校级别的难度迅速提升到前沿问题,为我们科研人员编织了一个奇迹,似乎我们只需要几步之遥就能超越人类智能。但是,LLM们令人瞩目的推理能力是否真的符合人类标准的智能,还是仅仅是互联网级别的机械重复?为了解决这个问题,我们提出了RoR-Bench,这是一个新颖的多模态基准测试,用于在简单推理问题但条件细微变化的情况下检测LLM的机械重复行为,并对我们的基准测试进行了实证分析。令人惊讶的是,我们发现现有的顶尖LLM普遍存在严重的机械重复行为;仅通过改变一个条件短语,如OpenAI-o1和DeepSeek-R1等顶级模型,在 elementary 学校级别的算术和推理问题上的性能损失高达60%。这样的发现对LLM社区来说是一个警钟,迫使我们重新评估顶尖LLM的真实智能水平。
发布时间: 4/2/2025
查看原文
作者: Jianshu She, Zhuohao Li, Zhemin Huang, Qi Li, Peiran Xu, Haonan Li, Qirong Ho
arXiv:2504.00424v1 宣告类型:新 摘要:链式思维(CoT,Chain-of-Thought)推理在增强大型语言模型(LLMs,Large Language Models)的推理能力方面表现出了显著的效果。然而,由于生成过多的中间推理标记,其效率仍然面临挑战,这些标记引入了语义冗余和过于详细的推理步骤。另外,计算成本和延迟也是重大问题,因为成本随着输出标记的数量(包括中间步骤)而增加。在本文中,我们观察到大多数CoT标记是不必要的,保留其中一小部分已经足以生成高质量的响应。受此启发,我们提出了HAWKEYE,一种新的后训练及推理框架,其中大型模型生成简洁的CoT指令,指导小型模型进行响应生成。HAWKEYE 通过强化学习量化CoT推理中的冗余,并通过蒸馏提取高密度信息。利用这些简洁的CoTs,HAWKEYE 能够在显著减少标记使用和计算成本的同时扩展响应。我们的评估显示,HAWKEYE 可以仅使用全量CoTs的35% 就达到相当的响应质量,同时使清晰度、连贯性和简洁性分别提高约10%。此外,HAWKEYE 在复杂数学任务中可以将端到端推理速度加速3.4倍,同时将推理成本降低高达60%。HAWKEYE 将开源,模型将在不久的将来可用。
发布时间: 4/2/2025
查看原文
作者: Chengshuai Zhao, Riccardo De Maria, Tharindu Kumarage, Kumar Satvik Chaudhary, Garima Agrawal, Yiwen Li, Jongchan Park, Yuli Deng, Ying-Chih Chen, Huan Liu
arXiv:2504.00389v1 通知类型: 新 摘要:大型语言模型(LLMs)的进步使得能够开发出支持探究式学习的智能化教育资源,涉及各个技术领域。在网络安全教育中,准确性与安全性至关重要,系统必须超越表面相关性,提供既可靠又符合特定领域信息。为应对这一挑战,我们引入了CyberBOT,这是一种利用检索增强生成(RAG)管道的问答聊天机器人,该管道可从课程特定材料中整合上下文信息,并使用领域特定的网络安全本体验证响应。本体作为结构化推理层,限制并验证LLM生成的答案,减少了误导或不安全指导的风险。CyberBOT已在亚利桑那州立大学(ASU)的一门大型研究生课程中部署,超过一百名学生通过专用的网页平台积极参与该系统。实验室环境中的计算评估突显了CyberBOT的潜在能力,而即将进行的实地研究将评估其教学影响。通过结合结构化领域推理与现代生成能力,CyberBOT展示了在专业教育背景下开发可靠且课程对齐的AI应用的一个有希望的方向。
发布时间: 4/2/2025
查看原文
作者: Min Zhang, Yuzhe Lu, Yun Zhou, Panpan Xu, Lin Lee Cheong, Chang-Tien Lu, Haozhu Wang
arXiv:2504.00299v1 宣告类型: 新 摘要: 对文档进行数值推理,既需要上下文理解,又需要逻辑推理,对于部署在计算能力受限设备上的低能力本地模型来说是一个挑战。尽管这些复杂的推理查询可以路由到强大的远程模型,如GPT-4,但这会引发显著的数据泄露问题。现有的缓解方法生成问题描述或示例以供远程协助。然而,数值推理的固有复杂性阻碍了本地模型生成逻辑等效的查询,并在远程指导下准确推理答案的能力。在这篇文章中,我们提出了一种模型协作框架,包含两个关键创新:(1) 一种上下文感知的合成策略,该策略在保持逻辑一致性的同时转移查询领域;以及(2) 一种工具基础的答案重构方法,该方法使用代码片段重用远程生成的问题解决模式。实验结果表明,我们的方法在仅使用本地模型时实现了更好的推理准确性,同时提供了比完全依赖远程模型更强的数据保护。此外,与现有的数据保护方法相比,我们的方法在提高准确性方面达到16.2%至43.6%的增长,同时减少数据泄露2.3%至44.6%。
发布时间: 4/2/2025
查看原文
arXiv:2504.00280v1 宣告类型: 新 摘要: 本文探讨了在非平稳的基于视觉的强化学习环境中应用扩散策略的方法,特别是针对任务动态和目标随时间变化的环境。我们的工作基于在动态现实场景中遇到的实际挑战,如机器人装配线和自主导航,其中代理必须从高维度的视觉输入中适应控制策略。我们应用了扩散策略,该策略利用迭代的随机去噪来细化潜在的动作表示,并在包括Procgen和PointMaze在内的基准环境中进行测试。我们的实验表明,尽管计算需求增加,但扩散策略在PPO和DQN等标准RL方法中表现出更优的性能,实现了更高的平均和最大回报且具有更低的变异性。这些发现强调了该方法在不断变化的条件下生成连贯且上下文相关动作序列的能力,同时也指出了在处理极端非平稳性方面的进一步改进领域。
发布时间: 4/2/2025
查看原文
作者: Chang-Lin Chen, Jiayu Chen, Tian Lan, Zhaoxia Zhao, Hongbo Dong, Vaneet Aggarwal
arXiv:2504.00277v1 宣告类型: 新闻 摘要: 随着快速增长的AI计算需求加快了对新硬件安装和维护的需求,本文通过战略性地考虑各种资源和位置来平衡运行效率与容错性,探讨了数据中心资源管理的优化方案。传统混合整数规划(MIP)方法往往难以实现扩展,而启发式方法可能会导致显著的非优化结果。为解决这些问题,本文提出了一种新颖的两层优化框架,使用高层次的深度强化学习(DRL)模型指导低层次的基于梯度的启发式方法进行局部搜索。高层次的DRL代理采用领导者奖励来优化机架类型顺序,而低层次的启发式方法高效地将机架映射到位置,最小化移动次数并确保容错资源分布。这种方法可扩展到超过10万个位置和100种机架类型。我们的方法在目标值上平均比基于梯度的启发式方法高7%,比MIP求解器高30%以上。该方法在目标值上实现了100%的成功率,而MIP求解器在20分钟限制内仅为97.5%(即成功率为100%的四倍多),且仅需2分钟,而MIP求解器则需要1630分钟(即大约4个数量级的改进)。与MIP求解器在时间限制下 和高惩罚下的表现波动不同,我们的算法始终能够提供稳定高效的成果,这对于大规模数据中心管理至关重要。
发布时间: 4/2/2025
查看原文
arXiv:2504.00226v1 宣告类型: 新增 摘要: 人类数学推理的一个核心要素是我们的数感——一种抽象理解数字及其关系的能力,这使我们能够使用有限的计算资源解决涉及庞大数字空间的问题。大型语言模型(LLMs)的数学推理经常通过奥林匹克挑战、几何学、文字问题和谜题等高层次的问题来测试,但它们的基础数感则较少被探索。我们引入了“Numberland”,这是一种包含100个问题的测试,用于评估基于LLM的代理的数值推理能力。该测试中的任务包括基本运算、高级计算(例如指数运算、复数)、质数检查和二十四点游戏,旨在测试基础技能及其在解决复杂和不确定问题中的整合能力。我们评估了五种基于LLM的代理:OpenAI的o1和o1-mini、Google的Gemini、Microsoft的Copilot和Anthropic的Claude。在前三项允许确定步骤的问题中,它们的得分为74-95%。在需要尝试搜索的二十四点游戏中,性能下降到10-73%。我们测试了准确率为73%的顶级二十四点解答器(o1)在25个更难题上的表现,其得分为27%,证实了搜索是瓶颈。这些结果,以及错误类型表明,基于LLM的数感较为脆弱,这在它们在挑战性基准测试中的表现强大时显得有些反常。LTM数值推理的局限性突显了简单、针对性的测试的重要性,以评估和解释LTM的数学技能,以确保安全使用。
发布时间: 4/2/2025
查看原文
作者: Ahsan Bilal, David Ebert, Beiyu Lin
arXiv:2504.00125v1 宣告类型: 新 摘要: 大型语言模型(LLMs)为增强可解释人工智能(XAI)提供了一种有希望的方法,通过将其复杂的机器学习输出转换为易于理解的故事,使模型预测更加易于用户理解,并帮助弥合高级模型行为与人类可解释性之间的差距。由于缺乏透明度,先进的AI模型,如最前沿的神经网络和深度学习模型,往往被视为“黑盒”。由于用户无法完全理解模型如何得出结论,用户难以信任AI模型的决策,这导致决策过程不那么有效,问责制降低,以及潜在偏见不明确。在开发可解释的人工智能(XAI)模型以赢得用户信任并提供有关模型生成其输出的方法的见解方面面临着挑战。随着大型语言模型的发展,我们希望通过使用基于人类语言的模型(LLMs)来探索模型解释性的可能性。本文综述了现有关于LLMs在XAI中的应用方法,以及LLM生成的解释的评估技术,讨论了相应的问题和限制,并探讨了实际应用。最后,我们通过强调通过LLMs实现XAI的可解释性、自动化、用户为中心和跨学科方法的重要性来讨论未来的研究方向。
发布时间: 4/2/2025
查看原文
arXiv:2504.00063v1 宣告类型: 新 摘要: 基于公理的图集是一种新的框架,它以证明矢量的形式结构化地表示数学定理,基于基础公理系统。通过将定理的逻辑依赖关系映射到按公理索引的矢量上——例如希尔伯特几何、皮亚诺算术或ZF(C)——我们提供了一种新的方式来可视化、比较和分析数学知识。这种基于矢量的形式主义不仅捕捉了定理的逻辑基础,还使得能够使用诸如余弦距离等定量相似度度量来比较数学结果,从而为结构性比较提供了一种新的分析层。借助热图、矢量聚类和AI辅助建模,这种图集不仅可以通过逻辑结构对定理进行分组,还可以通过数学领域进行分组。我们还提出了一种原型助手(Atlas-GPT),它可以解释自然语言定理并建议可能的证明矢量,支持未来在自动推理、数学教育和形式验证方面的应用。 这一方向部分受到了陶哲轩近期关于象征性数学与结构性数学趋同的反思的启发。基于公理的图集旨在提供一种可扩展、可解释的数学推理模型,既易于人类阅读又兼容AI,从而为未来的正式数学系统景观做出贡献。
发布时间: 4/2/2025
查看原文
arXiv:2503.22456v2 更新类型: 替换-交叉 摘要: 我们引入了一种新颖的方法Entropy-Guided Sequence Weighting (EGSW),该方法通过基于生成输出的优势和熵动态分配权重来增强探索-利用权衡,从而提高基于强化学习的大型语言模型微调的效果。EGSW将熵正则化与基于优势的加权相结合,以平衡策略更新,从而在高维度状态空间中实现有效的探索。通过使用温度调整的softmax加权,EGSW优先考虑高奖励、高不确定性步骤,同时保持培训稳定性。尽管最初是为了在大型语言模型(LLM)微调过程中改进Group Relative Policy Optimization (GRPO)而开发的,但EGSW具有通用性,可以应用于其他强化学习(RL)算法,并且可以在步骤层面和轨迹层面实现。实验评估显示,EGSW增强了GRPO的推理能力,提高了样本效率。未来的工作将探索EGSW在高级RL方法中的应用。
发布时间: 4/1/2025
查看原文