LLM2D

arXiv 论文列表

作者: Fu-Chieh Chang, Yu-Ting Lee, Hui-Ying Shih, Yi Hsuan Tseng, Pei-Yuan Wu
arXiv:2410.23912v2 宣布类型: 替换 摘要:随着链式思考(CoT)提示技术的提升,大型语言模型(LLMs)的推理能力得到了改善,使其能够逐步解决复杂任务。然而,训练CoT能力需要详细的推理数据,这些数据往往稀缺。通过使用强化学习自动生成推理步骤,自我教育推理框架(STaR)解决了这一问题,减少了对人工标注数据的依赖。尽管STaR及其变体已经展示了实证上的成功,但缺乏对其改进效果的理论解释。本文为理解强化学习在CoT推理中的有效性以及STaR框架提供了理论基础。我们的贡献包括:(1)开始有效推理改进所需的预训练模型质量标准;(2)分析策略改进,说明为什么在STaR的迭代中LLM推理会逐步提高;(3)收敛到最优推理策略的条件;以及(4)探讨STaR的鲁棒性,解释了即使包含偶尔的错误步骤,它如何仍能提高推理能力。该框架旨在将实证发现与理论见解联系起来,推进在LLMs中的推理强化学习方法。
发布时间: 4/11/2025
查看原文
作者: Alan Both, Dhirendra Singh, Afshin Jafari, Billie Giles-Corti, Lucy Gunn
arXiv:2111.10061v2 宣告类型: 替换 摘要:在本文中,我们使用层次聚类、概率性和重力模型相结合的方法,提出了适用于大墨尔本地区的基于活动的模型。该模型概述了生成一个合成人口的方法——列出具有其人口统计属性的代理,并指定了活动模式、时间表,以及每次旅行的活动地点和出行方式。 在我们的模型中,根据观察数据提供的相应人口集群的概率,为个人分配活动链。随后,行程和旅行从这些分配的活动中产生。与通常先创建行程或旅行再附加活动的常见做法不同,这是我们创新之处。此外,在选择活动地点时,我们的模型将旅行长度的衰减距离效应与目的地的活动吸引力结合起来。这导致了具有较高各种活动吸引力的区域更有可能被选中。另外,在分配下一个活动的地点时,我们考虑到代理剩余的活动数量,以确保它们不会选择一个不适合返回家园的地点。 我们的方法是开放且可复制的,只需公开可用的数据,并且设计成与常用的基于代理的建模软件(如MATSim)相兼容。每个子模型都会进行校准,以适应观察到的数据在活动类型、开始和结束时间以及持续时间方面的匹配。
发布时间: 4/11/2025
查看原文
作者: Yukun Qi, Yiming Zhao, Yu Zeng, Xikun Bao, Wenxuan Huang, Lin Chen, Zehui Chen, Jie Zhao, Zhongang Qi, Feng Zhao
arXiv:2504.07956v1 类型: cross 摘要:链式思维(Chain-of-Thought, CoT)推理的进步显著增强了大型语言模型(LLMs)和大型视觉-语言模型(LVLMs)的能力。然而,对于视频CoT推理的严格评估框架仍然缺失。当前的视频基准测试无法充分评估推理过程,也无法明确区分失败是由于感知能力的不足还是推理能力的不足。因此,我们引入了VCR-Bench,这是一个新的基准测试,旨在全面评估LVLMs的视频链式思维推理能力。VCR-Bench包括859个视频,涵盖了各种视频内容和时长,以及1,034个高质量的问题-答案对。每个对都手动标注了一个逐步的CoT理由,每一步都标记以表明其与感知能力和推理能力的关联。此外,我们设计了七个不同的任务维度,并提出CoT得分来根据逐步标记的CoT理由评估整个CoT过程。在VCR-Bench上的广泛实验揭示了当前LVLMs存在重大局限性。即使表现最佳的模型o1,CoT得分也只有62.8%,准确率也只有56.7%,而大多数模型得分低于40%。实验表明,大多数模型在感知步骤上的得分低于推理步骤,揭示了LVLMs在复杂视频推理中时间-空间信息处理的关键瓶颈。CoT得分与准确性的稳健正相关证实了我们评估框架的有效性,并强调了CoT推理在解决复杂视频推理任务中的关键作用。希望VCR-Bench能作为标准化的评估框架,揭示复杂视频推理任务中存在的实际缺陷。
发布时间: 4/11/2025
查看原文
作者: Hao Yu, Rupayan Mallick, Margrit Betke, Sarah Adel Bargal
arXiv:2504.07945v1 Announce Type: cross 摘要:卡通头像在社交媒体、在线辅导和游戏等领域得到了广泛应用。然而,现有的卡通头像数据集和生成方法在呈现具有精细面部表情的高表达性头像方面存在困难,往往受到现实身份的启发,这引发了隐私方面的担忧。为了解决这些问题,我们提出了一种名为GenEAva的新框架,用于生成具有精细面部表情的高质量卡通头像。我们的方法微调了最先进的文本到图像扩散模型,以合成高度详细和表现力强的面部表情。然后,我们引入了一种风格化模型,将这些真实的面部转化为卡通头像,同时保留身份和表情。利用此框架,我们推出了首个多表情卡通头像数据集GenEAva 1.0,专门设计用于捕捉135种精细的面部表情,包含13,230个表达丰富的卡通头像,这些头像在性别、种族群体及年龄范围之间分布均衡。我们展示了我们的微调模型生成的面部表情比最先进的文本到图像扩散模型SDXL更为生动。我们也验证了我们的框架生成的卡通头像并不包含微调数据中的记忆身份。所提出的框架和数据集为未来关于卡通头像生成的研究提供了一个多样化和高表达性的基准。
发布时间: 4/11/2025
查看原文
arXiv:2504.07921v1 Announce Type: cross 摘要:在这篇笔记中,我们讨论了在允许簇-DAG中存在循环的情况下,簇-DAG中总效应的识别性问题(尽管假设相关联的基础DAG是无环的)。这被呈现为两个关键结果:首先,限制簇-DAG中的簇最多包含四个节点;其次,适应d-分离的概念。我们提供了一个图形标准来解决识别性问题。
发布时间: 4/11/2025
查看原文
作者: Harshit Sikchi, Andrea Tirinzoni, Ahmed Touati, Yingchen Xu, Anssi Kanervisto, Scott Niekum, Amy Zhang, Alessandro Lazaric, Matteo Pirotta
arXiv:2504.07896v1 交叉公告类型 摘要:无监督零样本强化学习(RL)已成为预训练行为基础模型(BFMs)的强大范式,使代理能够以零样本的方式(即,在没有额外的测试时学习或规划的情况下)解决通过奖励函数指定的广泛下游任务。这通过在学习自监督任务嵌入的同时学习相应的近最优行为来实现,并结合推理过程直接检索任何给定奖励函数的潜在任务嵌入及其相关策略。尽管取得了有前景的结果,但零样本策略往往由于无监督训练过程、嵌入和推理过程中的错误而不够最优。在本文中,我们专注于在短暂的在线与环境交互中快速适应策略,以在几轮交互中提高BFMs的零样本性能,同时在适应过程中避免性能下降。值得注意的是,我们proof了现有的BFMs学习了一组包含比其推理过程识别的更优策略的技能,这使它们适用于快速适应。受此观察的启发,我们提出了基于actor-critic和仅基于actor的快速适应策略,这些策略在预训练BFM的任务嵌入低维空间中搜索,以快速提高任何下游任务中零样本策略的性能。值得注意的是,我们的方法缓解了在微调预训练的RL模型时通常观察到的初始“遗忘”阶段。我们在四个最先进的零样本RL方法在多个导航和运动学域上评估了我们的快速适应策略。结果显示,它们在几轮实验中将零样本性能提高了10-40%,并优于现有的基线方法。
发布时间: 4/11/2025
查看原文
作者: Rui Pan, Yinwei Dai, Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, Ravi Netravali
arXiv:2504.07891v1 宣告类型: cross 摘要: 近期在推理时计算方面的进步通过使用大型推理模型(LRMs)生成长链推理(CoTs)显著提高了复杂任务的性能。然而,这种性能提升是以高推理延迟为代价的,因为生成的推理序列长度较长且解码具有自回归性。我们解决这些开销的关键洞察是,大型推理模型的推理及其嵌入的推理对近似具有高度容忍性:复杂的任务通常会分解为更简单的步骤,每个步骤基于它提供的对下游步骤的语义洞察而带来效用,而不是它生成的精确标记。相应地,我们引入了 SpecReason 系统,该系统通过使用一个轻量级模型(推测性地)执行更简单的中间推理步骤,仅在成本较高的基础模型上评估(以及可能纠正)推测输出来自动加速大型推理模型的推理。重要的是,SpecReason 关注利用思考标记的语义灵活性以保持最终答案的准确性,这与以前的推测技术(尤其是推测性解码)相辅相成,后者在每一步都需要标记级别的等价性。在各种推理基准测试中,SpecReason 在比原生大型推理模型推理快 1.5-2.5 倍的同时,准确率提高了 1.0-9.9%。与没有 SpecReason 的推测性解码相比,它们的结合体还额外减少了 19.4-44.2% 的延迟。我们在 https://github.com/ruipeterpan/specreason 开源了 SpecReason。
发布时间: 4/11/2025
查看原文
作者: Riccardo Cantini, Alessio Orsino, Massimo Ruggiero, Domenico Talia
arXiv:2504.07887v1 交叉领域宣布类型:跨学科 摘要:大规模语言模型(LLMs)已经彻底革新了人工智能,推动了机器翻译、总结和对话代理的进步。然而,它们越来越多地融入关键的社会领域引发了关于嵌入式偏见的担忧,这些偏见可以延续刻板印象并损害公平性。这些偏见源于多种来源,包括训练数据中的历史不平等、语言失衡以及 adversarial 操纵。尽管采取了缓解措施,但最近的研究表明,LLMs 仍然容易受到旨在诱发偏见响应的 adversarial 攻击。本文提出了一种可扩展的基准评估框架,以评估 LLMs 对 adversarial 偏见诱发的鲁棒性。我们的方法包括:(i)使用多任务方法系统性地探测模型,针对各种社会文化维度上的偏见;(ii)通过使用 LLM 作为裁判的方法,自动评估模型响应的安全得分,量化鲁棒性;(iii)采用 jailbreak 技术调查安全机制中的漏洞。我们的分析检查了大小不等的最新模型中普遍存在的偏见以及这些偏见对模型安全的影响。此外,我们还评估了针对关键领域如医学进行微调的领域特定模型的安全性。最后,我们发布了一组精选的偏见相关提示数据集,CLEAR-Bias,以促进系统的漏洞基准评估。我们的研究结果揭示了模型大小与安全性之间的关键权衡,有助于开发更加公平和稳健的未来语言模型。
发布时间: 4/11/2025
查看原文
作者: Yichun Yin, Wenyong Huang, Kaikai Song, Yehui Tang, Xueyu Wu, Wei Guo, Peng Guo, Yaoyuan Wang, Xiaojun Meng, Yasheng Wang, Dong Li, Can Chen, Dandan Tu, Yin Li, Fisher Yu, Ruiming Tang, Yunhe Wang, Baojun Wang, Bin Wang, Bo Wang, Boxiao Liu, Changzheng Zhang, Duyu Tang, Fei Mi, Hui Jin, Jiansheng Wei, Jiarui Qin, Jinpeng Li, Jun Zhao, Liqun Deng, Lin Li, Minghui Xu, Naifu Zhang, Nianzu Zheng, Qiang Li, Rongju Ruan, Shengjun Cheng, Tianyu Guo, Wei He, Wei Li, Weiwen Liu, Wulong Liu, Xinyi Dai, Yonghan Dong, Yu Pan, Yue Li, Yufei Wang, Yujun Li, Yunsheng Ni, Zhe Liu, Zhenhe Zhang, Zhicheng Liu
arXiv:2504.07866v1 宣布类型: cross 摘要: 我们介绍了拥有1350亿参数的Pangu Ultra大型语言模型(LLM),该模型在昇腾神经处理单元(Ascend NPUs)上通过密集的Transformer模块进行了训练。尽管近年来大型语言模型领域在推动其规模和能力方面取得了前所未有的进展,但训练如此大规模的模型仍然涉及重大的优化和系统挑战。为了稳定训练过程,我们提出了深度缩放三明治归一化,该方法有效地在深度模型的训练过程中消除了损失峰值。我们在13.2万亿个多样且高质量的标记上对模型进行了预训练,并在后续训练中进一步增强了其推理能力。为了高效地进行大规模训练,我们利用8,192个昇腾NPUs并结合了一系列系统优化。在多个多样基准上的评估显示,Pangu Ultra在稠密LLM(如Llama 405B和Mistral Large 2)的能力方面显著提升了最先进的水平,并且其性能甚至与DeepSeek-R1相当,尽管其稀疏模型结构包含更多的参数。我们的探索表明,昇腾NPUs能够高效且有效地训练超过100亿参数的数量密集模型。我们的模型和系统将可供我们的商业客户使用。
发布时间: 4/11/2025
查看原文
作者: Yizhong Geng, Jizhuo Xu, Zeyu Liang, Jinghan Yang, Xiaoyi Shi, Xiaoyu Shen
arXiv:2504.07858v1 宣告类型: cross 摘要:文本到语音(TTS)技术在广泛使用的语言上取得了显著成果,但许多资源不足的语言仍因数据有限和语言复杂性而受到挑战。在本文中,我们提出了一种新的方法,将数据优化框架与先进的声学模型相结合,以构建适用于低资源场景的高质量TTS系统。我们通过泰国语作为示例,展示了这种方法的有效性,其中复杂的音素规则和稀疏资源得以有效解决。我们的方法使得零样本语音克隆和跨多种客户端应用的性能改进成为可能,这些应用从金融、医疗保健、教育到法律领域都有涉及。广泛的评估(包括主观和客观评估)证实了我们的模型达到了最先进的标准,提供了一种在数据有限的设置下生产TTS的可扩展解决方案,对更广泛行业的采用和多语言 accessibility具有重大影响。
发布时间: 4/11/2025
查看原文