LLM2D

arXiv 论文列表

作者: Xuejie Liu, Anji Liu, Guy Van den Broeck, Yitao Liang
arXiv:2311.00094v3 宣告类型: replace-cross 摘要:离线强化学习(RL)任务中流行的一种范式是首先将离线轨迹拟合到序列模型,然后提示模型生成通往高预期回报的动作。除了获得准确的序列模型之外,本文强调了可处理性的重要性,即以精确且高效的方式回答各种概率查询的能力,在离线 RL 中起着重要作用。具体来说,由于离线数据收集策略和环境动力学的基本随机性,需要进行复杂的条件生成或受限生成以引发有奖动作。尽管可以近似这些问题,但观察到这些粗略的估计显著抵消了表达性序列模型带来的好处。为了解决这一问题,本文提出了 Trifle(可处理的离线 RL 推断),它利用现代可处理概率模型(TPMs)来弥合良好的序列模型与评估时间高预期回报之间的差距。实验结果显示,Trifle 在 9 个 Gym-MuJoCo 基准中取得了最先进的成绩,面对强大的基线。此外,由于其可处理性,Triffe 在随机环境和安全 RL 任务(例如动作受限的情况)中表现出显著的优势,而只需要最少的算法修改。
发布时间: 2/7/2025
查看原文
作者: Zhiming Li, Junzhe Jiang, Yushi Cao, Aixin Cui, Bozhi Wu, Bo Li, Yang Liu, Danny Dongning Sun
arXiv:2310.05551v3 宣告类型: 替换-交叉 摘要:深度 reinforcement 学习(DRL)通过在不需要大量人类专家知识的情况下实现良好的性能,已经彻底改变了量化交易(Q-交易)。尽管取得了一定的成就,但我们观察到当前最先进的 DRL 模型在识别市场趋势方面仍然无效,导致它们错过好的交易机会或在遇到市场崩盘时遭受巨额回撤。为了解决这一局限性,一个自然的方法是将人类专家知识整合到市场趋势的识别中。然而,这种知识是抽象的,难以量化。为了有效地利用抽象的人类专家知识,我们在本文中提出了一种适用于 Q-交易的通用逻辑引导深度强化学习框架,称为 Logic-Q。特别地,Logic-Q 采用通过示意图进行程序合成的方法,并引入了一种逻辑引导模型设计,利用一个轻量级、即插即用的市场趋势意识程序示意图来确定市场趋势,并相应地在事后调整 DRL 策略。对两种流行的量化交易任务的广泛评估表明,Logic-Q 能够显著提升之前最先进的 DRL 交易策略的性能。
发布时间: 2/7/2025
查看原文
作者: Leander Weber, Jim Berend, Moritz Weckbecker, Alexander Binder, Thomas Wiegand, Wojciech Samek, Sebastian Lapuschkin
arXiv:2308.12053v2 公告类型:替换-交叉 摘要:基于梯度的优化一直是机器学习的基石,使得过去几十年来的人工智能发展取得了巨大进展。然而,由于这种优化需要进行微分,它减少了在选择模型和目标方面的灵活性。随着关于非可微(例如神经形态)架构超过经典模型的好处的最新证据,这种约束在未来可能会成为限制。我们提出了层级反馈传播(LFP),这是一种使用解释领域的方法对类似神经网络的预测器进行训练的新型原则,其可以基于各个神经元在解决给定任务中的贡献来分解奖励,而无需施加任何可微性的要求。利用这些神经元级别的奖励,我们的方法采用贪婪方法加强网络中有帮助的部分并削弱有害的部分。尽管其在计算复杂度上与梯度下降相当,LFP因其隐含的权重缩放而具有获得稀疏模型的优势。我们从理论上和实验上验证了LFP的收敛性,并展示了其在各种模型和数据集上的有效性。我们进一步研究了LFP的两种应用:首先,神经网络剪枝;其次,神经形态架构(如基于Heaviside阶跃函数激活的脉冲神经网络SNNs)的优化。在第一种情况下,LFP自然生成易于剪枝的稀疏模型,从而高效地编码和计算信息。在第二种情况下,LFP实现了与替代梯度下降相当的性能,但仍提供无近似训练,这简化了在神经形态硬件上的实现。因此,LFP结合了计算和表示方面的效率,以及与模型架构和目标函数相关的灵活性。我们的代码已开源。
发布时间: 2/7/2025
查看原文
作者: Ji Qi, Chuchun Zhang, Xiaozhi Wang, Kaisheng Zeng, Jifan Yu, Jinxin Liu, Jiuding Sun, Yuxiang Chen, Lei Hou, Juanzi Li, Bin Xu
arXiv:2305.13981v3 宣告类型: replace-cross 摘要:对分布变化的鲁棒性确保自然语言处理模型能够在现实世界中成功应用,特别是在信息抽取任务中。然而,大多数先前的评估基准主要致力于验证成对匹配的正确性,忽视了鲁棒性的重要衡量标准。本文中,我们首次提出了一个基准,模拟现实世界中开放信息抽取模型的评估,在这个基准中,相同知识含义下的语法和表达分布可能会有各种各样的偏离。我们设计并标注了一个大规模测试库,其中每个示例都是一个知识不变的团块,由意思相同但语法和表达形式不同的句子组成。通过进一步细化鲁棒性指标,如果模型在整体团块上的表现始终准确,我们则认为该模型具有鲁棒性。我们在过去十年中发布的典型模型以及一个流行的大型语言模型上进行了实验,结果显示现有的成功模型表现出令人沮丧的退化,最大F1分数下降幅度为23.43%。我们的资源和代码可在 https://github.com/qijimrc/ROBUST 获取。
发布时间: 2/7/2025
查看原文
作者: Zeming Dong, Qiang Hu, Yuejun Guo, Zhenya Zhang, Maxime Cordy, Mike Papadakis, Yves Le Traon, Jianjun Zhao
arXiv:2303.06808v2 宣告类型: replace-cross 摘要:最近的研究显示,源代码学习取得了显著进展,这涉及到使用深度神经网络(DNNs)来解决各种软件工程任务。正如其他基于DNN的领域一样,源代码学习也需要大量的高质量训练数据以实现这些应用的成功。数据增强,一种用于生成额外训练数据的技术,在其他领域(如计算机视觉)中被广泛应用。然而,现有的源代码学习中数据增强的做法仅限于简单的语法保留方法,例如代码重构。在本文中,考虑到源代码也可以表示为文本数据,我们采取了早期的一步来研究原本为自然语言文本设计的数据增强方法在源代码学习中的有效性。为此,我们专注于代码分类任务,并对四个关键代码问题和四个DNN架构进行了全面的经验研究,以评估25种数据增强方法的有效性。我们的研究结果揭示了适用于源代码学习的特定数据增强方法,能够生成更准确和稳健的模型。此外,我们发现即使数据增强方法稍微破坏了源代码的语法,这些方法仍然有益。
发布时间: 2/7/2025
查看原文
作者: Carolyn Jane Anderson, Joydeep Biswas, Aleksander Boruch-Gruszecki, Federico Cassano, Molly Q Feldman, Arjun Guha, Francesca Lucchetti, Zixuan Wu
arXiv:2502.01584v2 公告类型:替换 摘要:现有针对前沿模型的基准测试通常测试专业化的“博士级”知识,这使得非专家难以理解。相比之下,我们提出了一个基于 NPR 周日谜题挑战的基准测试,只需要一般知识。然而,该基准测试对人类和模型都是具有挑战性的,但是正确的解题方法很容易验证,模型的错误也易于发现。 我们的研究揭示了现有基准测试中不明显的能 力差距:OpenAI o1 在测试专业化知识的基准测试中与其他推理模型不相上下,但在我们的基准测试中表现显著更好。此外,我们对推理输出的分析揭示了新的失败类型。例如,DeepSeek R1 经常在提供一个它知道自己是错误的答案之前放弃说“我放弃”。R1 有时还会在其输出中表现出超乎寻常的不确定性,在极少数情况下,它甚至没有“结束思考”,这表明需要一种推理时的“收尾”技术,在上下文窗口限制之前将其“收尾”。我们还通过使用 R1 和 Gemini Thinking 来量化更长时间推理的有效性,以确定超出此点后进一步推理不太可能提高我们基准测试的准确性。
发布时间: 2/7/2025
查看原文
作者: Matthew Riemer, Zahra Ashktorab, Djallel Bouneffouf, Payel Das, Miao Liu, Justin D. Weisz, Murray Campbell
arXiv:2412.19726v2 通知类型: 替换 摘要:这篇观点文章认为,大多数关于心理理论的基准测试都存在问题,因为它们无法直接测试大型语言模型(LLMs)在遇到新伙伴时如何适应。这个问题源于心理理论基准测试主要受到用于测试人类心理理论方法的启发,并且被归因给人工智能代理的类似人类品质所蒙蔽。我们认为,人类在对同一情境的各种问题进行推理时会保持一致性,但当前的LLMs并未能做到这一点。大多数关于心理理论的基准测试仅测量我们所谓的字面心理理论:预测他人行为的能力。这种推理类型的测量在测试具有自我一致推理能力的代理时非常有用。然而,需要指出的是,当这种自我一致性无法保证时,这种区别实际上很重要。我们称之为功能性心理理论:在根据对对方行为预测的理性回应适应情境中的代理的能力。我们发现,开源的顶级LLMs在适量提示下可能在字面心理理论方面表现出很强的能力,但在功能性心理理论方面却显得吃力——即使伙伴策略异常简单。简而言之,强大的字面心理理论性能并不必然意味着强大的功能性心理理论性能。实现功能性心理理论,特别是与伙伴进行长时间交互时,是一项重大挑战,值得任何有意义的LLM心理理论评估占据重要位置。
发布时间: 2/7/2025
查看原文
作者: Nan Sun, Yuantian Miao, Hao Jiang, Ming Ding, Jun Zhang
arXiv:2412.04683v2 公告类型:替换 摘要:在快速发展的AI领域,创新与监管之间的复杂互动已成为社会上的一个新兴关注点。尽管AI在特定任务上的能力和对不同领域做出贡献方面取得了巨大的进展,但在AI生成的输出和决策中建立高度的信任需要细致的谨慎和持续的监督。包括政府机构、私营部门公司、学术机构和个人在内的广泛利益相关者已经启动了重要的举措。这些努力包括为AI制定道德准则,并在AI从业者和更广泛的社会中开展激烈的伦理讨论。本文详细分析了欧盟提出的开创性AI监管框架。它深入探讨了AI发展和部署中的安全、透明度、非歧视性、可追溯性和环境可持续性的根本道德原则。考虑了学术界和产业界为维护这些原则所采取的技术努力和策略,我们探讨了这五个伦理原则之间的协同与冲突。从这一视角出发,本文提出了对未来AI监管的前瞻性观点,倡导一种协调一致的方法,在保护社会价值的同时促进技术创新。
发布时间: 2/7/2025
查看原文
作者: Kaixin Wu, Yixin Ji, Zeyuan Chen, Qiang Wang, Cunxiang Wang, Hong Liu, Baijun Ji, Jia Xu, Zhongyi Liu, Jinjie Gu, Yuan Zhou, Linjian Mo
arXiv:2412.01269v4 宣告类型: 重发 摘要:查询与项的相关性建模是商业搜索引擎中的一个关键组成部分,直接影响用户体验。鉴于大型语言模型(LLMs)在各种自然语言处理(NLP)任务中的卓越成就,基于LLM的相关性建模正在逐步被工业搜索系统所采用。然而,基础LLM缺乏领域特定知识,并未充分利用上下文学习的潜力。此外,结构化项文本仍被过度利用,相应的查询和背景知识供应不足。因此,我们提出了CPRM(Continual Pre-training for Relevance Modeling),一个旨在解决这些问题的框架。我们的CPRM框架包括三个模块:1)结合查询和多字段项进行联合预训练,以增强领域知识;2)应用上下文预训练,这是一种新颖的方法,其中LLM在一系列相关查询或项的序列上进行预训练;3)对项进行阅读理解,以生成相关的领域知识和背景信息(例如,生成摘要和相应的查询),从而进一步增强LLM。离线实验和在线A/B测试的结果表明,我们的模型在与强基线模型相比时表现出令人信服的性能。
发布时间: 2/7/2025
查看原文
作者: Xinpeng Liu, Junxuan Liang, Zili Lin, Haowen Hou, Yong-Lu Li, Cewu Lu
arXiv:2410.17610v2 通告类型: 替换 摘要:逆动力学(ID),旨在从人类运动学观测中再现驱动扭矩,一直是步态分析中的关键工具。然而,由于其有限的扩展性,它在一般运动中的应用受到了阻碍。传统的基于优化的逆动力学需要昂贵的实验室设置,限制了其可用性。为了解决这一问题,我们提出利用最近进步的人类运动模仿算法,以数据驱动的方式学习人类逆动力学。关键的洞察是,尽管人类逆动力学知识并非直接适用,但在运动模仿者中隐含地存在。基于这一点,我们设计了一个高效的数据收集管道,使用最先进的运动模仿算法和物理模拟器,结果生成了一个大规模的人类逆动力学基准,称为模仿动力学(ImDy)。ImDy 包含了超过150小时带有关节扭矩和全身地面反作用力数据的运动。使用 ImDy,我们以完全监督的方式训练了一个数据驱动的人类逆动力学解算器 ImDyS,在此过程中执行逆动力学和地面反作用力估计。在 ImDy 和真实世界数据上的实验展示了 ImDyS 在人类逆动力学和地面反作用力估计方面的出色能力。此外,通过下游应用展示了 ImDy(-S) 作为一种基本运动分析工具的潜力。项目页面为 https://foruck.github.io/ImDy/。
发布时间: 2/7/2025
查看原文