LLM2D

arXiv 论文列表

作者: David Speck, Markus Hecher, Daniel Gnad, Johannes K. Fichte, Augusto B. Corr\^ea
arXiv:2502.00145v1 宣布类型: 新 摘要: 经典规划要求找到一系列操作以达到给定的目标。虽然最常见的做法是计算一个计划,但许多场景需要更多。然而,在计划空间上的定量推理依然未得到充分探索。一个基本的问题是计数计划,这与计划空间上的条件概率有关。确实,在自动化推理的其他各个领域,定性分析和定量分析已经得到了广泛的研究。我们首次提出了在计划空间上进行定性和定量推理的研究。特别地,我们专注于多项式限制的计划。在理论方面,我们研究了其复杂性,从而引发了丰富的推理模式。由于一般情况下计数是困难的,我们引入了更容易理解的操作面的概念,这有助于理解操作的重要性。在实践方面,我们实现了规划中的定量推理。通过将规划任务转化为命题公式,并利用知识编译来计数不同的规划方案,该框架能够很好地扩展到大的计划空间,同时允许丰富的推理能力,如学习剪枝函数和可解释的规划。
发布时间: 2/4/2025
查看原文
作者: Yassine El Manyari, Anton R. Fuxjager, Stefan Zahlner, Joost Van Dijk, Alberto Castagna, Davide Barbieri, Jan Viebahn, Marcel Wasserer
arXiv:2502.00034v1 说明类型: 新 摘要: 随着能源需求的增长和转向可再生能源增加了管理和维护稳定供应的新复杂性,电网运营商在控制室面临的控制问题日益增加。有效的电网拓扑控制需要能够处理多目标权衡的先进工具。虽然强化学习(RL)为应对这些挑战提供了一个有前途的框架,但现有的多目标强化学习(MORL)方法无法扩展到现实世界电网操作中固有的大规模状态和动作空间。本文介绍了一种为电网拓扑控制设计的两阶段、高效和可扩展的多目标优化(MOO)方法,结合了高效的RL学习阶段与快速的规划阶段,以生成针对未见过的场景的一天前计划。我们使用来自 TenneT(欧洲输电系统运营商(TSO))的历史数据验证了我们的方法,展示了最小的部署时间,在4-7分钟内生成了一天前计划,并且性能较强。这些结果强调了我们可扩展方法在支持现实世界电网管理方面的潜力,提供了一个实用、计算高效且时间有效的操作规划工具。基于当前的拥堵成本和电网操作中的低效率,TSO采用我们的方法每年可能节省数百万欧元,这为将其整合到控制室提供了有力的经济激励。
发布时间: 2/4/2025
查看原文
作者: Xingyu Xiao, Peng Chen, Qianqian Jia, Jiejuan Tong, Jingang Liang, Haitao Wang
arXiv:2502.00022v1 宣布类型: 新颖 摘要: 人为可靠性分析 (HRA) 数据对于推动 HRA 方法具有关键意义。然而,现有的数据收集方法缺乏必要的粒度,大多数方法无法捕捉动态特征。此外,许多方法需要输入专家知识,从而使它们耗时且劳动密集型。为了解决这些挑战,我们提出了一种新的用于自动收集 HRA 数据的范式。我们的方法专注于人类错误背后的關鍵指标,特别是测量协作环境中的工作负载。本研究引入了一种新的、基于场景的方法来估计工作负载,利用微调的大语言模型 (LLMs)。通过在高温气冷反应堆 (HTGRs) 的实际操作数据上训练 LLMs,我们实时模拟了各种协作场景中的人类行为和认知负载。该方法能够动态适应操作员工作负载的变化,提供更准确、灵活和可扩展的工作负载估计。结果表明,所提出的 WELLA(基于 LLM 和代理的工作负载估计)在预测准确性方面优于现有的基于商业 LLM 的方法。
发布时间: 2/4/2025
查看原文
作者: Abhishek Sharma
arXiv:2502.00020v1 通知类型: 新 摘要: 规模上的常识时间推理是认知系统的核心问题。正确推断命题持续的时间对于许多任务来说是必需的,包括自然语言理解和计划。许多AI系统在推断现有命题和事件的信息方面存在限制,因为它们无法正确地进行推理。在本研究中,我们讨论了在Cyc知识库中实现稳健的时间投影所需的知识表示和推理方案。我们讨论了如何事件开始和结束命题的风险期。然后,我们使用离散生存函数,这些函数表示事实的持续性知识,来外推给定的命题。外推的区间可以通过时间约束和其他类型的常识知识进行截断。最后,我们展示了实验结果,以证明这些方法在问答性能方面获得了显著的改进。
发布时间: 2/4/2025
查看原文
作者: Abhishek Sharma
arXiv:2502.00019v1 宣告类型: 新 摘要: 什么性质的一阶搜索空间支持/阻碍推理?哪些事实类型最有效地学习?回答这些问题对于理解演绎推理的动力学和创建支持高效推理的大规模知识基础学习系统至关重要。我们通过开发一个模型来研究地面事实的分布如何影响搜索空间中的推理性能来回答这些问题。实验表明,均匀分布的事实对于较大的知识库(KB)是合适的,而对于较小的知识库,具有偏斜的度分布的搜索空间表现出更好的性能。在某些情况下,观察到了问答性能的尖锐转变,这表明应该使用现有知识分析搜索空间的结构来指导学习系统中新地面事实的获取。
发布时间: 2/4/2025
查看原文
作者: Alexandra Bazarova, Maria Kovaleva, Ilya Kuleshov, Evgenia Romanenkova, Alexander Stepikin, Alexandr Yugay, Dzhambulat Mollaev, Ivan Kireev, Andrey Savchenko, Alexey Zaytsev
arXiv:2404.02047v3 公告类型: 替换交叉 摘要: 在当今世界,银行使用人工智能来优化各种业务流程,旨在提升客户体验。大多数与客户相关的任务可以归类为两类:1) 局部任务,关注客户的当前状态,如交易预测;2) 全局任务,考虑一般客户的行为,例如预测成功的贷款偿还。不幸的是,为每项任务维护单独的模型是昂贵的。因此,为了更好地实现信息管理,我们比较了8种最先进的无监督方法在11项任务上的表现,以寻找通用解决方案。对比自监督学习方法在全局问题上表现出色,而生成技术在局部任务上更胜一筹。我们还引入了一种新颖的方法,通过将从其他客户收集的外部信息整合到客户表示中来丰富客户表示。我们的方法在经典模型上表现更优,将准确性提升高达20%。
发布时间: 2/3/2025
查看原文
作者: Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Cand\`es, Tatsunori Hashimoto
arXiv:2501.19393v2 类别: cross 摘要: 测试时可扩展性是一种新的语言建模方法,通过增加测试时的计算能力来提高性能。最近,OpenAI 的 o1 模型展示了这种能力,但没有公开分享其方法,导致了众多的复制努力。我们寻求实现测试时可扩展性和强大推理性能的最简单方法。首先,我们精心挑选了一个包含1000个问题和推理痕迹的小型数据集 s1K,这些问题和推理痕迹依赖于我们通过消融实验验证的三个标准:难度、多样性和质量。其次,我们开发了预算强制技术,通过强制终止模型的思考过程或通过在模型生成时多次附加“等待”来使其生成过程延长,从而控制测试时的计算量。这可以使模型重新检查其答案,通常修复不正确的推理步骤。在使用 s1K 对 Qwen2.5-32B-Instruct 语言模型进行监督微调并将其与预算强制相结合后,我们的模型 s1-32B 在竞赛数学问题上的表现比 o1-preview 高出最多 27%(MATH 和 AIME24)。此外,通过预算强制扩展 s1-32B 可以在其未进行测试时干预的情况下进一步超越其性能:从 50% 提高到 57%(AIME24)。我们的模型、数据和代码在 https://github.com/simplescaling/s1 开放源代码。
发布时间: 2/3/2025
查看原文
作者: Frederik Hytting J{\o}rgensen, Luigi Gresele, Sebastian Weichwald
arXiv:2501.19335v2 类别: cross 摘要: 因果贝叶斯网络因其能够对干预分布做出预测而被视为“因果”模型。要将这些因果模型的预测与现实世界的结果联系起来,我们必须确定现实世界中的哪些行为与模型中的哪些干预措施相对应。例如,要将某个行为解释为对治疗变量的干预,该行为必须满足以下两点:a) 以对应干预的方式改变治疗的分布;b) 不改变其他方面,比如结果如何依赖于治疗;尽管某些变量的边缘分布可能会因干预效应而发生变化。我们引入了一个形式化的框架,使不同行为解释为干预的这些要求变得精确。我们证明了将行为解释为干预的看似自然的方式是循环的:在这种解释下,每个正确描述观察分布的因果贝叶斯网络也是显而易见地适合于干预分布,而且没有任何行为能够提供可能推翻这种模型的实验证据。我们证明了一个不可能性结果:不存在一种既非循环又同时满足一组自然的要求的解释。相反,我们研究了一些非循环解释,这些解释可能违反一些要求,并说明了这些解释如何使得因果模型的反驳成为可能。通过严格探讨因果贝叶斯网络如何才能成为世界的“因果”模型而不仅仅是数学对象,我们提出的形式化框架为因果表示学习、因果发现和因果抽象的概念基础做出了贡献,同时也揭示了一些现有方法的局限性。
发布时间: 2/3/2025
查看原文
作者: Zhengqin Lai, Xiaopeng Hong, Yabin Wang, Xiaobai Li
arXiv:2501.19111v2 声称类型: cross 摘要:微表情识别在理解隐藏情感方面起着关键作用,并且在许多领域都有应用。传统的识别方法假设可以一次性访问所有训练数据,但在实际场景中涉及不断进化的数据流。为了应对适应新数据并保留先前学习的知识的需求,我们引入了第一个专门针对增量微表情识别的基准。我们的贡献包括:首先,我们为微表情识别制定了一个定制的增量学习设置。其次,我们组织了序列数据集,并仔细安排了学习顺序以反映实际场景。第三,我们定义了两种基于交叉评估的测试协议,每个协议针对不同的评估目标。最后,我们提供了六个基线方法及其相应的评估结果。该基准为推动增量微表情识别研究奠定了基础。本研究中使用的所有源代码将在 https://github.com/ZhengQinLai/IMER-benchmark 公开可供。
发布时间: 2/3/2025
查看原文
arXiv:2501.19047v2 宣告类型: cross 摘要: 为了被认为是可靠的模型,它必须被校准,使得其在每个决策上的信心水平密切反映其真实结果。在这篇博文中,我们将首先探讨最常用的投资准定义,然后深入探讨一个常用的模型校准评估指标。接着,我们将覆盖这个指标的一些缺点,这些缺点揭示了需要其他新的校准概念的需求,这些概念需要自己的新评估指标。本文无意对所有校准工作进行深入剖析,也不专注于如何校准模型。相反,它旨在提供不同概念及其评估指标的温和介绍,并重新强调一种仍在广泛使用的评估校准的指标所存在的一些问题。
发布时间: 2/3/2025
查看原文