LLM2D

arXiv 论文列表

作者: Mingyu Kim, Jongwoo Ko, Mijung Park
arXiv:2504.14123v1 宣告类型: 新 摘要: 提示学习是一种由于其高效性而流行的视觉-语言模型微调方法。它只需要少量额外的学习参数,同时在目标任务上显著提高性能。然而,现有的大多数方法会过度拟合微调数据,导致泛化能力差。为了解决这一问题,我们提出了一种基于贝叶斯学习原理的新训练目标函数,以平衡适应性和泛化能力。我们在归一化输出(logits)上定义了一个先验分布,其中均值函数由预训练模型参数化,而后验分布对应于微调模型。该目标通过允许微调模型适应下游任务,同时保持与预训练模型的接近性,实现了这种平衡。
发布时间: 4/22/2025
查看原文
作者: Man Ho Lam, Chaozheng Wang, Jen-tse Huang, Michael R. Lyu
arXiv:2504.14119v1 说明类型: 新 摘要: 大型语言模型(LLMs)最近在代码相关任务中展示了强大的能力,但在代码理解和推理的稳健性方面仍然存在不足。本文我们提出 CodeCrash,这是一种统一的基准,用于评估LLMs在代码结构和文本干扰扰动下的稳健性,应用于两个已建立的基准——CRUXEval 和 LiveCodeBench,涵盖了输入和输出预测任务。我们使用直接推理和因果推理来评估17个LLMs,系统地分析它们的稳健性,确定性能下降的主要原因,并强调失效模式。我们的发现揭示了在结构噪声下的LLMs的脆弱性,以及它们对自然语言线索的固有依赖性,强调了LLMs在代码执行和理解方面的关键稳健性问题。此外,我们还考察了三个大型推理模型(LRMs),发现自我反省推理机制的严重脆弱性,导致推理崩溃。CodeCrash 提供了一种原则性的框架,用于在代码理解中压力测试LLMs,为未来的评估和基准测试提供了可行的方向。CodeCrash 的代码和稳健性排行榜可以在 https://donaldlamnl.github.io/CodeCrash/ 公开获取。
发布时间: 4/22/2025
查看原文
作者: Jennifer Hu, Michael A. Lepori, Michael Franke
arXiv:2504.14107v1 类型: 新 摘要: 现代AI模型越来越多地被用作理论工具来研究人类认知。一种主导的方法是评估人类衍生的度量标准(例如离线判断或实时处理)是否能被模型的输出预测:即,通过神经网络前向传递的最终产物。与此同时,最近在机制可解释性方面取得的进展已经开始揭示产生模型输出的内部过程,引发了模型和人类是否可能使用相似的“处理策略”来达到输出的疑问。在这里,我们探讨了人类的实时处理与Transformer模型的“层时间”动态之间的联系。在覆盖五个涵盖不同领域和模态的研究中,我们测试了预训练Transformer模型在一个前向传递过程中的计算动态是否能够预测人类处理的特征,而在输出概率分布属性之外。我们一致发现,层时间动态提供了超出输出度量的额外预测能力。我们的结果表明,Transformer处理和人类处理可能受到输入刺激相似属性的促进或阻碍,并且这种相似性是通过通用目标(如下一个标记预测或图像识别)产生的。我们的工作提出了一种新的使用AI模型来研究人类认知的方法:不仅作为将刺激映射到响应的黑箱,而且有可能作为显式的处理模型。
发布时间: 4/22/2025
查看原文
作者: Junlin Wang, Shang Zhu, Jon Saad-Falcon, Ben Athiwaratkun, Qingyang Wu, Jue Wang, Shuaiwen Leon Song, Ce Zhang, Bhuwan Dhingra, James Zou
arXiv:2504.14047v1 宣告类型: 新 摘要: 对于如何通过推理时间计算(ITC,例如重复采样、优化等)来提高大型语言模型(LLM)能力的研究引起了极大的兴趣。同时,最近在推理模型方面的突破,如Deepseek-R1,为利用强化学习提高LLM推理技能提供了机会。对推理和非推理模型之间如何交互的深入理解可以为如何进一步推进LLM前沿提供重要指导。本文对推理和非推理模型在具有挑战性的推理任务中的推理时间缩放方法进行了全面分析。具体而言,我们的研究集中于无需奖励模型即可实现广泛适用性的验证者免费推理时间缩放方法。我们构建了质量和效率的帕累托前沿。我们发现,即便非推理模型配备了极高的推理预算,它们仍远远落后于推理模型。对于推理模型,多数投票证明是一种稳健的推理策略,通常与最佳的N次采样和顺序修订等更复杂的ITC方法具有竞争力甚至更优,而额外的推理计算只带来微小的进步。我们还深入分析了关键响应特征(长度和语言标记)与响应质量之间的关系,从而可以改进现有的ITC方法。我们发现,正确响应通常较短,较少有犹豫和思考标记(但更多讨论性标记),而不正确的响应则相反。
发布时间: 4/22/2025
查看原文
作者: Mark Steyvers, Megan A. K. Peters
arXiv:2504.14045v1 元认知类型: 新 摘要: 元认知,即监控和评估自身知识和表现的能力,是人类决策、学习和沟通的基础。随着大规模语言模型(LLMs)越来越多地嵌入高风险决策情境中,评估它们是否以及在多大程度上表现出元认知能力变得至关重要。在这里,我们概述了当前对LLMs元认知能力的知识、它们可能的研究方法以及这些能力与我们对人类元认知的理解之间的关系。我们展示了人类和LLMs在某些元认知能力和行为中有时会表现出相当一致,但明显差异仍然存在。关注这些差异不仅对于增强人类-人工智能合作至关重要,而且对于促进更强大和可信赖的人工智能系统的开发也至关重要。最后,我们讨论了赋予未来LLMs更敏感和更校准的元认知如何也可能帮助它们开发出更高效的学**习**、自我指导和好奇心等新能力。
发布时间: 4/22/2025
查看原文
作者: Regan Bolton, Mohammadreza Sheikhfathollahi, Simon Parkinson, Dan Basher, Howard Parkinson
arXiv:2504.14044v1 宣告类型: 新颖 摘要:运营技术网络安全(OTCS)仍然是铁路等关键基础设施的主要挑战。由于数字化程度的提高,这些系统越来越容易受到恶意攻击,因此有效的文档和合规过程对于保护这些安全关键系统至关重要。本文提出了一种新型系统,该系统利用大型语言模型(LLMs)和多阶段检索来增强针对IEC 62443标准和特定于铁路的IEC 63452标准的合规性验证过程。我们首先评估了一个基线合规架构(BCA)以回答OTCS合规查询,然后开发了一种名为并行合规架构(PCA)的扩展方法,该方法结合了额外的监管标准语境。通过在这些架构中比较OpenAI-gpt-4o和Claude-3.5-haiku模型的实证评估,我们证明了PCA在合规性验证中的正确性和推理质量显著提高。我们的研究建立了响应正确性、逻辑推理和幻觉检测的度量标准,强调了在铁路网络安全合规性验证中使用LLMs的优势和局限性。结果表明,在面临网络安全专家短缺的行业中,检索增强的方法可以显著提高合规性评估的效率和准确性,特别是在合规性验证方面尤为有价值。
发布时间: 4/22/2025
查看原文
作者: Herman Cappelen, Josh Dever
arXiv:2504.13988v1 宣告类型: 新颖 摘要: 本文捍卫了‘整体猪理论’:像ChatGPT这样的高级语言模型(LLMs)是全面的语言和认知代理,拥有理解和信念、欲望、知识和意图。我们反对当前AI哲学中的主流方法,拒绝基于低级计算细节(‘只是一个X’的谬误)或现成的心灵理论的起点。相反,我们主张从简单的高级观察LLM行为开始(例如,回答问题、提供建议)——反对将这些数据视为比喻、含糊其辞或假装的指责。通过这些观察,我们运用‘整体网络假设’——心理能力之间的合理联系(例如,回答问题意味着知识,知识意味着信念,行动意味着意图)——来论证各种认知状态。我们系统地反驳基于LLM失败(幻觉、计划/推理错误)的反对意见,认为这些并不能排除其代理能力,往往映射了人类的局限性。我们讨论了诸多‘缺乏游戏’,认为LLMs并不缺乏认知所必需的条件(例如,语义扎根、具身性、正当化、内在意图性),或者这些条件并不是真正必要的,往往依赖于对比LLMs和各种人类能力的反歧视论证。我们的方法是基于证据的,而不是功能主义的,并刻意排除了意识。最后,我们推测LLMs可能具备超越人类概念框架的‘外星’内容。
发布时间: 4/22/2025
查看原文
作者: Myke C. Cohen, David A. Grimm, Reuth Mirsky, Xiaoyun Yin
arXiv:2504.13973v1 通知类型: 新 摘要: 动物-人类-机器 (AHM) 团队是一种混合智能系统,其中人类、AI 助手的机器和动物成员之间的互动可以产生超过它们部分之和的独特能力。本文呼吁采用系统的方法来研究AHM团队结构的设计,以优化各种实际应用环境中的性能并克服限制。我们通过引入一组AHM团队运行的维度来探讨AHM团队成员的协同潜力,以有效利用每个成员的优势并弥补个体的弱点。使用安全筛查、搜索与救援和导盲犬这三个代表性的AHM团队示例,本文说明了如何应对复杂任务。最后,本文提出了这种多维度方法为研究超越AHM团队的混合人类-AI系统所提出的研究方向。
发布时间: 4/22/2025
查看原文
作者: Akash V. Maharaj, David Arbour, Daniel Lee, Uttaran Bhattacharya, Anup Rao, Austin Zane, Avi Feller, Kun Qian, Yunyao Li
arXiv:2504.13924v1 通知类型: 新 摘要: 随着准确性变得日益重要,企业AI助手正越来越多地在关键领域部署,每一个错误输出都可能成为一个重要的事件。本文提出了一种全面框架,用于监控、基准测试和在多个团队积极参与开发的条件下持续改进这些复杂的多组件系统。我们的方法包括三个关键元素:(1) 一个分层次的“严重性”框架,用于检测和分类错误,并为每个组件指定特定的错误率,从而促进有针对性的改进;(2) 一种可扩展且经过原则指导的基准构建、评估和部署方法,设计用于容纳多个开发团队、缓解过拟合风险以及评估系统修改后的下游影响;以及 (3) 一种利用多维评估的持续改进策略,能够识别并实施多种改进机会。通过采用这种全面框架,组织可以系统地提高其AI助手的可靠性和性能,确保其在关键的企业环境中有效运行。最后,我们讨论了这种多方面的评估方法如何为不同类别的改进打开了途径,为更 robust 和可信赖的AI系统铺平了道路。
发布时间: 4/22/2025
查看原文
作者: Johannes K. Fichte, Markus Hecher
arXiv:2504.13842v1 宣布类型: 新 摘要: 现代社会充满了依赖概率推理、统计和组合学的计算挑战。有趣的是,许多这些问题可以被形式化为命题公式,并询问其模型的数量。随着对涉及模型计数的实际问题解决的兴趣不断增加,社区在2019年秋季组织了第一届模型计数(MC)竞赛。竞赛旨在推动应用的发展、识别具有挑战性的基准测试、促进新求解器的开发,并增强现有的模型计数问题及其变种的求解器。第一届竞赛将各种研究人员聚集在一起,确定了挑战,并激发了大量新的应用。在这篇文章中,我们全面介绍了2021年至2023年模型计数竞赛的流程和结果。竞赛包含了四条赛道,每条赛道专注于模型计数问题的不同变种。第一条赛道专注于模型计数问题(MC),旨在计算给定命题公式的模型数量。第二条赛道挑战开发者提交能够解决加权模型计数问题(WMC)的程序。第三条赛道专门研究投影模型计数(PMC)。最后,我们启动了结合投影和加权模型计数的轨道(PWMC)。竞赛继续获得高水平的参与度,共有七到九种不同的求解器提交,基于相当不同的技术。
发布时间: 4/22/2025
查看原文