arXiv:2502.15127v1 通知类型: 新
摘要: 随着人工智能系统在教育领域的日益普及,一个根本性的挑战出现了:我们如何验证AI是否真正理解了学生的思想和推理方式?传统的评估方法,如衡量学习收益,需要进行长期研究,并受到众多变量的混淆。我们提出了一种基于两阶段图灵测试的新评估框架。在第一阶段,学生对问题提供开放式的回答,揭示自然的误解。在第二阶段,AI和人类专家根据每个学生的特定错误,生成新的相关问题的干扰项。通过分析学生选择AI生成的干扰项与人类专家生成的干扰项的比率是否相似,我们可以验证AI是否能够模型化学生认知。我们证明这种评估必须基于个体响应——未根据个体响应的评估方法仅针对常见误解。通过严谨的统计抽样理论,我们确立了以高置信度验证所需的具体要求。我们的研究将基于个体响应的干扰项生成置于检查AI系统核心能力模型学生思维的能力之中——这一能力使得个性化教学、反馈和评估成为可能。
arXiv:2502.14074v1 评估类型: 新颖
摘要:基于大语言模型(LLMs)的自动评估方法正在成为评估LLM基础代理遵循指令能力的标准工具。在这个范式中最常见的方法,以基本模型为基准的成对比较,关键依赖于传递偏好假设。然而,这个假设的有效性仍然没有得到充分的研究。在这项研究中,我们调查了AlpacaEval框架内的非传递性,并分析了其对模型排名的影响。我们发现,LLM评审员表现出非传递性的偏好,导致排名对基本模型的选择高度敏感。为了解决这一问题,我们展示了结合布雷德利-特里模型的循环淘汰赛可以产生更可靠的排名。值得注意的是,我们的方法分别将Spearman相关性和肯德尔相关性与ChatbotArena提高了(从95.0%增加到96.4%,从82.1%增加到86.3%)。为了解决循环淘汰赛的计算成本问题,我们提出了智者循环匹配赛(Swim)淘汰赛,通过动态匹配策略捕捉循环淘汰赛的优点,同时保持计算效率。
arXiv:2502.12769v2 宣告类型: replace-cross
摘要:在信息错误的时代,幻觉——大型语言模型(LLMs)生成非事实性或不忠实回答的倾向——代表了它们全球应用的主要风险。尽管LLMs变得越来越具备多语言能力,但关于检测和量化LLM幻觉的研究主要集中在(a)以英语为中心和(b)集中于机器翻译(MT)和摘要等任务上,而这些任务在现实世界中比开放信息查找更为罕见。相比之下,我们旨在衡量知识密集型长格式问答领域中不同语言的LLM幻觉程度。为此,我们训练了一个多语言幻觉检测模型,并在30种语言和6个开源LLM家族中进行了大规模研究。我们从英语幻觉检测数据集开始,并依赖机器翻译生成其他语言的(嘈杂的)训练数据。我们还为五种高资源语言人工标注了黄金数据;然后,我们证明,对于这些语言,银数据(LLM生成的)和黄金测试集中的幻觉率估计相似,从而验证了使用银数据估计其他语言的幻觉率的合理性。最终,在30种语言中,我们使用LLM生成的提示和维基百科文章作为参考,构建了一个知识密集型问答数据集。我们发现,虽然LLM为高资源语言生成更长的、包含更多幻觉标记的回答,但语言的数字化表示与幻觉率的归一化长度之间没有相关性。此外,我们发现较小的LLM表现出比更大模型更高的幻觉率。
arXiv:2502.12272v2 Announce Type: replace-cross
摘要:强化学习现在被广泛应用于大型语言模型训练的最终阶段,特别是在数学问题等需要推理的任务中。通常,在单次训练步骤中,模型会多次尝试每个问题,并从成功和失败中学习。然而,我们在使用两种流行算法(PPO 和 VinePPO)在两个广泛使用的数据集中训练时发现,许多问题要么所有尝试都能解决,意味着它们已经学会了解决方法,要么根本无法解决,无法提供有意义的训练信号。为了解决这一问题,我们借鉴了强化学习文献中的一个方法——可学习性采样——并将该方法应用于大型语言模型训练的强化学习阶段。我们的课程优先考虑那些成功具有高方差的问题,即那些代理有时能成功,但并不总是成功的问题。我们的研究结果表明,这种方法能够一致地提高多种算法和数据集的训练性能,为大型语言模型中的更高效和有效的强化学习铺平了道路。
arXiv:2502.12088v2 重定向类型: 替换-交叉
摘要:本文表明,推动大型语言模型(LLMs)成功的工具和原则可以重新利用来解决分布级任务,这些任务的目标是预测数据生成分布的属性,而不是单个数据点的标签。这些任务包括统计推断问题,如参数估计、假设检验或互信息估计。在传统机器学习管道中表述这些任务是具有挑战性的,因为监督通常与单个数据点相关联。我们提出了元统计学习这一框架,该框架受到多实例学习的启发,重新定义了统计推断任务为监督学习问题。在此方法中,整个数据集被视为神经网络的单个输入,预测分布级别的参数。由于它们具有置换不变性特性,基于变换器的架构(不使用位置编码)提供了一个自然的契合。通过在大规模合成数据集上进行训练,元统计模型可以利用基于变换器的LLMs的可扩展性和优化基础设施。我们通过在假设检验和互信息估计方面的应用展示了该框架的通用性,展示了强大的性能,特别是在传统神经方法难以应对的小数据集方面。
arXiv:2502.11844v2 通告类型: replace-cross
摘要:程序的自动生成长期以来一直是计算机科学中的一个基本挑战。最近的基准测试显示,大规模语言模型(LLMs)能够有效地在函数级别生成代码、修改代码,并解决算法编码任务。然而,要实现完全自动化,LLMs 应该能够生成生产级别的、自包含的应用模块。为了评估 LLMS 在解决这一挑战方面的能力,我们引入了 BaxBench,这是一个由 392 个任务组成的新型评估基准,用于生成后端应用程序。我们重点关注后端的原因有三方面:(i)它们具有实际相关性,构成了大多数现代 Web 和云软件的核心组件;(ii)它们很难做对,需要多个函数和文件来实现所需的功能;(iii)它们是关键安全领域,因为它们向不可信第三方暴露,因此防止部署时攻击的安全解决方案至关重要。BaxBench 使用全面的测试用例验证生成的应用程序的功能性,并通过端到端执行漏洞测试来评估其安全暴露程度。我们的实验揭示了当前 LLMS 在功能性和安全性方面的一些关键限制:(i)即使是最好的模型,OpenAI o1,代码正确性也只能达到 60%;(ii)平均而言,在每个 LLMS 正确生成的程序中,我们成功执行了超过一半的安全漏洞测试;(iii)在不那么流行的后端框架中,模型进一步难以生成正确且安全的应用程序。BaxBench 上的进步标志着使用 LLMS 实现自主和安全软件开发的重要步骤。
arXiv:2502.11681v2 宣告类型: replace-cross
摘要:对齐调优对于确保大型语言模型(LLMs)表现得伦理且有帮助至关重要。当前的对齐方法需要高质量的标注和大量的训练资源。本文提出了一种低成本、无调优的方法,利用上下文学习(ICL)来增强LLM的对齐。通过对高质量ICL示例的分析,我们确定了风格是影响LLM对齐能力的关键因素,并基于这种风格框架显式地重新风格化了ICL范例。此外,我们将重新风格化的示例结合在一起,以平衡LLM对齐的两个冲突方面——事实性与安全性。我们将重新风格化的示例打包成提示以触发少样本学习,从而改进LLM的对齐。与最佳基线方法相比,该方法在Alpaca任务中的最大分值从5.00提高到5.10(提高0.10),在Just-eval基准测试中从4.34提高到4.56(提高0.22),在MT-Bench数据集中从3.53提高到3.85(最大改进0.32)。我们已在https://github.com/AnonymousCode-ComputerScience/RIDE发布代码和数据。
arXiv:2502.11537v2 译文标题类型: replace-cross
摘要: 基于令牌的世界模型作为一种有希望的模块化框架出现,该框架能够在令牌流中建模动态,并单独优化令牌化过程。尽管在具有离散动作的视觉环境中(例如,阿特利游戏)取得了成功,但它们的更广泛应用仍然存在不确定性。在本文中,我们引入了$\text{M}^{\text{3}}$,一种模块化世界模型,扩展了这一框架,通过独立的模态特定组件实现对观测和动作模态的灵活组合。$\text{M}^{\text{3}}$整合了现有文献中的多项改进,以增强代理性能。通过广泛的经验评估,$\text{M}^{\text{3}}$在无需规划的世界模型中达到了最先进的样本效率。值得注意的是,在这些方法中,它是第一个在阿特利100K上达到人类级别中位数得分的方法,并在13个游戏中表现出超乎常人的性能。我们的代码和模型权重可在https://github.com/leor-c/M3公开获取。
arXiv:2502.11137v2 安全类型: 替换交叉
摘要:近日,DeepSeek 系列模型凭借其卓越的推理能力和开源策略,正在重塑全球人工智能领域。尽管这些模型具有诸多优势,但也显示出显著的安全性缺陷。Robust Intelligence 有限公司(Cisco 的子公司)与宾夕法尼亚大学合作进行的研究显示,当处理有害提示时,DeepSeek-R1 的攻击成功率达到了 100%。此外,多家安全公司和研究机构已经确认了该模型中的关键安全漏洞。作为在中文和英文环境中均表现出强大性能的模型,DeepSeek 模型在两种语言环境中均需要进行同等重要的安全性评估。然而,当前的研究主要集中在英文环境中的安全性评估,导致在中文环境中的全面安全性评估存在空白。为弥补这一空白,本研究推出了 CHiSafetyBench,这是一个专门针对中文环境的安全评估基准。该基准系统地评估了 DeepSeek-R1 和 DeepSeek-V3 在中文环境中的安全性,揭示了它们在不同安全类别中的表现。实验结果量化了这两种模型在中文环境中的缺陷,为后续改进提供了关键见解。应当注意的是,尽管我们努力建立一个全面、客观和权威的评估基准,但在测试样本选择、数据分布特性和评估标准设定等方面,不可避免地会引入一定程度的偏差。我们将不断优化评估基准,并定期更新此报告,以提供更加全面和准确的评估结果。请参阅最新版本的论文获取最新的评估结果和结论。
arXiv:2502.10526v2 宣告类型: replace-cross
摘要:时间预测模型有可能在医疗保健、公共服务和其他领域改进决策,但它们经常无法有效地支持决策者。前人研究表明,模型行为与决策者预期之间的许多不一致源自模型规格问题,即预测是如何、何时以及针对谁做出的。然而,预测任务的模型规格高度技术化,对于非数据科学家的利益相关者来说,难以解释和批判。为解决这一挑战,我们开发了 Tempo,一个交互式系统,帮助数据科学家和领域专家合作迭代模型规格。利用 Tempo 简单而精确的时间查询语言,数据科学家可以迅速构思更具透明度的预处理选择的规格。此外,领域专家可以在数据子组中评估性能,以验证模型是否如预期行为。通过三个案例研究,我们展示了 Tempo 如何帮助多学科团队迅速排除不可行的规格,并确定更有前途的方向进行探索。