arXiv:2502.07172v3 公告类型: replace-cross
摘要:在本文中,我们通过探索有标签数据和额外的无标签数据,研究了半监督的手写数学表达式识别(HMER)。我们提出了一种新颖的一致性正则化框架,称为SemiHMER,该框架引入了双分支半监督学习。具体而言,我们对同一个输入图像的两个网络强制一致性。一个扰动识别网络生成的伪标签被用于使用标准交叉熵损失监督另一个网络。SemiHMER的一致性鼓励两个扰动网络对于同一个输入图像的预测结果高度相似,并通过利用带有伪标签的无标签数据扩充训练数据。我们进一步引入了一种弱到强的策略,通过对每个分支应用不同的增强级别,有效地扩充了训练数据并提高了网络训练的质量。此外,我们提出了一种新的模块,全局动态计数模块(GDCM),通过减轻长距离公式识别中的识别不准确性和减少重复字符的出现,增强了HMER解码器的表现。实验结果表明,我们的工作在CROHME14上实现了5.47%的平均准确率提升,在CROHME16上实现了4.87%的提升,在CROHME19上实现了5.25%的提升,优于我们的基线方法。
arXiv:2412.20127v3 Announce Type: replace-cross
摘要:近期大型语言模型(LLMs)的进展催生了LLM-as-a-judge范式,展示了其在提供类人类判决方面的潜力。然而,在机器翻译(MT)评估领域,现有的LLM-as-a-judge方法未能超越已学习的自动指标。在本文中,我们提出了一种基于LLM的多代理框架Multidimensional Multi-Agent Debate(M-MAD),用于高级LLM-as-a-judge MT评估。我们的研究结果表明,M-MAD通过以下方式实现了显著的进展:(1)将启发式MQM标准分解为独立的评估维度,以进行精细的评估;(2)利用多代理辩论充分利用LLM的协作推理能力;(3)综合各维度的结果为最终评估判断,确保稳健和可靠的产出。全面的实验表明,M-MAD不仅超越了所有现有的LLM-as-a-judge方法,而且在动力系统性能不佳如GPT-4o mini的模型下,也与基于参考的最新自动指标竞争。详细的消融和分析突显了我们框架设计的优势,为LLM-as-a-judge范式提供了新的视角。我们的代码和数据可在https://github.com/SU-JIAYUAN/M-MAD上公开获取。
arXiv:2406.11589v4 宣布类型: replace-cross
摘要:语义代码搜索,检索与给定自然语言查询匹配的代码,是提高软件工程生产力的重要任务。现有的代码搜索数据集存在局限性:它们依赖于人工注释者,这些注释者主要通过语义理解而不是功能验证来评估代码,导致潜在的不准确性和可扩展性问题。此外,当前的评估指标往往忽略了代码搜索的多选择性质。本文引入了 CoSQA+,将高质量的查询与多个合适的代码配对。我们开发了一个自动化的流程,其中包括多种基于模型的候选选择以及新颖的测试驱动代理注解系统。在单一大型语言模型(LLM)注释者和Python专家注释者(没有基于测试的验证)中,代理利用基于测试的验证,实现了最高的准确性96.4%。通过广泛的实验,CoSQA+优于CoSQA,使用CoSQA+训练的模型表现更好。我们将在https://github.com/DeepSoftwareAnalytics/CoSQA_Plus 提供代码和数据。
arXiv:2502.13497v2 宣告类型:交叉
摘要:生成型大型语言模型(LLMs)已被证明在全球范围内存在着多样文化和知识的差距。我们研究了检索增强生成和搜索接地技术对LLMs在展示对各种国家文化的熟悉程度方面能力的影响。具体而言,我们在一系列文化熟悉度基准测试中比较了标准LLMs、通过定制知识库检索增强的LLMs(即KB接地)以及通过网络搜索检索增强的LLMs(即搜索接地)的表现。我们发现,网络搜索接地显著提高了LLMs在测试命题知识(例如,国家文化的标准、器物和机构)的多项选择基准测试中的性能,而定制知识库接地的有效性受限于知识库覆盖不足和检索器不太优化。然而,网络搜索接地也增加了语言模型进行刻板判断的风险,而在具有足够统计能力的人类评估中,它未能提高评估者对文化熟悉度的判断。这些结果突出了在评估生成型LLMs的文化熟悉度时,关于文化的知识与无限制的文化流畅性之间的区别。
arXiv:2502.13251v2 类别: 交叉学科
摘要: 我们提出了一种名为 Neural Attention Search (NAtS) 的框架,该框架能够自动评估序列中每个令牌的重要性,并确定在几轮后是否可以删除相应的令牌。此方法可以有效地减少变压器模型在推理过程中的 KV 缓存大小需求,从而降低推理成本。在本文中,我们设计了一个包含三种令牌类型的空间:(i) 全局令牌将被后续所有令牌保留并查询。(ii) 局部令牌存活直到下一个全局令牌出现。(iii) 滑动窗口令牌对固定大小的后续令牌的推理产生影响。类似于 One-Shot 神经架构搜索方法,这种令牌类型信息可以通过可学习的注意力掩码与架构权重联合学习。从头训练一个新的变压器和 fine-tune 现有的大型语言模型的实验表明,NAtS 可以有效地减少模型所需的 KV 缓存大小,同时保持模型的性能。
arXiv:2501.14249v4 宣告类型: 替换-交叉
摘要: 基准是跟踪大型语言模型(LLM)能力快速进步的重要工具。然而,基准的难度没有跟上进步的步伐:LLM 现在在像 MMLU 这样的流行基准测试中达到了超过 90% 的准确性,限制了对最新 LLM 能力的公正评估。为应对这一问题,我们引入了《人类的最后一试》(HLE),这是一个处于人类知识前沿的多模态基准测试,旨在成为此类基准测试中的最后一个封闭式学术基准测试,涵盖了广泛的学科内容。HLE 包含涵盖几十个科目的 3,000 道题目,包括数学、人文和社会科学。HLE 由相关领域的专家在全球范围内开发,包含适合自动化评分的选择题和简答题。每个问题都有一个已知的解决方案,该解决方案是明确的且易于验证,但不能通过互联网检索迅速回答。最先进的 LLM 在 HLE 上展示了低准确性和校准度,突显了目前 LLM 能力与封闭式学术问题的专家人类前沿之间的显著差距。为使研究和政策制定建立在对模型能力清楚理解的基础上,我们已公开发布了 HLE,可访问 https://lastexam.ai。
arXiv:2502.13149v1 宣告类型: 新
摘要: Bi-Fact 介绍了一种新的自动评估方法,用于意图理解。该方法受到 FactScore 的启发,通过将金标准和预测意图都划分为事实,并考虑用户界面轨迹来计算精确度和召回率,从而实现细粒度的意图比较。本文概述了 Bi-Fact 的全面评估,评估了其性能并将其与现有指标进行了比较。
arXiv:2502.11447v2 公告类型: replace-cross
摘要:大型语言模型可解释性研究的基本目标是将“局部化”语义有意义的行为定位到LLM内的特定组件。在LLM中寻找候选位置的各种启发式方法有很多种。一旦找到了候选的局部化位置,通过编辑相应位置的内部表示,并检查这些编辑是否引起了与局部化语义解释一致的模型行为,可以对此进行评估。我们在这里要解决的问题是:这样的编辑能提供多强的证据?为了评估局部化声明,我们需要评估在特定位置进行的最佳干预所产生的效果。关键的新技术工具是将LLM对齐技术改编为寻找这样的最佳局部化编辑的方法。有了这一工具,我们提供了一个例子,其中基于编辑的局部化证据看起来很强,但实际上局部化明显失败。事实上,我们发现,在随机位置进行的最佳编辑与对整个模型进行对齐的效果一样有效。总体而言,我们的结果表明,仅仅观察局部化编辑引起目标行为的变化提供不了多少证据来证明这些位置实际上编码了目标行为。
arXiv:2502.11149v2 通告类型: replace-cross
摘要:准确预测物理系统的三维结构和动力学在科学应用中至关重要。现有的依赖几何图形神经网络(GNNs)的方法有效地实现了 $\mathrm{E}(3)$-不变性,但它们往往无法充分利用广泛的信息。虽然直接应用大型语言模型(LLMs)可以结合外部知识,但它们缺乏保证不变性的空间推理能力。在本文中,我们提出了一种名为 EquiLLM 的新型框架,该框架将 E(3)-不变性与 LLM 能力无缝集成。具体而言,EquiLLM 包含四个关键组件:几何感知提示、一个不变编码器、一个大型语言模型以及一个不变适配器。基本上,由指令提示引导的大型语言模型作为复杂的不变特征处理器,而 3D 方向信息则由不变编码器和适配器模块专门处理。实验结果表明,EquiLLM 在分子动力学模拟、人体运动模拟和抗体设计方面显著优于先前的方法,突显了其较强的通用性。
arXiv:2502.11026v2 宣告类型: 替换交叉
摘要:人类反馈强化学习(RLHF)对于使大型语言模型(LLMs)与人类价值观保持一致至关重要。然而,RLHF 在实现复杂性和计算消耗方面不断受到挑战。即使出现了简化方法,如直接偏好优化(DPO)和优势剩余午餐(A-LoL),过拟合和训练不稳定性等问题仍然阻碍了从预期最优性能中实现对齐过程。为了解决现有挑战,我们从变分推断的角度提出了一种新的 RLHF 简化方法,称为变分对齐重加权(VAR)。具体来说,通过直接最小化学习中的 LLM 策略与 RLHF 最优解之间的分布差距,我们将在对齐目标转化为由奖励驱动的重加权监督微调(SFT)形式,这只需要对 SFT 损失进行少量调整即可获得显著提高的训练稳定性和有效性。在全面的对齐和生成基准测试中,我们的 VAR 方法在 LLM 对齐的帮助性和无害性方面实现了具有竞争力的性能。