arXiv:2502.01694v1 公告类型: 新
摘要: 提高大型语言模型(LLMs)推理能力的一个关键范式是,在验证器或奖励模型中分配更多的推理时计算资源。这一过程可以用于细化预训练模型或将其实验模式提炼为更高效的模型。在本文中,我们从观点链推理(CoT)生成是介稳态马尔可夫过程这一点出发研究推理时计算资源:简单的推理步骤(例如,代数操作)形成紧密连接的簇,而复杂的推理步骤(例如,应用相关定理)在簇之间创建稀疏的、低概率的边,导致在较长的时间尺度上出现相变。在这种框架下,我们证明了实施奖励稀疏边的搜索协议可以提高 CoT,通过减少达到不同簇所需步骤的期望数量。相比之下,当模型受制于预训练图的局部信息时,我们设定了推理能力的上限。我们还表明,通过搜索获得的信息可以用于获得更好的推理模型:(1)预训练模型可以通过策略梯度方法直接微调以偏好稀疏边;此外(2)可以从较大的动态中提取出一种压缩的介稳态表示,并精简为更小、更高效的模型。
arXiv:2502.01685v1 事件类型: 新增
摘要: 现有的方法在评估认知-语言障碍时,通常会忽略参与者在描述图画时的视觉叙事路径,这通常需要通过眼动追踪来评估。空间语义图对于仅凭转录信息分析这一叙事路径非常有用,但它们受限于需要手动标记内容信息单元(CIUs)。在本文中,我们提出了一种自动化方法,通过自动化提取CIUs来估计空间语义图(以通常用于认知-语言分析的偷饼干图为例)。该方法使我们能够自动描述图片描述过程中的视觉语义路径。实验表明,自动获取的空间语义图能够有效地区分认知受损和未受损的说话者。统计分析显示,自动方法提取的特征与手动方法提取的特征具有可比性,不同临床组间的团体差异甚至更大。这些结果突显了自动方法在开发用于认知障碍评估的临床语言模型中提取空间语义特征的潜力。
arXiv:2410.14202v3 宣布类型: replace-cross
摘要:现有的自动作文评分(AES)方法仅依赖于作文文本,而未使用解释性理由来生成分数,因此错过了在细微程度上捕捉评分标准指标评估的具体方面的机会。本文引入了基于解释性理由的多特质评分(RMTS),这是一种将基于提示工程的大语言模型(LLM)与基于微调的小型大语言模型(S-LLM)结合进作文评分模型的新方法。RMTS使用基于LLM的特质特定理由生成系统,其中专门的LLM代理根据评分标准指南生成特定于特质的理由,评分模型使用这些理由来精确预测多特质评分。在基准数据集ASAP、ASAP++和Feedback Prize上的广泛实验表明,RMTS在特质检分方面显著优于最先进的模型和原始S-LLM。通过使用细粒度的定性理由辅助定量评估,RMTS增强了特质检分的可靠性,提供了对作文的部分解释。代码可在 https://github.com/BBeeChu/RMTS.git 获取。
arXiv:2404.17871v4 通告类型: replace-cross
摘要:近年来,由深度学习(DL)技术驱动的软件系统在许多方面极大地便利了人们的生活。作为这些DL系统的核心,各种各样的DL库承担了底层的优化和计算任务。然而,就像传统软件一样,DL库并非免受错误的影响,这些错误可能会给用户的个人财产和安全带来严重威胁。研究DL库的特点、相关错误以及相应的测试方法对于增强DL系统的安全性并促进DL技术的广泛应用至关重要。本文概述了各种DL库相关的测试研究,讨论了现有方法的优点和缺点,并为DL库的应用提供了指导和参考。本文首先介绍了DL底层库的工作流程以及涉及三种类型的DL库(DL框架、DL编译器和DL硬件库)的特点。然后,本文提供了DL底层库错误和测试的定义。此外,本文总结了针对这些DL库的现有测试方法和工具,并分析了它们的有效性和局限性。本文还讨论了DL库测试目前面临的挑战,并概述了未来研究的潜在方向。
arXiv:2502.02283v2 宣告类型: cross
摘要:3D 高斯散点图已发展成为一种高效的逼真新颖视角合成方法。然而,它对稀疏结构从运动(SfM)点云的依赖性始终会损害场景重建质量。为了解决这些局限性,本文提出了一种新颖的3D重建框架,即高斯过程高斯散点图(GP-GS),其中开发了一种多重输出高斯过程模型,以实现稀疏SfM点云的自适应和基于不确定性指导的稠密化。具体而言,我们提出了一种动态采样和滤波流水线,利用基于高斯过程的预测从输入的2D像素和深度图中推断新的候选点,自适应地扩展SfM点云。该流水线利用不确定性估计来指导高方差预测的剪枝,确保几何一致性,并使稠密点云的生成成为可能。稠密化的点云为增强重建性能提供了高质量的初始3D高斯。在不同尺度的合成和真实世界数据集上进行的广泛实验验证了所提出框架的有效性和实用性。
arXiv:2502.02088v2 交叉类型: cross
摘要:视频基础模型在网络升级和模型规模扩大的帮助下已经取得了显著的进步。然而,由于生成质量不足,它们仍然难以满足应用需求。为了解决这一问题,我们在本文中从后训练的角度将视频基础模型与人类偏好对齐。因此,我们引入了一种迭代偏好优化策略(IPO),通过结合人类反馈来提高生成视频的质量。具体来说,IPO 利用一个评判模型,在对决策优化或基点评分等方面,为成对排名提供合理性验证。给定这一方法,IPO 通过偏好反馈的信号优化视频基础模型,这有助于在主题一致性、运动流畅性和美学质量等方面提高生成视频的质量。此外,IPO 将评判模型与多模态大型语言模型结合起来,使其能够自动分配偏好标签,无需重新训练或重新标注。这样,IPO 可以以迭代方式进行多轮偏好优化,而不需繁琐的手动标注。全面的实验表明,提出的 IPO 可以有效地提高预训练模型的视频生成质量,并帮助一个只有2亿参数的模型超越一个有5亿参数的模型。此外,IPO 在 VBench 基准测试中实现了新的最佳性能。我们将发布我们的源代码、模型及数据集,以促进未来的研究和应用。
arXiv:2502.01991v2 宣告类型: 交叉
摘要: 如今,社交媒体在塑造公共话语方面起着关键作用,尤其是在疫苗等立场分歧的问题上,不同的道德观点影响着个人的意见。在自然语言处理(NLP)中,数据稀缺性和心理语言学任务的复杂性,如识别道德框架,使得仅仅依赖人类注释员的成本高且耗时,且由于认知负担大而容易出现不一致。为了解决这些问题,我们利用了大型语言模型(LLMs),这些模型善于通过少样本学习来适应新任务,利用少量上下文中的示例及其与任务原理的联系进行解释。我们的研究探讨了在社交媒体上的疫苗辩论中,LLMs 有可能帮助人类注释员识别道德框架。我们采用两步过程:使用LLMs生成概念和解释,然后使用“ Think-Aloud ”工具进行人工评估。研究表明,将LLMs整合到注释过程中可以提高准确性,降低任务难度,减少认知负担,表明人类与AI在复杂心理语言学任务中的协作具有前景。
arXiv:2502.01976v2 宣传类型: 交叉
摘要: 大型语言模型已经在各种任务中取得了显著的成功,但在推理过程中面临着计算成本高的问题,这限制了它们在资源受限应用中的部署。为了解决这一问题,我们提出了一种名为CITER(Collaborative Inference with Token-level Routing,基于令牌层级路由的合作推理)的新颖框架,通过令牌层级路由策略实现了小型和大型语言模型(SLMs & LLMs)之间的高效协作。具体来说,CITER将非关键令牌路由到小型语言模型进行效率优化,并将关键令牌路由到大型语言模型以获得泛化质量。我们将路由器训练定义为一种策略优化过程,其中路由器根据预测的质量和生成的推理成本接收奖励。这使得路由器能够学习预测令牌层级的路由分数,并根据当前令牌及其决策对未来影响的决策进行路由决策。为了进一步加速奖励评估过程,我们引入了一种捷径,显著减少了奖励估计的成本,从而提高了我们方法的实用性。在五个基准数据集上的广泛实验表明,CITER在保持高质量生成的同时降低了推理成本,为实时和资源受限的应用提供了前景广阔的选择。
arXiv:2502.01706v2 交叉公告类型
摘要:受生物学启发的神经网络为建模数据分布提供了替代方法。FlyVec 是一个最近的例子,它受到果蝇嗅觉电路的启发,旨在解决学习词嵌入的任务。令人惊讶的是,该模型在与专门设计用于编码文本的深度学习方法竞争时表现得非常出色,并且在计算效率方面达到了最高程度。我们提出了一个问题:这种性能是否可以进一步提高。为此,我们引入了Comply。通过引入复数权重来包含位置信息,我们使单层神经网络能够学习序列表示。我们的实验显示,Comply 不仅超越了FlyVec,还与显著更大的先进模型表现相当。我们做到了这一点而不需要额外的参数。Comply 提供了句子的稀疏上下文表示,可以从神经元权重中显式地进行解释。
arXiv:2502.01697v2 宣告类型: 交叉
摘要:随着对高质量数据在模型训练中的需求增加,研究人员和开发人员越来越多地生成合成数据以调整和训练大规模语言模型(LLMs)。关于合成数据的一个常见假设是,从指令调优模型中采样就足够了;然而,这些模型在生成多样性的输出方面存在困难——这是实现泛化的关键要求。尽管存在各种提示方法,但在本文中我们展示了从指令调优模型中实现有意义的多样性仍然是一项具有挑战性的任务。相比之下,我们发现未经后训练的基础模型显示出更大的多样性,但在指令跟随方面的能力较弱,因此质量较低。借鉴这一洞察,我们提出了Base-Refine(BARE)合成数据生成方法,通过两阶段过程将基础模型的多样性与指令调优模型的质量结合起来。通过最少的少量示例和编辑,BARE生成了多样且高质量的数据集,提高了下游任务的性能。我们展示了使用多达1,000个BARE生成的样本进行微调可以在LiveCodeBench任务中达到与最佳同等大小模型相当的性能。此外,使用BARE生成的数据进行微调在GSM8K上提高了101%的表现,在RAFT上比SOTA方法提高了18.4%。