arXiv:2502.12767v4 通知类型: replace-cross
摘要:最近的研究将大型语言模型(LLMs)与知识图谱(KGs)结合起来,以增强推理能力,无需额外训练即可提高推理准确性,同时减轻幻觉现象。然而,现有的框架往往较为僵化,难以适应KG或任务的变化。它们还高度依赖强大的LLMs来进行可靠的(即可信的)推理。为了解决这一问题,我们提出了R2-KG,这是一种即插即用、双代理框架,将推理分为两个角色:一个操作员(一个低容量的LLM),负责收集证据;一个监督员(一个高容量的LLM),负责最终判断。这种设计在保持强大推理准确性的同时,还降低了LLM推理的成本。此外,R2-KG 使用了一种禁用机制,在从KG收集到充分的证据后才生成答案,这显著增强了可靠性。在多个基于知识图谱的推理任务中的实验表明,R2-KG 在准确性和可靠性方面始终优于基线,无论使用的操作员LLM的内在能力如何。进一步的实验表明,单代理版本的R2-KG 配备严格的自我一致性策略时,可以实现显著高于基线的可靠性,同时降低推理成本。然而,这也导致在复杂KG中更高的禁用率。我们的研究结果确立了R2-KG 作为基于知识图谱推理的灵活且经济的解决方案的地位。它减少了对高容量LLM的依赖,同时确保了可信的推理。代码可在https://github.com/ekrxjwh2009/R2-KG/ 获取。
arXiv:2502.10581v2 通告类型: replace-cross
摘要:随着大规模语言模型的发展,区分过程监督和结果监督变得至关重要,这两个关键的强化学习方法用于处理复杂的推理任务。虽然过程监督在长期信用分配方面具有直观的优势,但这些范式的精确关系仍是一个开放的问题。传统的智慧认为,由于轨迹级别覆盖问题,结果监督本质上更具挑战性,因此在收集细粒度的过程监督数据上投入了大量的资源。
在这篇论文中,我们朝着解决这一争论迈出了步伐。我们的主要定理表明,在标准的数据覆盖假设下,通过结果监督进行强化学习与通过过程监督进行强化学习在统计上是相当的,至多相差多项式因子。这一结果的核心是新颖的轨迹测量变换引理——一个技术工具,它将基于回报的轨迹测量与步骤级别的分布转移连接起来。此外,在具有验证器或展开能力的场景下,我们证明了任何政策的优势函数都可以作为最优的过程奖励模型,从而在结果监督和过程监督之间建立了直接的联系。这些发现表明,如果存在性能差距的话,这一差距很可能是由算法限制而非固有的统计困难引起的,这可能会影响我们处理强化学习的数据收集和算法设计方式。
arXiv:2502.09056v3 通知类型: 替换-交叉
摘要:本文探讨了数据选择和模型合并方法,旨在将类似于DeepSeek R1这类先进的推理能力融入到特定语言的大规模语言模型(LLMs)中,特别关注泰语LLM。我们的目标是在保持特定语言能力的同时增强特定语言LLM的推理能力。DeepSeek R1在推理方面表现出色,但主要受益于英语和汉语等高资源语言。然而,由于以英语为中心的训练数据和模型优化占据主导地位,这限制了这些语言的表现,导致在这些语言中代码转换不可靠且在低资源语言任务中的效果减弱。与此同时,本地和区域性的LLM倡议已经尝试通过开发专注于提高本地语言忠实度的特定语言LLM来弥合这一差距。我们证明,仅使用公开可用的数据集和计算预算是120美元,有可能在不牺牲特定语言任务表现的情况下,提升特定语言LLM的推理能力到与DeepSeek R1相同水平。
arXiv:2502.09042v2 宣传类型: replace-cross
摘要:本文介绍了Typhoon T1,这是一个开放努力,旨在开发一个开放的泰语推理模型。推理模型是一种基于大型语言模型(LLMs)的新类型生成模型。推理模型在做出最终答案之前会生成一个较长的思考链,这种方法被发现有助于在复杂任务上的表现。然而,关于如何开发这种模型的详细信息有限,尤其是对于能够生成低资源语言推理痕迹的推理模型。Typhoon T1 提出了一个开放努力,通过利用监督微调来降低成本地开发推理模型,而不是使用强化学习。本文分享了关于合成数据生成和训练的详细信息,以及我们的数据集和模型权重。此外,我们还提供了关于开发一个能够在多种领域泛化且能够生成低资源语言推理痕迹的推理模型的经验教训,以泰语为例。我们希望这种开放努力能够为该领域的进一步研究提供基础。
arXiv:2502.08972v2 宣告类型: replace-cross
摘要:语言模型被对齐为众多集体的声音,导致产生通用的输出,这些输出并不与特定用户的风格一致。在本文中,我们介绍了Trial-Error-Explain 在上下文学习(Trial-Error-Explain In-Context Learning, TICL),一种无需调优的方法,可以在每个用户少于10个示例的情况下,为文本生成任务个性化语言模型。TICL 通过试错解释过程迭代扩展上下文学习提示,添加模型生成的负样本和解释,这些负样本和解释为特定用户风格提供了细粒度的指导。TICL 在与 LLM-as-a-judge 的成对比较中,相对于前一种最先进技术水平,实现高达91.5%的胜率,并且在为写作电子邮件、文章和新闻文章进行个性化对齐的任务中,优于竞争性的无需调优基线。词法和定性分析表明,这些负样本和解释使语言模型能够更有效地学习风格化背景,并克服了他们在零样本输出中对结构性和正式措辞的偏见。通过在推断时预加载推理计算,创建一个用户特定的上下文学习提示,无需在测试时额外的生成步骤,TICL 提出了一种新颖且简单的个性化对齐方法。
arXiv:2502.08180v2 声明类型: replace-cross
摘要:大型语言模型(LLMs)在多种自然语言处理(NLP)任务中展示了强大的泛化能力。然而,它们在字符级别的字符串操作方面表现出明显的弱点,难以处理诸如字符删除、插入和替换等基本操作。这些挑战主要是由于分词约束所致,尽管这些操作在数据预处理和代码生成中起着至关重要的作用。通过系统分析,我们得出两个关键见解:(1)LLMs 在利用内在的分词知识进行字符级别推理方面面临重大困难,(2)原子化的单词结构可以显著增强LLMs处理标记级别结构信息的能力。基于这些见解,我们提出了字符级别的分而治之操纵方法,这是一种旨在弥合标记级别处理与字符级别操纵之间差距的新方法。我们的方法将复杂的操作分解为明确的字符级别子任务,并与受控的标记重建阶段相结合,从而在准确性方面取得了显著改进。在无需额外训练的情况下,我们的方法显著提高了“删除”、“插入”和“替换”任务的准确性。为了支持进一步的研究,我们开源了我们的实现和基准测试。
arXiv:2502.06874v2 宣告类型: 替换交叉
摘要:准确的温室气体(GHG)排放报告对于政府、企业和投资者至关重要。然而,由于实施成本高、排放因子数据库分散以及缺乏 robust 的行业分类方法,其应用仍然有限,特别是在小型和中型企业中的应用。为了应对这些挑战,我们介绍了 Group Reasoning Emission Estimation Networks (GREEN),这是一个基于 AI 的碳核算框架,标准化企业级排放估算,构建大规模基准数据集,并利用大型语言模型(LLMs)的新型推理方法。具体而言,我们为 20,850 家公司编译了经过验证的北美行业分类系统(NAICS)标签的文本描述,并将其与碳强度因子的经济模型对齐。通过将行业分类重新塑造成信息检索任务,我们使用对比学习损失微调 Sentence-BERT 模型。为了解决单一阶段模型处理数千个层次分类类别时的局限性,我们提出了一种 Group Reasoning 方法,基于自然的 NAICS 本体论组合 LLM 分类器,将任务分解为多个子分类步骤。我们理论上证明了这种方法减少了分类不确定性并降低了计算复杂性。在 1,114 个 NAICS 类别上的实验取得了最先进的性能(顶级类别准确率为 83.68%,前十个类别准确率为 91.47%),并对 20 家公司的案例研究报告了平均绝对百分比误差(MAPE)为 45.88%。该项目可在以下链接获取:https://huggingface.co/datasets/Yvnminc/ExioNAICS。
arXiv:2502.06608v3 宣布类型: replace-cross
摘要:近期在扩散技术方面的进展已将图像和视频生成推向了前所未有的高质量水平,显著加速了生成式AI的部署和应用。然而,3D形状生成技术至今仍落后于其他领域,受限于3D数据规模的限制、3D数据处理的复杂性以及在3D领域的先进技术探索不足。当前的3D形状生成方法在输出质量、泛化能力和输入条件的一致性方面面临着重大挑战。我们提出了TripoSG,这是一种新的简化的形状扩散范式,能够生成与输入图像精确对齐的高保真3D网格。具体而言,我们提出了:1)一种大规模校正流转换器用于3D形状生成,通过广泛的高质量数据训练实现最先进的保真度。2)一种混合监督训练策略,结合SDF、法线和准矢量损失,实现高质量的3D VAE重建性能。3)一个数据处理管道生成200万高质量3D样本,突出了训练3D生成模型时数据质量和数量的关键规则。通过全面的实验,我们验证了我们新框架中每个组件的有效性。这些部分的无缝集成使TripoSG在3D形状生成方面达到了最先进的性能。生成的3D形状由于高分辨率能力而更加精细,并且对输入图像表现出出色的保真度。此外,TripoSG展示了更强的泛化能力,在生成从多种图像风格和内容中生成3D模型方面表现出更好的灵活性。为了促进3D生成领域的进展和创新,我们将使我们的模型公开可用。
arXiv:2501.18504v2 通知类型: 替换-跨领域
摘要:大规模语言模型(LLM)图像识别是一种从图像中提取数据的强大工具,但准确性取决于在提示中提供足够的提示性信息 - 这需要领域专家来完成专门的任务。我们介绍了用于准确识别的Cue Learning 使用进化算子(CLEAR),这是一种结合了LLM和进化计算的方法,用于生成和优化提示,以改善图像中特定特征的识别。它通过自动生成新的领域特定表示,然后使用遗传算法优化合适的文本提示来实现这一点。我们将CLEAR 应用于从建筑物的室内和室外图像中识别可持续性数据的实际任务。我们探讨了使用可变长度表示与固定长度表示的效果,展示了通过将分类估计重构为实值估计如何提高LLM的一致性。我们展示了CLEAR 在每一项任务中都比专家人工识别和人工编写的提示提供了更高的准确率,错误率提高了两个数量级,并且消融研究证明了解决方案的简洁性。
arXiv:2501.16391v2 通知类型: 替换-交叉
摘要:蛋白质结构之间的显著差异阻碍了现有药物靶标相互作用(DTI)模型的一般化,这些模型经常依赖于预先学习的结合原则或详细的注释。相比之下,BioBridge 设计了一个归纳-关联管道,灵感来自于科学家的工作流程,他们在基于从弱相关参考中获得的新颖药物靶标配对的见解时,依赖于积累的专业知识。BioBridge 利用有限的序列数据预测新的药物靶标相互作用,同时采用多级编码器结合对抗训练,以积累可转移的结合原则。在此基础上,BioBridge 采用了一个动态原型元学习框架,将从弱相关注释中获得的见解进行关联,从而对以前未见过的药物靶标配对进行稳健的预测。广泛实验表明,BioBridge 超过了现有的模型,尤其是在对于以前未见过的蛋白质。值得注意的是,当仅提供同源蛋白质结合数据时,BioBridge 证明了其在表皮生长因子受体和腺苷受体的虚拟筛选中的有效性,这突显了其在药物发现中的潜力。