LLM2D

arXiv 论文列表

作者: Ximing Lu, Seungju Han, David Acuna, Hyunwoo Kim, Jaehun Jung, Shrimai Prabhumoye, Niklas Muennighoff, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Yejin Choi
arXiv:2504.04383v1 宣布类型: 新 摘要: 大型推理模型通过长而复杂的推理轨迹展现了惊人的推理能力。通过监督微调这些推理轨迹,也称为抽取,可以成为提升学生模型推理能力的一种成本效益高的方法。然而,经验观察表明,这些推理轨迹往往不理想,频繁地在不同的思路之间切换,导致推理不足、推理过度,甚至产生退化的响应。我们引入了Retro-Search,一种借鉴MCTS算法的搜索算法,用于从大型推理模型中抽取更高质量的推理路径。Retro-Search回顾性地修订推理路径,以发现更好的、更短的轨迹,进而引导学生模型以更短、更快的推理来进行增强推理。我们的方法可以实现两种应用场景:自我改进,即模型在其自身Retro-Search修订后的思考轨迹上进行微调;弱到强改进,即较弱的模型通过Retro-Search修订较强模型的思考轨迹。在自我改进方面,R1-distill-7B在其自身Retro-Search修订后的轨迹上进行微调,平均推理长度减少31.2%,并在七个数学基准中提高了7.7%的性能。在弱到强改进方面,我们使用R1-distill-32B作为Retro-Search修订者,从OpenThoughts数据集中回顾性修订R1-671B的轨迹。Qwen2.5-32B在此精炼数据上进行微调,其性能与R1-distill-32B相当,推理长度减少了11.3%,性能提高了2.4%,相比在原始OpenThoughts数据上进行微调有所改进。我们的工作反驳了最近出现的观点,即在大型推理模型时代,搜索算法的 relevance 并不重要,展示了即使在前沿模型中,仍有机会进行算法改进。
发布时间: 4/8/2025
查看原文
arXiv:2504.04366v1 Announce Type: 新增 摘要: 我们提出了一种新颖的分层强化学习(HRL)框架,通过学习到的子目标进行自上而下的递归规划,并成功应用于复杂的组合益智游戏Sokoban。我们的方法构建了一个六层的策略层级,其中每一层更高的策略为以下一层生成子目标。所有的子目标和策略都是从零开始端到端学习的,不需要任何领域知识。我们的实验结果表明,该代理可以从单个高层调用生成长的动作序列。虽然之前的工作探索了2-3层级的层级结构和基于子目标的规划启发式方法,但我们证明了深层次的递归目标分解可以纯粹通过学习产生,并且这样的层级结构可以有效地扩展到难题域。
发布时间: 4/8/2025
查看原文
作者: Zhijie Duan, Kai Wei, Zhaoqian Xue, Lingyao li, Jin Jin, Shu Yang, Jiayan Zhou, Siyuan Ma
arXiv:2504.04346v1 宣布类型: 新 摘要: 社交媒体是获取药物警戒所需的真实世界数据的一个丰富来源,这些数据捕捉了宝贵的患者体验信息。然而,从结构松散且杂乱的社交媒体内容中挖掘数据仍是一项具有挑战性的任务。我们提出了一种系统框架,利用大型语言模型(LLMs)从社交媒体中提取药物副作用,并将其组织成知识图谱(KG)。我们利用来自Reddit的数据显示格列利泰(semaglutide)用于减肥的应用。通过构建的知识图谱,我们进行了全面分析,以调查不同时间点的各种semaglutide品牌报告的副作用。我们通过与FAERS数据库中报告的不良事件进行比较,进一步验证了这些发现,为semaglutide的副作用提供了重要的患者中心洞察,这些洞察补充了semaglutide的安全概况及其对医疗保健专业人员和患者现有的知识库。我们的工作证明了使用LLMs将社交媒体数据转化为结构化KGs进行药物警戒的可行性。
发布时间: 4/8/2025
查看原文
arXiv:2504.04276v1 宣告类型: 新颖 摘要: 本文比较了模型通用和模型特定的方法在深度学习图像分类中可解释人工智能(XAI)方面的应用。我研究了在解释ResNet50在各种图像类别中的预测时,LIME和SHAP(模型通用方法)与Grad-CAM和Guided Backpropagation(模型特定方法)之间的差异。通过使用各种犬类、鸟类以及昆虫的物种进行广泛测试,我发现每种方法展示出模型决策过程的不同方面。模型通用技术提供了更为广泛的特性归属,适用于不同的架构;而模型特定方法在突出精确的激活区域方面表现出色,并且具有更高的计算效率。我的分析显示,并不存在适用于所有情况的单一解决方案来解释模型的可解释性。相反,结合多种XAI方法提供了对复杂模型最全面的理解,特别是在高风险领域,如医疗保健、自动驾驶车辆和金融服务等领域,透明性至关重要。这种比较框架提供了基于具体应用需求和计算限制选择适当解释技术的实用指导。
发布时间: 4/8/2025
查看原文
作者: Md. Ehsanul Haque, S. M. Jahidul Islam, Jeba Maliha, Md. Shakhauat Hossan Sumon, Rumana Sharmin, Sakib Rokoni
arXiv:2504.04262v1 宣告类型: 新 摘要: 慢性肾病(CKD)是全球健康的主要问题,影响着世界各地数百万人,并且发病率正在不断增加。减轻CKD的进展和改善患者预后需要早期检测。然而,传统的诊断方法存在局限性,尤其是在资源匮乏的环境中。本研究提出了一种先进的机器学习方法以增强CKD的检测,评估了四种模型:随机森林(RF)、多层感知器(MLP)、逻辑回归(LR)以及一个微调的CatBoost算法。特别是,在这些模型中,微调后的CatBoost模型表现最佳,准确率为98.75%,AUC为0.9993,Kappa分数为97.35%。提出的CatBoost模型利用了启发式算法(如模拟退火)来选择最重要的特征,利用 cuckoo 搜索(Cuckoo Search)来调整异常值,并通过网格搜索来微调其设置,以实现更好的预测准确率。特征的重要性通过SHAP(一个著名的XAI技术)进行解释,以增强提出模型决策过程的透明度,并提高诊断系统的信任度。利用SHAP,识别出的显著临床特征包括比重、血清肌酐、白蛋白、血红蛋白和糖尿病。这项研究展示了先进机器学习技术在CKD检测中的潜力,特别是在低收入和中等收入的医疗保健环境中,及时和准确的诊断至关重要。本研究旨在提供一个高度准确、 interpretable 和高效的诊断工具,以支持早期干预和改善所有CKD患者的健康结果的努力。
发布时间: 4/8/2025
查看原文
作者: Jianhua Sun, Cewu Lu
arXiv:2504.04170v1 公告类型: 新 摘要:回顾过去十年人工智能领域的进展,各种显著进步(如物体检测、图像生成、大型语言模型)使人工智能系统能够产生更具语义意义的输出,并在互联网场景中得到广泛应用。然而,人工智能系统在理解和与物理世界交互时仍然存在困难。这揭示了一个重要问题:仅依靠从互联网数据(例如文本、图像)中学习到的语义级概念来理解物理世界远远不够——当前的机器智能缺乏有效的方法来学习物理世界的知识。这项研究提出了分析概念的思想——通过数学过程程序表示与物理世界相关的概念,为机器智能提供感知、推理和与物理世界的交互的途径。除了详细说明分析概念的设计理念和提供其应用指南外,这项研究还介绍了围绕分析概念建立的基础设施。我致力于通过研究为解决这些问题做出贡献:对于机器智能,什么是物理世界一般概念的适当抽象?如何系统地将结构化先验知识与神经网络集成,以约束人工智能系统遵循物理定律?
发布时间: 4/8/2025
查看原文
arXiv:2504.04139v1 宣告类型: 新颖 摘要: 本文介绍了COGENT3(或集体增长与熵调制三元系统),这是一种将模式形成网络与团体影响动力学集成的新颖方法,以实现涌现认知。与依赖预设结构的传统策略相反,在我们的框架中,通过代理交互,计算结构动态地涌现。这使得系统表现出更加灵活和适应性强的特点,这些特点类似于人类认知过程。在COGENT3中引入温度调制和记忆效应,紧密地结合了统计力学、机器学习和认知科学。
发布时间: 4/8/2025
查看原文
作者: Chaoxiong Ma, Yan Liang, Huixia Zhang, Hao Sun
arXiv:2504.04128v1 宣告类型: 新 摘要: 研究发现,现有的可信证据融合方案存在潜在的不一致性问题,因为在开放环风格下,可信度计算和基于德蒙特结合规则的融合顺序进行。本文从差异框架(FOD)的角度出发,从事件的支持程度构建证据可信度,并提出了一种迭代可信证据融合(ICEF),从闭环控制的角度克服不一致性。一方面,ICEF引入融合结果到可信度评估中,建立可信度和融合结果之间的联系。另一方面,基于可信度和似然函数的指数规范化,推广了算术-几何散度(称为似然度-可信度算术-几何散度,PBAGD),这种方法在捕捉FOD子集的相关性和差异、识别异常源头以及降低其融合权重方面表现出色。通过不同证据差异度量形式的组合,将ICEF与传统方法进行比较,以验证其性能。在数值示例和基准数据集上的模拟反映了PBAGD对所提出融合策略的适应性。
发布时间: 4/8/2025
查看原文
作者: Lixiang Xu, Xianwei Ding, Xin Yuan, Zhanlong Wang, Lu Bai, Enhong Chen, Philip S. Yu, Yuanyan Tang
arXiv:2504.04121v1 通知类型: 新 摘要: 知识追踪(KT)旨在根据学生的历史答题记录追踪其知识状态的变化,并预测其未来的答案。当前对KT模型的研究主要集中在根据学生学习互动的现有但未更新的记录来预测学生未来的成绩。然而,这些方法忽略了答题过程中的干扰因素(如滑题和猜测),并且忽视了静态认知表示是临时和有限的。大多数研究假设答题过程中没有干扰因素,并且记录表示完全反映了学生在知识理解与掌握方面的水平。在这种情况下,这可能会导致原始记录中的许多协同性和协调性问题。因此,我们提出了一种认知表示优化的知识追踪(CRO-KT)模型,该模型利用动态规划算法优化认知表示结构。这确保了结构与练习难度相匹配的学生的认知模式。此外,我们使用协同优化算法,根据所有具有相关性的练习的整体答题情况,以一个目标的方式优化子目标练习的认知表示。同时,CRO-KT模型以加权方式融合了从二分图学习到的认知嵌入与优化后的记录表示,增强了对学生认知的表达。最后,我们分别在三个公开数据集上进行了实验,以验证所提出的认知表示优化模型的有效性。
发布时间: 4/8/2025
查看原文
作者: Xin Quan, Marco Valentino, Danilo S. Carvalho, Dhairya Dalal, Andr\'e Freitas
arXiv:2504.04110v1 宣告类型: 新颖 摘要: 在人工智能领域,有效整合物质推理和形式推理一直是一个持续的挑战——前者关注论据的合理性及其背景相关性,而后者则关注其逻辑和结构的有效性。由于大型语言模型(LLMs)在其广泛的大型文本语料库预训练的基础上展现出强大的物质推理能力,但其推理往往缺乏形式上的严谨性和可验证性。与此同时,LLMs 在语言学上的能力使其成为自然语言和形式语言之间的一个有前景的桥梁,为结合这两种推理方式带来了新机会。在这篇论文中,我们介绍了 PEIRCE,这是一种神经符号框架,旨在通过迭代的假设-批判过程统一物质和形式推理。在这个框架中,LLMs 在生成自然语言和形式语言中的候选解决方案方面扮演核心角色,这些解决方案随后通过与外部批判模型的交互进行评估和改进。这些批判性反馈包括形式证明器,它们评估形式有效性,以及软评估器,它们根据合理性、连贯性和简约性等语言和知识维度来衡量生成论据的质量。虽然 PEIRCE 是一个通用框架,但我们展示了它在自然语言解释生成领域的能力——这是一个本质上需要物质充分性和形式正确性的环境。
发布时间: 4/8/2025
查看原文