arXiv:2502.04689v2 宣告类型: replace-cross
摘要:大型语言模型(LLMs)在许多具有挑战性的基准上取得了出色的表现,这些基准通常以多项选择问答(QA)任务的形式出现。零样本链式思考(CoT)提示增强了LLMs的推理能力,但提供的指导只有模糊且通用的思路(“一步一步地思考”)。本文介绍了一种直观且有效的零样本提示方法ARR,该方法明确地将QA解题中的三个关键步骤:分析问题的意图、检索相关信息以及逐步推理包含其中。针对多种多样且具有挑战性的QA任务进行的全面实验表明,ARR始终能改进没有使用ARR提示的基线模型,并且优于CoT。消除实验和案例研究进一步验证了每个组件——分析、检索和推理——的积极作用。值得注意的是,在ARR中,意图分析起着关键作用。此外,针对各种模型大小、LLM系列和生成设置的广泛评估进一步巩固了ARR的有效性、鲁棒性和普适性。
arXiv:2502.03824v2 文献类型: replace-cross
摘要:大规模语言模型(LLMs)在许多AI应用中提升了进展。最近,有人试图将LLMs的大量知识提炼到信息检索系统中。这些提炼方法主要使用LLMs的输出概率,而在最新的黑盒LLMs中这些概率是不可用的。我们提出了一种名为Syntriever的检索训练框架,该框架利用黑盒LLMs生成的合成数据进行训练。Syntriever包含两个阶段。首先,在提炼阶段,我们使用chain-of-thoughts生成相关的和看似不相关的小节以及增强的查询,然后请求LLM自我验证生成的数据是否存在幻觉。验证后,使用设计用于聚类相关段落嵌入的损失函数训练检索器。其次,在对齐阶段,我们使检索器与LLMs的偏好对齐。我们提出了一种部分Plackett-Luce排名的偏好建模方法,通过正则化来学习LLMs的偏好,以防止模型在对齐阶段过度偏离训练内容。实验结果显示,Syntriever在各领域的基准数据集上实现了最先进的nDCG@$K$性能。代码可在 \href{https://github.com/kmswin1/Syntriever}{https://github.com/kmswin1/Syntriever} 获取。
arXiv:2502.01618v3 宣布类型: replace-cross
摘要: 大型语言模型(LLMs)通过增加模型规模和/或数据量实现了显著的性能提升。然而,最近的实证证据表明,这种方法带来的收益正在减少,这促使人们在推理阶段增加计算量。现有的推理时扩展方法通常使用奖励模型,将任务视为搜索问题,这通常会因为在奖励模型中的近似误差而导致奖励作弊的问题。在本文中,我们相反地将推理时的扩展视为一个概率推理任务,并利用基于采样的技术探索状态空间模型在近似似然下的状态分布的典型集,而不是直接优化其模态。我们提出了一种新颖的推理时间扩展方法,通过调整粒子蒙特卡洛方法来实现这一任务。我们的实证评估表明,与我们确定性搜索的对应方法相比,我们的方法在各种具有挑战性的数学推理任务上具有4-16倍更好的扩展率。通过我们这种方法,我们展示了Qwen2.5-Math-1.5B-Instruct可以在仅4次迭代中超越GPT-4o的准确度,而Qwen2.5-Math-7B-Instruct可以在仅32次迭代中扩展到o1级准确度。我们的研究不仅提出了一种有效的推理时间扩展方法,还将概率推理的丰富文献与LLMs的推理时间扩展联系起来,为未来开发更稳健的算法奠定了基础。代码、视频及相关信息可在https://probabilistic-inference-scaling.github.io获取。
arXiv:2502.00568v3 宣告类型: replace-cross
摘要:新兴的研究表明,基于人工智能的数字病理和转录组特征的多模态融合可以提高癌症诊断(分级/分型)和预后(生存风险)的预测。然而,在实际的临床环境中,这种直接的多模态融合在联合决策方面是不切实际的,病理组织学仍然是诊断的黄金标准,而转录组测试在公共医疗保健系统中很少被要求。凭借我们新颖的基于扩散的跨模态生成AI模型PathGen,我们展示了从数字病理组织学合成的基因表达可以高精度地(达到前沿性能)、高确定性地(通过满意覆盖保证)和可解释地(通过分布式注意力图)预测癌症分级和患者生存风险。PathGen的代码可通过GitHub(https://github.com/Samiran-Dey/PathGen)供研究社区开放使用。
arXiv:2501.18071v2 通知类型: 交叉替换
摘要:糖尿病(DM)是全球一个重要的健康问题,必须尽早诊断并进行良好的管理。本研究提出了一种使用机器学习(ML)模型进行糖尿病预测的框架,并结合可解释的人工智能(XAI)工具,以探究ML模型预测准确性和可解释性的能力。数据预处理基于合成少数类过采样技术(SMOTE),并使用特征缩放处理糖尿病二元健康指标数据集,以解决类别不平衡和临床特征的变异性问题。集成模型提供了高准确性,测试准确率为92.50%,ROC-AUC为0.975。通过模型解释获得的影响最大的预测因子是BMI、年龄、总体健康状况、收入和体力活动。本研究的结果表明,结合XAI的ML是开发用于卫生保健系统中的准确且计算透明的工具的一种有希望的方法。
arXiv:2501.16937v3 宣告类型:替换交叉
摘要:因果语言模型展现了非凡的能力,但其规模在资源受限的环境中部署时带来了显著的挑战。知识蒸馏,一种广泛用于将大型教师模型的知识转移到小型学生模型中的技术,为模型压缩提供了有前景的方法。然而,在教师模型和学生模型之间仍存在显著差异,具体的瓶颈包括巨大的容量差距、模式平均和模式崩溃,这些在蒸馏过程中构成了障碍。为了解决这些问题,我们提出了 $\textit{时间自适应插值蒸馏 (TAID)}$,这是一种新颖的知识蒸馏方法,通过自适应中间分布动态地插值学生和教师分布,逐步从学生的初始分布转换到教师的分布。我们提供了一种理论分析,证明了TAID防止模式崩溃的能力,并通过实验证明了其在平衡模式平均和模式崩溃的同时,有效缓解容量差距。我们的全面实验表明,无论是在指令微调还是预训练场景中,TAID都表现出卓越的性能,适用于各种模型规模和架构。此外,我们展示了TAID的实际影响,通过开发了两个前沿的紧凑型基础模型:$\texttt{TAID-LLM-1.5B}$ 用于语言任务和 $\texttt{TAID-VLM-2B}$ 用于视觉语言任务。这些结果表明,TAID能在创建高性能、高效模型方面取得成效,推动了更易获取的AI技术的发展。
arXiv:2501.14856v2 公告类型: replace-cross
摘要:本文介绍了一种基于能量生成模型的新模仿学习框架,该框架能够通过专家状态仅依赖的动作轨迹学习复杂的、受物理限制的机器人运动策略。我们的算法称为 Noise 条件能量退火奖励(NEAR),它可以构建专家动作数据分布的几种扰动版本,并利用去噪评分匹配学习数据分布能量函数的平滑和明确表示。我们提议使用这些学习到的能量函数作为奖励函数,通过强化学习学习模仿策略。我们还提出了一种策略,逐步切换学习到的能量函数,确保在策略生成样本的流形上学习到的奖励始终是明确的。我们在复杂的类人任务如移动和武术中评估了该算法,并将其与仅基于状态的对抗模仿学习算法(如对抗运动先验(AMP))进行比较。我们的框架规避了对抗模仿学习技术的优化难题,在多个模仿设置的多个定量指标中产生了与 AMP 相当的结果。
arXiv:2501.14679v3 通知类型: 替换-交叉
摘要:基于注意力的方法在球面皮层表面建模长程依赖关系方面表现出色,超越了传统的几何深度学习(GDL)模型。然而,它们广泛的推理时间和高内存需求为有限计算资源的大数据集应用带来了挑战。受到计算机视觉中状态空间模型的启发,我们引入了无注意力的Vision Mamba(Vim)到球面上,提出了一种适用于分析球面流形上数据的领域无关架构。我们的方法通过将球面数据表示为从细分icosphere导出的三角形碎片序列来实现表面拼接。所提出的Surface Vision Mamba(SiM)在使用新生儿大脑皮层表面度量值进行多个神经发育表型回归任务中进行了评估。实验结果表明,SiM 在 Ico-4 网格划分下相比 Surface Vision Transformer(SiT)实现了 4.8 倍的更快推理时间和 91.7%更低的内存消耗。进一步的敏感性分析进一步突显了 SiM 在识别细微的神经发育模式方面的潜力。代码可在 https://github.com/Rongzhao-He/surface-vision-mamba 获取。
arXiv:2501.14654v2 通知类型: replace-cross
摘要:近年来的大规模语言模型(LLMs)在多个方面取得了显著进展,特别是在它们能够作为代理执行任务的能力上,超越了其传统的聊天机器人角色。这些代理能够利用其规划和工具利用能力来解决高层指定的任务。然而,在医疗应用中,目前缺乏一个标准化的数据集来评估LLMs的代理能力,这使得在交互式医疗保健环境中评估LLMs进行复杂任务变得具有挑战性。为了解决这一缺口,我们提出了MedAgentBench,这是一个广泛的评估套件,旨在评估大型语言模型在医疗记录上下文中的代理能力。MedAgentBench 包含来自 10 个类别、由 100 名人类医生撰写的 300 项特定患者的临床衍生任务,具有超过 700,000 个数据元素的 100 个患者的真实患者配置文件,一个符合 FHIR 的交互式环境和一个相应的代码库。该环境使用现代EMR系统中的标准API和通信基础设施,因此可以轻松迁移到实时EMR系统中。MedAgentBench 提供了一个未饱和的面向代理的基准,当前最先进的LLMs在这个基准上展示出一定的成功能力。最佳模型(Claude 3.5 Sonnet v2)的成功率为 69.67%。然而,仍然存在很大的改进空间,这为社区指明了下一个优化方向。此外,不同任务类别在性能上有显著差异。MedAgentBench 确立了这一点,并在 https://github.com/stanfordmlgroup/MedAgentBench 上公开供公众使用,为模型开发人员提供了一个有价值的框架,以跟踪进展并推动大型语言模型在医疗领域的代理能力的持续改进。
arXiv:2501.10967v2 通告类型: replace-cross
摘要:视觉-语言模型(VLMs)在推进通用人工智能方面展现出了非凡的能力,然而,视觉位置的不理性编码在抑制模型在不同粒度层次上的全面感知性能方面仍然存在。在本文中,我们提出了金字塔下降视觉位置编码(PyPE),一种旨在提高VLMs中视觉标记感知的新方法。通过从边缘向中心分配视觉位置索引,并逐步扩大中央感受野,PyPE解决了传统光栅扫描方法的局限性,并减轻了由旋转位置嵌入(RoPE)引起的长期衰减效应。我们的方法减少了相互关联的视觉元素和指令标记之间的相对距离,促进了更合理的注意权重分配,并允许对视觉元素进行多粒度感知,同时减少了对锚标记的过度依赖。广泛的实验证明,PyPE一致地提高了各种规模的VLMs的通用能力。代码可在https://github.com/SakuraTroyChen/PyPE获取。