我们提出了一种利用 BrainPy 的多尺度可微分脑模型工作流程,BrainPy 是一种独特的可微分脑模拟器,它将精确的脑模拟与强大的基于梯度的优化相结合。我们在不同脑尺度上利用了 BrainPy 的这种能力。在单个神经元层面,我们实现了可微分神经元模型,并使用梯度方法优化它们对电生理数据的拟合。在网络层面,我们整合了连接组数据来构建生物学约束的网络模型。最后,为了复制动物行为,我们使用基于梯度的学习规则在认知任务上训练这些模型。实验表明,我们的方法在拟合广义泄漏积分和发射以及霍奇金-赫克斯利单个神经元模型方面取得了优越的性能和速度。此外,在工作记忆任务上训练一个由兴奋性和抑制性尖峰神经元组成的生物学信息网络成功地复制了观察到的神经元活动和突触权重分布。总的来说,我们可微分的多尺度模拟方法为跨越电生理、解剖学和行为尺度的脑科学数据提供了一种很有前景的工具。
大型多模态语言模型(MLLM),如 GPT-4V 的快速发展,带来了显著的进步。然而,由于医疗视觉文本数据的数量和质量有限,这些模型在医疗多模态能力方面仍然面临挑战,这源于数据隐私问题和高昂的标注成本。虽然开创性的方法利用 PubMed 的大规模去识别医疗图像文本对来解决这些限制,但由于数据本身的噪声,它们仍然存在不足。为了解决这个问题,我们对来自 PubMed 的医疗图像文本对进行了细化,并以“未盲”的方式使用 MLLM(GPT-4V)对数据进行去噪和重新格式化,最终创建了包含 130 万个医疗 VQA 样本的 PubMedVision 数据集。我们的验证表明:(1) PubMedVision 可以显著增强当前 MLLM 的医疗多模态能力,在 MMMU 健康与医学赛道等基准测试中表现出显著的改进;(2) 医疗专家的手动检查和实证结果验证了我们数据集与其他数据构建方法相比的更高数据质量。利用 PubMedVision,我们训练了一个 340 亿参数的医疗 MLLM HuatuoGPT-Vision,该模型在开源 MLLM 中表现出优异的医疗多模态场景性能。
类比推理在人类认知中起着至关重要的作用,使我们能够通过将新概念与熟悉的概念联系起来来理解它们。人工智能领域之前的研究主要集中在识别和生成类比,然后在人类评估下检查它们的质量,而忽略了这些类比在现实世界中的实际应用。受人类教育过程的启发,本文提出研究教师语言模型 (LM) 创建的类比如何帮助学生 LM 理解科学概念,从而更贴近实际场景。我们的结果表明,自由形式的类比确实可以帮助 LM 理解概念。此外,学生 LM 生成的类比可以提高他们在科学问答方面的表现,证明了他们能够使用类比来自我学习新知识。资源可在 https://github.com/siyuyuan/SCUA 获取。
近年来,Python 和 JavaScript 等流行编程语言对集中式软件包仓库和开源软件的依赖,再加上代码生成大型语言模型 (LLMs) 的出现,给软件供应链带来了新型威胁:软件包幻觉。这些幻觉源于使用 LLMs 生成代码时出现的与事实冲突的错误,代表了一种新型的软件包混淆攻击,对软件供应链的完整性构成严重威胁。本文对不同编程语言、设置和参数下的软件包幻觉进行了严格而全面的评估,探讨了各种模型和配置如何影响生成错误软件包推荐的可能性,并确定了这种现象的根本原因。我们使用 16 种流行的代码生成 LLMs 和两个独特的提示数据集,在两种编程语言中生成了 576,000 个代码样本,并分析了软件包幻觉。我们的发现表明,商业模型的平均幻觉软件包比例至少为 5.2%,开源模型的比例为 21.7%,其中包括 205,474 个独特的幻觉软件包名称,进一步突出了这种威胁的严重性和普遍性。为了克服这个问题,我们实施了几种幻觉缓解策略,并证明这些策略能够显著减少软件包幻觉的数量,同时保持代码质量。我们的实验和发现表明,在使用最先进的 LLMs 生成代码时,软件包幻觉是一种持续且系统性的现象,也是一个需要研究界紧急关注的重大挑战。
本文提出了一种将 Kolmogorov-Arnold 网络 (KAN) 应用于时间序列预测的新方法,利用其自适应激活函数来增强预测建模。受 Kolmogorov-Arnold 表达定理的启发,KANs 将传统的线性权重替换为样条参数化的单变量函数,使其能够动态地学习激活模式。我们证明了在真实的卫星流量预测任务中,KANs 优于传统的 Multi-Layer Perceptrons (MLPs),在可学习参数数量显著减少的情况下提供了更准确的结果。我们还提供了对 KAN 特定参数对性能影响的消融研究。所提出的方法为自适应预测模型开辟了新的途径,强调了 KANs 作为预测分析中强大工具的潜力。
为了显著提升机器人智能,迫切需要开发一个大型模型,使通用机器人能够熟练地完成各种操作任务,类似于大型语言模型所展现的多功能任务规划能力。物体、机器人和操作任务的巨大多样性带来了巨大的挑战。我们的工作引入了一个全面的框架来开发用于通用机器人操作的基础模型,该模型将操作任务形式化为接触合成。具体来说,我们的模型以物体和机器人机械臂点云、物体物理属性、目标运动和操作区域掩码作为输入。它输出物体上的接触点以及与之相关的接触力或机器人实现所需操作任务的后接触运动。我们在模拟和真实世界环境中进行了大量实验,操纵了铰接刚性物体、刚性物体和可变形物体,这些物体在维度上各不相同,从一维物体(如绳索)到二维物体(如布料)再到三维物体(如塑形泥)。我们的模型实现了约 90% 的平均成功率。补充材料和视频可在我们的项目网站 https://manifoundationmodel.github.io/ 上获取。
将大型语言资源翻译成小型语言资源已成为一种广泛使用的方法。特别是在翻译由多个组成部分组成的复杂数据点时,通常会分别翻译每个组成部分。然而,我们认为这种做法往往忽视了同一数据点内各组成部分之间的相互关系。为了解决这一局限性,我们提出了一种新颖的机器翻译管道,该管道在实施机器翻译以用于训练数据时考虑了数据内部的关系。在我们的机器翻译管道中,数据点中的所有组成部分都被连接起来形成一个单一的翻译序列,并在翻译后被重建为数据组成部分。我们引入了催化剂语句(CS)来增强数据内部关系,并引入了指示符标记(IT)来帮助将翻译后的序列分解为其各自的数据组成部分。通过我们的方法,我们在翻译质量本身以及作为训练数据的有效性方面取得了显著的改进。与分别翻译每个数据组成部分的传统方法相比,我们的方法产生了更好的训练数据,从而提高了训练模型的性能,在 XGLUE 基准测试中的网页排名 (WPR) 任务中提高了 2.690 个点,在问题生成 (QG) 任务中提高了 0.845 个点。
我们提出了 Eagle (RWKV-5) 和 Finch (RWKV-6),它们是基于 RWKV (RWKV-4) 架构的序列模型改进版本。我们的架构设计改进包括多头矩阵值状态和动态递归机制,这些机制在保持 RNN 的推理效率特性的同时提高了表达能力。我们引入了一个新的包含 1.12 万亿个词元的跨语言语料库和一个基于贪婪匹配的快速分词器,以增强跨语言能力。我们训练了四个 Eagle 模型,参数数量从 0.46 亿到 75 亿不等,以及两个 Finch 模型,参数数量分别为 16 亿和 31 亿,发现它们在各种基准测试中都取得了具有竞争力的性能。我们以 Apache 2.0 许可证在 HuggingFace 上发布了所有模型。模型地址:https://huggingface.co/RWKV 训练代码地址:https://github.com/RWKV/RWKV-LM 推理代码地址:https://github.com/RWKV/ChatRWKV 时间并行训练代码地址:https://github.com/RWKV/RWKV-infctx-trainer
在教学视频中进行程序规划需要根据对初始状态和目标状态的视觉观察生成一系列操作步骤。尽管这项任务取得了快速进展,但仍存在一些需要解决的关键挑战:(1)自适应程序:以往的工作假设操作步骤的数量是已知且固定的,这导致在操作步骤长度变化的现实场景中模型不可泛化。(2)时间关系:了解步骤时间关系知识对于生成合理且可执行的计划至关重要。(3)标注成本:用步骤级标签(即时间戳)或序列级标签(即动作类别)对教学视频进行标注要求很高,并且非常费力,限制了其对大型数据集的泛化能力。在这项工作中,我们提出了一种新的实用场景,称为教学视频中的自适应程序规划,其中程序长度不固定或预先确定。为了解决这些挑战,我们引入了检索增强型规划器(RAP)模型。具体来说,对于自适应程序,RAP 使用自回归模型架构自适应地确定操作的结论。对于时间关系,RAP 建立了一个外部内存模块,以明确地从训练视频中检索最相关的状态-动作对,并修改生成的程序。为了解决高标注成本,RAP 利用弱监督学习方式,通过为操作步骤生成伪标签,将训练数据集扩展到其他与任务相关的未标注视频。在 CrossTask 和 COIN 基准上的实验表明,RAP 优于传统的固定长度模型,使其成为自适应程序规划的强基线解决方案。
大型语言模型(LLM)在众多自然语言处理任务中取代了传统方法。然而,在命名实体识别(NER)中,现有的基于LLM的方法...