arXiv:2409.13717v2 宣告类型: 交叉替换
摘要:大型语言模型(LLMs)在文本理解和生成方面的卓越能力已经彻底改变了信息提取(IE)。其中一项进步是文档级别关系三元组提取(DocRTE),这是信息系统中一项关键任务,旨在从文档中提取实体及其语义关系。然而,现有的方法主要用于句子级别关系三元组提取(SentRTE),通常仅处理单句中的一组有限关系和三元组事实。此外,一些方法将关系处理为集成到提示模板中的候选选择,这导致在确定三元组中关系元素时处理效率低且性能不佳。为了解决这些限制,我们引入了一种区分和意识导向框架 DiVA。DiVA 只涉及两个步骤:首先进行文档级别关系提取(DocRE),然后基于关系识别主体和客体实体。无需额外处理,只需将文档直接输入即可直接获得三元组。这个简化的过程更准确地反映了实际三元组提取中的现实场景。我们的创新之处在于将 DocRE 转换为一个区分任务,模型不仅关注每个关系,还关注三元组中往往被忽视的主动语态与被动语态问题。我们在 Re-DocRED 和 DocRED 数据集上的实验表明,DiVA 在文档级别关系三元组提取任务中达到了领先的结果。
arXiv:2409.10489v4 宣布类型: replace-cross
摘要:近年来,状态空间模型架构在高效序列建模方面展现出了巨大的潜力,但在计算效率与模型表达能力之间的平衡上仍然存在挑战。我们提出了Flash STU架构,这是一种混合模型,交替使用谱状态空间模型层与滑动窗口注意力,使得在保持近线性时间复杂度的同时,能够扩展到数十亿参数的语言建模。我们在多种序列预测任务上评估了Flash STU及其变体,包括线性动力系统、机器人控制和语言建模。我们发现,在固定参数预算的情况下,Flash STU架构始终优于Transformer及其他领先的状态空间模型,如S4和Mamba-2。
arXiv:2409.00134v5 宣布类型: replace-cross
摘要:多代理路径规划(MAPF)问题是通常需要在一个共享环境中为多个代理找到无碰撞路径的问题。即使在严格的假设下,优化地解决MAPF问题仍然是NP难的,但这一问题的有效解决方案对于众多应用至关重要,例如自动化仓库和交通系统。近年来,基于学习的MAPF方法受到了关注,特别是那些利用深度强化学习的方法。通常,这样的基于学习的MAPF求解器会增加一些额外组件,如单代理规划或通信。相反,在这项工作中,我们完全依赖于一种模仿学习方法,这种方法利用了一个包含专家MAPF解决方案的大规模数据集和基于变压器的神经网络,以创建一个名为MAPF-GPT的MAPF基础模型。该模型能够生成动作,无需额外的启发式方法或通信。MAPF-GPT在解决不在训练数据集中出现的MAPF问题时展示了零样本学习能力。我们展示了MAPF-GPT在一系列不同问题实例上显著优于当前性能最好的可学习MAPF求解器,并在推理过程中具有计算效率。
arXiv:2409.00092v3 宣布类型: 交叉替换
摘要:在传统的创新实践中,概念和知识产权(IP)的生成往往是迭代集成的。这两个过程都需要对先进技术领域知识有复杂的理解。现有的大型语言模型(LLMs),尽管拥有大量的预训练知识,但在创新概念的生成中往往因为缺乏生成所需的特定领域的知识而显得力不从心。为了弥合这一关键差距,我们提出了一种新的知识微调(KFT)框架,以赋予基于LLM的人工智能自主挖掘、理解和应用特定领域知识和概念的能力,从而实现创新生成,即概念和专利生成一起进行。我们提出的PatentGPT结合了知识注入预训练(KPT)、领域特定的监督微调(SFT)和基于人类反馈的强化学习(RLHF)。广泛的评估结果显示,PatentGPT在专利相关的基准测试中显著优于当前最先进的模型。我们的方法不仅为数据驱动的创新提供了新的见解,还为在技术背景下微调LLM开辟了一条新的途径。我们还讨论了未来AI生成发明的管理和政策影响。
arXiv:2408.12598v3 宣布类型: replace-cross
摘要:基于体绘制的神经隐式重建已被证明在恢复密集的3D表面方面非常有效。然而,同时恢复细致的几何形状并在具有不同特征的区域之间保持平滑性是具有挑战性的。为了解决这个问题,以往的方法通常使用几何先验,这些先验往往受到先验模型性能的限制。在本文中,我们提出了ND-SDF,它学习一个法向偏移场来表示场景法线与先验法线之间的角度偏差。与以往方法在所有样本上均匀应用几何先验导致显著的准确度偏差不同,我们提出的方法可以根据样本的具体特征动态学习和适应样本的使用方式,从而提高模型的准确性和效果。我们的方法不仅能够获得光滑的弱纹理区域,如墙壁和地面,还能保留复杂结构的几何细节。此外,我们引入了一种基于偏转角的新型光线采样策略,以促进无偏体绘制过程,这极大地提高了精细表面的质量和准确度,特别是在薄结构上。在各种具有挑战性的数据集上的一致改进证明了我们方法的优越性。
arXiv:2408.02349v4 公告类型: replace-cross
摘要:骨关节炎(OA)是最常见的 musculoskeletal 疾病,膝骨关节炎(KOA)是导致残疾的主要原因之一,并且会给经济带来显著负担。预测 KOA 进展对于改善患者预后、优化医疗资源、研究疾病和开发新疗法至关重要。尤其是后者,需要理解疾病进展以便在正确的时间收集最有信息价值的数据。然而,现有的方法受限于它们的静态性质以及对单一关节的集中研究,导致预测性能和下游利用不佳。我们的研究提出了一种新方法,利用一种新颖的主动传感(AS)方法,以强化学习(RL)为动力,可以动态地监测患有 KOA 的患者,而不是单一的关节。我们的核心思想是直接优化下游任务,通过训练一个代理来最大化信息数据收集并最小化总体成本。基于 RL 的方法利用了专门设计的奖励函数来跨多个身体部位监测疾病进展,采用了多模态深度学习,并且在测试过程中不需要人工输入。广泛的数值实验表明,我们的方法在当前最先进的模型中表现出色,为下一代 KOA 临床试验铺平了道路。
arXiv:2407.14931v3 公告类型: 更改交叉引用
摘要:多智能体强化学习(MARL)在各种环境中解决具有挑战性的合作和竞争多智能体问题方面最近取得了显著成就,通常涉及少量智能体和完全可观测性。此外,许多传统的基于经典非学习方法(例如:启发式搜索)来处理的机器人相关任务,如多机器人路径规划,现在被建议使用基于学习或混合方法来解决。然而,在此领域,由于缺乏一种支持学习和评估的统一框架,要进行公平的比较,无论是经典方法、基于学习的方法还是混合方法之间,仍然非常困难,甚至不可能。为了解决这一问题,我们引入了 POGEMA,这是一个全面的工具包,包括快速学习环境、问题实例生成器、预定义问题实例集合、可视化工具以及自动化评估的基准测试工具。我们也引入并定义了一个评估协议,该协议基于主要评估指标(如成功率和路径长度)计算了一系列与领域相关的度量标准,从而实现公平的多折比较。该比较涉及多种最先进的 MARL、基于搜索和混合方法的结果被呈现了出来。
arXiv:2407.12843v5 宣告类型: 替换-交叉
摘要:准确的营养估算有助于人们做出知情的饮食选择,并且在预防严重健康并发症中至关重要。我们提出了 NutriBench,这是首个公开的自然语言餐食描述营养基准。NutriBench 包含 11,857 个来自全球实际饮食摄入数据的餐食描述。数据经过人工验证,并标注了宏营养素标签,包括碳水化合物、蛋白质、脂肪和热量。我们在碳水化合物估算任务上对 NutriBench 进行了广泛评估,测试了包括 GPT-4o、Llama3.1、Qwen2、Gemma2 和 OpenBioLLM 模型在内的十二种领先的大语言模型(LLMs),使用了标准的 Chain-of-Thought 和检索增强生成策略。此外,我们对专业营养师进行了研究,发现大语言模型可以提供可比但显著更快的估算。最后,我们通过模拟碳水化合物预测对糖尿病患者血糖水平的影响,进行了现实世界的风险评估。我们的工作突显了使用大语言模型进行营养估算的机会和挑战,展示了它们对专业人员和普通人的潜在帮助,以改善健康结果。我们的基准数据可在以下网址获得:https://mehak126.github.io/nutribench.html
arXiv:2407.09550v2 公告类型: replace-cross
摘要: 本文使用CAPM(Convex Adversarial Polytope for Maxpool-based CNN)来提高在有界范数对抗性扰动下一般用途的基于最大池化的卷积神经网络(CNN)的验证边界。最大池化函数被分解为一系列ReLU函数,以此将凸松弛技术扩展到最大池化函数中,从而可以通过对偶网络高效地计算验证边界。实验结果表明,该技术能够提供基于最大池化的CNN的最佳验证精度,并且涉及的计算成本远低于当前的验证方法,如DeepZ、DeepPoly和PRIMA。该方法还适用于大规模的CNN,而此前的研究表明,对于大规模的CNN,大部分验证方法往往代价高昂、难以实施。在某些情况下,CAPM相比PRIMA/DeepPoly/DeepZ,速度分别是其40倍、20倍或两倍,并且提供的验证精度显著更高(CAPM为98% vs. PRIMA 76%/DeepPoly 73%/DeepZ 8%)。此外,我们还展示了该算法的时间复杂度为$O(W^2NK)$,其中$W$是神经网络的最大宽度,$N$是神经元的数量,而$K$是最大池化层核的大小。
arXiv:2407.05712v3 Announce Type: replace-cross
摘要:现有的神经头像方法在肖像动画的画质和动作范围方面取得了显著进展。然而,这些方法忽略了计算开销,并且据我们所知,没有一种方法是设计用于在移动设备上运行的。本文介绍了MobilePortrait,一种轻量级的一次性神经头像方法,通过将外部知识整合到动作建模和图像合成中,减少学习复杂性,从而在移动设备上实现实时推理。具体而言,我们引入了一种显性关键点和隐式关键点的混合表示,以实现精确的动作建模,并使用预计算的视觉特征来增强前景和背景的合成。借助这两种关键设计,并使用简单的U-Nets作为骨干网络,我们的方法在计算需求上少于十分之一,并且已在移动设备上验证可达到超过100 FPS的速度,并支持视频和音频驱动的输入。