arXiv:2501.18816v1 类型:交叉学科
摘要:虽然为了解决规划任务而设计的系统在这一领域远超大语言模型(LLMs),但它们通常会丢弃任务描述中嵌入的丰富语义信息。相比之下,LLMs 在广泛的主题上具备参数化的知识,这使它们能够利用规划任务的自然语言描述来解决这些问题。然而,当前在这个方向上的研究在生成正确且可执行的计划时面临着挑战。此外,这些方法依赖于LLMs以中间语言生成解决方案,该解决方案必须转换为规划任务的表示语言。我们提出了一种新的规划方法,该方法通过将LLMs的输出用作Hill-Climbing搜索的启发式方法来利用LLMs的参数化知识。该方法进一步通过提示LLMs生成解决方案估算值来引导搜索。我们的方法在通用家庭环境中的任务成功率方面比类似系统高出22个百分点,而且生成的计划始终是可执行的。所有动作都以原始表示进行编码,这表明可以通过避免中间语言来实现强劲的结果,从而消除了翻译步骤的需要。
arXiv:2501.18815v1 交叉类型
摘要:我们开发了一种基于生成性补丁的3D图像注册模型,可以注册一种名为组织透明化的生物化学过程中获得的极高分辨率图像。组织透明化过程去除组织中的脂质和脂肪,使其变得更加透明。当使用散射光片荧光显微镜对透明组织进行成像时,所得图像可以清晰地看到组织内部的细胞活动和动态。因此,这些图像富含细胞信息,故其分辨率非常高(例如2560x2160x676)。以如此高分辨率分析图像对任何图像分析流水线来说都是一项艰巨的任务。图像注册是图像分析流水线中的一个常见步骤,当需要比较图像时会用到。传统图像注册方法无法注册此类高分辨率的图像。在本文中,我们通过提出一种名为InvGAN的基于补丁的生成网络解决了这一高分辨率图像注册问题。我们提出的方法可以注册非常高的分辨率的组织透明化图像。本文中所使用的组织透明化数据集来源于一种名为CUBIC的组织透明化协议。我们不仅与传统图像注册方法,还与其他基于深度学习的注册方法进行了比较。使用了两种不同版本的CUBIC数据集,分别代表两种不同的分辨率,25%和100%。在两种不同分辨率下的实验清楚地展示了分辨率对注册质量的影响。在25%分辨率下,我们的方法在短时间内(大约7分钟)获得了可比拟的注册精度。而在100%分辨率下,大多数传统注册方法均无法实现注册,仅Elastix注册工具可以。使用Elastix注册需要28小时,而提出的InvGAN只需要10分钟。
arXiv:2501.18801v1 类型: cross
摘要:图像动画已经成为多模态研究的一个有前景的领域,重点关注从参考图像生成视频。尽管先前的工作主要强调通过文本和音乐生成通用视频,但以音乐驱动的舞蹈视频生成仍然未被广泛探索。在这篇文章中,我们介绍了MuseDance,这是一种创新的端到端模型,能够使用音乐和文本输入对参考图像进行动画处理。这种双输入使MuseDance能够生成符合文本描述,并且角色动作与音乐同步的个性化视频。不同于现有的方法,MuseDance不需要复杂的动作指导输入,例如姿态或深度序列,从而使得不同专业水平的用户都能够进行灵活且富有创意的视频生成。为了推进该领域的研究,我们提供了一个新的多模态数据集,其中包括2,904个舞蹈视频及其对应的背景音乐和文本描述。我们的方法利用扩散方法实现了稳健的推广性、精确的控制和时间一致性,为音乐驱动的图像动画任务设定了新的基准。
arXiv:2501.18797v1 类型: 交叉
摘要:组合能力——能够从有限的手段中生成众多变体——被认为是在强大泛化中起作用的基础。然而,组合泛化仍然是深度学习中的一个关键挑战。一种广泛持有的假设是,学习解耦(因子化)表示自然支持这种外推。然而,实验证据相互矛盾,许多生成模型在识别和组合因子以生成分布外(OOD)样本方面均未表现出色。在这项工作中,我们探讨了一个受控的2D高斯“凸起”生成任务,表明当使用部分数据进行训练时,标准生成架构在OOD区域会失败,即使提供了完全解耦的$(x, y)$坐标,这些坐标在后续层中重新排列。通过检查模型学习到的核和流形几何,我们表明这种失败反映了生成策略中的“记忆”策略,即通过叠加训练数据的超空间,而不是通过结合真正分解的特征。我们展示了通过架构修改或精选训练数据,在整个维度表示(像素)空间中生成解耦表示的模型可以高度高效且有效,学习在OOD区域组合。这些发现强调,抽象表示中的分解/解耦表示瓶颈是不足的:模型必须在表示空间中积极维护或诱导分解,才能实现稳健的组合泛化。
arXiv:2501.18794v1 宣告类型:交叉
摘要:由于患者数据有限和基因多样性,罕见疾病诊断极具挑战性。尽管变体优先排序方面取得了进展,但仍有许多病例未被诊断出来。虽然大型语言模型(LLMs)在医学考试中表现良好,但它们在诊断罕见遗传疾病方面的有效性尚未得到评估。为了识别致病基因,我们对各种LLMs进行了基因优先排序的基准测试。通过多智能体和人类表型 ontology(HPO)分类,我们根据表型和可解性级别对患者进行了分类。随着基因集合的增大,LLM的性能逐渐下降,因此我们采用了分而治之的策略将任务划分为更小的部分。在基准测试中,GPT-4 超过了其他LLMs,实现了近30%的准确率,在排序致病基因方面正确度较高。多智能体和HPO方法有助于区分明确解决的情况和具有挑战性的病例,突显了已知基因-表型关联和表型特异性的的重要性。我们发现,具有特定表型或明确关联的病例更有可能被准确解决。然而,我们观察到对已研究充分的基因的偏见和输入顺序的敏感性,这阻碍了基因优先排序。我们的分而治之策略通过克服这些偏见提高了准确性。通过利用HPO分类、新颖的多智能体技术以及我们的LLM策略,我们相较于基线评估提高了致病基因识别的准确性。该方法简化了罕见疾病的诊断、促进了未解病例的重新分析,并加速了基因发现,支持了针对诊断和治疗的靶向开发。
arXiv:2501.18793v1 类型: cross
摘要: 变压器已经在众多任务中实现了最先进的性能。在本文中,我们提出了一种变压器的连续时间形式化方法。具体而言,我们考虑一个动力系统,其主导方程由变压器块参数化。我们利用最优运输理论来正则化训练问题,这增强了训练的稳定性并提高了所得模型的泛化能力。此外,我们在理论上证明了这种正则化是必要的,因为它促进了解的唯一性和正则性。我们的模型具有灵活性,几乎可以采用任何现有的变压器架构来构建动力系统,只需对现有代码进行少量修改。我们在自然语言处理、图像分类和点云分类激励的任务上进行了大量的数值实验。我们的实验结果表明,所提出的方法改进了其离散版本,并优于相关比较模型。
arXiv:2501.18771v1 交叉公告类型:cross
摘要:数据污染——评估示例意外地进入了预训练数据中——可能会削弱评估基准的有效性。在本文中,我们对在机器翻译任务中1B和8B规模的语言模型中数据污染的影响进行了严谨的分析。从一个精心去除非污染的训练-测试拆分开始,我们系统地在各个阶段、不同规模和数据格式中引入污染,以隔离其影响并衡量其对性能指标的影响。我们的实验揭示,源语言和目标语言的双重污染大大提高了BLEU得分,8B模型的这种提高比1B模型大2.5倍(最高可达30个BLEU分数)。相比之下,仅源语言和仅目标语言的污染通常会产生较小且不一致的高估。最后,我们研究了污染样本的时间分布和频率如何影响不同数据资源程度的语言中性能高估的情况。
arXiv:2501.18768v1 宣告类型:交叉
摘要:离线模型导向优化(MBO)的目标是在仅给定离线数据集的情况下,提出最大化奖励函数的新设计方案。然而,一个重要的要求是还需提出一个多样化的最终候选集,以捕捉许多最优和近似最优的设计配置。我们提出了一种新的方法——对抗模型导向优化中的多样性(DynAMO),将设计多样性作为一个显式目标引入到任何MBO问题中。我们的关键洞察是将多样性形式化为一种分布匹配问题,其中生成的设计的分布捕捉了离线数据集内部固有的多样性。广泛跨越多个科学领域的实验表明,DynAMO 可以与常见的优化方法结合使用,显著提高所提出设计方案的多样性,同时仍能发现高质量的候选方案。
arXiv:2501.18766v1 交叉公告类型
摘要:数字舞台的迅速发展极大地加剧了假数据的分散,侵蚀了社会中的确定性和判断力,尤其是在孟加拉语使用者社区中。我们对该关键问题的关注通过提出一种有趣的战略得以体现,该战略利用了深度学习创新,尤其是门控重复单元(GRU),来识别孟加拉方言中的假新闻。我们提出的策略包含了详细的信息预处理,包括词干化、分词和通过过采样处理不规则性。这产生了一个包含58,478段文本的数据集。我们基于GRU(门控重复单元)创建了一个示例,其执行效果显著,精度率高达94%。该研究对数据规划方法、模型选择、培训和评估其性能进行了详尽阐述。模型的性能通过精确度、召回率、F1分数和准确性等可靠指标进行了评估。该工作的贡献包括在孟加拉语中建立一个大型假新闻数据集以及一个优于其他孟加拉语假新闻定位模型的演示。
arXiv:2501.18741v1 交叉公告类型
摘要:在健康研究中,小数据集很常见。然而,当训练数据集较小的时候,机器学习模型的一般化性能不佳。为了解决这个问题,数据增强是一种解决方案。数据增强增加了样本大小,并被视为一种增加数据多样性的方式,从而通过增加数据集的多样性使得模型在未见过的数据上表现得更好。我们发现,对于以下类型的数据集,数据增强可以提高预后性能:观测样本较少,基线AUC较小,类别变量的基数较高,以及结果变量更平衡。没有一种特定的生成模型始终优于其他模型。我们开发了一种决策支持模型,可以帮助分析人员判断数据增强是否有助于提升模型性能。对于七个小型应用数据集,增强现有数据后的AUC增幅从4.31%(AUC从0.71到0.75)到43.23%(AUC从0.51到0.73),平均相对提升15.55%,这表明数据增强对小型数据集的影响非同小可(p=0.0078)。增强后的AUC高于仅通过重采样实现的AUC(p=0.016)。增强后的数据集多样性高于重采样后的数据集多样性(p=0.046)。