LLM2D

arXiv 论文列表

作者: Qixuan Li, Chao Wang, Zongjin He, Yan Peng
arXiv:2502.00708v1 宣告类型:交叉 摘要:在2D扩散先验的监督下,文本到3D资产生成已取得了显著的优化。然而,在处理组合场景时,现有方法遇到了几个挑战:1)无法确保组合场景布局符合物理定律;2)难以准确捕捉复杂场景描述中所描述的资产及其关系;3)依赖大规模语言模型(LLMs)的布局方法在自主资产生成方面能力有限。为避免这些妥协,我们提出了一个名为PhiP-G的新颖框架,该框架将生成技术与基于世界模型的布局指导无缝集成。利用基于LLM的智能体,PhiP-G分析复杂的场景描述以生成场景图,并结合一个多模态2D生成智能体和一个3D高斯生成方法进行目标资产创建。在布局阶段,PhiP-G采用具有粘附能力的物理池和一个视觉监督智能体,形成一个世界模型以进行布局预测和规划。广泛实验表明,PhiP-G显著提升了组合场景的生成质量和物理合理性。值得一提的是,PhiP-G在CLIP评分中达到了最先进的(SOTA)性能,在T$^3$Bench的生成质量评估中与领先方法持平,并将效率提高了24倍。
发布时间: 2/4/2025
查看原文
作者: Linglong Wu, Xuhao Shan, Ruiquan Ge, Ruoyu Liang, Chi Zhang, Yonghong Li, Ahmed Elazab, Huoling Luo, Yunbi Liu, Changmiao Wang
arXiv:2502.00695v1 交叉类型:公告 摘要:慢性肝病是全球性的健康挑战,准确的预后评估对于制定个性化治疗计划至关重要。最近的证据表明,将多模态数据(如计算机断层扫描成像、 radiomics 特征和临床信息)结合起来可以提供更全面的预后信息。然而,这些模态具有固有的异质性,合并额外的模态可能会加剧异质性数据融合的挑战。此外,现有的多模态融合方法往往难以适应更丰富的医学模态,这使得捕捉跨模态关系变得困难。为克服这些限制,我们提出了三模态交互慢性肝网络(TMI-CLNet)。具体来说,我们开发了内部模态聚合模块和三模态交叉注意力融合模块,前者旨在消除内部模态冗余,后者旨在提取跨模态信息。此外,我们设计了一个三模态特征融合损失函数,以在模态间对齐特征表示。在肝脏预后数据集上的广泛实验表明,我们的方法在现有最先进的单模态模型以及其他多模态技术中表现出显著的优越性。我们的代码可在 https://github.com/Mysterwll/liver.git 获取。
发布时间: 2/4/2025
查看原文
作者: Ella Barkan, Ibrahim Siddiqui, Kevin J. Cheng, Alex Golts, Yoel Shoshan, Jeffrey K. Weber, Yailin Campos Mota, Michal Ozery-Flato, Giuseppe A. Sautto
arXiv:2502.00694v1 交叉类型: 公告 摘要: 单克隆抗体 (mAbs) 是治疗自身免疫性疾病、传染病和癌症最常见的美国食品药品监督管理局 (FDA) 批准的治疗方式之一。然而,发现和开发治疗性抗体仍然是一个耗时且昂贵的过程。最近机器学习 (ML) 和人工智能 (AI) 的进步展示了在抗体发现和优化方面革命性的潜力。特别是,预测抗体生物学活性的模型可以实现基于计算的方法评估结合和功能性属性;这些模型可以优先考虑在昂贵且耗时的实验室测试程序中成功率较高的抗体。我们在这里探讨了一种用于预测针对流感 A 血凝素 (HA) 抗原的抗体结合和受体阻断活性的人工智能 (AI) 模型。我们的当前模型使用 MAMMAL 框架进行生物制品发现,仅使用序列信息预测抗体-抗原相互作用。为了评估模型的性能,我们根据各种数据拆分条件进行了测试,以模拟实际情景。 我们的模型在预测已知 HAs 上现有抗体的活性方面实现了 AUROC ≥ 0.91,在未知 HAs 上的 AUROC 为 0.9。对于新抗体活性预测,AUROC 为 0.73,且在对现有抗体相似性施加严格约束的情况下,进一步下降至 0.63-0.66。这些结果表明,基于 AI 的基础模型有可能通过减少对大量实验室测试的依赖并使抗体候选人的优先级安排更加高效来改变抗体设计。此外,我们的研究结果强调了为了提高预测模型的一般化能力,特别是对于新抗体开发,拥有多样性和全面的抗体数据集的重要性。
发布时间: 2/4/2025
查看原文
作者: Yuefan Cao, Xiaoyu Li, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song, Jiahao Zhang
arXiv:2502.00690v1 宣布类型:交叉 摘要:随着人工智能研究的影响和规模不断扩大,会议已实施提交限制以保持论文质量并减轻组织压力。在本研究中,我们探讨了在提交限制下桌面上拒绝系统公平性的问题,并揭示现有做法可能导致显著的不公平性。具体而言,我们正式定义了论文提交限制问题,并识别了一个关键困境:当作者人数超过三人时,仅基于过度提交而拒绝论文将不可避免地对无辜作者产生负面影响。因此,这个问题可能不公平地影响到早期职业生涯的研究人员,因为他们的提交可能因具有显著更高提交次数的合作作者而被不公平地惩罚,而提交论文数量众多的资深研究人员则面临较小的后果。为了解决这一问题,我们提出了一种基于优化的公平性感知桌面拒绝机制,并正式定义了两种公平性度量标准:个体公平性和群体公平性。我们证明了优化个体公平性是NP难问题,而可以通过线性规划有效地优化群体公平性。通过对案例研究的展示,我们证明了我们提出的系统在公平性方面优于现有方法,包括CVPR 2025所使用的方法,提供了更具有社会公正性的管理人工智能会议中过度提交的方法。
发布时间: 2/4/2025
查看原文
作者: Bo Chen, Chengyue Gong, Xiaoyu Li, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song, Mingda Wan
arXiv:2502.00688v1 交叉公告类型 摘要:一次性捷径扩散模型【Frans, Hafner, Levine and Abbeel, ICLR 2025】在视觉生成方面显示出潜力,但它们依赖于一阶轨迹监督,这在根本上是有限制的。捷径模型的简单只速度方法无法捕捉内在流形几何结构,导致轨迹不稳、几何对齐差以及不稳定性,特别是在高曲率区域更为明显。这些不足之处源自其无法建模中等时间依赖性或复杂分布特征,使其在稳健生成建模方面无能为力。在本文中,我们介绍了一种名为HOMO(高阶匹配的一次性捷径扩散模型)的革新框架,它利用高阶监督彻底改革了分布传输。通过引入加速度、冲击加速度以及其他更高级的参数,HOMO不仅纠正了捷径模型的缺陷,还实现了前所未有的平滑度、稳定性和几何精度。理论上,我们证明了HOMO的高阶监督确保了更优的近似准确性,超越了一阶方法。实验上,HOMO在复杂设置中表现优异,特别是在捷径模型难以处理的高曲率区域。我们的实验结果表明,HOMO提供了更平滑的轨迹和更好的分布对齐,为一次性生成模型设定了新的标准。
发布时间: 2/4/2025
查看原文
arXiv:2502.00684v1 类型: cross 摘要:深度强化学习(DRL)通过神经网络学习策略或值,成功地解决了许多复杂控制问题。然而,DRL引入的神经网络缺乏可解释性和透明性。当前的DRL解释方法大多将神经网络当作黑盒子处理,很少有方法深入探讨政策/值网络的内部机制。这种限制削弱了对代表政策的神经网络模型及其从中得出的解释的信任。在这项工作中,我们提出了一种新的基于概念的解释方法,可以在神经元层面为DRL模型提供细粒度的解释。我们的方法将原子概念形式化为状态空间上的二元函数,并通过逻辑运算构建复杂的概念。通过分析神经元激活与概念函数之间的对应关系,我们为政策/值网络中的个别神经元建立了可解释的解释。实验结果表明,我们的方法可以有效地识别出与人类理解相一致且忠实地反映了网络决策逻辑的有意义的概念,无论是在连续控制任务还是在离散决策环境中。
发布时间: 2/4/2025
查看原文
arXiv:2502.00682v1 交叉公告类型 摘要:生成式AI的进步促进了像副驾驶员和助手这样的AI驱动工具的发展,这些工具在数据分析期间提供更好的指导。然而,关于指导的研究尚未探讨被提供指导的来源的感受效用,以及这种来源对用户对于指导的感受和使用的影 响。我们探讨用户是否认为所有指导来源都平等,特别关注三种来源:(i)AI,(ii)人类专家,以及(iii)一组人类分析师。作为对照,我们考虑一个第四种来源(iv)未指明的指导,即不指明任何来源就提供指导,以隔离并比较特定来源指导的效果。我们设计了一个五条件被试间实验,每个条件对应一个指导来源,另外增加了一个(v)无指导条件,作为基线以评估任何类型的指导的影响。我们在一个自定义的数据准备和分析工具中进行研究,要求用户从一个陌生的数据集中选择相关属性来编制业务报告。根据分配给每个被试的条件,用户可以请求指导,系统随后以属性建议的形式提供指导。为了确保内部有效性,我们控制了不同来源条件下的指导质量。通过使用和感知的多种指标,我们对五个注册假设进行统计测试,并报告了额外分析的结果。我们发现,指导来源对用户很重要,但这并不符合既定智慧。例如,用户在分析的不同阶段使用指导的方式不同,包括对指导质量相似但表现出不同程度的后悔。值得注意的是,AI条件下的用户报告了更高的任务后好处和后悔感。
发布时间: 2/4/2025
查看原文
作者: Qika Lin, Zhen Peng, Kaize Shi, Kai He, Yiming Xu, Erik Cambria, Mengling Feng
arXiv:2502.00681v1 分类: cross 摘要:近年来,图表示学习领域取得了 rapid 的进步,连续嵌入方法成为主导范式。然而,这些方法在参数效率、可解释性和鲁棒性方面遇到了问题。因此,量化图表示学习(QGR)最近引起了越来越多的关注,它使用离散代码而不是传统的连续嵌入来表示图结构。由于其自然语言类似的表示形式,QGR 也具备将图结构无缝集成到大型语言模型(LLMs)中的能力。鉴于这个新兴范式尚处于初级阶段但有巨大的潜力,我们进行了这次全面的综述,旨在促进其未来快速的发展。我们首先介绍了通用量化方法的背景及其优点。此外,我们从量化策略、训练目标、独特设计、知识图谱量化和应用的角度,深入展示了当前的 QGR 研究。我们进一步探讨了编码依赖学习和与 LLMs 集成的策略。最后,我们进行了讨论并总结了未来方向,旨在提供 QGR 的全面图景并激发未来的研究。
发布时间: 2/4/2025
查看原文
arXiv:2502.00678v1 标题类型: cross 摘要:数据集污染,即评估数据集与预训练语料库重叠,会导致性能指标夸大数据表现,并削弱模型评估的可靠性。因此,量化数据集污染变得至关重要,以确保性能评估真正反映了模型在未见数据上的泛化能力,而不是依赖于记忆化的例子。为了解决这一问题,我们提出了一种名为内核发散评分(KDS)的新方法,该方法通过计算基准数据集微调前后样本嵌入的内核相似性矩阵之间的发散性来量化数据集污染。利用微调对未见过样例影响更大的洞见,KDS 提供了一种可靠的污染度量。通过在受控污染场景下的广泛实验,KDS 显示出与污染水平几乎完美的相关性,并超越了现有的基线方法。此外,我们进行了全面的消融研究,以分析关键设计选择的影响,提供对 KDS 组件及其有效性更深入的见解。这些消融研究强调了利用细粒度内核相关信息的重要性,并证实了所提出的框架在不同数据集和设置中的可靠性。
发布时间: 2/4/2025
查看原文
作者: Haodi Xu, Joshua Fan, Feng Tao, Lifen Jiang, Fengqi You, Benjamin Z. Houlton, Ying Sun, Carla P. Gomes, Yiqi Luo
arXiv:2502.00672v1 类别:交叉领域 摘要:大数据和人工智能(AI)的迅猛发展为增强我们对全球碳循环及其他生物地球化学过程的理解提供了前所未有的机会。然而,从大数据中提取机械知识依然是一项挑战。在这里,我们开发了一个生物地球化学启发神经网络(Biogeochemistry-Informed Neural Network, BINN),将向量化的基于过程的土壤碳循环模型(即社区陆地模型版本5,CLM5)无缝集成到神经网络(神经网络)结构中,以从大数据中研究控制土壤有机碳(SOC)储存的机制。BINN在参数恢复实验中从合成数据中检索生物地球化学参数值显示出高精度。我们使用BINN预测了美国本土地区25,925个观测到的SOC剖面中控制土壤碳循环的六个主要过程(或基于过程模型的组件),并与Tao等(2020;2023)采用基于贝叶斯推断的过程引导深度学习和数据驱动建模(PRODA)方法检索到的过程进行了比较。两种方法提取的过程空间模式一致性较好,平均相关系数为0.81,证实了BINN从大数据中检索机械知识的能力。此外,BINN中神经网络和基于过程模型的集成提高了50多倍的计算效率。我们得出结论认为,BINN是一种变革性工具,利用了AI和基于过程的建模的力量,促进了新的科学发现,同时提高了地球系统模型的可解释性和准确性。
发布时间: 2/4/2025
查看原文