arXiv:2504.01016v1 交叉类型: cross
摘要: 尽管在视频深度估计方面取得了显著进步,现有的方法在通过仿射不变预测实现几何保真度方面仍存在内在限制,这限制了它们在重建及其他基于度量的下游任务中的应用。我们提出了一种名为GeometryCrafter的新框架,该框架可以从开放世界的视频中恢复具有时间连贯性的高保真点图序列,从而实现精确的3D/4D重建、相机参数估计及其他基于深度的应用。我们方法的核心是一个点图变分自编码器(VAE),它学习一个与视频潜在分布无关的潜在空间,以有效进行点图编码和解码。利用VAE,我们训练了一个视频扩散模型,以在给定输入视频的情况下建模点图序列的分布。在多种数据集上的广泛评估表明,GeometryCrafter实现了最先进的3D准确性、时间一致性及泛化能力。
arXiv:2504.01008v1 交叉类型: cross
摘要: 我们介绍了一种名为IntrinsiX的新方法,该方法可以从文本描述生成高质量的内在图像。与现有的文本到图像模型不同,这些模型的输出包含固定的场景照明,我们的方法预测基于物理的渲染(PBR)图。这使得生成的输出可以在核心图形应用中用于内容创建场景,这些场景支持重新照明、编辑和纹理生成任务。为了训练我们的生成器,我们利用了强大的图像先验,并为每个PBR材料成分(反射率、粗糙度、金属度、法线)预训练了单独的模型。然后,我们通过一种新的跨内在注意力形式将这些模型进行对齐,这种形式以一致性的方式连接关键特征和值特征。这使我们能够在每个输出模态之间交换信息,并获得语义上一致的PBR预测。为了为每个内在成分提供支持,我们提出了一个渲染损失,该损失提供图像领域信号来约束模型,从而有助于在输出BRDF属性中获得锐利的细节。我们的结果显示了详细且具有强大泛化能力的内在生成,与现有的使用生成图像进行内在图像分解方法相比,显著胜出。最后,我们展示了重新照明、编辑和文本条件下的房间尺度PBR纹理生成等一系列应用。
arXiv:2504.01005v1 类型: cross
摘要: 扩展测试时计算已成为增强大规模语言模型 (LLM) 推理能力的关键策略,特别是在数学问题解决等任务中。一种传统的做法是自一致性 (SC),它为一个问题生成多个解决方案,并通过众数投票选择最常见的答案。另一种常见方法是使用评分模型(验证器)为每个解决方案打分,然后选择最佳的。最近在生成奖励模型 (GenRM) 方面的进步将验证重新定义为下一个词预测任务,从而沿新的维度扩展推理时的计算量。具体来说,GenRM 为每个解决方案生成多个验证的思维链。在有限的推理计算预算下,这引入了一个根本性的权衡:是将预算用于通过 SC 扩展解决方案的数量,还是生成较少的解决方案并将计算资源分配给 GenRM 的验证?为了解决这个问题,我们在固定推理计算预算下评估 GenRM 对 SC 的效果。有趣的是,我们发现对于各种模型和数据集,在大多数实际推理计算预算下,SC 与 GenRM 相比更为计算高效。例如,GenRM 需要消耗最多 8 倍的推理计算量才能匹配 SC 的效果,并且需要显著更多的计算量才能超越它。此外,我们推导出了 GenRM 帕累托下的推理扩展定律,揭示了计算最优的推理倾向于比扩展验证次数更激进地扩展解决方案生成。我们的工作为优化测试时计算扩展提供了一种实用的指导,通过平衡解决方案生成和验证来实现。代码可在 https://github.com/nishadsinghi/sc-genrm-scaling 获取。
arXiv:2504.01002v1 宣告类型: 交叉
摘要:要完全理解大语言模型(LLM)的行为,需要我们理解其输入空间。如果这个输入空间与我们的假设不同,那么我们对LLM的理解和由此得出的结论很可能有误,不论其架构如何。在这里,我们通过实证和理论方法阐明了词嵌入的结构,LLM的输入领域。我们提出了一种一般化且可统计检验的模型,其中每个词的邻域分为明确的信号维度和噪声维度。
这个模型基于一类被称为纤维丛的流形的一般化,因此我们将我们的假设检验称为“纤维丛零假设”。未能拒绝零假设是无信息性的,但对于特定词拒绝零假设则表明该词具有统计学上显著的局部结构,因此对我们有重要意义。通过在几个开源LLM上运行我们的测试,每个LLM都具有独特的词嵌入,我们发现零假设经常被拒绝,这意味着词子空间不是纤维丛,也不是流形。由于我们的发现,当LLM接收到两个语义等价的提示,并且其中一个提示包含由我们的测试表明的词时,那么包含该词的提示很可能表现出更多的输出变异性,成比例于该词的局部信号维度。
arXiv:2504.01001v1 宣布类型: cross
摘要:随着语言模型的改进并能够执行更多跨模态的复杂任务,自动评估它们变得越来越具有挑战性。开发强大且鲁棒的任务特定自动评估指标变得愈加困难,而昂贵的人工标注测试集会更快达到饱和。一个令人信服的替代方案是设计可靠的方法来自动化测试数据的创建和评估,但之前的尝试要么依赖于现成的数据,要么仅专注于单个任务。我们提出了零样本基准测试(ZSB),这是一种利用语言模型进行合成测试数据生成和评估的框架,以创建适用于任何任务的高质量基准。ZSB 简单灵活:只需为数据生成创建一个提示,并为评估创建另一个提示;它可以扩展到收集真实数据成本高昂或不切实际的任务和语言;它对模型无特定要求,使随着模型改进能够创建越来越多具有挑战性的基准。为了评估该框架的有效性,我们为五个仅文本任务和一个多模态任务创建了基准:四种语言(英语、中文、法语和韩语)的通用能力、翻译以及英文的一般视觉语言能力。然后,我们对广泛的开放系统和封闭系统进行了排名。ZSB 的排名与人类排名之间的一致性很强,并且在广泛采用的标准基准上表现更佳。通过消融试验,我们发现可以使用开放模型创建强基准,并且裁判模型大小和数据集多样性是性能的关键驱动因素。我们发布了所有基准,并提供了可重现我们实验和生成新基准的代码。
arXiv:2504.00999v1 类型: cross
摘要:掩码图像建模(MIM)与向量量化(VQ)在自我监督预训练和图像生成方面取得了巨大成功。然而,现有的大多数方法在生成质量和表示学习及效率之间难以平衡共享潜在空间的权衡问题。为了推动这一范式的极限,我们提出了MergeVQ,将令牌合并技术整合到基于VQ的生成模型中,在统一架构中弥合了图像生成和视觉表示学习之间的差距。在预训练过程中,MergeVQ在编码器的自注意力块之后使用令牌合并模块解耦顶级语义与潜在空间,用于后续的Look-up Free Quantization(LFQ)和全局对齐,并通过解码器中的跨注意力恢复其精细细节以进行重构。至于第二阶段生成,我们引入了MergeAR,它进行KV缓存压缩以实现高效的按像素顺序预测。在ImageNet上的广泛实验验证了MergeVQ作为AR生成模型,在视觉表示学习和图像生成任务上均具有竞争力的表现,同时保持了有利的令牌效率和推理速度。代码和模型将在https://apexgen-x.github.io/MergeVQ获取。
arXiv:2504.00993v1 类型: cross
摘要: 医疗任务如诊断和治疗计划需要精细且复杂的推理,特别是在生命关键领域。与数学推理不同,医学推理要求细致、可验证的思想过程,以确保可靠性和准确性。然而,缺乏能够提供透明、逐步推理过程的数据集,用于验证和提升AI模型的医学推理能力。为了解决这一问题,我们引入了MedReason,这是一个大规模的高质量医学推理数据集,旨在使大型语言模型(LLMs)能够进行忠实且可解释的医学问题解决。我们利用结构化的医学知识图谱(KG)将临床问答对转换为逻辑推理链,即“思考路径”,这些路径通过相关KG实体追踪问题元素到答案之间的联系。每条路径都经过临床逻辑和基于证据的医学的一致性验证。我们的管道从7个医学数据集中生成多种医学问题的详细推理,结果产生了一个包含32,682个问题-答案对的数据集,每个问题-答案对都有详细的逐步解释。实验表明,使用我们数据集进行微调可以一致地提升医学问题解决能力,DeepSeek-Ditill-8B的提升高达7.7%。我们表现最好的模型MedReason-8B在临床基准测试MedBullets中比最先进的医学推理模型Huatuo-o1-8B高出4.2%。我们还邀请来自不同专科的医疗专业人士评估我们的数据集的质量,确保MedReason提供准确且连贯的医学推理。我们将数据、模型和代码公开提供。
arXiv:2504.00986v1 交叉公告类型:cross
摘要:自主实验室正在通过实现自动化和AI指导的实验来改变药物发现,但它们在协调复杂的工作流程、整合多样化的仪器和AI模型以及高效管理数据方面面临着挑战。Artificial 通过一个全面的协调和调度系统解决了这些问题,该系统统一了实验室运营、自动化工作流程,并整合了基于AI的决策。通过集成如NVIDIA BioNeMo这样的AI/ML模型,该模型促进了分子间相互作用的预测和生物分子分析,Artificial 提高了药物发现效率并加速了数据驱动的研究。通过实时协调仪器、机器人和人员,该平台简化了实验流程、增强了实验的可重复性,并推动了药物发现的进步。
arXiv:2504.00983v1 类型: cross
摘要: 我们引入了WorldScore基准测试,这是首个统一的生成世界基准测试。我们将生成世界分解为一系列带有显式相机路径布局规范的下一个场景生成任务,从而统一评估从3D和4D场景生成到视频生成模型的各种方法。WorldScore基准测试包含了一个精心策划的数据集,其中包括3,000个测试示例,涵盖了各种各样的世界:静态和动态,室内和室外,具象和风格化。WorldScore指标通过三个关键方面评估生成的世界:可控性、质量和动态性。通过对19个代表性模型的广泛评估,包括开源和闭源模型,我们揭示了每个模型类别中的关键见解和挑战。我们的数据集、评估代码和排行榜可以在https://haoyi-duan.github.io/WorldScore/找到。
arXiv:2504.00975v1 Announce Type: cross
摘要:本文深入探讨了无线通信的前沿领域,研究了三种变革性技术的协同整合:STAR-RIS、CoMP和NOMA。随着对更高数据速率、更优频谱效率以及更广覆盖范围的不断增长需求,尤其是在6G发展的不断演化过程中,本文研究了这些技术在未来无线网络中潜在的革命性作用。
本文分析了通过战略性部署STAR-RIS所能实现的性能提升,重点关注减轻小区间干扰、增强信号强度以及向小区边缘用户提供覆盖扩展。探讨了STAR-RIS元素的资源共用策略,以优化传输和反射功能。开发了在实际信道条件下评估STAR-RIS辅助CoMP-NOMA网络性能收益的分析框架,得出了诸如平均速率和中断概率等关键性能指标。此外,本文还探讨了在CoMP-NOMA网络中整合RIS的能源高效设计方案,提出了新颖的RIS配置和优化算法,以实现性能和能源消耗之间的平衡。此外,本文还研究了深度强化学习(DRL)技术在基于RIS的CoMP-NOMA网络中的智能和自适应优化应用,旨在最大化网络总速率并满足用户服务质量要求。通过全面研究这些技术和它们的协同潜力,本文为未来无线通信提供了宝贵见解,为开发更高效、可靠和可持续的网络铺平了道路,这些网络能够满足我们日益连接的世界的需求。