arXiv:2503.18395v2 Announce Type: replace-cross
摘要:搜索引擎推荐系统的两大主要任务是搜索相关匹配和点击率(CTR)预测——前者专注于为用户查询寻找相关项目,而后者则预测哪些项目更能匹配用户兴趣。以往研究通常分别开发两个模型来预测CTR和搜索相关性,然后根据两个输出的融合对候选项目进行排名。然而,这种分而治之的范式在不同模型之间造成了不一致。同时,搜索相关性模型主要集中在客观文本匹配的程度上,而忽略了不同用户之间的个性化差异,导致模型性能受限。为了解决这些问题,我们提出了一种统一的个性化搜索相关匹配和CTR预测融合模型(PRECTR)。具体而言,基于条件概率融合机制,PRECTR将CTR预测和搜索相关匹配整合到一个框架中,以加强两个模块之间的交互和一致性。然而,直接优化CTR二元分类损失可能会给融合模型的收敛带来挑战,并且可能无限期地促进高CTR项目的曝光,不论它们的搜索相关性如何。因此,我们进一步引入了两阶段训练和语义一致性正则化来加快模型的收敛速度并抑制不相关项目的推荐。最后,考虑到不同用户可能有不同的相关性偏好,我们通过分析相似查询的过去用户偏好来评估当前用户的偏好,并相应地调整不同候选项目的激励措施。在我们的生产数据集和在线A/B测试上的广泛实验结果证明了我们提出的PRECTR方法的有效性和优越性。
arXiv:2503.18227v3 通告类型: 替换-交叉
摘要: Segment Anything Model (SAM) 展现了强大的零样本能力,但在应用于医学图像分割时,其准确性和鲁棒性显著下降。现有方法通过模态融合来解决这一问题,将文本和图像信息结合起来,提供更多详细的先验信息。在本研究中,我们认为文本的精细度和领域差距会影响先验信息的准确性。此外,图像中的高层抽象语义与像素级边界细节之间的差异可导致融合过程中引入噪声。为解决这一问题,我们提出了 Prior-Guided SAM (PG-SAM),该方法使用细粒度的专业医学知识来实现更好的模态对齐。我们方法的核心在于,通过细粒度医学LLM中的文本有效地解决领域差距问题,同时在模态对齐后还增强了先验信息的质量,确保更准确的分割。此外,我们的解码器通过多层特征融合和迭代掩码优化操作来增强模型的表达能力,支持未提示学习。我们还提出了一种统一的管道,可以有效地为SAM提供高质量的语义信息。在Synapse数据集上的广泛实验表明,提出的PG-SAM达到了最先进的性能。我们的代码可以在 https://github.com/logan-0623/PG-SAM 获取。
arXiv:2503.17125v3 Announce Type: replace-cross
摘要:深度强化学习(DRL)在机器人控制方面表现出强大的性能,但仍对离分布(OOD)状态敏感,经常导致不可靠的行为和任务失败。虽然以前的方法主要集中在最小化或防止OOD状态的发生,但它们在遇到此类状态后的大规模恢复方面几乎未予关注。虽然最新的研究试图通过引导代理返回到归一化状态来解决这一问题,但它们依赖不确定性估计,这阻碍了在复杂环境中的可扩展性。为克服这一局限,我们引入了《语言模型用于离分布恢复》(LaMOuR),它能够在不依赖不确定性估计的情况下实现恢复学习。LaMOuR生成密集的奖励编码,引导代理返回一个能够成功执行其原始任务的状态,利用LVLM在图像描述、逻辑推理和代码生成方面的能力。实验结果表明,LaMOuR显著提高了在多种移动任务中的恢复效率,并且能够有效地推广到包括类人行走和移动操作等复杂环境,现有方法在这些环境中表现不佳。相关代码和补充材料可在 https://lamour-rl.github.io/ 获取。
arXiv:2503.16974v2 宣布类型: 交叉替换
摘要:本研究首次提供了对大型语言模型(LLM)在金融和会计研究中输出一致性和可重复性进行全面评估的结果。我们通过广泛的实验评估了在给定相同输入的情况下,LLM 如何一致地生成输出。这些实验涉及五个常见任务的 50 次独立运行:分类、情感分析、摘要、文本生成和预测。使用三个 OpenAI 模型(GPT-3.5-turbo、GPT-4o-mini 和 GPT-4o),我们生成了超过 340 万条来自多样的财务来源文本和数据的输出,涵盖了管理讨论与分析 (MD&A)、联邦公开市场委员会 (FOMC) 陈述、财经新闻文章、收益电话会议记录和财务报告。研究发现,虽然一致性存在但具有任务依赖性,二元分类和情感分析达到了近乎完美的可重复性,而复杂任务则显示更大的变异性。更高级的模型并未一致地展示出更好的一致性和可重复性,而是出现了特定任务的模式。LLM 在一致性方面显著优于专家人工标注者,并且即使在专家严重不同意的情况下,也保持了高一致率。我们进一步发现,在 3-5 次运行中简单的聚合策略显著提高了一致性。我们还发现,在使用新模型时,聚合可能为情感分析带来额外的准确性改进。模拟分析表明,尽管 LLM 输出存在可量化的不一致性,但下游统计推断仍然表现出惊人的稳健性。这些发现解决了我们所称的“G-黑客”问题,即在多个生成性AI运行中选择性报告有利结果,通过证明这种风险在金融和会计任务中相对较低,从而解决相关担忧。
arXiv:2503.16973v2 通知类型: replace-cross
摘要:人类动作-反应合成是建模因果人类交互的基本挑战之一,对于从虚拟现实到社会机器人等应用起着关键作用。虽然基于扩散的模型展示了有前景的性能,但它们在交互合成方面存在两个关键限制:依赖于复杂的声音到反应生成器以及复杂的条件机制,以及生成运动中频繁的物理违反。为了解决这些问题,我们提出了一种新的框架——动作-反应流匹配(ARFlow),该框架直接建立动作到反应的映射,消除了复杂条件机制的需要。我们的方法引入了两个关键创新:一种x1预测方法,直接输出人体运动而不是速度场,从而能够明确施加约束;以及一种无需训练、基于梯度的物理引导机制,该机制有效地防止了在采样过程中出现身体穿透伪像。在NTU120和Chi3D数据集上的广泛实验表明,ARFlow 不仅在弗雷歇伦琴距离和运动多样性方面超越了现有方法,还通过我们新提出的交集体积和交集频次度量显著减少了身体碰撞。
arXiv:2503.16302v2 通知类型: 更换交叉引用
摘要:通过所谓的“原生”3D扩散的发展,3D形状生成取得了巨大的进展,特别是在Vecset Diffusion Model (VDM)方面。尽管近期的进展在生成高分辨率3D形状方面显示出有希望的结果,但VDM仍然难以实现高速生成。这些挑战不仅源于加速扩散采样的困难,还源于VDM中的VAE解码,这些领域在以前的研究中尚未得到充分探索。为了解决这些挑战,我们提出了FlashVDM,这是一个系统框架,用于加速VDM中的VAE和DiT。对于DiT,FlashVDM使得通过最少5个推理步骤就能实现灵活的扩散采样,且质量相当,这得益于我们新引入的分阶段流蒸馏对一致性蒸馏的稳定。对于VAE,我们引入了一个闪电vecset解码器,配备有自适应KV选择、分层体积解码以及高效网络设计。通过利用vecset的局部性和体积中形状表面的稀疏性,我们的解码器极大地降低了FLOPs,从而最小化了整体解码开销。我们将FlashVDM应用于Hunyuan3D-2,得到Hunyuan3D-2 Turbo。通过系统性的评估,我们展示了我们的模型显著优于现有的快速3D生成方法,在重建上减少了超过45倍的推理时间,在生成上减少了32倍的推理时间,同时达到了与最先进的方法相当的性能。代码和模型可在https://github.com/Tencent/FlashVDM获得。
arXiv:2503.14754v2 宣告类型: replace-cross
摘要:来自Street View或仪表盘摄像头收集的街道场景数据集为检测街道洪水等城市物体和事件提供了有望的方法。然而,使用这些数据集的主要挑战在于其缺乏可靠标签:事件类型繁多,许多类型发生的频率很低,而且缺乏事件发生位置的真实度量。在此,我们提出了一种克服这一困难的方法——BayFlood。首先,我们使用预训练的视觉-语言模型(VLM)对事件发生的地点进行零样本分类。其次,我们在VLM分类结果上拟合一个空间贝叶斯模型。零样本方法避免了需要标注大量训练集的需求,而贝叶斯模型则在城市环境中提供了充分的质量标准,提供了不确定性原则性衡量、跨地点平滑处理以及外部数据如雨洪积聚区的整合。我们全面验证了这种两阶段方法,结果表明VLM在多个城市和时间段内提供了强大的零样本洪水信号,贝叶斯模型提高了相对于基准方法的外部样本预测能力,我们推断出的洪水风险与已知的风险外部预测因子相关。在验证了我们的方法后,我们展示了它可以用于改进城市洪水检测:我们的分析揭示了113,738位被现有方法忽略的高洪水风险人群,并识别出现有方法中的人口统计学偏见,同时建议了新的洪水传感器的位置。更广泛地说,我们的结果展示了如何通过贝叶斯建模来零样本LM注释代表了一种有前景的范式,因为这种方法避免了收集大型标注数据集的需求,利用了基础模型的力量,同时提供了贝叶斯模型的表达性和不确定性量化。
arXiv:2503.12843v3 宣布类型: 替换交叉
摘要:基于地理空间的栅格数据,例如由基于卫星的成像系统在不同时间和光谱带收集的数据,具有广泛高影响应用的巨大潜力。这种潜力源于多个通道和传感模态的时空上下文化丰富的信息。最近的研究已经将现有的自监督学习方法应用于此类地理空间数据。然而,这些方法在可扩展的模型架构方面存在不足,当面对越来越多的通道和模态时导致灵活性差和计算效率低下。为了解决这些问题,我们引入了 LESS 有效的空间-光谱视觉变换器,并提出了三个关键创新:i) LESS 注意力块,通过 Kronecker 积近似高维的空间-光谱注意力,该积包括低维空间注意力和光谱注意力成分;ii) 连续的位置-通道嵌入层,保留每个空间-光谱块的连续性和物理特性;以及 iii) 感知领域掩码,在约束注意力仅邻近块时利用局部空间依赖性。为了评估所提出的创新,我们构建了 GFM-Bench,作为此类地理空间栅格数据的综合基准。我们使用集成了位置和通道掩码策略的超光谱掩蔽自编码框架预训练了 LESS ViT。实验结果表明,我们的方法在计算效率更高的情况下与最先进的多模态地理空间基础模型具有竞争力,并且在跨卫星泛化任务中表现更优。我们框架的灵活性和可扩展性使其成为未来涉及广泛模态和渠道的地理空间数据分析任务的一个有前途的方向。
arXiv:2503.11339v2 宣告类型: replace-cross
摘要:不确定性量化是强化学习和深度学习的关键方面,具有广泛的应用,从有效的探索和稳定的离线强化学习到医学诊断中的异常检测。然而,现代神经网络的规模使得许多理论上具有充分动机的方法,如完全贝叶斯推断变得复杂。近似方法,如深集成模型,可以提供可靠的不确定性估计,但仍具有高昂的计算成本。在本文中,我们提出了一种新颖的方法——上下文相似性蒸馏,该方法可以通过单一模型显式估计深神经网络集成的方差,而无需事先学习或评估这样的集成。我们的方法基于宽神经网络由神经切线核所治理的学习动态,从而推导出无限集成预测方差的有效近似。具体而言,我们将集成方差的计算重新解释为一个以核相似性为目标的监督回归问题。由此产生的模型可以在推理时仅通过一次前向传播来估计预测方差,并且可以利用未标记的目标域数据或数据增强来改进其不确定性估计。我们跨不同分布外检测基准和稀疏奖励强化学习环境中 empirically 检验证了我们的方法。我们发现,我们的单一模型方法在性能上与基于集成的方法竞争,有时甚至更优,并且可作为有效探索的可靠信号。我们认为,这些结果将上下文相似性蒸馏定位为强化学习和一般深度学习中不确定性量化的一个原则性和可扩展的替代方案。
arXiv:2503.10927v2 公告类型:替换交叉
摘要:虽然大型语言模型(LLMs)在自然语言处理方面取得了显著进展,但将它们与人类偏好对齐仍然是一项开放性的挑战。尽管当前的对齐方法主要依赖于显式反馈,但阅读过程中的眼动追踪(ET)数据提供了有关实时认知处理的见解。在本文中,我们介绍了OASST-ETC,这是一个新颖的眼动追踪语料库,该语料库记录了24名参与者在评估OASST1数据集中LLM生成的回应时的阅读模式。我们的分析揭示了偏好回应与非偏好回应之间不同的阅读模式,并将这些模式与合成的眼动追踪数据进行了比较。此外,我们还研究了人类阅读度量与各种基于变换器模型的注意力模式之间的相关性,发现偏好回应具有更强的相关性。本文介绍了研究LLM评估中人类认知处理的独特资源,并建议将眼动追踪数据纳入对齐方法中的潜在方向。数据集和分析代码均已公开。