arXiv 论文列表

作者: Mohammed Abdul Hafeez Khan, Samuel Morries Boddepalli, Siddhartha Bhattacharyya, Debasis Mitra

arXiv:2502.06632v1 宣告类型: cross 摘要: 准确分类和解剖定位对于有效的医疗诊断和研究至关重要，这可以通过深度学习技术高效地实现。然而，有限标注数据的可用性提出了一个重大挑战。为了解决这个问题，我们针对单光子发射计算机断层摄影术（SPECT）图像的少量样本分类和定位，分别采用了原型网络和传播重建网络（PRNet）。对于概念验证，我们使用了心区裁剪的2D切片图像。预训练的ResNet-18骨干网络的原型网络对心室、心肌和肝脏组织的训练准确率为96.67%，验证准确率为93.33%。针对2D成像的PRNet，使用了编码-解码结构和跳跃连接，训练损失为1.395，准确地重建了局部区域并捕获了空间关系。这些结果突显了在有限标记数据情况下，使用原型网络进行组织分类以及使用PRNet进行解剖标志点定位的潜力，为深度学习框架中的性能提升铺平了道路。

发布时间: 2/11/2025

查看原文

基于视觉-语言模型的人类动作识别齐性预测

作者: Bary Tim, Fuchs Cl\'ement, Macq Beno\^it

arXiv:2502.06631v1 宣告类型: cross 摘要: 人类在环(Human-In-The-Loop, HITL)框架在许多实际计算机视觉系统中至关重要，能够使人类操作者在人工智能辅助下做出知情决策。可靠保证真实标签包含概率的Conformal Predictions (CP) 近来作为HITL环境中有价值的工具得到了广泛关注。一个关键应用领域是视频监视，与人类动作识别(Human Action Recognition, HAR)紧密相关。本研究探讨了在最先进的利用预训练Vision-Language Models (VLMs)的HAR方法之上应用CP的应用。我们的研究发现，CP可以在不修改底层VLM的情况下显著减少候选类别的平均数量。然而，这些减少往往会导致具有长尾的分布。为了解决这一问题，我们介绍了一种方法，通过对VLMs的温度参数进行调整以最小化这些长尾，而无需额外的校准数据。我们的代码可在 GitHub 地址 https://github.com/tbary/CP4VLM 获取。

发布时间: 2/11/2025

查看原文

TripoSG：使用大规模校正流模型的高保真3D形状合成

作者: Yangguang Li, Zi-Xin Zou, Zexiang Liu, Dehu Wang, Yuan Liang, Zhipeng Yu, Xingchao Liu, Yuan-Chen Guo, Ding Liang, Wanli Ouyang, Yan-Pei Cao

arXiv:2502.06608v1 交叉类型公告摘要：近期在扩散技术方面的进步已使图像和视频生成达到了前所未有的高质量水平，显著加速了生成式AI的应用与部署。然而，3D形状生成技术目前仍落后于这一趋势，受限于3D数据规模的限制、3D数据处理的复杂性以及3D领域先进技巧探索的不足。目前的3D形状生成方法在输出质量、泛化能力和输入条件匹配方面面临着重大挑战。我们提出了TripoSG，这是一种新的简化形状扩散范式，能够生成与输入图像精确对应的高保真3D网格。具体来说，我们提出了：1）一种大规模正则化流变换器，通过使用大量高质量数据进行训练，实现了最先进的保真度；2）一种结合SDF、法线和eikonal损失的混合监督训练策略，提高了3D VAE的高保真3D重建性能；3）一个数据处理流程，生成了200万个高质量3D样本，突显了在训练3D生成模型时数据质量和数量的关键规则。通过全面的实验，我们验证了我们在新框架中每个组件的有效性。这些部分的无缝整合使得TripoSG在3D形状生成中达到了最先进的性能。生成的3D形状由于具有高分辨率能力，展现出显著增强的细节，并在与输入图像匹配的保真度方面表现出色。此外，TripoSG在从多种图像风格和内容生成3D模型方面显示出了改进的灵活性，展示了其强大的泛化能力。为了促进3D生成领域的进步与创新，我们将公开我们的模型。

发布时间: 2/11/2025

查看原文

遥感图像中的非法废物流氓检测：一个案例研究

作者: Federico Gibellini, Piero Fraternali, Giacomo Boracchi, Luca Morandini, Andrea Diecidue, Simona Malegori

arXiv:2502.06607v1 宣传类型: 横向摘要: 当前，环境犯罪已成为世界上第三大犯罪活动，同时对生态系统以及人类健康构成了威胁。在这一活动中相关的犯罪行为中，不合规的废物管理现在可以通过越来越普及且成本逐渐降低的高分辨率遥感图像更容易得到遏制，这些图像使得半自动地扫描领土以寻找非法垃圾填埋场成为可能。本文提出了一条由当地环境机构的专业人士合作开发的管线，利用遥感图像分类器来检测候选的非法倾倒场地。为了确定此类分类器的最佳配置，我们进行了广泛的一系列实验，并详细分析了各种图像特征和训练设置的影响。随后，当地环境机构参与了一个实验练习，将开发的分类器的输出融入了专家的日常工作，从而在手动照片解释方面节省了时间。最终，分类器在训练区域之外的一个位置运行取得了有价值的结果，这突显了所提出管线跨境适用性的潜力。

发布时间: 2/11/2025

查看原文

amortized 在上下文中的贝叶斯后验估计

作者: Sarthak Mittal, Niels Leif Bracher, Guillaume Lajoie, Priyank Jaini, Marcus Brubaker

arXiv:2502.06601v1 交叉类型: 摘要：贝叶斯推断提供了一种自然地将先验信念纳入并为假设空间赋予概率测度的方法。当前的解决方案依赖于马尔可夫链蒙特卡洛（MCMC）采样和变分推断（VI）等迭代规程，当有新的观察数据可用时，这些方法需要重新运行。通过条件估计进行的去初始化是缓解这种困难的一种可行策略，并已成为基于仿真推断、神经过程以及使用预训练模型的上下文方法背后的指导原则。在本文中，我们从不同的优化目标和结构选择的角度，对基于上下文的贝叶斯后验估计的方法进行了全面的对比分析。这些方法通过条件估计训练一个去初始化的估计器，在序列模型（如变换器）中以一组数据示例作为上下文进行后验参数推理。与语言模型不同，我们利用不变结构，因为真正的后验在上下文示例的顺序上是不变的。我们的实证研究包括对分布外任务的泛化、假设底层模型错误指定的情况，以及从仿真问题转移到真实问题。随后，它突显了对预测问题，尤其是在与变换器架构和规范化流结合使用时，逆KL估计器的优越性。

发布时间: 2/11/2025

查看原文

多语言图像字幕评估：CLIP模型能走多远？

作者: Gon\c{c}alo Gomes, Chrysoula Zerva, Bruno Martins

arXiv:2502.06600v1 交叉类型: cross 摘要: 评估图像描述，既考虑语言流畅性又考虑与视觉内容的语义对应性，已经取得了显著的努力。尽管如此，尽管有CLIPScore指标等进展，多语言描述评估仍然相对未被探索。本文提出了几种策略，并进行了广泛的实验，与评估多语言环境中的CLIPScore变体相关。为了解决缺乏多语言测试数据的问题，我们考虑了两种不同的策略：(1) 使用带有人工评价的高质量机器翻译数据集，以及 (2) 利用针对语义推理和推断的目标多语言数据集。我们的结果突显了微调的多语言模型在跨语言泛化以及处理复杂语言挑战方面的潜力。使用机器翻译数据的测试表明，多语言CLIPScore模型可以在不同语言中与人类评判保持高度相关性，而进一步使用原生多语言和跨文化数据的测试也证实了评估的高质量。

发布时间: 2/11/2025

查看原文

Hephaestus：通过持续预训练提升大型语言模型的基本代理能力

作者: Yuchen Zhuang, Jingfeng Yang, Haoming Jiang, Xin Liu, Kewei Cheng, Sanket Lokegaonkar, Yifan Gao, Qing Ping, Tianyi Liu, Binxuan Huang, Zheng Li, Zhengyang Wang, Pei Chen, Ruijie Wang, Rongzhi Zhang, Nasser Zalmout, Priyanka Nigam, Bing Yin, Chao Zhang

arXiv:2502.06589v1 支持类型：交叉摘要：由于缺乏面向代理的预训练数据，基于大语言模型的自主代理通常依赖于复杂的提示或广泛的微调，而这通常难以引入新的能力同时保持强大的泛化能力。我们提出了Hephaestus-Forge，这是第一个大规模预训练语料库，旨在增强大语言模型（LLM）代理在API函数调用、内在推理和规划以及适应环境反馈方面的基本能力。Hephaestus-Forge包括103B与76,537个API相关的代理特定数据，这些API涵盖了从工具文档中引入API功能知识，以及功能调用轨迹以加强内在推理。为了探索有效的训练协议，我们研究了缩放定律以识别数据混合比例的最佳配方。通过持续在Hephaestus-Forge上进行预训练，Hephaestus在三个代理基准测试中优于小到中规模的开源LLM，并且与商业LLM处于竞争状态，这证明了我们预训练语料库在增强基础代理能力和提高LLM对新任务或环境泛化方面的有效性。

发布时间: 2/11/2025

查看原文

条件因果多臂bandit问题的最小搜索空间

作者: Francisco N. F. Q. Simoes, Itai Feigenbaum, Mehdi Dastani, Thijs van Ommen

arXiv:2502.06577v1 宣告类型：交叉摘要：因果知识可以用于支持决策问题。这一点已经在因果赌局文献中得到了认识，其中的因果（多臂）赌局由因果图模型和目标变量来表征。臂代表对因果模型的干预，奖赏则是目标变量的样本。因果赌局最初的研究主要集中在硬干预上。我们则关注臂作为条件干预的情况，这更准确地模拟了许多现实世界中的决策问题，因为它允许介入变量的值基于其他观察到的变量值来选择。本文提出了一个图形化的表征，以确保该表征中包含最大化期望奖励的最优条件干预的最小节点集。然后，我们提出了一种时间复杂度为 \(O(|V| + |E|)\) 的高效算法来识别这个最小节点集。我们证明了该图形表征及所提出的算法是正确的。最后，我们通过实验证明，在将该算法整合到标准多臂赌局算法中时，它显著减少了搜索空间并大幅加速了收敛速度。

发布时间: 2/11/2025

查看原文

预测性红队演练：不破坏机器人破解政策

作者: Anirudha Majumdar, Mohit Sharma, Dmitry Kalashnikov, Sumeet Singh, Pierre Sermanet, Vikas Sindhwani

arXiv:2502.06575v1 宣告类型: cross 摘要: 通过模拟学习训练的视知觉运动策略能够在执行复杂的操作任务中表现出色，但它们往往对光照、视觉干扰和物体位置等环境因素极为脆弱。这些弱点可能由于训练的具体情况而不可预测，且在不进行耗时且昂贵的硬件评估的情况下很难暴露。我们提出了预测红队攻击的问题：发现策略在环境因素方面的弱点，并在无硬件评估的情况下预测对应的性能下降。为了实现这一目标，我们开发了RoboART：一个自动化的红队（ART）流水线，（1）使用生成图像编辑方法修改标准观察结果，以改变不同的环境因素，（2）使用针对编辑观察结果执行的特定策略异常检测器来预测每种变化下的性能。在十二种非正常情景中的500多次硬件试验中，对于视知觉扩散策略，RoboART在性能下降预测方面表现出高度准确性（预测成功率为实际成功率的平均差异小于0.19）。我们还展示了预测红队攻击如何 enable 目标数据收集：在预测为不利条件下的数据收集进行微调能够将基线性能提高2-7倍。

发布时间: 2/11/2025

查看原文

LawGPT：知识引导的数据生成及其在法律LLM中的应用

作者: Zhi Zhou, Kun-Yang Yu, Shi-Yu Tian, Jiang-Xin Shi, Xiao-Wen Yang, Pengxiao Song, Yi-Xuan Jin, Lan-Zhe Guo, Yu-Feng Li

arXiv:2502.06572v1 宣布类型: cross 摘要: 商用和开源的大语言模型（LLMs）在各种自然语言处理任务中展现了卓越的能力。然而，它们在法律推理任务中面临重大限制。商用模型引入了数据隐私风险和高昂的推理成本，而开源模型则因为缺乏足够的法律领域训练数据而表现不佳。为了克服这些限制，我们研究了法律推理的数据生成问题，以通过商用LLMs改进开源LLMs的法律推理性能。这是一条充满挑战的道路，因为商用LLMs缺乏法律知识，并且生成数据的验证难度较大。我们提出了一种名为KgDG的法律推理导向的数据生成框架。该框架能够利用法律知识增强生成的多样性，并引入了验证过程以确保生成数据的质量。此外，我们扩展了生成的数据集，以进一步提升LLM的推理能力。使用KgDG，我们创建了一个包含50,000个高质量示例的合成法律推理数据集。我们的训练模型LawGPT在现有专门针对法律领域的LLM中表现更优，并且性能可与商用LLM媲美，证明了KgDG和LawGPT的有效性。我们的相关代码和资源已公开发布在https://anonymous.4open.science/r/KgDG-45F5 。

发布时间: 2/11/2025

查看原文