arXiv 论文列表

作者: Runfeng Li, Mikhail Okunev, Zixuan Guo, Anh Ha Duong, Christian Richardt, Matthew O'Toole, James Tompkin

arXiv:2505.05356v1 交叉类型摘要：我们提出了一种方法，使用单目连续波飞行时间（C-ToF）相机的原始传感器样本从动态场景中进行重构，其准确度类似于神经体三维方法，且速度快100倍。从单一视角快速实现高保真动态3D重构是计算机视觉中的一个重要挑战。在C-ToF辐射场重构中，感兴趣属性（深度）并未直接测量，这增加了额外的挑战。当使用快速的基于原始几何元素的场景表示（如3D高斯散射）时，这种方法会对多视角数据生成满意结果，但在优化过程中却很脆弱。我们将两种启发式方法纳入优化过程，以提高用高斯表示的场景几何的准确度。实验结果表明，在受限制的C-ToF传感条件下，我们的方法能够生成准确的重构结果，包括快速运动如挥动棒球杆。https://visual.cs.brown.edu/gftorf

发布时间: 5/9/2025

查看原文

高保真晶粒生长建模：利用深度学习进行快速计算

作者: Pungponhavoan Tep, Marc Bernacki

arXiv:2505.05354v1 交叉类型: 跨学科摘要：晶粒生长模拟对于预测金属材料在退火过程中的显微组织演变及其最终力学性能至关重要，但传统的基于偏微分方程的方法计算成本高昂，成为材料设计和制造中的瓶颈。在本文中，我们介绍了一种结合卷积长短期记忆网络和自编码器的机器学习框架，以高效地预测晶粒生长演变。我们的方法既捕捉了晶粒演变的空间和时间特性，又通过编码高维晶粒结构数据到一个紧凑的潜空间中来进行模式学习，并通过一种新颖的复合损失函数结合均方误差、结构相似性指数测量和边界保留，以保持预测中晶界拓扑结构的结构完整性。结果表明，我们的机器学习方法将晶粒生长预测加速了多达89倍，将计算时间从约10分钟缩短到大约10秒，同时保持高保真的预测。最佳模型（S-30-30）实现了结构相似性分数为86.71%和晶粒尺寸误差仅为0.07%。所有模型都准确地捕捉了晶界拓扑结构、形态和尺寸分布。这种方法能够快速预测显微组织，适用于传统模拟耗时过长的应用场景，有望加速材料科学和制造领域的创新。

发布时间: 5/9/2025

查看原文

基于特征增强的深度网络在高分辨率无人机和卫星影像中进行多尺度建筑分割

作者: Chintan B. Maniyar, Minakshi Kumar, Gengchen Mai

arXiv:2505.05321v1 宣传类型: 综合交叉摘要：从高分辨率RGB图像中精确分割建筑物仍然是一个挑战，因为建筑物的光谱与非建筑物特征、阴影以及不规则的建筑物几何形状相似。在这项研究中，我们提出了一种全面的深度学习框架，用于使用从0.4米到2.7米不等的空间分辨率的RGB航空和卫星图像进行多尺度建筑物分割。我们精心制作了一个多传感器数据集，并通过从RGB通道中提取二次表示，包括主成分分析（PCA）、可见差异植被指数（VDVI）、形态学建筑物指数（MBI）和Sobel边缘滤波器来引入特征增强输入。这些特征在学习复杂的空间模式方面引导Res-U-Net架构，使其更为有效。我们还提出了一种训练策略，结合了层冻结、周期性学习率以及SuperConvergence，以减少训练时间和资源使用。在留出的WorldView-3图像上评估，我们的模型实现了96.5%的整体准确性、0.86的F1分数和0.80的交并比（IoU），超越了现有的基于RGB的基准。本研究展示了将多分辨率图像、特征增强和优化的训练策略结合应用于遥感应用中的鲁棒建筑物分割的有效性。

发布时间: 5/9/2025

查看原文

映射用户对视觉语言模型的信任：研究概览、挑战与前景

作者: Agnese Chiatti, Sara Bernardini, Lara Shibelski Godoy Piccolo, Viola Schiaffonati, Matteo Matteucci

arXiv:2505.05318v1 宣告类型: cross 摘要：视觉语言模型（VLMs）的快速采用，这些模型是在大规模图像-文本和视频-文本数据集上进行预训练的，需要保护用户并告知他们在何时信任这些系统。本文综述了用户-VLM交互中的信任动态，通过涵盖不同认知科学能力、合作模式和代理行为的多学科分类进行审查。文献见解和潜在VLM用户参加的工作坊的结果为未来VLM信任研究初步提出了要求。

发布时间: 5/9/2025

查看原文

可扩展的思维链通过弹性推理

作者: Yuhui Xu, Hanze Dong, Lei Wang, Doyen Sahoo, Junnan Li, Caiming Xiong

arXiv:2505.05315v1 宣告类型: cross 摘要：大型推理模型(LRMs)通过生成扩展的推理链(Chain of Thoughts, CoT)在复杂任务上取得了显著进展。然而，它们不受控制的输出长度在实际部署中带来了重大挑战，其中在计算、延迟或标记的令牌上的推理时间预算受到严格限制。我们提出了一种名为弹性推理的新框架，该框架通过将推理明确地分为两个阶段——思考和解决方案，并分别分配预算，从而实现可扩展的推理链。在测试时，弹性推理优先考虑解决方案片段的完整性，显著提高了在资源紧张条件下的可靠性。为了训练出能在截断思考过程中保持鲁棒性的模型，我们引入了一种轻量级的预算限制回放策略，将其集成到GRPO中，该策略教导模型在思考过程被提前截断时能够进行适应性推理，并且在不需要额外训练的情况下有效地泛化到未见的预算限制。在数学(AIME, MATH500)和编程(LiveCodeBench, Codeforces)基准测试上进行的实验结果表明，弹性推理在严格的预算限制下表现稳健，而训练成本显著低于基线方法。令人惊讶的是，我们的方法甚至在不受约束的设置下也能产生更简洁和高效的推理。弹性推理为大规模可控推理这一紧迫挑战提供了一个有原则且实用的解决方案。

发布时间: 5/9/2025

查看原文

眼科基础模型在临床显著性年龄黄斑变性检测中的基准测试

作者: Benjamin A. Cohen, Jonathan Fhima, Meishar Meisel, Baskin Meital, Luis Filipe Nakayama, Eran Berkowitz, Joachim A. Behar

arXiv:2505.05291v1 平行类型: 交叉摘要: 自监督学习（SSL）使视觉变换器（ViTs）能够从大规模自然图像数据集中学习稳健的表示，从而增强其跨领域的泛化能力。在视网膜成像中，预训练于自然或眼科数据的基础模型显示出了潜力，但领域内预训练的好处仍有待确定。为了调查这一点，我们在这七个数字视盘图像（DFI）数据集上对六种SSL预训练的ViTs进行了基准测试，这些数据集总共包含70,000张专家标注的图像，用于进行中度到晚期年龄相关性黄斑变性（AMD）的识别任务。我们的结果显示，预训练于自然图像的iBOT实现了最高的泛化性能，AUROCs为0.80-0.97，优于域特定模型，这些模型的AUROCs为0.78-0.96，以及没有预训练的基线ViT-L，其AUROCs为0.68-0.91。这些发现强调了基础模型在提高AMD识别方面的价值，并挑战了领域内预训练必不可少的假设。此外，我们发布了BRAMD，这是一个开放获取的数据集（n=587），包含来自巴西的AMD标注的DFI图像。

发布时间: 5/9/2025

查看原文

PlaceIt3D：面向真实3D场景的语言引导物体放置

作者: Ahmed Abdelreheem, Filippo Aleotti, Jamie Watson, Zawar Qureshi, Abdelrahman Eldesokey, Peter Wonka, Gabriel Brostow, Sara Vicente, Guillermo Garcia-Hernando

arXiv:2505.05288v1 宣传类型: cross 摘要: 我们引入了语言引导的对象摆放新任务——在真实3D场景中。我们的模型会获得一个3D场景的点云、一个3D资源和一个广泛描述3D资源应放置位置的文本提示。任务是找到一个符合提示的有效放置方式。与其他3D场景中的语言引导定位任务（如语义化）相比，这个任务有特定的挑战：它具有多重正确的解决方案，且需要对3D几何关系和自由空间进行推理。我们通过提出一个新的基准和评估协议来开创这一任务。我们还引入了一个新的数据集，用于在该任务上训练3D大语言模型，以及首个非平凡的基线方法。我们认为，这一具有挑战性的任务和我们的新基准可能会成为评估和比较通用3D大语言模型的一系列基准之一。

发布时间: 5/9/2025

查看原文

软件开发生命周期视角：代码LLMs和代理的基准调查

作者: Kaixin Wang, Tianlin Li, Xiaoyu Zhang, Chong Wang, Weisong Sun, Yang Liu, Bin Shi

arXiv:2505.05283v1 声明类型: cross 摘要: 代码大型语言模型（CodeLLMs）和代理在解决复杂软件工程任务方面展现出了极大的潜力。与传统软件工程方法相比，CodeLLMs 和代理提供了更强的能力，并能够灵活地处理自然语言和代码的输入和输出。基准测试在评估 CodeLLMs 和代理的能力、指导其开发和部署方面起着关键作用。然而，尽管其重要性不断增加，仍然缺乏对 CodeLLMs 和代理基准的全面审查。为了填补这一空白，本文对现有的 CodeLLMs 和代理基准进行了全面审查，研究和分析了 461 篇相关论文中的 181 个基准，涵盖了软件开发生命周期（SDLC）的不同阶段。我们的研究发现，当前基准的覆盖面存在明显的不平衡，约 60% 的基准集中在 SDLC 的软件开发阶段，而需求工程阶段和软件设计阶段分别只得到了 5% 和 3% 的关注。此外，Python 成为审查基准中主要编程语言。最后，本文指出了当前研究的挑战，并提出了未来方向，旨在缩小理论上的 CodeLLMs 和代理能力与其在实际场景中的应用之间的差距。

发布时间: 5/9/2025

查看原文

基于标签的方面情感 triplet 提取的表变换器

作者: Kun Peng, Chaodong Tong, Cong Cao, Hao Peng, Qian Li, Guanlin Wu, Lei Jiang, Yanbing Liu, Philip S. Yu

arXiv:2505.05271v1 类型: cross 摘要: 意见术语三元组提取（ASTE）旨在从给定句子中提取由方面术语、意见术语和情感极性组成的三元组。表标签方法是解决此任务的一种流行方法，它将句子编码为二维表，允许对表中任意两个词之间的关系进行标签标注。以往的努力主要集中在设计各种下游关系学习模块，以更好地捕捉表中标记之间的互动，揭示出更强的关系捕捉能力可以带来模型更大的改进。受此启发，我们试图直接使用变压器层作为下游关系学习模块。由于变压器强大的语义建模能力，可以预见这将带来卓越的改进。然而，由于表的长度与输入句子序列长度的二次关系，直接使用变压器面临的两个挑战是过长的表序列和不公平的局部注意交互。为了解决这些挑战，我们提出了基于标签的ASTE方法的一种新颖的Table-Transformer（T-T）。具体而言，我们引入了一种条纹注意机制并采用循环移位策略来应对这些挑战。前者将全局注意机制修改为仅关注二维局部注意窗口，而后者促进了不同注意窗口之间的交互。广泛的全面实验表明，作为下游关系学习模块，T-T能够以更低的计算成本实现最先进的性能。

发布时间: 5/9/2025

查看原文

增强基于状态建模和对抗性探索的协同多智能体 reinforcement learning

作者: Andreas Kontogiannis, Konstantinos Papathanasiou, Yi Shen, Giorgos Stamou, Michael M. Zavlanos, George Vouros

arXiv:2505.05262v1 公告类型: cross 摘要: 在没有任何通信能力的分布式不完全可观测环境中学习合作对多智能体深度强化学习（MARL）构成了重大挑战。本文关注该领域的关键问题，重点在于从个体智能体的观察中推断状态表示，并利用这些表示来增强智能体的探索和协作任务执行策略。为此，我们提出了一种新的合作MARL的状态建模框架，其中智能体推断出有意义的非可观测状态的信念表示，以优化自身策略，同时过滤掉冗余和不具信息性的联合状态信息。在此框架的基础上，我们提出了MARL SMPE算法。在SMPE中，智能体在其部分可观测性下增强自身策略的区分能力，明确地通过将信念纳入策略网络，隐式地通过采用一种对抗性的探索策略，鼓励智能体发现新颖且高价值的状态，同时提升其他智能体的区分能力。实验结果表明，SMPE在MPE、LBF和RWARE基准的复杂完全合作任务中优于最先进的MARL算法。

发布时间: 5/9/2025

查看原文