LLM2D

arXiv 论文列表

作者: Zhihao Guo, Jingxuan Su, Shenglin Wang, Jinlong Fan, Jing Zhang, Liangxiu Han, Peng Wang
arXiv:2502.02283v1 宣告类型: cross 摘要:3D 高斯斑点方法已成为一种高效的逼真新视角合成方法。然而,它对稀疏结构从运动(SfM)点云的依赖性始终会 compromize 场景重建的质量。为了解决这些限制,本文提出了一种新颖的 3D 重建框架:高斯过程高斯斑点(GP-GS),其中开发了一种多输出高斯过程模型以实现稀疏 SfM 点云的自适应和基于不确定性指导的密集化。具体而言,我们提出了一种动态取样和过滤流水线,通过利用基于高斯过程的预测从输入的 2D 像素和深度图中推断新的候选点来自适应扩展 SfM 点云。该流水线利用不确定性估计对高方差预测进行修剪,以确保几何一致性并使密集点云的生成成为可能。密集化的点云提供高质量的初始 3D 高斯分布,以增强重建性能。在规模不同的合成和真实世界数据集上进行的广泛实验验证了所提出框架的有效性和实用性。
发布时间: 2/5/2025
查看原文
作者: Donghe Chen, Jiaxuan Yue, Tengjie Zheng, Lanxuan Wang, Lin Cheng
arXiv:2502.02277v1 类型: cross 摘要: 在现实世界的回归任务中,数据集经常表现出不平衡分布的特征,具体表现为在高复杂度区域数据稀缺,在低复杂度区域数据丰富。这种不平衡对具有清晰类别边界的现有分类方法构成了重大挑战,同时突显了专门针对不平衡回归问题的方法的稀缺性。为了更好地应对这些挑战,我们引入了一种新的不平衡回归概念,该概念同时考虑了问题的复杂性和数据点的密度,超越了传统仅关注数据密度的定义。此外,我们提出了一种错误分布光滑(EDS)的方法来应对不平衡回归问题,该方法有效地从数据集中选择一个代表性的子集,减少了冗余同时保持平衡和代表性。通过多项实验,EDS 显示了其有效性,相关的代码和数据集可以通过 https://anonymous.4open.science/r/Error-Distribution-Smoothing-762F 访问。
发布时间: 2/5/2025
查看原文
作者: Donghe Chen, Yubin Peng, Tengjie Zheng, Han Wang, Chaoran Qu, Lin Cheng
arXiv:2502.02265v1 类型: cross 摘要:高精度控制任务给强化学习(RL)算法带来了重大挑战,经常导致次优性能,原因是网络近似不准确和样本质量不足。当任务要求代理达到精确的目标状态时,这些问题会进一步恶化,这种情况在机器人技术和其他实际应用中非常常见。我们介绍了Adviser-Actor-Critic (AAC),并旨在通过结合反馈控制理论的精度和RL的自适应学习能力来解决精度控制问题,该系统包含一个Adviser,通过对代理进行指导以优化控制动作,从而提高目标达成的精度。最后,通过基准测试,AAC 在精度关键、目标条件任务中的表现优于标准的RL算法,证明了AAC的高精度、可靠性和鲁棒性。代码可在以下链接获取:https://anonymous.4open.science/r/Adviser-Actor-Critic-8AC5。
发布时间: 2/5/2025
查看原文
作者: Atharva Mangeshkumar Agrawal, Rutika Pandurang Shinde, Vasanth Kumar Bhukya, Ashmita Chakraborty, Sagar Bharat Shah, Tanmay Shukla, Sree Pradeep Kumar Relangi, Nilesh Mutyam
arXiv:2502.02249v1 类型: cross 摘要:大规模语言模型(LLMs)在自然语言处理任务中展示了令人印象深刻的能力,包括对话生成。本研究旨在通过多种混合医疗领域的医生-患者聊天对话数据集,对两种主要技术进行新的对比分析:带有 LoRA(低秩适应)的微调和 Retrieval-Augmented Generation(RAG)框架。分析涉及三种最先进的模型:Llama-2、GPT 和 LSTM 模型。利用真实世界的医生-患者对话,我们全面评估了这些模型的性能,评估了诸如语言质量(困惑度、BLEU 分数)、事实准确性(与医学知识库的核对准确度)、对医疗指南的遵守情况以及整体的人类评判(连贯性、同理心、安全性)等关键指标。研究结果提供了每种方法的优势和局限性的见解,揭示了它们在医疗保健应用中的适用性。此外,研究还探讨了模型在处理从一般健康咨询到具体医学状况等多种患者查询方面的鲁棒性。还探讨了特定领域知识集成的影响,突显了通过有针对性的数据增强和检索策略增强 LLM 性能的潜力。
发布时间: 2/5/2025
查看原文
作者: Bangzhen Liu, Chenxi Zheng, Xuemiao Xu, Cheng Xu, Huaidong Zhang, Shengfeng He
arXiv:2502.02247v1 宣告类型: cross 摘要:3D点云分析对不可预测的旋转的脆弱性提出了一个开放且具有挑战性的问题:方向感知的3D领域泛化。3D表示的跨域鲁棒性和适应性至关重要,但通过旋转增强很难实现。鉴于复杂的旋转在增强泛化性方面的固有优势,我们提出了一种创新的旋转适应性领域泛化框架,用于3D点云分析。我们的方法旨在通过迭代学习过程利用复杂的样本来缓解方向性偏移。具体来说,我们为每个点云识别最具挑战性的旋转,并通过优化复杂的 orientations 构建一个复杂的方向集。随后,我们采用一个方向感知的对比学习框架,该框架包含方向一致性损失和边缘分离损失,能够有效学习具有旋转一致性的类别间判别性和泛化性特征。在3D跨域基准上的广泛实验和消融实验牢固地确立了我们在方向感知的3D领域泛化中的前瞻性能。
发布时间: 2/5/2025
查看原文
作者: Li Wang, Boyan Gao, Yanran Li, Zhao Wang, Xiaosong Yang, David A. Clifton, Jun Xiao
arXiv:2502.02225v1 Announce Type: cross 摘要:尽管扩散模型在生成高保真图像方面取得了开创性的成功,但其潜在空间仍然相对未被充分探索,尽管该空间具有使图像编辑功能多样化和可解释性的巨大潜力。复杂去噪轨迹和潜在空间的高维度使其极其难以解释。现有方法主要探索扩散模型(DMs)中的U-Net特征空间,而不是潜在空间本身。相比之下,我们直接通过奇异值分解(SVD)调查潜在空间,并发现三个有用的属性,这些属性可以在无需收集数据的前提下控制生成结果,并保持生成图像的身份保真度。基于这些属性,我们提出了一种全新的图像编辑框架,能够在稳定扩散模型中从一对由文本提示预设的潜在代码中学习任意属性。为了验证我们的方法,进行了大量实验以证明其在图像编辑方面的有效性和灵活性。我们不久将发布我们的代码,以促进在这个领域进一步的研究和应用。
发布时间: 2/5/2025
查看原文
作者: Ji\v{r}\'i N\v{e}me\v{c}ek, Mark Kozdoba, Illia Kryvoviaz, Tom\'a\v{s} Pevn\'y, Jakub Mare\v{c}ek
arXiv:2502.02221v1 声明类型: cross 摘要:偏差评估是值得信赖的AI的基本要素,无论是检查数据质量还是检查AI系统的输出。例如,在测试数据质量时,可以研究给定数据集与给定的真实参考数据集作为分布的偏差距离。然而,诸如Total Variation和Wasserstein距离等经典的度量标准已知具有高的样本复杂度,并且因此在许多实际场景中可能无法提供有意义的区别。 在本文中,我们提出了一种新的距离概念,即最大子组差异(MSD)。在这种度量标准中,两个分布如果大致而言,所有特征子组中的差异都很低,则被认为是接近的。尽管子组的数量可能呈指数级增长,但我们展示了样本复杂度与特征数量成线性关系,从而使其实现了实际应用的可行性。此外,我们提供了一种基于混合整数优化(MIO)的实用算法来评估距离。我们还注意到,所提出的距离易于解释,因此在识别出偏差后,提供了更清晰的纠偏路径。此外,它还为所有子组提供了保证。最后,我们对真实世界的数据集进行了实验性评估,与其他度量标准进行了比较,并展示了MSD的上述性质。
发布时间: 2/5/2025
查看原文
作者: Xiangzhi Eric Wang, Zackary P. T. Sin, Ye Jia, Daniel Archer, Wynonna H. Y. Fong, Qing Li, Chen Li
arXiv:2502.02201v1 宣告类型:交叉 摘要:在我们的日常生活中,我们可以通过言语和手势自然地传达对物体的空间操作指令。将这种形式的互动转换为虚拟现实(VR)中的物体操作可能具有益处。我们提出了VR Mover这一基于LLM的解决方案,它可以理解并解释用户的口头指令,以支持物体操作。仅通过指指点点和说话,LLM就可以在无需结构化输入的情况下操作物体。我们的用户研究显示,VR Mover可以提升用户的人机交互效果、总体体验和多物体操作性能,同时减少工作负担和手臂疲劳。用户更倾向于使用提议的自然接口进行广泛的移动,可能会在需要精细调整时切换到工具或虚拟手。这些发现被认为将对基于LLM的物体操作接口的设计产生影响,突出了在VR环境中实现更直观、更高效的用户交互的潜力。
发布时间: 2/5/2025
查看原文
作者: Linus Aronsson, Morteza Haghir Chehreghani
arXiv:2502.02197v1 类型: cross 摘要:在边被标记为正面或负面从而表示友好或敌对互动的有符号网络中,提供了一个自然框架来研究社会系统中的极化、信任和冲突。识别这些网络中的有意义的群体结构对于理解在线讨论、政治分化和信任动态至关重要。关键挑战是识别内部凝聚力较强但外部敌对的群体,同时允许中立或未对齐的节点。在本文中,我们通过识别$k$个大型、密集且大小平衡的极化社区来解决这个问题。我们开发了一种基于Frank-Wolfe优化的方法,从而获得一种具有可证明收敛保证的局部搜索程序。我们的方法既可扩展又高效,在解决方案质量上优于最先进的基线方法,同时在计算效率方面具有竞争力。
发布时间: 2/5/2025
查看原文
作者: Fei Wang, Kun Li, Yiqi Nie, Zhangling Duan, Peng Zou, Zhiliang Wu, Yuwei Wang, Yanyan Wei
arXiv:2502.02196v1 交叉识别手势语识别挑战类型:交叉 摘要:在本文中,我们展示了我们在2025年WWW会议上举行的交叉视角孤立手势语识别(CV-ISLR)挑战中的解决方案。CV-ISLR 解决了传统孤立手势语识别(ISLR)中的一个关键问题,即现有数据集主要捕捉正面视角的手势视频,而实际拍摄角度则经常变化。为了准确从不同视角识别手势语,模型必须能够理解多角度的手势,从而使跨视角识别变得具有挑战性。为了解决这一问题,我们探索了集成学习的优势,这可以增强模型在多样视角下的鲁棒性和通用性。我们的方法基于多维视频Swin Transformer模型,利用这种集成策略实现了竞争力的表现。最后,我们的解决方案在RGB基的ISLR和RGB-D基的ISLR赛道中均排名第3,表明其在处理跨视角识别挑战方面的有效性。代码可在以下链接获取:https://github.com/Jiafei127/CV_ISLR_WWW2025。
发布时间: 2/5/2025
查看原文