arXiv 论文列表

由微调和检索增强生成驱动的Medicare对话AI对话

作者: Atharva Mangeshkumar Agrawal, Rutika Pandurang Shinde, Vasanth Kumar Bhukya, Ashmita Chakraborty, Sagar Bharat Shah, Tanmay Shukla, Sree Pradeep Kumar Relangi, Nilesh Mutyam

arXiv:2502.02249v1 宣告类型: cross 摘要：大型语言模型（LLMs）在自然语言处理任务中展现了令人印象深刻的性能，包括对话生成。这项研究旨在在多种医学领域的混杂数据集中，对医生-患者对话对话进行新型比较分析，具体分析两种主要技术：带有LoRA（低秩适应）的微调和检索增强生成（RAG）框架。分析涉及三款最先进的模型：Llama-2、GPT和LSTM模型。利用真实世界的医生-患者对话，我们全面评估了模型的性能，评估关键指标如语言质量（困惑度、BLEU分数）、事实准确性（与医学知识库的事实核查）、对医学指导原则的遵守情况以及总体的人类判断（连贯性、同情心、安全性）。研究结果提供了每种方法的优势和不足的见解，为医疗应用中的适用性提供了方向。此外，研究还探讨了模型在处理从一般健康咨询到特定医学状况的各种患者查询时的稳健性。还探讨了领域特定知识集成的影响，强调了通过目标数据增强和检索策略提升LLM性能的潜力。

发布时间: 2/5/2025

查看原文

基于复杂方向学习的旋转自适应点云跨域泛化

作者: Bangzhen Liu, Chenxi Zheng, Xuemiao Xu, Cheng Xu, Huaidong Zhang, Shengfeng He

arXiv:2502.02247v1 交叉类型：cross 摘要：3D 点云分析对不可预测的旋转的脆弱性提出了一个开放且具有挑战性的问题：面向姿态的3D领域泛化。3D表示的跨域稳健性和适应性至关重要，但通过旋转增强手段难以轻易实现。受复杂姿态在提升泛化能力方面内在优势的启发，我们提出了一种创新的旋转适应性领域泛化框架，用于3D点云分析。我们的方法旨在通过迭代学习过程利用复杂样本来缓解姿态变化。具体而言，我们识别每个点云中最具挑战性的旋转，并通过优化复杂姿态构建复杂姿态集。随后，我们采用一种姿态感知的对比学习框架，该框架包含姿态一致性损失和边距分离损失，从而能够有效地学习具有旋转一致性的类别判别性和泛化性特征。在3D跨域基准上的广泛实验和消融实验强有力地证明了我们在面向姿态的3D领域泛化方面的提案方法处于最先进的技术水平。

发布时间: 2/5/2025

查看原文

直接通过奇异值分解探索扩散模型的潜在空间

作者: Li Wang, Boyan Gao, Yanran Li, Zhao Wang, Xiaosong Yang, David A. Clifton, Jun Xiao

arXiv:2502.02225v1 类型：交叉摘要：尽管扩散模型在生成高保真图像方面取得了突破性的成功，但其潜在空间仍然相对未被充分探索，尽管它在实现多样化和可解释的图像编辑能力方面具有巨大的潜力。噪声去除轨迹的复杂性和潜在空间的高维性使其很难被解释。现有的方法主要探索扩散模型（DMs）中的U-Net特征空间，而不是潜在空间本身。相比之下，我们直接通过奇异值分解（SVD）研究了潜在空间，并发现了三个有用的特点，这些特点可以用于控制生成结果，而不需要收集数据并保持生成图像的身份保真度。基于这些特点，我们提出了一种新的图像编辑框架，能够在稳定扩散模型中从由文本提示指定的一对潜在代码中学习任意属性。为了验证我们的方法，进行了广泛的实验以证明其在图像编辑方面的有效性和灵活性。我们将很快发布我们的代码，以促进该领域进一步的研究和应用。

发布时间: 2/5/2025

查看原文

通过最大子组差异进行偏差检测

作者: Ji\v{r}\'i N\v{e}me\v{c}ek, Mark Kozdoba, Illia Kryvoviaz, Tom\'a\v{s} Pevn\'y, Jakub Mare\v{c}ek

arXiv:2502.02221v1 类别：交叉学科摘要：偏见评估是可信AI的基本组成部分，无论是检查数据质量还是检查AI系统的输出。例如，在检查数据质量时，人们可以通过将给定的数据集视为分布，并研究它与给定的真实参考数据集之间的距离。但是，经典的度量标准，如总变差和Wasserstein距离，已知具有高的样本复杂度，并且因此在许多实际场景中无法提供有意义的区分。在这篇论文中，我们提出了一种新的距离概念，即最大子群差异（MSD）。在这一度量中，两个分布距离较近，如果几乎所有特征子群的差异都很低。尽管子群的数量可能呈指数增长，但我们证明样本复杂度与特征数量成线性关系，从而使其在实际应用中可行。此外，我们基于混合整数优化（MIO）提供了一种实用的距离评估算法。我们还指出，所提出的距离是易于解释的，从而提供了更明确的纠正识别出的偏见的方法，并为所有子群提供了保证。最后，我们在实际数据集上实证评估、与其他度量标准进行比较，并展示了MSD的上述性质。

发布时间: 2/5/2025

查看原文

你能把这些移到那边吗？一个基于LLM的VR搬移助手，用于支持物体操作

作者: Xiangzhi Eric Wang, Zackary P. T. Sin, Ye Jia, Daniel Archer, Wynonna H. Y. Fong, Qing Li, Chen Li

arXiv:2502.02201v1 Announce Type: cross 摘要：在我们的日常生活中，我们自然可以通过语言和手势传达对物体空间操作的指示。将这种交互形式移植到虚拟现实（VR）物体操作中是有益的。我们提出了VR Mover，一种以语言模型（LLM）为动力的解决方案，可以理解并解释用户的语音指令，以支持物体操作。通过简单的指指点点和说话，LLM 可以在无需结构化输入的情况下操作物体。我们的用户研究显示，VR Mover 增强了用户易用性、整体体验和多物体操作性能，同时减轻了工作负担和手臂疲劳。用户更喜欢所提议的自然界面进行广泛的移动操作，并且可能会在需要精细调整时切换到迷你工具或虚拟手。这些发现被认为有助于未来基于LLM的物体操作界面的设计启示，突显了在VR环境中实现更加直观和高效的用户交互的潜力。

发布时间: 2/5/2025

查看原文

极化社区发现的高效局部搜索方法在有符号网络中

作者: Linus Aronsson, Morteza Haghir Chehreghani

arXiv:2502.02197v1 宣布类型: cross 摘要：带符号的网络，其中边被标记为正或负以表示友好或敌对的相互作用，为研究社会系统中的极化、信任和冲突提供了一个自然的框架。在这些网络中检测有意义的群体结构对于理解在线言论、政治分歧和信任动态至关重要。一个关键的挑战是在允许中立或未对齐的顶点的情况下，识别内部凝聚力强而外部敌对的群体。在本文中，我们通过识别k个大规模、密集且大小均衡的极化社区来解决这个问题。我们开发了一种基于Frank-Wolfe优化的方法，这导致了一种具有可证明收敛保证的局部搜索过程。我们的方法既可扩展又高效，其解决方案质量优于最先进的基线方法，同时在计算效率方面也具有竞争力。

发布时间: 2/5/2025

查看原文

利用集成学习进行跨视图孤立手语识别

作者: Fei Wang, Kun Li, Yiqi Nie, Zhangling Duan, Peng Zou, Zhiliang Wu, Yuwei Wang, Yanyan Wei

arXiv:2502.02196v1 交叉视图孤立手语识别挑战公告类型：交叉视图摘要：在这篇论文中，我们展示了解决在2025年WWW会议上举办的交叉视图孤立手语识别（CV-ISLR）挑战的解决方案。CV-ISLR解决了传统孤立手语识别（ISLR）中的一个关键问题，即现有数据集主要捕捉面向前方的手语视频，而实际的摄像角度往往有所不同。为了从不同视角准确识别手语，模型必须能够理解多角度的手势动作，从而使交叉视角识别变得具有挑战性。为了解决这一问题，我们探讨了集成学习的优势，这可以增强模型在不同视角下的鲁棒性和泛化能力。我们的方法基于一个多维Video Swin Transformer模型，利用这一集成策略实现了具有竞争力的性能。最后，我们的解决方案在基于RGB和基于RGB-D的手语识别轨迹中均排名第3，展示了其在处理交叉视角识别挑战方面的有效性。代码可在以下网址获取：https://github.com/Jiafei127/CV_ISLR_WWW2025。

发布时间: 2/5/2025

查看原文

ShapeShifter：多尺度和稀疏点voxel扩散的3D变化

作者: Nissim Maruani, Wang Yifan, Matthew Fisher, Pierre Alliez, Mathieu Desbrun

arXiv:2502.02187v1 Announce Type: cross 摘要：本文提出了一种新的3D生成模型——ShapeShifter，该模型能够基于单一参考模型生成形状变化。虽然针对3D对象的生成方法最近引起了大量关注，但当前的技术往往缺乏几何细节和/或需要长时间的训练和大量的资源。我们的方法通过结合稀疏体素网格和点、法线和颜色采样，在多尺度神经架构中解决了这些问题，该架构可以高效地并行进行训练。我们展示了我们的结果能够更好地捕捉原始输入的细微细节，并且可以处理比以前的基于SDF的方法更广泛的表面类型。此外，我们还提供了交互式的3D形状变体生成功能，如果需要，可以允许更多的人类控制设计过程。

发布时间: 2/5/2025

查看原文

基于注意力的Transformer中跨语言知识的群体记忆编辑探索

作者: Daniel Tamayo, Aitor Gonzalez-Agirre, Javier Hernando, Marta Villegas

arXiv:2502.02173v1 Announce Type: cross 摘要：近期的研究探索了在大型语言模型中更新和修改事实性知识的方法，通常集中在特定的多层感知机块上。本研究在此基础上进一步探索了现有知识编辑方法在多种语言中的有效性，并深入探讨了注意机制在这一过程中的作用。根据这些见解，我们提出了一种称为基于注意机制的Transformer记忆大规模编辑（MEMAT）的方法，该方法在所有衡量标准上都实现了显著的改进，同时仅需进行少量的参数修改。MEMAT在幅度衡量标准上实现了高达10%的改进，并且受益于未包含在训练数据中的语言，同时展示了高度的可移植性。我们的代码和数据可在https://github.com/dtamayo-nlp/MEMAT获取。

发布时间: 2/5/2025

查看原文

基于图神经网络的O-RAN移动性管理：一种链接预测方法

作者: Ana Gonzalez Bermudez, Miquel Farreras, Milan Groshev, Jos\'e Antonio Trujillo, Isabel de la Bandera, Raquel Barco

arXiv:2502.02170v1 移动性能类型：交叉摘要：移动性能一直是从2G到5G的蜂窝网络的重点。为了提升切换（HO，Handover）性能，3GPP在5G中引入了条件切换（CHO，Conditional Handover）和层1/层2触发的移动性（LTM，Layer 1/Layer 2 Triggered Mobility）机制。虽然这些反应式切换策略解决了切换失败（HOF，Handover Failure）和乒乓效应之间的权衡问题，但它们通常会导致由于额外的切换准备而导致无线资源利用效率低下。为了克服这些挑战，本文提出了一种积极的切换框架，用于O-RAN中的移动管理，利用用户-小区链路预测来识别HO的最佳目标小区。我们探索了各种类型的图神经网络（GNN，Graph Neural Networks）进行链路预测，并分析了将它们应用于移动管理领域的复杂性。使用现实世界的数据集比较了两种GNN模型，实验结果表明它们能够捕捉蜂窝网络的动态和图结构特征。最后，我们提出了研究的关键见解，并概述了未来步骤，以使基于GNN的链路预测技术能够集成到6G网络的移动管理中。

发布时间: 2/5/2025

查看原文