arXiv 论文列表

RECOVER: 设计一种基于大型语言模型的远程患者监测系统，用于术后胃肠癌护理

作者: Ziqi Yang, Yuxuan Lu, Jennifer Bagdasarian, Vedant Das Swain, Ritu Agarwal, Collin Campbell, Waddah Al-Refaire, Jehan El-Bayoumi, Guodong Gao, Dakuo Wang, Bingsheng Yao, Nawar Shara

arXiv:2502.05740v1 类别: cross 摘要: 胃肠(GI)癌症手术是治疗胃肠癌症的关键治疗方法，而胃肠癌症占全球癌症相关死亡人数的超过35%，但术后并发症难以预测，可能危及生命。在本文中，我们研究了最近在大型语言模型(LLMs)方面的进展如何通过临床整合来造福远程病人监控(RPM)系统，并通过设计RECOVER，创建了一个基于LLM的RPM系统，用于术后胃肠癌症护理。为了使各利益相关者更深入地参与到设计过程中，我们首先与五名临床人员进行了七次参与式设计会议，并采访了五名癌症患者，以提取六个主要的设计策略，这些策略旨在将临床指南和信息需求整合到基于LLM的RPM系统中。然后，我们设计并实现了RECOVER，该系统配备了基于LLM的对话代理和交互式仪表板，以帮助临床人员进行高效的术后RPM。最后，我们使用RECOVER作为试点系统，评估了我们设计策略在四名临床人员和五名患者中的实施情况，并通过识别关键设计元素、提供负责任的人工智能见解以及概述未来基于LLM的RPM系统的机遇，提供了设计含义。

发布时间: 2/11/2025

查看原文

通过机器遗忘减轻LLMs4Code中敏感信息泄漏

作者: Ruotong Geng, Mingyang Geng, Shangwen Wang, Haotian Wang, Zhipeng Lin, Dezun Dong

arXiv:2502.05739v1 宣布类型: 对比摘要: 大型语言模型用于代码（LLMs4Code）在代码生成任务中表现出色，有望减轻开发者的巨大软件开发负担。然而，这些模型已被证明由于潜在的敏感信息泄露问题——称为记忆问题——而存在重大的隐私风险。解决这一问题是保证隐私合规和维护用户信任的关键，但目前文献中专门针对这一特定方向的研究寥寥无几。最近，机器遗忘技术作为一种有前景的解决方案出现了，它使模型能够在不完全重新训练的情况下“忘记”敏感信息，与传统的数据清理方法相比，它提供了更为高效和可扩展的方法。在这篇论文中，我们实证评估了在LLMs4Code中通过机器遗忘技术解决隐私问题的有效性。具体来说，我们在一个基准测试中调查了三种最先进的遗忘算法和三种知名的开源LLMs4Code，该基准测试考虑了要遗忘的隐私数据和这些模型的代码生成能力。结果表明，可以通过机器遗忘技术缓解LLMs4Code的隐私问题，同时保持其代码生成能力。我们还剖析了遗忘后的隐私保护/泄露形式，并观察到从直接泄露转变为间接泄露，这突显了未来研究解决这一风险的必要性。

发布时间: 2/11/2025

查看原文

重思有向图的链接预测

作者: Mingguo He, Yuhe Guo, Yanping Zheng, Zhewei Wei, Stephan G\"unnemann, Xiaokui Xiao

arXiv:2502.05724v1 Announce Type: cross 摘要：有向图的链接预测是一项具有多样化实际应用的关键任务。最近在嵌入方法和图神经网络（GNNs）方面的进展显示出有希望的改进。然而，这些方法往往缺乏对嵌入表达性的全面分析，并且缺乏有效的基准测试以进行公平评估。在本文中，我们提出了一种统一框架来评估现有方法的表达性，强调双嵌入和解码器设计对性能的影响。为了应对当前实验设置的局限性，我们引入了DirLinkBench，这是一种具有全面覆盖和标准化评估的新基准。结果显示，当前方法难以在新基准上达到强劲的表现，而DiGAE在整体上表现优于其他方法。我们进一步从理论上回顾了DiGAE，表明其图卷积在无向二分图上与GCN对齐。受这些见解的启发，我们提出了一种新型谱有向图自编码器SDGAE，在DirLinkBench上实现了SOTA结果。最后，我们分析了影响有向链接预测的关键因素，并指出了公开的挑战。

发布时间: 2/11/2025

查看原文

帕雷托最优性、平滑性与随机性在学习增强的一次最大搜索中的作用

作者: Ziyad Benomar, Lorenzo Croissant, Vianney Perchet, Spyros Angelopoulos

arXiv:2502.05720v1 宣告类型: cross 摘要: 最大值搜索是在线决策中的一个经典问题，其中交易者根据一系列揭示的价格采取行动，并不可撤销地接受其中一个以最大化其利润。该问题已在概率性和最坏情况下的不同设置中进行了研究，特别是通过竞争力分析，并且最近在交易者可以访问序列预测的学习增强设置中进行了研究。然而，现有的方法要么缺乏平滑性，要么不能实现最优的最坏情况保证：它们未能在算法的一致性和鲁棒性之间取得最佳可能的权衡。我们通过呈现首个同时实现这两个重要目标的算法来弥补这一差距。此外，我们展示了如何利用获得的平滑性来分析随机学习增强设置下的最大值搜索，这种设置捕获了观察到的价格和预测中的随机性。

发布时间: 2/11/2025

查看原文

基于扩展直方图的离群点得分（Extended Histogram-based Outlier Score）

作者: Tanvir Islam

arXiv:2502.05719v1 Announce Type: cross 摘要：直方图基离群点评分（HBOS）是一种广为人知的离群点或异常检测方法，因其计算效率和简单性而受到青睐。然而，它假设特征独立性限制了其在特征之间交互至关重要的数据集中检测异常的能力。本文提出了一种扩展的直方图基离群点评分（EHBOS），通过引入二维直方图来捕捉特征对之间的依赖性，从而增强了HBOS。这种扩展使EHBOS能够识别HBOS无法检测到的上下文驱动和依赖驱动的异常。我们通过17个基准数据集评估了EHBOS，展示了其在各种异常检测场景中的有效性和稳健性。在多个数据集上，EHBOS的表现优于HBOS，特别是在特征交互对于定义异常结构至关重要的数据集中，EHBOS在ROC AUC方面取得了显著的改进。这些结果表明，EHBOS可以成为HBOS的一个有价值的扩展，具备建模复杂特征依赖性的能力。EHBOS提供了一种强大的新工具，特别适用于那些上下文或关系型异常起重要作用的数据集中的异常检测。

发布时间: 2/11/2025

查看原文

证明面试编码：形式验证代码生成基准

作者: Quinn Dougherty, Ronak Mehta

arXiv:2502.05714v1 类型: cross 摘要: 我们引入了形式化验证自动化编程进展标准，或FVAPPS，这是一个包含4715个样本的基准，用于编写程序并证明其正确性，这是最大的形式化验证基准，其中包括1083个经过精心选编和质量控制的样本。在此之前，APPS为编程谜题提供了一个基准和数据集，这些谜题需用Python完成，并通过单元测试进行检查，类似于软件工程行业中技术评估中所见的类型。在近期在交互定理证明基准方法的基础上，我们将单元测试推广到Lean 4定理中（即，使用Lean的"sorry"关键字）。在随机选取的100个样本中的406个定理上，Sonnet正确地证明了30%，Gemini正确地证明了18%。我们向机器学习和程序合成社区挑战，解决每个通用编程问题及其相关的正确性规范。基准数据集可在https://huggingface.co/datasets/quinn-dougherty/fvapps获取。

发布时间: 2/11/2025

查看原文

4D VQ-GAN：合成任何时间点的医疗扫描图像以实现特发性肺纤维化的个性化疾病进展建模

作者: An Zhao, Moucheng Xu, Ahmed H. Shahin, Wim Wuyts, Mark G. Jones, Joseph Jacob, Daniel C. Alexander

arXiv:2502.05713v1 Announce Type: cross 摘要：理解疾病的发展轨迹对于早期诊断和有效的治疗规划至关重要。这对于如特发性肺纤维化（IPF）这样的威胁生命的条件尤为重要。IPF是一种慢性、进行性的肺部疾病，其预后与许多癌症相似。计算机断层扫描（CT）成像已被证明是IPF的一种可靠的诊断工具。准确地预测早期IPF患者的未来CT扫描可以有助于制定更好的治疗策略，从而改善生存结果。在本文中，我们提出了4D向量量化生成对抗网络（4D-VQ-GAN），一种能够在任意时间点生成IPF患者真实CT体积的模型。该模型采用两阶段的方法进行训练。第一阶段，使用3D-VQ-GAN进行训练以重建CT体积。第二阶段，基于神经常微分方程（ODE）的时间模型被训练以捕获第一阶段编码器生成的量化嵌入的时间动态。我们评估了不同配置下的模型以生成纵向CT扫描，并与真实数据进行量化和定性的比较。为了验证，我们使用从生成的CT扫描中提取的影像生物标志物进行生存分析，并在C指数方面达到了与真实CT扫描生物标志物相当的结果。生存分析结果展示了生成的纵向CT扫描固有的临床应用潜力，显示它们能够可靠地预测生存结果。

发布时间: 2/11/2025

查看原文

重新思考词语相似性：通过分类混淆实现语义相似性

作者: Kaitlyn Zhou, Haishan Gao, Sarah Chen, Dan Edelstein, Dan Jurafsky, Chen Shani

arXiv:2502.05704v1 类别: cross 摘要：词语相似性在社会科学研究和文化分析任务（如衡量意义随时间的变化以及理解争议性术语）中有很多应用。然而，基于词嵌入余弦相似性的传统相似性方法难以捕捉语义相似性的上下文依赖性、不对称性以及多义性。我们提出了一种新的相似性度量——词语混淆（Word Confusion），重新定义语义相似性为基于特征的分类混淆。词语混淆受到Tversky关于相似性特征应动态选择的建议启发。在此，我们训练了一个分类器以将上下文嵌入映射到词语身份，并使用分类器混淆（即选择混淆词语c而不是正确目标词语t的概率）作为c和t相似性的度量。潜在的混淆词语集合充当了选择的特征集。我们的方法在多个数据集（MEN、WSDiag353和SimLex）上与余弦相似性在匹配人类相似性判断方面具有可比性，并能够使用感兴趣的预定义特征来测量相似性。我们通过将其应用于测试一个关于“革命”（revolution）一词在法国大革命期间从大众行为到国家行动意义变化的假设，展示了模型能够利用动态特征的能力。我们希望这种对语义相似性的重新构想将激发开发能够更好地捕捉语言的多面性和动态性的新工具，促进计算社会科学和文化分析等领域的进步。

发布时间: 2/11/2025

查看原文

时间序列预测中，上下文信息的重要性可能超过推理

作者: Janghoon Yang

arXiv:2502.05699v1 类型: 横跨领域摘要：随着大型语言模型（LLMs）的进化，人们越来越 interested 在利用LLMs进行时间序列任务。在本文中，我们通过考虑各种现有的和提议的提示技术，探索了LLMs在时间序列预测中的特性。我们对短期和长期时间序列进行了预测评估。研究结果表明，并没有一种单一的提示方法适用于所有情况。还观察到，仅提供与时间序列相关的适当上下文信息，而不提供额外的推理提示，可以实现类似于每种情况最佳提示的性能。从这一观察中，可以预期提供适当的上下文信息比为特定推理提供提示在时间序列预测中更为重要。我们还识别出时间序列预测中提示的一些局限性。首先，LLMs往往未能遵循提示中描述的程序。其次，在推理步骤涉及多个操作数的简单代数计算时，LLMs往往无法准确计算。第三，有时LLMs会误解提示的语义，导致响应不完整。

发布时间: 2/11/2025

查看原文

基于潜在扩散模型的语义感知自适应视频流传技术在无线网络中的应用

作者: Zijiang Yan, Jianhua Pei, Hongda Wu, Hina Tabassum, Ping Wang

arXiv:2502.05695v1 通告类型：交叉摘要：本文提出了一种通过在FFmpeg技术中整合潜在扩散模型（LDMs）的新颖框架，以实现实时自适应比特率视频流传输。该解决方案解决了传统恒定比特率流传输（CBS）和自适应比特率流传输（ABS）相关联的高带宽使用、存储效率低下以及体验质量（QoE）下降的挑战。所提出的方案利用LDMs将I-帧压缩到潜在空间，提供显著的存储和语义传输节省，同时不牺牲高视觉质量。尽管保留了B-帧和P-帧作为调整元数据以确保用户侧高效的视频重建，但该提出的框架还与最先进的去噪和视频帧插值（VFI）技术相结合。这些技术减轻了语义不确定性，即使在嘈杂的无线通信环境中也能恢复帧之间的时序一致性。实验结果表明，所提出的方法能够以优化的带宽使用实现高质量的视频流传输，在体验质量和资源效率方面优于最先进的解决方案。这项工作为5G及未来后5G网络中的可扩展实时视频流传输开启了新的可能性。

发布时间: 2/11/2025

查看原文