arXiv 论文列表

作者: Yue Li

arXiv:2504.10539v1 宣告类型: 交叉摘要: 本文提出了一种使用物理知情神经网络(PINNs)改善多相格子玻尔兹曼方法(LBM)模拟中保持清晰界面的方法。多相LBM中的界面扩散是一个常见挑战，导致在界面动力学至关重要的模拟中降低了准确性。我们提出了一种耦合的PINN-LBM框架，该框架可以保持界面清晰度并保留模拟的物理准确性。通过液滴模拟对我们的方法进行了验证，并使用界面宽度、最大梯度、相分离、有效界面宽度和界面能量等定量指标进行评估。本工作中采用的增强可视化技术清晰地展示了PINN-LBM在多相模拟中相对于标准LBM的优越性能，尤其是在整个模拟过程中保持清晰定义的界面方面。我们对结果进行了全面分析，展示了神经网络集成如何有效抵消数值扩散，同时保持与底层流体动力学的物理一致性。

发布时间: 4/16/2025

查看原文

将过渡模式精炼至大型语言模型以实现多模态会话推荐

作者: Jiajie Su, Qiyong Zhong, Yunshan Ma, Weiming Liu, Chaochao Chen, Xiaolin Zheng, Jianwei Yin, Tat-Seng Chua

arXiv:2504.10538v1 类型: cross 摘要: 基于会话的推荐（SBR）根据匿名会话来预测下一个项目。传统的SBR基于ID合作或辅助内容来探索用户意图。为了进一步缓解数据稀疏性和冷启动问题，最近的多模态SBR（MSBR）方法利用简单的预训练模型进行模态学习，但在语义丰富性方面存在局限性。考虑到大型语言模型（LLM）的语义推理能力，本文集中探讨了LLM增强的MSBR场景，利用LLM的推理能力生成全面的多模态表示，以增强下游的MSBR。解决这个问题面临两个挑战：i) 如何在过渡模式和内在多模态知识上获得LLM的认知，ii) 如何将两者特征统一到一个统一的LLM中，在减少偏差的同时最大化表示的有用性。为此，我们提出了一种多模态增强框架TPAD，该框架扩展了一种蒸馏范式，以解耦和对齐过渡模式，促进MSBR。TPAD建立了并行的知识-LLM和转移-LLM，前者解释项目知识反映的特征，后者在会话下提取过渡感知的特征。利用互信息估计理论的过渡模式对齐模块将两个LLM结合在一起，减少分布偏差，将过渡模式提炼成模态表示。在现实世界数据集上的 extensive 实验证明了我们框架的有效性。

发布时间: 4/16/2025

查看原文

联邦学习中的层跳过：高效训练大型语言模型以应用于医疗保健自然语言处理

作者: Lihong Zhang, Yue Li

arXiv:2504.10536v1 宣传类型: 交叉摘要： federated learning (联邦学习) 在不共享原始数据的情况下跨组织进行协作模型训练，解决了医疗自然语言处理 (NLP) 中至关重要的隐私问题。然而，在联邦环境中训练大规模语言模型 (LLMs) 面临重大挑战，包括通信开销和数据异质性。我们提出了一种分层跳过联邦学习，在此方法中，只需在客户端上微调预训练的 LLM 的选定层，而其他层则保持冻结。应用于 LaMA 3.2-1B 中，我们的方法将通信成本降低约 70% 同时保持性能与集中训练相差不到 2%。我们在使用 i2b2 和 MIMIC-III 数据集对临床实体识别和分类任务进行评估。我们的实验表明，分层跳过联邦学习优于竞争基线，在处理非IID临床数据分布方面表现出色，并且在与差分隐私结合使用时表现出稳健性。这种方法代表了在医疗 NLP 中实现隐私保护协作学习的实用解决方案。

发布时间: 4/16/2025

查看原文

HeteRAG：一种解耦知识表示的异质检索增强生成框架

作者: Peiru Yang, Xintian Li, Zhiyang Hu, Jiapeng Wang, Jinhua Yin, Huili Wang, Lizhi He, Shuai Yang, Shangguang Wang, Yongfeng Huang, Tao Qi

arXiv:2504.10529v1 Announce Type: cross 摘要：检索增强生成（RAG）方法可以通过将检索到的知识片段融入生成过程中来提升LLM的表现。通常，检索和生成步骤对这些知识片段的要求不同。检索步骤可以从全面的信息中受益，以提高检索准确性，而过长的知识片段可能会引入冗余的上下文信息，从而降低生成过程的有效性和效率。然而，现有的RAG方法通常使用相同的知识片段表示来进行检索和生成，导致性能欠佳。本文提出了一种异构RAG框架（\myname），在检索和生成中分离知识片段的表示，从而在提高LLM的有效性和效率方面取得提升。具体来说，我们使用短片段来表示知识，以适应生成步骤，并利用从多粒度视角获取的相应片段及其上下文信息来提高检索准确性。此外，我们还引入了一种适应性提示调整方法来适应异构检索增强生成过程。广泛的实验证明，\myname 在与基准方法的比较中取得了显著的改进。

发布时间: 4/16/2025

查看原文

整合情感分布网络和文本消息分析以进行X用户情感状态分类

作者: Pardis Moradbeiki, Mohammad Ali Zare Chahooki

arXiv:2504.10521v1 宣告类型: cross 摘要: 随着社交媒体的流行和普及继续飙升，各个主题领域中的大量意见和情感泛滥成灾，长时间充斥各大平台。其中，X社交媒体（以前的Twitter）成为了巨无霸，拥有大约4.2亿活跃用户。从社交媒体上用户的表达意见中提取其情感和心理状态已经成为一种常见的追求。过去的方法主要集中在消息的文本内容上分析用户情感，但这些平台的互动性质表明其中更为复杂的层次结构。本研究采用混合方法，结合文本分析、个人资料检查、关注者分析以及情绪传播模式。首先，利用用户的互动来细化消息中的情绪分类，包括用户相互回应的交流。引入了通信树的概念，从中提取模型来映射这些互动。随后，将通信树中的用户简介和兴趣与消息文本进行对比，以丰富分析。最后，在通信树中的用户关注者中识别出有影响力的人物，并根据不同主题进行分类，以评估兴趣。研究指出，专注于文本内容的传统情感分析方法在识别对重大事件的情感时是不足的，尤其是在总统选举方面。与传统方法的比较分析显示，将情绪分布模式和用户资料纳入分析提高了准确性。所提出的方法在考虑情绪分布模式时提高了12%的准确性，在考虑用户资料时提高了15%，证明了其在捕捉微妙的情感动态方面的有效性。

发布时间: 4/16/2025

查看原文

ColorBench：VLMs能看见并理解多彩的世界吗？一个全面的颜色感知、推理和鲁棒性基准测试

作者: Yijun Liang, Ming Li, Chenrui Fan, Ziyue Li, Dang Nguyen, Kwesi Cobbina, Shweta Bhardwaj, Jiuhai Chen, Fuxiao Liu, Tianyi Zhou

arXiv:2504.10514v1 交叉公告类型：benchmarks 摘要：颜色在人类感知中扮演着重要角色，通常为视觉推理提供关键线索。然而，尚不清楚视觉语言模型（VLMs）是否以及如何感知、理解和利用颜色如同人类一样。本文介绍了ColorBench，这是一个创新的基准测试，旨在评估VLMs在颜色理解方面的能力，包括颜色感知、推理和稳健性。通过精心编排多样化的测试场景，ColorBench基于实际应用进行评估，考察这些模型如何感知颜色、从基于颜色的线索推断意义，并在不同颜色变换下保持一致的性能。通过对32个不同语言模型和视觉编码器的VLMs进行全面评估，我们的论文揭示了一些未被发现的发现：(i) 在ColorBench上，规模法则（即更大的模型表现更好）仍然适用，但语言模型比视觉编码器起着更重要的作用。 (ii) 不同模型之间表现差异相对较小，表明现有VLMs对颜色理解的重视程度不足。 (iii) 后验推理提高了颜色理解的准确性和稳健性，尽管这些任务以视觉为中心。 (iv) VLMs在ColorBench上确实利用了颜色线索，但在某些任务中也会被误导。这些发现突显了当前VLMs的关键局限性，并强调了增强颜色理解的必要性。我们的ColorBench可以作为推动多模态人工智能中人类级颜色理解研究的基础工具。

发布时间: 4/16/2025

查看原文

JEPA4Rec：联合嵌入预测架构下学习有效的语言表示以进行序列推荐

作者: Minh-Anh Nguyen, Dung D. Le

arXiv:2504.10512v1 通知类型: 交叉摘要: 语言表示学习已成为序列推荐的一种有前途的方法，这得益于其学习泛化表示的能力。然而，尽管存在这一优势，该方法仍然无法克服数据稀疏性和对常见用户偏好理解的局限性。为解决这些限制，我们提出了$\textbf{JEPA4Rec}$框架，该框架结合了$\textbf{J}$oint $\textbf{E}$mbedding $\textbf{P}$redictive $\textbf{A}$rchitecture以及针对项目文本描述的语言建模。JEPA4Rec 捕捉到了语义丰富且可移植的表示，从而提高推荐性能并减少对大规模预训练数据的依赖。具体而言，JEPA4Rec 通过将描述信息（如标题、类别和其他属性）扁平化后，将项目表示为文本句子。为了编码这些句子，我们采用了一个双向 Transformer 编码器，并对其嵌入层进行了修改，以更好地捕捉推荐数据集中项目的相关信息。我们对文本句子应用遮蔽，并使用它们来预测未遮蔽句子的表示，帮助模型学习泛化项目的嵌入。为了进一步提高推荐性能和语言理解能力，我们采用了结合自监督学习损失的两阶段训练策略。在六个真实世界数据集上的实验表明，JEPA4Rec 一致性地优于现有方法，尤其是在跨领域、跨平台和低资源场景中。

发布时间: 4/16/2025

查看原文

超越可再现性：基于集合插入的零-shot LLM重新排rank效率提升方法

作者: Jakub Podolak, Leon Peric, Mina Janicijevic, Roxana Petcu

arXiv:2504.10509v1 类型: cross 摘要：本研究对Zhuang等人提出的集合提示方法在大规模语言模型（LLMs）上进行零样本排名的有效性和可扩展性进行了全面的重现和扩展分析。我们在文档排名任务中评估了其与传统点wise、pairwise和listwise方法相比的有效性和效率。我们的重现确认了Zhuang等人发现的结果，突显了集合方法之间的计算效率与排名效果之间的权衡。基于这些见解，我们引入了集合插入（Setwise Insertion）这一新颖方法，利用初始文档排名作为先验知识，通过关注更有可能改善排名结果的候选对象来减少不必要的比较和不确定性。在多种LLM架构（Flan-T5、Vicuna和Llama）上的实验结果显示，与原始的集合方法相比，集合插入方法可以使查询时间减少31%，模型推理次数减少23%，并略微提高重排名效果。这些发现突显了在集合提示中融入先验排名知识在提高零样本文档重排名效率和准确性方面的实际优势。

发布时间: 4/16/2025

查看原文

多向量检索：法律文档的参考嵌入和内容嵌入

作者: Jo\~ao Alberto de Oliveira Lima

arXiv:2504.10508v1 交叉类型摘要：检索增强生成（RAG）已成为通过将大规模语言模型（LLMs）与检索机制结合使用来生成上下文准确答案的有效范式。然而，在法律背景下，用户经常通过标签或昵称（例如，《宪法》第5条或《消费者保护法（CP法）》）而不是通过其内容来引用规范，这给依赖于纯语义文本嵌入的传统RAG方法带来了挑战。此外，法律文本本身高度依赖于明确的交叉引用（例如，“根据第34条”），这些引用作为指针发挥着作用。这两种情况给依赖于纯语义文本嵌入的传统RAG方法带来了挑战，常常无法检索到所需引用的内容。本文介绍了Poly-向量检索方法，该方法为每项法律规定分配多个独立的嵌入：一个嵌入捕捉文本内容（完整文本），另一个嵌入捕捉标签（标识符或正式名称），并可选地增加其他嵌入以捕捉替代名称。受到弗雷格区分意义与所指的启发，Poly-向量检索方法将标签、标识符和参考标记视为刚性指代项，而内容嵌入则作为承载语义实质的载体。对巴西联邦宪法的实验表明，Poly-向量检索方法在以标签为中心的查询中显著提高了检索准确性，并且具有解决内部和外部交叉引用的潜力，同时也不会在纯语义查询上妥协性能。该研究讨论了在向量嵌入中明确分离引用内容的哲学和实际意义，并提出了将此方法应用于更广泛的法律数据集和其他具有显式引用标识符特征领域的未来研究方向。

发布时间: 4/16/2025

查看原文

利用自动蒸馏和生成自监督学习在残差图变换器中的增强推荐系统

作者: Eya Mhedhbi, Youssef Mourchid, Alice Othmani

arXiv:2504.10500v1 Announce Type: cross 摘要：本文介绍了一种通过将生成自监督学习（SSL）与Residual Graph Transformer结合来增强推荐系统的方法。我们的方法强调了通过相关先例任务进行高级数据增强的重要性，并通过意识感知自监督学习实现自动化，以揭示用户和项目交互的明确方式。Residual Graph Transformer结合了拓扑感知Transformer以获取全局上下文，并通过残差连接提高图表示学习。此外，自动提炼过程细化自监督信号，以揭示一致的协作理由。在多个数据集上的实验评估表明，我们的方法始终优于基线方法。

发布时间: 4/16/2025

查看原文