arXiv 论文列表

作者: Minh-Duc Nguyen, Hyung-Jeong Yang, Soo-Hyung Kim, Ji-Eun Shin, Seung-Won Kim

arXiv:2505.07901v1 类型: cross 摘要：双兮反应生成任务涉及合成与对话伙伴行为高度一致的面部反应，以增强人类互动模拟的自然性和有效性。本文介绍了一种新颖的方法，即潜在行为扩散模型，该模型由上下文感知自编码器和基于扩散的条件生成器组成，解决了从输入说话者行为生成多样且上下文相关面部反应的挑战。自编码器会压缩高维输入特征，捕获听众反应中的动态模式，并将复杂输入数据压缩成简洁的潜在表示，从而促进更具表现力且上下文适宜的反应合成。基于扩散的条件生成器在自编码器生成的潜在空间中运行，以非自回归的方式预测真实的面部反应。这种方法能够生成反映对话暗示和情绪状态细微变化的多样化面部反应。实验结果证明了我们的方法在双兮反应生成任务中优于现有方法的性能。

发布时间: 5/14/2025

查看原文

DeltaEdit: 通过控制叠加噪声增强大型语言模型中的序列编辑能力

作者: Ding Cao, Yuchen Cai, Rongxi Guo, Xuesong He, Guiquan Liu

arXiv:2505.07899v1 类别: cross 摘要: 顺序知识编辑技术旨在以低成本连续更新大型语言模型中的知识，防止模型生成过时或错误的信息。然而，现有的顺序编辑方法在长期编辑后编辑成功率显著下降。通过理论分析和实验，我们发现随着编辑次数的增加，模型的输出越来越偏离期望目标，导致编辑成功率下降。我们将这一问题称为叠加噪声积累问题。为解决这一问题，我们识别导致这种偏离的因素，并提出了一种名为DeltaEdit的新方法，该方法通过动态正交约束策略优化更新参数，有效减少编辑之间的干扰以减轻偏离。实验结果显示，DeltaEdit在编辑成功率和保留泛化能力方面显著优于现有方法，确保即使在广泛的顺序编辑下也能保持稳定和可靠的模型性能。

发布时间: 5/14/2025

查看原文

LongCodeBench：评估具有100万上下文窗口的编程LLM模型

作者: Stefano Rando, Luca Romani, Alessio Sampieri, Yuta Kyuragi, Luca Franco, Fabio Galasso, Tatsunori Hashimoto, John Yang

arXiv:2505.07897v1 类型: cross 摘要：模型的上下文长度已经迅速增长，从几千个词元增加到数百万个词元，仅仅用了几年时间。现代大上下文模型的极端上下文大小使得构建现实的大上下文基准变得困难——不仅因为收集百万级上下文任务的成本高昂，还因为在实际场景中找到需要大量上下文的情况较为困难。我们发现代码理解与修复可以作为测试大上下文模型的自然试验床和挑战任务，并引入了LongCodeBench（LCB），用来测试大语言模型（LLMs）在大上下文场景中的编程能力。我们的基准测试涵盖了实际和重要的场景，通过从GitHub issues中获取实际数据并构建问答（LongCodeQA）和漏洞修复（LongSWE-Bench）任务来测试LCLMs的理解和修复能力。我们精确地对基准的复杂性进行了分层，使我们能够对不同规模的模型进行评估——从Qwen2.5 14B Instruct到Google的旗舰Gemini模型。我们发现大上下文仍然是所有模型的弱点，例如Claude 3.5 Sonnet的性能从29%下降到3%，Qwen2.5的性能从70.2%下降到40%。

发布时间: 5/14/2025

查看原文

解析选择性运动神经元脆弱性中的大规模语言模型与单细胞转录组学桥梁构建

作者: Douglas Jiang, Zilin Dai, Luxuan Zhang, Qiyi Yu, Haoqi Sun, Feng Tian

arXiv:2505.07896v1 宣告类型: cross 摘要: 通过单细胞水平的测序数据理解细胞身份和功能仍然是计算生物学中的一个关键挑战。我们提出了一种新的框架，利用NCBI Gene数据库中的基因特定文本注释来生成生物上下文化的细胞嵌入。对于单细胞RNA测序(scRNA-seq)数据集中的每个细胞，我们按表达水平对基因进行排名，检索它们的NCBI Gene描述，并使用大语言模型(LLMs)将这些描述转换为向量嵌入表示。所使用的模型包括OpenAI的text-embedding-ada-002、text-embedding-3-small和text-embedding-3-large（2024年1月），以及领域特定的模型BioBERT和SciBERT。嵌入是通过每个细胞中表达最高的N个基因的加权平均值计算出来的，提供了一种紧凑而又语义丰富的表示。这种方法将结构化的生物数据与最新的语言模型结合起来，使得下游应用，如细胞类型聚类、细胞脆弱性分析和轨迹推断，具有更好的可解释性。

发布时间: 5/14/2025

查看原文

多模态异构网络中模态相互影响的表示学习方法用于节点分类

作者: Jiafan Li, Jiaqi Zhu, Liang Chang, Yilin Li, Miaomiao Li, Yang Wang, Hongan Wang

arXiv:2505.07895v1 Announce Type: cross 摘要：如今，许多在线平台可以被描述为多模态异构网络（MMHNs），例如豆瓣的电影网络和亚马逊的产品评论网络。准确地对这些网络中的节点进行分类对于分析相应的实体至关重要，这需要有效的节点表示学习。然而，现有的多模态融合方法往往采用早期融合策略，可能会丢失每个模态的独特特征，或者采用基于图神经网络（GNN）的信息传播中的晚期融合方式，忽略了跨模态的指导。在本文中，我们提出了一种新的MMHN中的节点分类模型，名为具有跨模态注意力的异构图神经网络（HGNN-IMA）。它通过在信息传播过程中捕捉多种模态之间的相互影响来学习节点表示，在异构图变换器框架内进行。具体而言，将嵌套跨模态注意力机制集成到端节点注意力中，以实现自适应的多模态融合，并考虑模态对齐以鼓励所有模态中相似性一致的节点之间的传播。此外，增加了注意力损失以减轻缺失模态的影响。大量实验验证了该模型在节点分类任务中的优越性，提供了一种处理多模态数据的新视角，特别是在伴随网络结构时。

发布时间: 5/14/2025

查看原文

图为基础的检索增强大型语言模型用于事实核查：TrumorGPT

作者: Ching Nam Hang, Pei-Duo Yu, Chee Wei Tan

arXiv:2505.07891v1 类别: cross 摘要：在社交媒体时代，错误信息和谣言的迅速传播导致了信息疫情（infodemic）的出现，虚假信息对社会构成了重大威胁。为应对这一问题，我们提出了一种名为TrumorGPT的新颖生成型人工智能解决方案，专门用于健康领域的事实核查。TrumorGPT旨在区分“谣言”，这些谣言是原本被认为是谣言但实际上真实的信息，为区分纯粹的推测和已验证的事实提供了重要工具。该框架利用大型语言模型（LLM）和少量样本学习进行语义健康知识图谱构建和语义推理。TrumorGPT结合了基于图的检索增强生成（GraphRAG）来解决大型语言模型（LLM）中常见的幻觉问题以及静态训练数据的局限性。GraphRAG涉及访问和利用不断更新的语义健康知识图谱中的信息，这些知识图谱包含最新的医疗新闻和健康信息，确保TrumorGPT的事实核查基于最新的数据。通过对广泛的医疗保健数据集进行评估，TrumorGPT在公共健康声明的事实核查方面表现出色。其在不同平台上有效开展事实核查的能力标志着打击健康领域虚假信息的重要进展，增强了数字信息时代的信任和准确性。

发布时间: 5/14/2025

查看原文

通过双层句段结构提取和映射实现长文本风格迁移的LLM实施方法

作者: Yusen Wu, Xiaotie Deng

arXiv:2505.07888v1 交叉类型公告摘要：本文通过零样本学习解决大规模语言模型（LLMs）在长文本风格转换方面的挑战，提出了一种层级框架，该框架结合了句子层面的风格适应与段落层面的结构连贯性。我们认为，在有效的段落风格转换过程中，为了保存原始句法和语义信息的一致性，在进行风格转换时不仅需要在句子层面进行，还需要考虑到段落层面的语义因素，同时确保跨句子关系的结构连贯性。我们提出的框架ZeroStylus通过两个系统的阶段运作：从参考文本中获得层次化模板和模板引导生成，采用多层次匹配。框架动态构建句子和段落模板库，从而实现上下文感知的转换，同时保留句子间的逻辑关系。实验评估表明，这种方法显著优于基线方法：在三轴指标评估风格一致性、内容保存和表达质量方面，结构化重写获得了6.90的平均分，而直接提示方法的得分为6.70。消融研究验证了在风格转换过程中模板层次结构的必要性，通过段落层面的结构编码相比仅在句子层面提取和匹配模式的方法，显示出更高的内容保存胜率。这些结果确立了无需平行语料库或LLM微调的新能力，以实现连贯的长文本风格转换。

发布时间: 5/14/2025

查看原文

PLHF: 基于少量人类反馈的提示优化

作者: Chun-Pai Yang, Kan Zheng, Shou-De Lin

arXiv:2505.07886v1 Announce Type: cross 摘要：自动提示优化框架旨在为大型语言模型（LLMs）获得符合预期输出质量指标的提示。虽然现有的方法可以处理诸如固定解决方案问答这类常规任务，但在输出质量无法通过与标准金标准样本进行比较来容易评估时，定义指标变得复杂。因此，在没有明确指标的情况下，有效且高效地优化提示变得是一个关键挑战。为解决这个问题，我们提出了一种名为PLHF（“P”rompt “L”earning with “H”uman “F”eedback）的少量示例提示优化框架，该框架灵感来源于广为人知的RLHF技术。与简单的策略不同，PLHF采用了一个特定的评估器模块，充当指标来估计输出质量。PLHF只需要一轮人类反馈即可完成整个提示优化过程。实证结果表明，PLHF在LLM提示优化中优于先前的输出评分策略。

发布时间: 5/14/2025

查看原文

从大型语言模型嵌入中通过公理约束恢复事件概率

作者: Jian-Qiao Zhu, Haijiang Yan, Thomas L. Griffiths

arXiv:2505.07883v1 类型：交叉学科摘要：在不确定性条件下进行合理的决策要求对事件拥有一致的信念程度。然而，大型语言模型（LLMs）生成的事件概率已被证明具有一致性问题，违反了概率论的公理。这引发了一个问题，即是否可以从模型使用的嵌入中恢复出一致的事件概率。如果可以，这些推导出的概率可以在涉及不确定性的事件中作为更准确的估计使用。为了探索这一问题，我们提出在扩展的变分自编码器（VAE）应用于LLM嵌入时学习的潜在空间中强加公理约束（如概率论的加法规则），这使得事件概率在潜在空间中自然地出现，因为VAE学会了同时重构原始嵌入并预测相关事件的嵌入。我们评估了该方法在互补事件（即事件A及其互补事件，事件非A）上的表现，其中两个事件的真正概率之和必须为1。对开放式语言模型的实验结果显示，从嵌入中恢复出的概率比对应模型直接报告的概率更具一致性，并且与真实概率高度一致。

发布时间: 5/14/2025

查看原文

OMGM: 调度多种粒度和模态以实现高效的多模态检索

作者: Wei Yang, Jingjing Fu, Rui Wang, Jinyu Wang, Lei Song, Jiang Bian

arXiv:2505.07879v1 交叉类型: 摘要：视觉-语言检索增强生成（RAG）已成为应对基于知识的视觉问答（KB-VQA）的有效方法，KB-VQA 需要超出图像中呈现视觉内容的外部知识。视觉-语言 RAG 系统的有效性在于其多模态检索，由于查询和知识库中的多元模态和知识粒度的多样性，这本身就是一个具有挑战性的任务。现有的方法尚未充分挖掘这些元素之间的潜力。我们提出了一种多模态 RAG 系统，该系统具有从粗到细、多步骤的检索，以协调多个粒度和模态，从而提高效果。该系统首先进行广泛的初始搜索以实现跨模态检索的知识粒度对齐，然后进行多模态融合检索重塑以捕捉精致的多模态信息进行实体选择。随后的文本检索器筛选出最相关的细粒度部分进行增强生成。在 InfoSeek 和 Encyclopedic-VQA 基准上的广泛实验显示，我们的方法实现了最先进的检索性能，并且具有很强的竞争回答结果，突显了其在推进 KB-VQA 系统方面的有效性。

发布时间: 5/14/2025

查看原文