arXiv 论文列表

作者: Delaram Pirhayati, Arlei Silva

arXiv:2502.14293v1 宣告类型:交叉摘要: 图异常检测(GAD)在识别图形结构数据中的异常模式方面展示了极大的有效性。然而，在新兴应用中，标记的异常数据往往稀缺，现有的监督GAD方法在跨图域移动时由于分布偏移和异构特征空间的原因要么无效要么不适用。为了解决这些挑战，我们提出了AdaGraph-T3，一种新的跨域GAD的测试时训练框架。AdaGraph-T3在训练过程中结合了监督学习和自监督学习，在测试时使用仅基于自我监督学习的方法适应新域，利用基于同质性亲和度评分来捕捉异常的域不变属性。我们的框架为跨域GAD引入了四个关键创新点：有效的自监督方案、一种基于注意力机制，在消息传递过程中动态学习边的重要性权重的方法、特定于域的编码器以处理异构特征、以及有类意识的正则化以解决类别不平衡问题。在多个跨域设置下的实验表明，AdaGraph-T3显著优于现有方法，在AUROC和AUPRC指标上分别取得了超过6.6%和7.9%的平均提升，相对于基准模型。

发布时间: 2/21/2025

查看原文

修正噪声多标签预测：通过潜在空间变换建模标签噪声

作者: Weipeng Huang, Qin Li, Yang Xiao, Cheng Qiao, Tie Cai, Junwei Liao, Neil J. Hurley, Guangyuan Piao

arXiv:2502.14281v1 类别：交叉摘要：在大多数实际的机器学习应用中，数据中的噪声似乎是不可避免的，这会导致严重的过拟合问题。数据特征不仅仅是噪声的来源，标签也容易因为人为输入而变得噪声化。在本文中，我们不是关注多类别分类中的噪声标签学习，而是专注于噪声标签学习在多标签分类中的更未探索的领域。具体来说，我们研究了基于使用噪声标签训练的分类器生成的预测的后校正。原因有两个方面。首先，这种方法可以直接与训练好的模型结合使用，以节省计算资源。其次，它可以应用于其他噪声标签校正技术之上，以实现进一步的改进。为了解决这一问题，我们求助于可能实现不确定性估计的深度生成方法。我们的模型假设标签噪声源自潜在变量的随机位移，从而提供了一种更稳健和有益的噪声学习方式。我们为我们的模型开发了无监督和半监督学习方法。广泛的实验研究提供了确凿的证据，表明我们的方法能够一致地改进独立模型，并且在各种噪声标签设置中在多种现有方法中表现出更好的性能。此外，我们进行了全面的实证分析以验证所提出方法的稳健性，包括敏感性分析和消融研究等其他元素。

发布时间: 2/21/2025

查看原文

EpMAN: 记忆回溯注意力机制以适应更长的上下文

作者: Subhajit Chaudhury, Payel Das, Sarathkrishna Swaminathan, Georgios Kollias, Elliot Nelson, Khushbu Pahwa, Tejaswini Pedapati, Igor Melnyk, Matthew Riemer

arXiv:2502.14280v1 宣言类型：交叉摘要：大型语言模型（LLMs）近年来在许多语言任务上取得了令人印象深刻的成果。然而，使用LLMs高效处理长上下文仍然是一项重大挑战。我们引入了**EpMAN** -- 一种在** episodic 记忆**模块中处理长上下文的方法，同时**整体关注**语义相关的上下文片段。episodic 注意力的输出随后用于在训练和生成期间重新加权解码器的自注意力到存储的KV缓存。当使用**EpMAN**训练LLM解码器时，发现其在多个具有挑战性的单跳长上下文回忆和问答基准测试中的表现比使用自注意力和流行检索增强生成框架训练的基本解码器更强且更稳定，在16k到256k词元的范围内都表现出色。

发布时间: 2/21/2025

查看原文

STeCa: 步骤级轨迹校准用于LLM代理学习

作者: Hanlin Wang, Jian Wang, Chak Tou Leong, Wenjie Li

arXiv:2502.14276v1 类型: cross 摘要: 基于大型语言模型（LLM）的代理在通过与环境动态交互来应对复杂任务方面显示出潜力。现有工作主要集中在从专家示范中进行行为克隆以及通过探索性轨迹采样进行偏好学习。然而，这些方法在长期任务中往往表现不佳，因为次优行动逐步积累，导致代理偏离正确的任务轨迹。为了解决这一问题，我们强调了及时校准的重要性，并指出需要自动生成校准轨迹来训练代理。我们提出了步骤级轨迹校准（STeCa），这是一种新颖的LLM代理学习框架。具体而言，STeCa在探索过程中通过步骤级奖励对比来识别次优行动，并通过LLM驱动的反思构建校准轨迹，使得代理能够从改进的决策过程中学到。这些校准轨迹与成功的轨迹数据一起用于增强训练。广泛实验表明，STeCa显著优于现有方法。进一步的分析还表明，步骤级校准使代理能够以更高的鲁棒性完成任务。我们的代码和数据可在https://github.com/WangHanLinHenry/STeCa 获取。

发布时间: 2/21/2025

查看原文

LLM-EvRep：使用自监督框架学习一个与大语言模型兼容的事件表示

作者: Zongyou Yu, Qiang Qu, Qian Zhang, Nan Zhang, Xiaoming Chen

arXiv:2502.14273v1 声称类型: cross 摘要：最近在事件驱动识别方面的进展显示了显著的潜力，但大多数现有方法都依赖于大量的训练，这限制了它们对事件驱动视觉内容高效处理的适应性。与此同时，大型语言模型（LLMs）在各个领域都表现出卓越的零样本能力，但它们在事件驱动视觉识别的应用仍然很少被探索。为了解决这一差距，我们提出了一种名为 \textbf{LLM-EvGen} 的事件表示生成器，它生成了适用于 LLM 的事件表示 \textbf{LLM-EvRep}，从而在事件识别任务中增强了 LLM 的性能。生成器通过一个自监督框架进行训练，使生成的表示与语义一致性和结构真实性保持一致。我们在三个数据集：N-ImageNet、N-Caltech101 和 N-MNIST 上进行了全面的实验。结果显示，当使用 GPT-4o 进行评估时，我们的方法 \textbf{LLM-EvRep} 在识别任务中的表现分别比事件到视频的方法 E2VID 优异了 15.93%、0.82% 和 50.21%。

发布时间: 2/21/2025

查看原文

捕捉细腻的偏好：面向偏好的精简distillation for小语言模型

作者: Yanggan Gu, Junzhuo Li, Sirui Huang, Xin Zou, Zhenghua Li, Xuming Hu

arXiv:2502.14272v1 类型: 横跨领域研究摘要：使小型语言模型（SLMs）与人类价值观对齐通常涉及从大型语言模型（LLMs）中提取偏好知识。然而，现有的提取方法通过比较成对响应来建模教师LLMs的偏好知识，忽略了响应之间的差异程度。这一局限性阻碍了学生SLMs捕捉多种响应的细微偏好。在本文中，我们提出了一种偏好对齐蒸馏（PAD）框架，将教师的偏好知识建模为所有潜在偏好的一种概率分布，从而提供更细微的监督信号。我们开发PAD的洞察力源于语言模型可以作为奖励函数的演示，反映其内在偏好。基于此，PAD包含三个关键步骤：（1）使用高温度抽样不同的响应；（2）为教师和学生计算奖励以构造其内在偏好；以及（3）训练学生的内在偏好分布以与教师对齐。在四个主流对齐基准测试上的实验表明，PAD在所有情况下都显著优于现有方法，在AlpacaEval 2和Arena-Hard上实现了超过20%的改进，表明与人类偏好对齐效果更优。值得注意的是，在MT-Bench上，使用\textsc{Gemma}模型家族，通过PAD训练的学生超过了其教师，进一步验证了我们PAD的有效性。

发布时间: 2/21/2025

查看原文

MCQA-Eval：基于 gold-standard 正确性标签的 NLG 有效性评估

作者: Xiaoou Liu, Zhen Lin, Longchao Da, Chacha Chen, Shubhendu Trivedi, Hua Wei

arXiv:2502.14268v1 宣布类型：交叉摘要：大型语言模型（LLMs）需要稳健的置信度估计，特别是在医疗保健和法律等关键领域，不准确的输出可能会导致严重后果。尽管对此类置信度估计已有大量近期研究，当前的评估框架仍然依赖于正确性函数——这些往往是噪声较大的、昂贵的，甚至可能引入系统性偏差的各种启发式方法。这些方法论上的弱点往往会扭曲评估指标，从而影响置信度度量的比较排名。我们引入了MCQA-Eval，这是一种自然语言生成（NLG）中的置信度度量评估框架，通过利用多选题数据集中标准的正确性标签，消除了对外部明确正确性函数的依赖。MCQA-Eval 使得基于内部状态的白盒（例如，对数概率为基础的）和基于一致性的黑盒置信度度量的系统性比较成为可能，提供了一种统一的评估方法论。通过在多个LLM和广泛使用的问答数据集上的大量实验，我们报告称MCQA-Eval 提供了比现有方法更高效且更可靠的置信度估计方法评估方式。

发布时间: 2/21/2025

查看原文

EyeBench：对视网膜图像增强评价标准要求更加严格的呼吁

作者: Wenhui Zhu, Xuanzhao Dong, Xin Li, Yujian Xiong, Xiwen Chen, Peijie Qiu, Vamsi Krishna Vasa, Zhangsihao Yang, Yi Su, Oana Dumitrascu, Yalin Wang

arXiv:2502.14260v1 交叉类型：公告摘要：在过去十年中，生成模型在增强眼底图像方面取得了显著成功。然而，这些模型的评估仍然面临显著挑战。对于眼底图像增强需要一个全面的评估基准，原因有三项：1）现有的去噪指标（如PSNR、SSIM）难以扩展到下游的实际临床研究（如血管形态一致性）。2）缺乏对配对和非配对增强方法的综合评估，以及需要专家协议来准确评估临床价值。3）理想的评估系统应为未来眼底图像增强的发展提供有价值的见解。为此，我们提出了一种名为EyeBench的新型全面基准，为增强模型与临床需求对齐提供见解，为未来工作提供基础，以提高生成模型在眼底图像增强中的临床相关性和应用性。EyeBench具有三个吸引人的特性：1）多维度的下游临床对齐评估：除了评估增强任务，我们还提供了几种对于眼底图像具有临床意义的下游任务，包括血管分割、DR分级、去噪泛化和病灶分割。2）医学专家指导的评估设计：我们引入了一种新的数据集，促进配对和非配对方法之间的全面和公平比较，并包括由医学专家进行的手动评估协议。3）有价值的见解：我们的基准研究对不同下游任务中现有方法进行了全面和严谨的评估，帮助医学专家做出明智的选择。此外，我们还对现有方法面临的挑战进行了更深入的分析。代码可在[\url{https://github.com/Retinal-Research/EyeBench}]获取。

发布时间: 2/21/2025

查看原文

时间有自己的位置吗？时间头部：语言模型回忆特定时间信息

作者: Yein Park, Chanwoong Yoon, Jungwoo Park, Minbyul Jeong, Jaewoo Kang

arXiv:2502.14258v1 类型：交叉摘要：尽管语言模型提取事实的能力已被广泛研究，但它们如何处理时间变化的事实却鲜有探索。我们发现时间头，这是一种专门负责通过电路分析处理时间知识的注意力头。我们确认这些头在多个模型中存在，尽管它们的具体位置可能有所不同，且它们的响应会根据类型的知识及其对应的年份而变化。禁用这些头会降低模型召回时间特定知识的能力，同时保持其一般能力，而不会影响时间不变和问答性能。此外，这些头不仅在数值条件（“在2004年”）中被激活，还在文本别名（“在……年”）中被激活，表明它们超越了简单的数值表示，编码了一种时间维度。此外，我们通过展示如何通过调整这些头的值来编辑时间知识，进一步扩大了我们的发现潜力。

发布时间: 2/21/2025

查看原文

大型语言模型在特定领域任务中提示长度的效果研究

作者: Qibang Liu, Wenzhe Wang, Jeffrey Willard

arXiv:2502.14255v1 宣告类型: cross 摘要：近年来，大规模语言模型因其在各种自然语言任务中的出色表现，如机器翻译和问答，吸引了大量关注。这些模型展示了在多种任务中泛化的惊人能力。然而，它们在应对特定领域任务（如金融情感分析和货币政策理解）方面的有效性仍然是一个备受争议的话题，因为这些任务往往需要专门的知识和精确的推理。为应对这些挑战，研究人员设计了各种提示来激发模型的能力。通过精心设计输入提示，研究人员可以引导这些模型产生更准确的响应。因此，提示工程已成为研究的重点之一。尽管在模型和提示工程方面取得了进步，但模型和提示设计之间的关系——特别是提示设计如何影响模型在特定领域任务中的表现——仍然未被充分探索。本文旨在弥补这一研究空白。

发布时间: 2/21/2025

查看原文