arXiv 论文列表

作者: Seonok Kim

arXiv:2502.03004v1 通知类型: cross 摘要：大规模语言模型（LLMs）已在自然语言处理任务中展示了令人印象深刻的性能。然而，将其应用于医学和生物学等专业化领域需要进一步优化，以确保事实准确性、可靠性和上下文深度。我们介绍了一种名为MedBioLM的领域适配医学生物问题回答模型，旨在增强短问答和长问答的能力。通过整合微调和检索增强生成（RAG），MedBioLM动态地纳入了领域特定的知识，从而改善了推理能力和事实准确性。为了评估其有效性，我们在多种医学生物问答数据集上进行了微调，涵盖了结构化多项选择评估和复杂的临床推理任务。微调显著提高了基准数据集上的准确性，而RAG提高了事实一致性。这些结果突显了优化领域的大规模语言模型在推进医学研究、医学教育和临床决策支持方面的潜力。

发布时间: 2/6/2025

查看原文

训练作为法官的LLM模型：流水线、见解与实用教训

作者: Renjun Hu, Yi Cheng, Libin Meng, Jiaxin Xia, Yi Zong, Xing Shi, Wei Lin

arXiv:2502.02988v1 宣布类型: cross 摘要：大规模语言模型（LLMs）的迅速 advancements 打开了将其作为评估法官新可能性的大门。本文介绍了一种名为 Themis 的微调 LLM 法官，它能够提供高级的上下文感知评估。我们提供了 Themis 开发管道的全面概述，强调了其针对不同场景的评估提示以及两种新颖的控制指令生成方法。这些设计使 Themis 能够有效地从教师模型中提炼出评估技能，同时保持持续发展的灵活性。我们引入了两个元评估的人工标注基准，展示了 Themis 可以在经济的方式下达到与人类偏好高度一致的效果。此外，我们探讨了 LLM 作为法官范式的洞见，揭示了性能中的细微差别和各种参考答案的影响。值得注意的是，我们观察到，尽管从强大 LLM 中纯粹的知识提炼很常见，但在扩展过程中并不能保证性能提升。我们提出了基于指令遵循难度的缓解策略。此外，我们还提供了数据平衡、提示定制、多目标训练和度量聚合的实用指南。我们希望我们的方法、发现，以及微调数据、基准和模型检查点，能够支持这一领域未来的研究和发展。

发布时间: 2/6/2025

查看原文

TGB-Seq 基准：挑战复杂的序列动态时间门控网络

作者: Lu Yi, Jie Peng, Yanping Zheng, Fengran Mo, Zhewei Wei, Yuhang Ye, Yue Zixuan, Zengfeng Huang

arXiv:2502.02975v1 交叉类型摘要：未来链预测是各种实际动态系统中的一个基本挑战。为了解决这个问题，已经开发出了大量的时间图神经网络（时间GNNs）和基准数据集。然而，这些数据集通常存在过多的重复边，并缺乏复杂的序列动态，这是许多实际应用（如推荐系统和社会网络中的“谁将跟随”）中固有的关键特征。这种忽视导致现有方法无意中淡化了学习序列动态的重要性，主要关注预测重复边。在本研究中，我们表明现有方法，如GraphMixer和DyGFormer，本质上无法学习简单的序列动态，例如“一个已经关注过OpenAI和Anthropic的用户更有可能在未来关注Meta的AI。”为了解决这个问题，我们引入了具有序列动态的时间图基准（TGB-Seq），这是一个精心编排的新基准，旨在减少重复边，挑战模型学习序列动态并泛化到未见过的边。TGB-Seq涵盖了不同领域的大量实际世界数据集，包括电子商务交互、电影评分、商业评论、社会网络、引用网络和网页链接网络。基准实验表明，目前的方法在TGB-Seq上通常会遭受显著的性能下降和大量的训练成本，这为未来的研究提出了新的挑战和机会。TGB-Seq的数据集、排行榜和示例代码可在https://tgb-seq.github.io/获取。

发布时间: 2/6/2025

查看原文

FACTOR：知晓公平性的同变阈值调整与提示工程，以实现公平的基于LLM的推荐系统

作者: Arya Fayyazi, Mehdi Kamal, Massoud Pedram

arXiv:2502.02966v1 宣告类型：交叉摘要：我们提出了一种名为FACTER的公平性 Awareness框架，该框架将形式化预测与动态提示工程相结合，用于基于LLM的推荐系统。通过引入自适应语义方差阈值和违规触发机制，每当出现有偏模式时，FACTER会自动收紧公平性约束。我们进一步开发了一种对抗性提示生成器，该生成器利用历史违规情况来减少重复的demographic偏见，而无需重新训练LLM。在MovieLens和Amazon上的实验证明，FACTER在显著减少公平性违规（最高达95.5%）的同时，保持了强大的推荐准确性，揭示了语义方差是偏见的一种有力代理指标。

发布时间: 2/6/2025

查看原文

ReachAgent：通过页面获取和操作提升移动代理

作者: Qinzhuo Wu, Wei Liu, Jian Luan, Bin Wang

arXiv:2502.02955v1 类型: cross 摘要：近年来，移动AI代理得到了不断增加的关注。给定一个任务，移动AI代理可以在多个步骤中与移动设备进行交互，最终形成一个GUI流程来解决该任务。然而，现有的代理通常倾向于在每个步骤中专注于最相关的任务元素，导致局部最优解，并且忽略了整体的GUI流程。为了解决这一问题，我们构建了一个名为MobileReach的训练数据集，将任务分解为页面到达和操作子任务。此外，我们提出了一种名为ReachAgent的两阶段框架，旨在提高其任务完成能力。该框架利用页面到达和页面操作子任务，以及基于奖励的偏好GUI流程，进一步增强了代理。实验结果显示，ReachAgent在步骤级别上将IoU Acc 和 Text Acc 分别提高了7.12%和7.69%，在任务级别上分别提高了4.72%和4.63%，相较于最先进的代理。我们的数据和代码将在接受后公开。

发布时间: 2/6/2025

查看原文

VQA-层次：一种分级方法对VQA中的问题进行分类

作者: Madhuri Latha Madaka, Chakravarthy Bhagvati

arXiv:2502.02951v1 宣告类型: cross 摘要: 设计用于视觉问答(VQA)的数据集是一项复杂而艰巨的任务，需要自然语言处理(NLP)来解析和计算机视觉来分析图像的相关方面，以便回答提出的问题。研究人员已经开发了多个基准数据集，但它们在进行系统性性能测试时存在许多问题。本文提出一个新的基准数据集——试点版本称为VQA-Levels——用于系统性地测试VQA系统，并协助研究人员推进该领域的发展。问题被分类为七个层次，从基于低级图像特征的直接答案（甚至不需要分类器）到需要对整个图像内容进行高层次抽象的内容。数据集中的问题展示了十种属性之一或多种。每个问题都被归类为特定的1至7级之一。1至3级直接针对视觉内容，其余级别则需要额外了解图像中对象的知识。每个问题通常有一个独特的单个或双个词答案。这些问题在某种意义上是‘自然的’，因为在看到这些图片时，人类很可能会提出这样的问题。层级1的一个例子是，“图像中红色区域的形状是什么？”而层级7的例子是，“为什么男人在剪纸？”。对所提议数据集在一些现有VQA系统的初步测试显示，它们在层级1（低级特征）和层级2（对象分类）的问题上表现优异，但在层级3（场景文字）、层级6（外推）和层级7（整幅场景分析）的问题上表现最差。本文的工作将为系统分析VQA系统提供重要帮助。

发布时间: 2/6/2025

查看原文

LLM-KT：通过插件式指令对大型语言模型与知识追踪进行对齐

作者: Ziwei Wang, Jie Zhou, Qin Chen, Min Zhang, Bo Jiang, Aimin Zhou, Qinchun Bai, Liang He

arXiv:2502.02945v1 交叉类型摘要：知识追踪（KT）问题是个性化教育中的一个极其重要的课题，其目标是根据学生过去的问题回答记录预测学生能否正确回答下一个问题。此前在这项任务上的研究主要集中在通过问题ID或文本信息学习行为序列。然而，这些研究通常未能捕捉到学生的行为模式，特别是在利用关于问题的丰富世界知识进行推理时没有捕捉到足够的行为模式。在本文中，我们提出了一种基于大型语言模型（LLMs）的知识追踪框架，命名为 \texttt{\textbf{LLM-KT}}，以结合LLMs和传统序列交互模型的优势。在任务层次上的对齐方面，我们设计了插件即用指令，利用LLMs丰富的知识和强大的推理能力将LLMs与知识追踪对齐。在模态层次上的对齐方面，我们设计了插件上下文和序列，以集成传统方法学习的多种模态。为了捕捉历史记录的长上下文，我们提出了一种插件上下文，利用问题特定和概念特定的标记将压缩的上下文嵌入灵活地插入到LLMs中。此外，我们引入了一种插件序列，利用传统序列模型学习的序列交互行为表示增强LLMs。广泛的实验表明，在与约20个强大基准相比较的情况下，\texttt{\textbf{LLM-KT}} 在四个典型的数据集上取得了最先进的性能。

发布时间: 2/6/2025

查看原文

大型语言模型引导的自调试代码生成

作者: Muntasir Adnan, Zhiwei Xu, Carlos C. N. Kuhn

arXiv:2502.02928v1 声明类型: cross 摘要：自动化代码生成在智能计算机编程和系统部署中变得越来越重要。然而，当前的方法往往在计算效率方面面临挑战，并且缺乏有效的代码解析和错误纠正机制。为了解决这些问题，我们在Python代码生成中提出了一种新颖的框架PyCapsule，该框架具有一个简单而有效的两代理流水线和高效的自调试模块。PyCapsule的特点包括复杂的提示推理、迭代的错误处理以及案例测试，从而确保了高度的生成稳定性和安全性。实验结果显示，PyCapsule在HumanEval上的成功率提高了5.7%，在HumanEval-ET上的成功率提高了10.3%，在BigCodeBench上的成功率提高了24.4%，比现有最先进的方法提高了显著的百分比。同时，我们还发现，随着自调试尝试次数的增加，标准化成功率下降，这可能是由于内存中有限且嘈杂的错误反馈所影响。PyCapsule展示了在促进轻量级和高效的人工智能系统代码生成方面的更广泛影响。

发布时间: 2/6/2025

查看原文

拓扑对比学习 for 时间序列

作者: Namwoo Kim, Hyungryul Baik, Yoonjin Yoon

arXiv:2502.02924v1 宣告类型: cross 摘要: 在实际应用中，如分类、异常检测和预测，时间序列的通用表示学习具有挑战性但极具价值。最近，对比学习（CL）被积极研究以应对时间序列表示问题。然而，CL中的数据增强过程可能会扭曲季节性模式或时间依赖性，不可避免地导致语义信息的丢失。为了解决这一挑战，我们提出了时间序列的拓扑对比学习（TopoCL）。TopoCL通过结合持久同调来减轻这种信息损失，持久同调捕捉到的数据的拓扑特征在变换下保持不变。在本文中，我们将时间序列数据的时间性质和拓扑性质视为不同的模态。具体来说，我们计算持久同调以构建时间序列数据的拓扑特征，并用持久图表示它们。然后，我们设计一个神经网络来编码这些持久图。我们的方法在同一时间内同时优化CL和时间-拓扑对应，促进对时间序列的时间语义和拓扑性质的全面理解。我们在分类、异常检测、预测和迁移学习四个下游任务上进行了广泛的实验。结果表明，TopoCL达到了最先进的性能。

发布时间: 2/6/2025

查看原文

多渠道广告的自适应预算优化：组合臂bandits方法

作者: Briti Gangopadhyay, Zhao Wang, Alberto Silvio Chiappa, Shingo Takamatsu

arXiv:2502.02920v1 声明类型: 交叉摘要：有效的预算分配对于优化数字广告活动的性能至关重要。然而，实用的预算分配算法的发展受限，主要是由于缺乏公共数据集和全面的仿真环境来验证现实世界广告的复杂性。尽管多臂 Bandit (MAB) 算法被广泛研究，但在需要快速适应不断变化的市场动态的非稳定环境中，其有效性会减弱。在本文中，我们通过介绍三大关键贡献推动了数字广告预算分配领域的进展。首先，我们开发了一个仿真的环境，旨在模拟长时间范围内的多渠道广告活动，并结合了日志中的真实世界数据。其次，我们提出了一个增强的组合 Bandit 预算分配策略，该策略利用饱和均值函数和带有突变点检测的目标探索机制。该方法能够动态适应市场条件的变化，在基于领域知识过滤目标区域的基础上提高分配效率。最后，我们提供了理论分析和实证结果，证明了我们的方法在多个真实世界广告活动中始终优于基线策略，实现了更高的回报和更低的遗憾度。

发布时间: 2/6/2025

查看原文