arXiv 论文列表

作者: Xin Wang, Zirui Chen, Haofen Wang, Leong Hou U, Zhao Li, Wenbin Guo

arXiv:2407.00936v5 通告类型: 替换-交叉摘要：知识表示学习（KRL）对于通过将知识图谱（KGs）中的知识事实投影到向量空间中，从而使符号知识能够应用于下游任务至关重要。尽管KRL方法在建模KG结构信息方面表现出色，但它们正受到 KG 稀疏性的困扰。基于 Transformer 架构构建的大语言模型（LLMs）的兴起为通过整合文本信息来增强 KRL 并解决 KG 中的信息稀疏性提供了令人鼓舞的机会。增强的 KRL 方法包括三种关键方法：利用详细上下文信息的编码器方法、利用统一的Seq2Seq模型进行全面编码和解码的编码器-解码器方法，以及利用大量语料库中的丰富知识的解码器方法，这些方法在解决各种下游任务中的 KRL 的有效性与泛化能力方面取得了显著进步。本文提供了一个广泛的下游任务概览，并同时指出了这些不断发展的领域中的新兴研究方向。

发布时间: 4/9/2025

查看原文

CATBench：一种用于黑盒优化的编译器调优基准测试套件

作者: Jacob O. T{\o}rring, Carl Hvarfner, Luigi Nardi, Magnus Sj\"alander

arXiv:2406.17811v2 宣布类型: 替换-交叉摘要：贝叶斯优化是用于自动化编译器调优的强大方法。自动调优的复杂景观为黑盒优化器提供了众多鲜有考虑的结构性挑战，而标准化基准的缺乏限制了贝叶斯优化在该领域的研究。为了解决这一问题，我们提出了CATBench，这是一个全面的基准测试套件，能够捕捉编译器自动调优的复杂性，包括从离散、条件和排列参数类型到已知和未知的二进制约束，以及多保真度和多目标评估。CATBench中的基准测试涵盖了从张量代数到图像处理和聚类等一系列机器学习导向的计算任务，并使用了最先进的编译器，如TACO和RISE/ELEVATE。CATBench提供了一种统一的接口来评估贝叶斯优化算法，并通过易于使用的完全容器化设置促进编译器优化任务中的重复性和创新性。我们对CATBench进行了多项最先进的算法验证，揭示了这些算法的优势和弱点，并展示了该套件在推动贝叶斯优化和编译器自动调优研究方面的潜力。

发布时间: 4/9/2025

查看原文

由GPT-4Vision引导的自动化放射治疗计划制定

作者: Sheng Liu, Oscar Pastor-Serrano, Yizheng Chen, Matthew Gopaulchan, Weixing Liang, Mark Buyyounouski, Erqi Pollom, Quynh-Thu Le, Michael Gensheimer, Peng Dong, Yong Yang, James Zou, Lei Xing

arXiv:2406.15609v3 通告类型: 替换交叉摘要: 目的: 理疗治疗计划是一个耗时且可能存在主观性的过程，需要通过迭代调整模型参数来平衡多个冲突目标。最近人工智模型领域的前沿进展为解决规划和临床决策中的挑战提供了可能的途径。本研究介绍了一种名为GPT-RadPlan的自动化治疗计划框架，该框架将放射肿瘤学知识与大型多模态模型如OpenAI的GPT-4Vision（GPT-4V）的推理能力相结合。方法: 通过上下文内学习，我们将临床要求和3例（我们在实验中使用的）获批的临床计划及其优化设置整合进去，使GPT-4V能够获取治疗计划领域的知识。由此产生的GPT-RadPlan系统通过应用程序编程接口（API）集成到我们的内部逆向治疗计划系统中。对于每位患者，GPT-RadPlan同时担任计划评估者和计划者，首先评估剂量分布和剂量体积直方图（DVHs），然后提供文本反馈，说明如何改进计划以满足医生的要求。通过这种方式，GPT-RadPlan根据其建议逐步调整计划参数，如权重和剂量目标，从而不断优化计划。主要结果: 自动化规划系统的有效性在17例前列腺癌和13例头颈部癌的VMAT计划中得到了展示，分别规定剂量为70.2 Gy和72 Gy，我们对比了GPT-RadPlan的结果与由人类专家生成的临床计划。在所有情况下，GPT-RadPlan要么优于临床计划，要么与其相匹配，显示出更优的靶区覆盖，并减少了平均5 Gy的器官风险剂量（前列腺为15%，头颈部为10-15%）。

发布时间: 4/9/2025

查看原文

GenoTEX：一种用于自动化基因表达数据分析的LLM代理基准

作者: Haoyang Liu, Shuyu Chen, Ye Zhang, Haohan Wang

arXiv:2406.15341v3 宣告类型: replace-cross 摘要: 最近在机器学习方面的进展显著提高了从基因表达数据中识别与疾病相关的基因的能力。然而，这些过程通常需要大量的专业知识和手动努力，限制了其可扩展性。基于大型语言模型（LLM）的代理已经显示出通过它们不断增加的解决问题能力来自动执行这些任务的潜力。为了支持这些方法的评估和发展，我们介绍了GenoTEX，一个用于自动分析基因表达数据的基准数据集。GenoTEX提供了一整套管道代码和结果，涵盖从数据集选择、预处理到统计分析的广泛基因-性状关联问题。该基准遵循计算基因组学标准。基准还包含生物信息学家编写的专家审核注释，以确保准确性和可靠性。为了为这些任务提供基准，我们介绍了GenoAgent，这是一个基于多步骤编程工作流的LLM代理团队，在此工作流中，它们具有灵活的自我矫正机制，并可协作分析基因表达数据集。我们的实验展示了基于LLM的方法在分析基因组数据方面的潜力，而误差分析则揭示了挑战并指出了未来改进的领域。我们建议GenoTEX作为基准测试和增强基因表达数据自动分析方法的有前景资源。基准数据集可在https://github.com/Liu-Hy/GenoTEX获取。

发布时间: 4/9/2025

查看原文

利用亚最优数据进行人工介入强化学习

作者: Calarina Muslimani, Matthew E. Taylor

arXiv:2405.00746v2 宣告类型: replace-cross 摘要：为了创建有用的强化学习（RL）代理，第一步是设计一个合适的奖励函数，以捕捉任务的细微差别。然而，奖励工程可以是一个棘手且耗时的过程。相反，带有内环人类的强化学习方法有潜力通过人类反馈学习奖励函数。尽管最近取得了成功，许多带有内环人类的强化学习方法仍然需要大量的人类互动来学习成功的奖励函数。为了提高带有内环人类的强化学习方法的反馈效率（即需要更少的人类互动），本文介绍了次优数据预训练（Sub-optimal Data Pre-training, SDP）这种方法，利用次优的、无奖励的数据来改进标量和偏好基于的RL算法。在SDP中，我们首先使用环境奖励的最小值为所有低质量的数据进行伪标签化。通过这一过程，我们获得奖励标签，不需要人类标签或偏好即可预训练我们的奖励模型。这个预训练阶段为奖励模型提供了一个学习的开端，使其能够识别低质量的转换应该分配较低的奖励。通过与仿真和人类教师的广泛实验，我们发现SDP可以至少达到，但在许多情况下显著提高各种仿真机器人任务中带有内环人类的强化学习性能。

发布时间: 4/9/2025

查看原文

模型外推加速对齐

作者: Chujie Zheng, Ziqi Wang, Heng Ji, Minlie Huang, Nanyun Peng

arXiv:2404.16792v3 通知类型: 重新交叉摘要: 鉴于大规模语言模型（LLMs）的偏好对齐训练具有高计算成本，探索有效的方法来减少训练开销仍然是一个重要的且具有吸引力的研究问题。鉴于偏好对齐训练通常只涉及小的参数变化而不向模型注入新知识，我们提出了一种简单的方法，称为ExPO（模型外推），以加快LLMs与人类偏好的对齐。给定一个部分训练的模型及其初始SFT检查点，ExPO通过基于一阶近似简单放大参数变化来改进对齐训练的隐式优化目标，而不增加任何额外的训练开销。通过受控实验，我们证明，ExPO能够将仅使用20%步骤训练的DPO模型的表现提升到优于完全训练的模型。此外，我们展示了ExPO在现有开源LLMs（从1.8B到70B参数）上显著提高了领先AlpacaEval 2.0和MT-Bench基准的表现，这突显了ExPO在高效增强LLM对齐方面更广泛的应用潜力。

发布时间: 4/9/2025

查看原文

将苹果与橘子比较：基于LLM的多模态意图预测在物体分类任务中的应用

作者: Hassan Ali, Philipp Allgeuer, Stefan Wermter

arXiv:2404.08424v3 公告类型: replace-cross 摘要：基于人类意图的系统使机器人能够感知和解释用户动作，从而与人类互动并主动适应其行为。因此，在人类设计的环境中，意图预测对于创建与社会机器人自然交互至关重要。在本文中，我们探讨使用大型语言模型（LLMs）在与物理机器人协作的对象分类任务中推断人类意图。我们提出了一种新颖的多模态方法，该方法将用户的非言语线索（如手势、姿态和面部表情）与环境状态和用户的言语线索结合起来，在分层架构中预测用户意图。对五种LLM的评估显示，它们有潜力处理言语和非言语用户线索，利用其上下文理解和现实世界知识支持在与社会机器人协作任务中的意图预测。视频：https://youtu.be/tBJHfAuzohI

发布时间: 4/9/2025

查看原文

代码编辑器基准：评估大型语言模型的代码编辑能力

作者: Jiawei Guo, Ziming Li, Xueling Liu, Kaijing Ma, Tianyu Zheng, Zhouliang Yu, Ding Pan, Yizhi LI, Ruibo Liu, Yue Wang, Shuyue Guo, Xingwei Qu, Xiang Yue, Ge Zhang, Wenhu Chen, Jie Fu

arXiv:2404.03543v3 宣告类型: replace-cross 摘要：大型语言模型（LLMs）用于代码的领域正在迅速发展，代码编辑已成为一种关键能力。我们介绍了CodeEditorBench，一个评估框架，旨在严格评估LLMs在代码编辑任务中的性能，包括调试、翻译、润色和需求切换。与现有的仅专注于代码生成的基准不同，CodeEditorBench 强调软件开发的实际场景和实用方面。我们从五个来源精心整理了各种编程语言、复杂度水平和编辑任务的多样化的编程挑战和场景。对19种LLMs的评估表明，在CodeEditorBench中，闭源模型（尤其是Gemini-Ultra和GPT-4）的表现优于开源模型，突出了基于问题类型和提示敏感性模型性能的差异。CodeEditorBench旨在通过提供一个强大的平台来评估代码编辑能力，推动LLM的进步。我们将释放所有提示和数据集，以便社区能够扩展数据集并评估新兴的LLMs。通过引入CodeEditorBench，我们为LLMs在代码编辑领域的进步做出了贡献，并为研究人员和实践者提供了有价值的资源。

发布时间: 4/9/2025

查看原文

基于错误的人工评估深入评价大规模语言模型在句子简化中的表现

作者: Xuanxin Wu, Yuki Arase

arXiv:2403.04963v2 宣告类型: 替换-交叉摘要：近期的研究使用了自动指标和人工评估来评估大规模语言模型（LLM）的简化能力。然而，现有评估方法是否适用于LLM仍存在疑问。首先，当前自动指标对LLM简化能力评估的适用性仍然不确定。其次，现有的句子简化人工评估方法往往存在两个极端：要么过于表面化，未能提供对模型性能的清晰理解，要么过于详细，使标注过程复杂且容易出现不一致性，从而影响评估的可靠性。为解决这些问题，本研究深入探讨了LLM的性能，同时确保评估的可靠性。我们设计了一种基于错误的人工标注框架来评估LLM的简化能力。我们选择了包括GPT-4、Qwen2.5-72B和Llama-3.2-3B在内的闭源和开源LLM。我们认为，这些模型代表了大规模、中规模和小规模LLM的典型选择。结果显示，GPT-4一般生成的错误简化输出比当前最佳方法要少。然而，LLM也存在局限性，如GPT-4在词形改写方面的问题所示。结果显示，LLM一般生成的错误简化输出比之前的最佳方法要少。然而，LLM也存在局限性，如GPT-4和Qwen2.5-72B在词形改写方面的问题所示。此外，我们使用我们的人工标注对广泛使用的自动指标进行了元评估。我们发现，这些指标缺乏足够的敏感性，无法评估总体高质量的简化，尤其是高性能LLM生成的简化。

发布时间: 4/9/2025

查看原文

联邦卸载综述：挑战与机遇

作者: Hyejun Jeong, Shiqing Ma, Amir Houmansadr

arXiv:2403.02437v3 宣告类型: replace-cross 摘要: 计算机联邦学习(FL)于2017年提出，使得非信任方能够在无需显式共享数据的情况下进行协作学习。这允许在遵守GDPR和CPRA等隐私规定的同时对用户数据进行模型训练。然而，不断出现的隐私要求可能要求模型拥有者能够“遗忘”一些已学习的数据，例如，由数据拥有者或执法部门提出请求时。这催生了一个名为“机器遗忘”的研究领域。在联邦学习的背景下，许多针对集中设置下的遗忘技术并非直接适用！这主要是由于联邦学习与集中学习之间的独特差异，特别是交互性、随机性、异构性和可访问性的限制。作为回应，近期有一系列研究工作专注于开发适应联邦学习的遗忘机制。本文综述旨在深入研究联邦遗忘的文献，旨在识别这一新兴领域的研究趋势和技术挑战。通过仔细分类自2020年以来发表的关于联邦学习遗忘的论文，我们旨在确定联邦遗忘的独特复杂性，并突出直接应用集中遗忘方法的局限性。我们比较了现有联邦遗忘方法在影响去除和性能恢复方面的差异，比较了其威胁模型和假设，并讨论了其含义和局限性。例如，我们从数据异构性及其模拟、演示所使用的数据集以及评价指标等方面分析了联邦学习遗忘研究的实验设置。我们的工作旨在为未来关于联邦遗忘的研究提供启示和建议。

发布时间: 4/9/2025

查看原文