arXiv 论文列表

作者: Chengyin Li, Prashant Khanduri, Yao Qiang, Rafi Ibn Sultan, Indrin Chetty, Dongxiao Zhu

分割一切模型 (SAM) 是开创性的基于提示的图像分割基础模型之一，并已迅速应用于各种医学影像应用。然而，在临床环境中，创建有效的提示非常具有挑战性且耗时，需要医学专家等领域专家的专业知识。这一要求大大降低了 SAM 在医学应用中的主要优势——其与最终用户的交互能力。此外，最近的研究表明，最初设计用于二维自然图像的 SAM 在三维医学图像分割任务中的性能欠佳。这种性能欠佳归因于自然图像和医学图像之间的领域差异以及二维和三维图像之间空间排列的差异，尤其是在多器官分割应用中。为了克服这些挑战，我们提出了一种名为 AutoProSAM 的新技术。该方法利用 SAM 的基础模型能力，无需领域专家提供提示，即可自动完成基于三维多器官 CT 的分割。该方法利用参数高效的适应技术来使 SAM 适应三维医学影像，并结合了针对该领域有效的自动提示学习范式。通过消除对手动提示的需求，它增强了 SAM 对三维医学图像分割的能力，并在基于 CT 的多器官分割任务中实现了最先进 (SOTA) 的性能。代码位于此链接：{\href{https://github.com/ChengyinLee/AutoProSAM_2024}{link}}。

发布时间: 11/26/2024

查看原文

基于双视角的特征归因方法评估

作者: Yawei Li, Yang Zhang, Kenji Kawaguchi, Ashkan Khakzar, Bernd Bischl, Mina Rezaei

特征归因方法试图通过识别相关特征来解释神经网络的预测。然而，建立一个连贯的框架来评估特征归因仍然是一个挑战。我们可以通过多种视角来评估归因。一个主要的视角是观察扰动归因特征对模型行为的影响（即保真度）。虽然现有的保真度评估提供了有用的见解，但本文揭示了其不足之处。在这项工作中，我们在保真度范式内提出了两个新的视角，揭示了直观的特性：健全性和完整性。健全性评估归因特征真正成为预测特征的程度，而完整性则检查生成的归因在多大程度上揭示了所有预测特征。这两个视角基于坚实的数学基础，并提供可通过高效算法计算的定量指标。我们将这些指标应用于主流归因方法，提供了一个新的视角来分析和比较特征归因方法。

发布时间: 11/26/2024

查看原文

动态注意力引导的图像超分辨率

作者: Brian B. Moser, Stanislav Frolov, Federico Raue, Sebastian Palacio, Andreas Dengel

图像超分辨率（SR）中的扩散模型对所有图像区域进行统一处理，这可能会在对不太复杂的区域进行去噪的过程中引入伪影，从而危及整体图像质量。为了解决这个问题，我们提出了“仅扩散区域”（YODA）方法，这是一种动态注意力引导的图像SR扩散过程。YODA选择性地关注由低分辨率图像和当前去噪时间步生成的注意力图定义的空间区域。这种时间相关的目标定位，通过关注从迭代细化过程中获益最多的区域（即细节丰富的物体），能够更有效地转换为高分辨率输出。我们通过扩展领先的基于扩散的方法SR3、DiffBIR和SRDiff，对YODA进行了实证验证。我们的实验表明，在PSNR、SSIM和LPIPS指标上，YODA在人脸和通用SR任务中取得了新的最先进的性能。作为附加效果，我们发现YODA减少了颜色偏移问题，并稳定了小批量训练。

发布时间: 11/26/2024

查看原文

基于文本引导的图像修复与语义增强用于文本到图像人物检索

作者: Delong Liu, Haiwen Li, Zhicheng Zhao, Yuan Dong, Nikolaos V. Boulgouris

基于文本的图像人物检索的目标是根据给定的文本描述检索特定的人物图像。这项任务的主要挑战在于弥合视觉和文本模态之间巨大的表征差距。现有的方法将文本和图像映射到统一的嵌入空间进行匹配，但文本和图像之间复杂的语义对应关系仍未得到有效构建。为了解决这个问题，我们提出了一种新颖的基于文本的图像人物检索框架，以构建人物图像和相应文本之间细粒度的交互和对齐。具体来说，通过微调对比语言图像预训练（CLIP）模型，首先构建了一个视觉文本双编码器，以初步对齐图像和文本特征。其次，提出了一种文本引导的图像恢复（TIR）辅助任务，将抽象的文本实体映射到特定的图像区域，从而提高局部文本和视觉嵌入之间的对齐度。此外，提出了一种跨模态三元组损失来处理困难样本，并进一步增强模型对细微差异的判别能力。此外，还提出了一种基于剪枝的文本数据增强方法，以增强对描述中基本元素的关注，从而避免模型过度关注不太重要的信息。实验结果表明，我们提出的方法在三个流行的基准数据集上优于最先进的方法，代码将公开发布在https://github.com/Delong-liu-bupt/SEN。

发布时间: 11/26/2024

查看原文

基于遗传算法的脉冲策略网络突触连接而非权重的调优

作者: Duzhen Zhang, Tielin Zhang, Shuncheng Jia, Qingyu Wang, Bo Xu

从交互中学习是生物体获得关于其环境和自身知识的主要方式。现代深度强化学习 (DRL) 探索了一种从交互中学习的计算方法，并在解决各种任务方面取得了显著进展。然而，尽管其功能强大，但 DRL 在能源效率方面仍不及生物体。虽然其根本机制尚未完全了解，但我们相信神经元之间尖峰式通信和生物学上合理的突触可塑性的整合在实现更高能源效率方面发挥着重要作用。遵循这种生物学直觉，我们使用遗传算法优化了一个尖峰策略网络 (SPN)，作为 DRL 的一种节能替代方案。我们的 SPN 模拟了昆虫的感官运动神经元通路，并通过基于事件的尖峰进行通信。受生物学研究的启发，该研究表明大脑通过创建新的突触连接并根据新的经验重新连接这些连接来形成记忆，我们调整了 SPN 中的突触连接而不是权重来解决给定的任务。在几个机器人控制任务上的实验结果表明，我们的方法可以达到与主流 DRL 方法相同的性能水平，同时展现出显著更高的能源效率。

发布时间: 11/26/2024

查看原文

去拟人化自然语言处理：语言模型能具有意识吗？

作者: Matthew Shardlow, Piotr Przyby{\l}a

这项工作旨在参与关于先前声称基于Transformer模型架构的预训练大型语言模型(LLM)具有感知能力的讨论。此类说法曾针对LaMDA模型提出，也针对当前一波由LLM驱动的聊天机器人(如ChatGPT)提出。如果这一说法得到证实，由于类似模型的广泛应用，将在自然语言处理(NLP)领域产生严重影响。然而，我们在此认为，这种大型语言模型不可能具有感知能力或意识，特别是LaMDA并没有表现出优于其他类似模型的任何特征使其具备感知能力。我们通过整合信息论(Integrated Information Theory)对意识的分析来论证这一点。我们将感知能力的主张视为在NLP报告中更广泛使用拟人化语言的一种趋势。无论这些说法是否属实，我们都认为这是一个审视语言建模进展并考虑其伦理影响的恰当时机。为了使这项工作对NLP领域以外的读者有所帮助，我们还介绍了语言建模的必要背景知识。

发布时间: 11/26/2024

查看原文

MindForge：赋能具身智能体，使其具备心智理论，实现终身协作学习

作者: Mircea Lic\u{a}, Ojas Shirekar, Baptiste Colle, Chirag Raman

当代具身智能体，例如 Minecraft 中的 Voyager，已在开放式个体学习中展现出令人鼓舞的能力。然而，当配备大型开放语言模型 (LLM) 时，即使经过特定领域知识的微调，这些智能体也常常难以完成基本任务。受人类文化学习的启发，我们提出了 \collabvoyager，这是一个新颖的框架，它通过显式的视角转换增强了 Voyager 的终身协作学习能力。\collabvoyager 引入了三个关键创新：（1）将感知、信念、愿望和行动联系起来的思维理论表征；（2）智能体之间的自然语言交流；以及（3）任务和环境知识的语义记忆以及协作事件的情景记忆。这些进步使智能体能够推断自己和他人的心理状态，从而从经验上解决了两种普遍的失败模式：错误信念和错误的任务执行。在混合专业技能的 Minecraft 实验中，\collabvoyager 智能体优于 Voyager 对照组，收集一块泥土的任务完成率显著提高了 66.6%（+39.4%），收集一块木块的任务完成率显著提高了 70.8%（+20.8%）。它们表现出新兴行为，例如从专家智能体到新手智能体的知识转移和协作代码纠正。\collabvoyager 智能体还展示了通过使用先前通过协作获得的经验和信念来适应分布外任务的能力。在这个开放式社会学习范式中，\collabvoyager 为具身人工智能的民主发展铺平了道路，其中智能体在部署过程中可以从同伴和环境反馈中学习。

发布时间: 11/26/2024

查看原文

基于知识感知属性学习的知识图谱数值推理方法

作者: Ming Yin, Qiang Zhou, Zongsheng Cao, Mei Li

数值推理在各种人工智能应用中至关重要，例如自然语言处理和推荐系统，它涉及使用实体、关系和属性值（例如，重量、长度）来推断新的事实关系（例如，尼罗河比亚马逊河长）。然而，现有方法在建模方面面临两大挑战：（1）语义相关性——未能充分捕捉实体、关系和数值属性之间必要的上下文交互的挑战，常常导致次优推理；（2）语义歧义——在数值推理过程中难以准确区分序数关系，这会影响高质量样本的生成，并限制对比学习的有效性。为了应对这些挑战，我们提出了一种用于数值推理知识图谱嵌入的新型知识感知属性嵌入模型 (KAAE)。具体来说，为了克服语义相关性的挑战，我们引入了一种混合专家知识感知 (MoEKA) 编码器，旨在将实体、关系和数值属性的语义整合到一个联合语义空间中。为了解决语义歧义问题，我们实现了一种新的序数知识对比学习 (OKCL) 策略，该策略借助序数关系从原始数据中生成高质量的序数样本，捕捉精确数值推理必不可少的细粒度语义细微差别。在三个公共基准数据集上的实验表明，KAAE 在各种属性值分布中均具有优越的性能。

发布时间: 11/26/2024

查看原文

会话式商业分析中准确性和验证有效性的作用

作者: Adem Alparslan

本研究考察了会话式商业分析，这是一种利用人工智能来解决阻碍最终用户有效使用传统自助式分析的技术能力差距的方法。通过促进自然语言交互，会话式商业分析旨在赋能最终用户独立检索数据并生成洞见。分析重点关注文本转SQL（Text-to-SQL）作为一种将自然语言请求转换为SQL语句的代表性技术。本研究基于预期效用理论发展了理论模型，确定了会话式商业分析（通过部分或全部支持）在何种条件下能够胜过委托给人类专家的情况。结果表明，当人工智能生成的SQL查询的准确性带来的利润超过人类专家的表现时，仅关注人工智能信息生成的局部支持是可行的。相反，全面支持不仅包括信息生成，还包括通过人工智能提供的解释进行验证，并且需要足够高的验证有效性才能可靠。然而，基于用户的验证存在挑战，例如误判和拒绝有效的SQL查询，这可能会限制会话式商业分析的有效性。这些挑战强调了对稳健验证机制的需求，包括改进的用户支持、自动化流程以及独立于最终用户技术能力的质量评估方法。

发布时间: 11/26/2024

查看原文

PSPO*：一种有效的过程监督策略优化方法，用于推理对齐

作者: Jiawei Li, Xinyue Liang, Yizhe Yang, Chong Feng, Yang Gao

过程监督通过在思维链推理的每个步骤提供反馈来增强大型语言模型在推理任务中的性能。然而，由于缺乏有效的过程监督方法，即使是先进的大型语言模型也容易出现逻辑错误和冗余推理。我们认为过程监督的有效性在很大程度上取决于推理链的准确性和长度。此外，我们发现这些因素与推理过程的整体奖励分数呈非线性关系。受这些见解的启发，我们提出了一种新的过程监督范式 PSPO*，它系统地概述了从奖励模型训练到策略优化的工作流程，并强调了非线性奖励在过程监督中的重要性。基于 PSPO*，我们开发了 PSPO-WRS，它在确定奖励分数时考虑了推理步骤的数量，并利用调整后的威布尔分布进行非线性奖励塑造。在六个数学推理数据集上的实验结果表明，PSPO-WRS 始终优于当前的主流模型。

发布时间: 11/26/2024

查看原文