arXiv 论文列表

Morph-SSL：基于纵向形变的自监督学习，用于预测 OCT 中的 AMD 进展

作者: Arunava Chakravarty, Taha Emre, Oliver Leingang, Sophie Riedl, Julia Mai, Hendrik P. N. Scholl, Sobha Sivaprasad, Daniel Rueckert, Andrew Lotery, Ursula Schmidt-Erfurth, Hrvoje Bogunovi\'c

由于缺乏可靠的生物标志物，预测从中间型年龄相关性黄斑变性 (iAMD) 到新生血管型年龄相关性黄斑变性 (nAMD) 的转换是一项具有挑战性的任务。我们开发了一种深度学习 (DL) 模型，用于根据当前的 OCT 扫描预测眼睛从 iAMD 到 nAMD 转换的未来风险。尽管眼科诊所生成大量的纵向 OCT 扫描来监测 AMD 的进展，但只有很小的一部分可以手动标记用于监督 DL。为了解决这个问题，我们提出了 Morph-SSL，这是一种用于纵向数据的全新自监督学习 (SSL) 方法。它使用来自不同就诊的未标记 OCT 扫描对，并涉及将先前就诊的扫描变形为下一个就诊的扫描。解码器预测用于变形的转换，并确保可以通过线性插值生成就诊之间中间扫描的平滑特征流形。接下来，将 Morph-SSL 训练的特征输入到分类器，分类器以监督方式进行训练，以使用 S 型函数对转换时间的累积概率分布进行建模。Morph-SSL 在 399 只眼睛（3570 次就诊）的未标记扫描上进行训练。分类器使用五折交叉验证在来自 343 只眼睛的 2418 次扫描上进行评估，这些扫描具有转换日期的临床标签。Morph-SSL 特征在预测未来 6 个月内转换为 nAMD 方面取得了 0.766 的 AUC，优于从头开始训练或使用流行的 SSL 方法预训练的相同网络。自动预测 nAMD 发病的未来风险可以实现及时治疗和个性化 AMD 管理。

发布时间: 10/1/2024

查看原文

迈亚-2：象棋中人机协同的统一模型

作者: Zhenwei Tang, Difan Jiao, Reid McIlroy-Young, Jon Kleinberg, Siddhartha Sen, Ashton Anderson

在越来越多的领域，人工智能 (AI) 系统不仅超越了人类的能力，而且准确地模拟了人类的行为。这为通过更具相关性的 AI 合作伙伴以及对人类决策的更深入洞察，在这些领域实现算法驱动的教学带来了可能性。然而，实现这一目标的关键在于连贯地建模不同技能水平的人类行为。国际象棋是一个理想的模型系统，可以进行此类人类-AI 对齐研究，它拥有作为 AI 研究的关键测试平台的丰富历史、像 AlphaZero 这样的成熟的超人类 AI 系统，以及通过国际象棋评级系统对技能进行精确测量。以前在建模国际象棋中的人类决策方面的工作使用完全独立的模型来捕获不同技能水平的人类风格，这意味着它们在适应人类改进的整个范围方面的能力缺乏连贯性，最终限制了它们作为 AI 合作伙伴和教学工具的有效性。在这项工作中，我们提出了一种统一的建模方法，用于国际象棋中的人类-AI 对齐，该方法连贯地捕获了不同技能水平的人类风格，并直接捕获了人们如何提高。认识到人类学习的复杂非线性性质，我们引入了一种技能感知注意力机制，以动态地将玩家的优势与编码的国际象棋位置集成，使我们的模型能够对不断发展的玩家技能敏感。我们的实验结果表明，这种统一框架显着增强了 AI 与人类玩家在各种专业水平上的对齐，为更深入地洞察人类决策和 AI 指导的教学工具铺平了道路。

发布时间: 10/1/2024

查看原文

基于大型语言模型的边缘设备高效驾驶行为叙述与推理

作者: Yizhou Huang, Yihua Cheng, Kezhi Wang

具有强大推理能力的深度学习架构推动了自动驾驶技术的重大进步。应用于该领域的**大型语言模型 (LLM)** 能够以与人类感知相似的精度描述驾驶场景和行为，尤其是在视觉任务方面。与此同时，边缘计算的快速发展，凭借其靠近数据源的优势，使边缘设备在自动驾驶中变得越来越重要。边缘设备在本地处理数据，减少了传输延迟和带宽使用，并实现了更快的响应时间。在这项工作中，我们提出了一种将 LLM 应用于边缘设备的驾驶行为叙述和推理框架。该框架由多个路边单元组成，每个单元上都部署了 LLM。这些路边单元收集道路数据并通过 5G NSR/NR 网络进行通信。我们的实验表明，部署在边缘设备上的 LLM 可以实现令人满意的响应速度。此外，我们提出了一种提示策略来增强系统的叙述和推理性能。该策略整合了多模态信息，包括环境、代理和运动数据。在 OpenDV-Youtube 数据集上进行的实验表明，我们的方法在两种任务上都显著提高了性能。

发布时间: 10/1/2024

查看原文

OM4OV：利用本体匹配进行本体版本控制

作者: Zhangcheng Qiang, Kerry Taylor

由于语义网的动态特性，本体版本控制对于捕获随时间变化的信息至关重要，特别是对于广泛使用的本体。尽管长期以来人们认识到本体版本控制 (OV) 是有效管理本体的关键组成部分，但本体规模的不断扩大以及人工操作导致的错误累积，使得现有的 OV 方法不堪重负。本文提出了一种利用现有本体匹配 (OM) 技术和系统的全新方法来执行 OV。我们引入了统一的 OM4OV 管道。从 OM 的角度来看，我们重新构建了 OV 任务的全新任务公式、性能衡量和数据集构建。通过重用 OM 中的先前对齐，我们还提出了一种交叉引用机制，以有效地减少匹配候选并提高整体 OV 性能。我们使用来自对齐评估倡议 (OAEI) 的三个数据集对 OM4OV 管道及其交叉引用机制进行了实验验证，并利用了用于 OV 任务的 OM 洞察力。

发布时间: 10/1/2024

查看原文

离散与连续随机变量的概率答案集编程

作者: Damiano Azzolini, Fabrizio Riguzzi

基于信任语义的概率答案集编程 (PASP) 通过表示不确定信息的概率事实扩展了答案集编程。概率事实是离散的，具有伯努利分布。然而，许多现实世界场景需要同时使用离散和连续随机变量。本文扩展了 PASP 框架以支持连续随机变量，并提出了混合概率答案集编程 (HPASP)。此外，我们讨论、实现并评估了两种基于投影答案集枚举和知识编译的精确算法，以及两种基于采样的近似算法。实证结果（也与已知的理论结果一致）表明，精确推理仅对小型实例可行，但知识编译对性能有巨大的积极影响。采样允许处理更大的实例，但有时需要越来越多的内存。正在考虑在逻辑编程理论与实践 (TPLP) 上发表。

发布时间: 10/1/2024

查看原文

学习对存在量化的目标进行接地

作者: Martin Funkquist, Simon St{\aa}hlberg, Hector Geffner

针对自主 AI 智能体的目标指令，不能假设物体拥有唯一的名称。相反，目标中的物体必须通过提供合适的描述来进行指代。然而，这在经典规划和通用规划中都带来了问题。在经典规划中，处理存在量化目标的标准方法是将其编译成一个 DNF 公式，该公式编码所有可能的变量绑定，并添加虚拟动作将每个 DNF 项映射到新的虚拟目标。这种预处理在变量数量上呈指数级增长。在通用规划中，问题有所不同：即使通用策略能够处理任何初始情况和目标，执行通用策略也需要将目标进行接地以定义策略特征的值。目标接地的难题，即找到绑定目标变量的物体，非常微妙：它泛化了经典规划，经典规划是当没有目标变量需要绑定时的特例；它也泛化了约束推理，约束推理是当没有动作时的特例。在这项工作中，我们采用了一种新颖的监督学习方法来解决目标接地问题。一个 GNN 架构经过训练，可以预测在小型领域实例上部分量化目标的成本，并在涉及更多物体和不同量化目标的较大实例上进行测试。所提出的架构在几个规划领域进行了实验评估，其中泛化性沿着几个维度进行了测试，包括目标变量的数量以及可以绑定这些变量的物体的数量。在已知的 GNN 与 C2 逻辑之间的关系的背景下，也讨论了该方法的范围。

发布时间: 10/1/2024

查看原文

从多目标强化学习演示中推断偏好

作者: Junlin Lu, Patrick Mannion, Karl Mason

许多决策问题包含多个目标，而我们往往无法事先了解人类或代理决策者对于不同目标的偏好。然而，决策者的行为表现通常是可获得的。本研究提出了一种基于动态权重的偏好推断 (DWPI) 算法，该算法可以从演示中推断出在多目标决策问题中行动的代理的偏好。该算法在三个多目标马尔可夫决策过程中进行了评估：深海宝藏、交通和物品收集，并与两种现有的偏好推断算法进行了比较。实证结果表明，与基线算法相比，该算法在时间效率和推断精度方面都有显著提高。DWPI 算法在推断次优演示的偏好时也能保持其性能。此外，DWPI 算法在推断过程中不需要与用户进行任何交互——只需要演示即可。我们提供了该算法的正确性证明和复杂性分析，并对不同演示表示下的性能进行了统计评估。

发布时间: 10/1/2024

查看原文

MemSim：用于评估基于大型语言模型的个人助理记忆能力的贝叶斯模拟器

作者: Zeyu Zhang, Quanyu Dai, Luyu Chen, Zeren Jiang, Rui Li, Jieming Zhu, Xu Chen, Yi Xie, Zhenhua Dong, Ji-Rong Wen

基于大型语言模型 (LLM) 的智能体已被广泛应用于个人助理，能够记忆用户消息中的信息并回答个人查询。然而，由于根据用户消息构建可靠的问答 (QA) 存在挑战，目前仍缺乏对其记忆能力的客观和自动评估。在本文中，我们提出了 MemSim，一个旨在自动从生成的用户信息中构建可靠的 QA 的贝叶斯模拟器，同时保持其多样性和可扩展性。具体来说，我们引入了贝叶斯关系网络 (BRNet) 和因果生成机制来减轻 LLM 幻觉对事实信息的影响，从而促进评估数据集的自动创建。基于 MemSim，我们在日常生活场景中生成一个名为 MemDaily 的数据集，并进行大量实验来评估我们方法的有效性。我们还提供了一个基准，用于使用 MemDaily 数据集评估基于 LLM 的智能体中不同的记忆机制。为了造福研究界，我们已在 https://github.com/nuster1128/MemSim 上发布了我们的项目。

发布时间: 10/1/2024

查看原文

归纳链接预测的再评估

作者: Simon Ott, Christian Meilicke, Heiner Stuckenschmidt

本文表明，目前用于归纳式链接预测的评估协议存在严重缺陷，因为它依赖于在一个小型随机负实体样本集中对真实实体进行排名。由于负实体集的大小有限，一个简单的基于规则的基线方法可以取得最先进的结果，该方法只是根据实体类型的有效性对实体进行更高排名。基于这些见解，我们使用通常应用于转导式设置的链接预测协议，在多个基准数据集上重新评估了现有的归纳式链接预测方法。由于某些归纳式方法在该设置中评估时存在可扩展性问题，我们还提出并应用了一种改进的采样协议，该协议不会出现上述问题。我们的评估结果与迄今为止报道的结果大相径庭。

发布时间: 10/1/2024

查看原文

GUNDAM：将大型语言模型与图理解对齐

作者: Sheng Ouyang, Yulan Hu, Ge Chen, Yong Liu

大型语言模型 (LLMs) 在处理文本数据方面取得了令人瞩目的成果，这激发了人们将这些模型应用于文本数据之外的领域，例如图数据。在图学习领域，人们越来越关注利用 LLMs 来理解和操作图结构化数据。现有的研究主要集中在具有丰富文本特征的图，例如知识图或文本属性图，利用 LLMs 处理文本的能力，但不足以解决图结构问题。这项工作专门旨在评估和增强 LLMs 理解和利用图数据本身固有的结构知识的能力，而不是仅仅关注富含文本内容的图。为了实现这一目标，我们引入了**G**raph **U**nderstanding for **N**atural Language **D**riven **A**nalytical **M**odel (\model)。该模型使 LLMs 能够更好地理解和处理图数据结构，使它们能够通过利用图的结构本身来执行复杂的推理任务。我们在图推理基准上的实验评估不仅证实了\model~在比较中优于 SOTA 基线，而且揭示了影响 LLMs 图推理能力的关键因素。此外，我们提供了一个理论分析，说明推理路径如何增强 LLMs 的推理能力。

发布时间: 10/1/2024

查看原文