arXiv 论文列表

基于人机交互强化学习的机器人消化内镜安全导航

随着自动化机器人消化内镜 (RDE) 的应用日益广泛，如何在无结构且狭窄的消化道中确保安全高效的导航成为一项关键挑战。现有的基于强化学习的自动导航算法，由于缺乏必要的专家干预，往往会导致潜在的风险碰撞，这极大地限制了 RDE 在实际临床实践中的安全性和有效性。为了克服这一局限性，我们提出了一种基于人类干预 (HI) 的近端策略优化 (PPO) 框架，称为 HI-PPO，该框架将专家知识融入其中，以增强 RDE 的安全性。具体来说，我们引入了一种增强的探索机制 (EEM) 来解决标准 PPO 的低探索效率问题。此外，还实施了奖励惩罚调整 (RPA) 来惩罚初始干预期间的不安全操作。此外，还将行为克隆相似性 (BCS) 作为辅助目标，以确保代理模拟专家操作。在模拟平台上对各种解剖学结肠段进行的比较实验表明，我们的模型能够有效且安全地引导 RDE。

发布时间: 9/25/2024

查看原文

通过正交约束缓解跨语言嵌入中的语义泄漏

在跨语言句子嵌入中准确对齐上下文表示对于有效地挖掘平行数据至关重要。一种常见的策略是将来自多语言预训练模型的句子嵌入中的语义和语言解耦。然而，我们发现当前的解耦表示学习方法存在语义泄漏问题，我们引入该术语来描述当大量特定语言信息意外泄漏到语义表示中时的情况。这阻碍了语义和语言表示的有效解耦，难以检索出能够独特地代表句子含义的嵌入。为了解决这一挑战，我们提出了一种新颖的训练目标：正交约束学习（ORACLE），专门用于在语义和语言嵌入之间强制正交性。ORACLE 构建于两个组件之上：类内聚类和类间分离。通过在跨语言检索和语义文本相似性任务上的实验，我们证明了使用 ORACLE 目标进行训练可以有效地减少语义泄漏，并增强嵌入空间内的语义对齐。

发布时间: 9/25/2024

查看原文

双路径自适应相关时空反向Transformer用于股票时间序列预测

时空图神经网络 (STGNNs) 在各种时间序列预测任务中取得了显著成功。然而，由于股票预测任务中缺乏明确且固定的空间关系，许多 STGNNs 在该领域无法有效地执行。虽然一些 STGNNs 从时间序列中学习空间关系，但它们往往缺乏全面性。研究表明，使用特征变化作为标记对时间序列进行建模，与使用时间步长作为标记相比，揭示了完全不同的信息。为了更全面地从股票数据中提取动态空间信息，我们提出了一种双路径自适应相关时空反向 Transformer (DPA-STIFormer)。DPA-STIFormer 通过特征的连续变化作为标记对每个节点进行建模，并引入了双向自适应融合机制。该机制将节点编码分解为时间和特征表示，同时从双路径方法中提取不同的空间相关性，并提出了一种双路径门控机制来融合这两种类型的相关信息。在四个股票市场数据集上进行的实验表明了最先进的结果，验证了该模型在揭示潜在时间相关模式方面的优越能力。

发布时间: 9/25/2024

查看原文

ReLEP：面向真实世界长时程具身规划的新框架

现实世界中的长时程具身规划是具身人工智能的基础。为了完成长时程任务，智能体需要将抽象指令分解成详细步骤。先前的工作主要依赖 GPT-4V 将任务分解成预定义的动作，由于 GPT-4V 对更广泛技能集的理解有限，这限制了任务的多样性。因此，我们提出了 ReLEP，一个用于现实世界长时程具身规划的突破性框架，它可以完成各种日常任务。其核心是一个经过微调的大型视觉语言模型，它根据输入指令和场景图像将计划制定为技能函数序列。这些函数是从精心设计的技能库中选择的。ReLEP 还配备了用于计划和状态回忆的记忆模块以及用于跨机器人类型灵活性的机器人配置模块。此外，我们提出了一种半自动数据生成管道来解决数据集稀缺问题。在八个日常具身任务上的现实世界离线实验表明，ReLEP 能够完成长时程具身任务，并且优于其他最先进的基线方法。

发布时间: 9/25/2024

查看原文

基于主干自蒸馏的个性化联邦学习

在实际场景中，联邦学习经常需要使用异构数据为每个客户端训练个性化模型。本文提出了一种主干自蒸馏方法来促进个性化联邦学习。在这种方法中，每个客户端训练其本地模型，并且只将主干权重发送到服务器。然后将这些权重聚合以创建全局主干，并将其返回到每个客户端以进行更新。然而，由于共同表示，客户端的本地主干缺乏个性化。为了解决这个问题，每个客户端通过使用全局主干作为教师并将知识转移到更新本地主干来进一步执行主干自蒸馏。这个过程涉及学习两个部分：用于共同表示的共享主干和用于本地个性化的私有头，这使得有效的全局知识转移成为可能。大量的实验和与 12 种最先进方法的比较证明了我们方法的有效性。

发布时间: 9/25/2024

查看原文

使用生成式人工智能对稀疏多维学习性能数据进行数据增强

学习绩效数据描述了自适应学习中（如智能辅导系统 (ITS)）的正确和错误答案或问题解决尝试。由于自适应项目选择，学习绩效数据在大多数现实世界应用中往往高度稀疏（80% \(\sim\) 90% 的观测缺失）。这种数据稀疏性给使用学习者模型来有效预测未来绩效和探索关于学习的新假设带来了挑战。本文提出了一种系统框架来增强学习者数据，以解决学习绩效数据中的数据稀疏性问题。首先，学习绩效被表示为学习者问题、答案和尝试的三维张量，捕捉学习过程中的纵向知识状态。其次，采用张量分解方法来填补收集到的学习者数据稀疏张量中的缺失值，从而将填补建立在知识追踪任务的基础上，该任务根据真实观测来预测缺失的绩效值。第三，使用一个生成学习模式的模块。本研究对比了两种形式的生成式人工智能 (AI)，包括生成对抗网络 (GAN) 和生成预训练转换器 (GPT)，以生成与不同学习者数据集群相关联的数据。我们在为成人阅读理解 (ARC) 开发的 AutoTutor 课程中对一个成人扫盲数据集进行了测试。我们发现：（1）与没有数据增强的其他知识追踪技术相比，张量分解提高了追踪和预测知识掌握的性能，显示出该填补方法具有更高的相对保真度；（2）基于不同模拟样本大小的散度评估，与 GPT 相比，基于 GAN 的模拟显示出更高的整体稳定性和更少的统计偏差。

发布时间: 9/25/2024

查看原文

安全卫士：面向社交虚拟现实的实时语音仇恨言论检测 LLM 代理

本文介绍了 Safe Guard，一个用于检测社交 VR（VRChat）中语音交互中的仇恨言论的 LLM 代理。我们的系统利用 Open AI GPT 和音频特征提取来进行实时语音交互。我们贡献了一个系统设计和评估，证明了我们的方法在检测仇恨言论方面的能力，并与目前可用的方法相比减少了误报。我们的结果表明，基于 LLM 的代理在创建更安全的虚拟环境方面具有潜力，并为 LLM 驱动的审核方法的进一步发展奠定了基础。

发布时间: 9/25/2024

查看原文

生物标志物发现的革命：利用生成式人工智能进行生物知识嵌入的连续空间探索

生物标志物发现对于推动个性化医疗至关重要，它为疾病诊断、预后和治疗效果提供了见解。传统上，生物标志物的识别和验证高度依赖于大量实验和统计分析。这些方法耗时、需要广泛的领域专业知识，并且受到生物系统复杂性的限制。这些局限性促使我们提出问题：我们是否可以在没有大量人工努力的情况下自动识别有效的生物标志物子集？受生成式人工智能成功的启发，我们认为，生物标志物识别的复杂知识可以压缩到一个连续的嵌入空间中，从而增强对更好生物标志物的搜索。因此，我们提出了一种新的生物标志物识别框架，该框架包含两个重要模块：1）训练数据准备和 2）嵌入优化生成。第一个模块使用多智能体系统自动收集生物标志物子集及其对应预测精度的配对作为训练数据。这些数据为生物标志物识别建立了强大的知识库。第二个模块采用编码器-评估器-解码器学习范式，将收集数据的知识压缩到一个连续空间中。然后，它利用基于梯度的搜索技术和基于自回归的重建来有效地识别最佳生物标志物子集。最后，我们在三个真实世界数据集上进行了广泛的实验，以展示我们方法的效率、鲁棒性和有效性。

发布时间: 9/25/2024

查看原文

TFT-multi：重症监护病房中生命体征轨迹的同步预测

医疗数据中的轨迹预测一直是精准医疗和临床整合中计算方法研究的重要领域。近年来，生成式 AI 模型在捕捉时间序列数据中的短期和长期依赖关系方面展现出了可喜的成果。尽管这些模型也已应用于医疗保健领域，但大多数模型一次只预测一个值，这在临床环境中是不现实的，因为在临床环境中，往往会同时采集多个指标。在本研究中，我们扩展了时间融合转换器 (TFT) 的框架，这是一种多时域时间序列预测工具，并提出了 TFT-multi，一个能够同时预测多个生命体征轨迹的端到端框架。我们将 TFT-multi 应用于预测重症监护病房记录的 5 种生命体征：血压、脉搏、血氧饱和度、体温以及呼吸频率。我们假设通过联合预测这些通常相互关联的指标，我们可以做出更准确的预测，特别是在缺失率较高的变量中。我们使用公共 MIMIC 数据集和一个独立的机构数据集验证了我们的模型，并证明这种方法优于最先进的单变量预测工具，包括原始 TFT 和 Prophet，以及用于多变量预测的向量回归建模。此外，我们通过将我们的管道应用于预测对实际和假设的升压剂给药的反应的血压变化，进行了案例分析研究。

发布时间: 9/25/2024

查看原文

FACET：基于椭圆建模的快速准确事件型眼动追踪，用于扩展现实

眼动追踪是扩展现实 (XR) 中基于注视交互的关键技术，但传统的帧式系统难以满足 XR 对高精度、低延迟和低功耗的需求。事件相机因其高时间分辨率和低功耗而成为一种很有前景的替代方案。本文提出了一种端到端的称为 FACET（快速准确的基于事件的眼动追踪）的神经网络，该网络直接从事件数据中输出瞳孔椭圆参数，并针对实时 XR 应用进行了优化。椭圆输出可以直接用于后续的基于椭圆的瞳孔追踪器。我们通过扩展注释数据并将原始掩码标签转换为基于椭圆的注释来增强 EV-Eye 数据集，从而训练模型。此外，采用了一种新的三角函数损失来解决角度不连续性问题，并提出了一种快速因果事件体积事件表示方法。在增强的 EV-Eye 测试集上，FACET 达到了 0.20 像素的平均瞳孔中心误差，推理时间为 0.53 毫秒，与现有技术 EV-Eye 相比，像素误差和推理时间分别降低了 1.6 倍和 1.8 倍，同时参数和算术运算量分别减少了 4.4 倍和 11.7 倍。代码可在 https://github.com/DeanJY/FACET 获取。

发布时间: 9/25/2024

查看原文