arXiv 论文列表

作者: Zhengting Chen, Lei Cheng, Lianghui Ding, Quanshi Zhang

本文提出了一种解释图像生成神经网络内部表示结构的方法。具体来说，我们的方法将原始特征成分从神经网络的中间层特征中分离出来，从而确保每个特征成分专用于生成特定的一组图像区域。这样，整个图像的生成可以被认为是不同预编码的原始区域模式的叠加，每个模式由一个特征成分生成。我们发现，特征成分可以表示为对生成不同图像区域的需求的“或”关系，这种关系由神经网络编码。因此，我们扩展了 Harsanyi 交互来表示这种“或”交互，以分离特征成分。实验表明，每个特征成分与特定图像区域的生成之间存在清晰的对应关系。

发布时间: 10/14/2024

查看原文

受脑启发的对抗鲁棒性正则化器

作者: Elie Attias, Cengiz Pehlevan, Dina Obeid

卷积神经网络 (CNN) 在许多视觉任务中表现出色，但它们往往对人类肉眼无法察觉的轻微输入扰动很敏感，这经常会导致任务失败。最近的研究表明，使用神经记录训练具有促进大脑类表示的正则化器的 CNN 可以提高模型的鲁棒性。然而，使用神经数据的要求严重限制了这些方法的实用性。是否可以开发出模仿神经正则化器计算功能的正则化器，而无需神经记录，从而扩展这些技术的可用性和有效性？在这项工作中，我们检查了 Li 等人 (2019) 中介绍的一种神经正则化器，以提取其潜在优势。该正则化器使用神经表征相似性，我们发现这些相似性也与像素相似性相关。受此发现的启发，我们引入了一种新的正则化器，它保留了原始正则化器的本质，但使用图像像素相似性进行计算，从而消除了对神经记录的需求。我们证明了我们的正则化方法 1) 显着提高了模型对各种数据集上各种黑盒攻击的鲁棒性，以及 2) 计算成本低廉，仅依赖于原始数据集。我们的工作探讨了如何使用生物学驱动的损失函数来推动人工神经网络的性能。

发布时间: 10/14/2024

查看原文

CAnDOIT：基于时间序列的观测和干预数据因果发现

作者: Luca Castri, Sariah Mghames, Marc Hanheide, Nicola Bellotto

在许多科学分支以及智能系统的许多实际应用中，因果关系的研究都至关重要。特别是，在包含隐藏因素的情况下识别因果关系，对于仅依赖观察数据构建因果模型的方法来说是一个重大挑战。本文提出了 CAnDOIT，这是一种因果发现方法，它利用观察时间序列数据和干预时间序列数据来重建因果模型。在因果分析中使用干预数据对于现实世界的应用至关重要，例如机器人技术，因为在这种情况下，场景非常复杂，仅凭观察数据往往不足以揭示正确的因果结构。该方法的验证首先在随机生成的合成模型上进行，随后在机器人操作环境中因果结构学习的知名基准上进行。实验表明，该方法可以有效地处理来自干预的数据，并利用这些数据来提高因果分析的准确性。CAnDOIT 的 Python 实现也已开发，并在 GitHub 上公开提供：https://github.com/lcastri/causalflow。

发布时间: 10/14/2024

查看原文

可解释对比蒙特卡洛树搜索推理

作者: Zitian Gao, Boye Niu, Xuzheng He, Haotian Xu, Hongzhang Liu, Aiwei Liu, Xuming Hu, Lijie Wen

我们提出了一种名为 SC-MCTS* 的新型蒙特卡洛树搜索 (MCTS) 推理算法，该算法显著提高了大型语言模型 (LLM) 的推理准确性和速度。我们的动机源于：1. 之前的 MCTS LLM 推理工作往往忽略了其最大的缺点——与 CoT 相比速度更慢；2. 之前的研究主要将 MCTS 作为 LLM 推理的工具，用于各种任务，对推理可解释性的角度进行了有限的定量分析或消融研究；3. 奖励模型是 MCTS 中最重要的组成部分，但之前的工作很少对 MCTS 的奖励模型进行深入研究或改进。因此，我们对 MCTS 的组件进行了广泛的消融研究和定量分析，揭示了每个组件对 LLM 的 MCTS 推理性能的影响。在此基础上，(i) 我们基于对比解码原理设计了一种高度可解释的奖励模型，以及 (ii) 使用推测解码，平均每个节点的速度提高了 51.9%。此外，(iii) 我们改进了之前工作中使用的 UCT 节点选择策略和反向传播，从而显著提高了性能。使用 Llama-3.1-70B 和 SC-MCTS*，我们在 Blocksworld 多步推理数据集上平均超过 o1-mini 17.4%。我们的代码可在 \url{https://github.com/zitian-gao/SC-MCTS} 获取。

发布时间: 10/14/2024

查看原文

KnobGen：控制基于草图的扩散模型中艺术作品的复杂程度

作者: Pouyan Navard, Amin Karimi Monsefi, Mengxi Zhou, Wei-Lun Chao, Alper Yilmaz, Rajiv Ramnath

近年来，扩散模型的进步显著提升了文本到图像 (T2I) 生成，但它们通常难以在细粒度精度和高级控制之间取得平衡。ControlNet 和 T2I-Adapter 等方法擅长遵循经验丰富的艺术家的草图，但往往过于僵硬，会复制新手用户草图中的非故意缺陷。同时，粗粒度方法，如基于草图的抽象框架，提供更易于访问的输入处理，但缺乏专业使用所需的精确控制。为了解决这些局限性，我们提出了 KnobGen，这是一个双路径框架，通过无缝适应不同级别的草图复杂度和用户技能，使基于草图的图像生成民主化。KnobGen 使用粗粒度控制器 (CGC) 模块进行高级语义处理，并使用细粒度控制器 (FGC) 模块进行详细细化。这两个模块的相对强度可以通过我们的旋钮推理机制进行调整，以符合用户的特定需求。这些机制确保 KnobGen 可以灵活地从新手草图和经验丰富的艺术家绘制的草图中生成图像。这在保持对最终输出的控制的同时，保留了图像的自然外观，如 MultiGen-20M 数据集和新收集的草图数据集所证明的那样。

发布时间: 10/14/2024

查看原文

超越提示词：大型语言模型的动态对话基准测试

作者: David Castillo-Bolado, Joseph Davidson, Finlay Gray, Marek Rosa

我们提出了一种针对对话代理的动态基准测试系统，该系统通过一次模拟的、长时间的用户$\leftrightarrow$代理交互来评估其性能。交互是用户和代理之间的对话，其中引入了多个任务，然后同时进行。我们定期切换上下文以交织任务，这构建了一个现实的测试场景，我们在其中评估代理的长期记忆、持续学习和信息整合能力。来自专有和开源大型语言模型的结果表明，大型语言模型通常在单任务交互中表现良好，但在任务交织时，它们在相同任务上的表现却很差。值得注意的是，补充了长期记忆系统的短上下文大型语言模型的性能与或优于具有更大上下文的模型。我们的基准测试表明，对于大型语言模型来说，在应对更自然交互时存在其他挑战，而现有的基准测试迄今为止无法捕捉到这些挑战。

发布时间: 10/14/2024

查看原文

基于眼周特征的最新眼周距离预测和疾病分类方法

作者: George R. Nahass, Ghasem Yazdanpanah, Madison Cheung, Alex Palacios, Jeffery Peterson, Kevin Heinze, Sasha Hubschman, Chad A. Purnell, Pete Setabutr, Ann Q. Tran, Darvin Yi

眼眶周围的距离和眼部及眼睑特征包含着宝贵的信息，可用于疾病量化以及手术和医疗干预的监测。这些距离通常通过人工测量，这一过程既主观又耗时。本文旨在开发三种用于分割和眼眶周围距离预测的深度学习方法，并评估眼眶周围距离在疾病分类中的效用。我们的深度学习预测距离的平均绝对误差小于或非常接近训练有素的人类标注者之间观察到的误差。我们将我们的模型与目前最先进的眼眶周围距离预测方法进行了比较，发现我们的方法在所有数据集上除一个眼眶周围测量值外，均优于最先进的方法。我们还表明，使用在开源健康眼睛上训练的模型可以实现对患病眼睛的鲁棒分割，并且眼眶周围距离可以作为下游分类模型中的高质量特征。将分割网络作为分类中的中间步骤具有广泛的意义，可以通过避免传统卷积神经网络中观察到的分布外问题，提高眼科整形和颅面外科分类模型的泛化能力。

发布时间: 10/14/2024

查看原文

基于贝叶斯的主动触觉物体识别、姿态估计和形状迁移学习框架

作者: Haodong Zheng, Andrei Jalba, Raymond H. Cuijpers, Wijnand IJsselsteijn, Sanne Schoenmakers

人类可以通过主动触碰来探索和理解世界，我们希望机器人也能拥有类似的能力。本文针对主动触觉物体识别、姿态估计和形状迁移学习问题，提出了一种将定制粒子滤波器 (PF) 和高斯过程隐式曲面 (GPIS) 结合在统一贝叶斯框架中的方法。在获得新的触觉输入后，定制的 PF 更新物体类别和物体姿态的联合分布，同时跟踪物体的 novelty。一旦识别出新的物体，将使用 GPIS 重建其形状。通过将 GPIS 的先验知识与 PF 的最大后验 (MAP) 估计结果相结合，可以将已知形状的知识迁移到学习新的形状。提出了一种基于全局形状估计的探索过程，以引导主动数据采集并在获得足够的信息后终止探索。通过仿真实验，所提出的框架证明了其在估计已知物体的类别和姿态以及学习新形状方面的有效性和效率。此外，它可以可靠地识别先前学习过的形状。

发布时间: 10/14/2024

查看原文

基于本体的自动驾驶可追踪行为规范方法

作者: Nayel Fabian Salem, Marcus Nolte, Veronica Haber, Till Menzel, Hans Steege, Robert Graubohm, Markus Maurer

配备自动驾驶系统的公共交通车辆面临着许多期望：除了其他方面，它们的运行应安全、遵守交通规则并为用户提供出行便利。这对此类系统的开发人员提出了挑战：开发人员负责在系统设计时指定此行为，例如，以需求的形式。正如我们将在本文中讨论的，这种规范总是涉及对假设和权衡的需求。因此，这种行为规范可能存在不足，这可能导致潜在的不安全系统行为。为了支持识别规范不足，需要明确需求和相应的假设。在本文中，我们提出了语义规范行为分析作为一种基于本体的方法，用于指定配备自动驾驶系统的车辆的行为。我们使用本体来正式表示针对目标运行环境的指定行为，并建立指定行为与所解决的利益相关者需求之间的可追溯性。此外，我们通过两个示例场景说明了语义规范行为分析在德国法律环境中的应用，并评估了我们的结果。我们的评估表明，行为规范中假设的明确记录支持识别规范不足及其处理。因此，本文提供了要求、术语和相应的方法，以促进自动驾驶中基于本体的行为规范。

发布时间: 10/14/2024

查看原文

Instagram 上的猴痘叙事：用于情感、仇恨言论和焦虑分析的多语言标记数据集

作者: Nirmalya Thakur

## 针对猴痘疫情的 Instagram 帖子多语言数据集：情感分析、仇恨言论检测和焦虑/压力检测 **摘要：** 当前全球正经历猴痘疫情爆发，世界卫生组织已将其宣布为国际关注的突发公共卫生事件。此前，尚无关于社交媒体挖掘的研究专注于开发关于猴痘疫情的 Instagram 帖子数据集。本文提出的工作旨在填补这一研究空白，并为此领域做出两项科学贡献。首先，它提供了一个包含 60,127 条关于猴痘的 Instagram 帖子的多语言数据集，这些帖子发布于 2022 年 7 月 23 日至 2024 年 9 月 5 日之间。该数据集可在 https://dx.doi.org/10.21227/7fvc-y093 获取，包含 52 种语言的关于猴痘的 Instagram 帖子。对于每条帖子，帖子 ID、帖子描述、发布时间、语言以及帖子的翻译版本（使用 Google Translate API 翻译成英语）都被作为单独的属性呈现。在开发完该数据集之后，进行了情感分析、仇恨言论检测和焦虑或压力检测。该过程包括将每条帖子分类为 (i) 情感类别之一，即恐惧、惊讶、喜悦、悲伤、愤怒、厌恶或中性，(ii) 仇恨或非仇恨，以及 (iii) 检测到焦虑/压力或未检测到焦虑/压力。这些结果作为单独的属性呈现。其次，本文展示了情感分析、仇恨言论分析和焦虑或压力分析的结果。观察到情感类别 - 恐惧、惊讶、喜悦、悲伤、愤怒、厌恶和中性的变化分别为 27.95%、2.57%、8.69%、5.94%、2.69%、1.53% 和 50.64%。在仇恨言论检测方面，95.75% 的帖子不包含仇恨，其余 4.25% 的帖子包含仇恨。最后，72.05% 的帖子没有表现出任何焦虑/压力，而剩下的 27.95% 的帖子则表现出某种形式的焦虑/压力。

发布时间: 10/14/2024

查看原文