arXiv 论文列表

作者: Shenghuan Sun, Alexander Schubert, Gregory M. Goldgof, Zhiqing Sun, Thomas Hartvigsen, Atul J. Butte, Ahmed Alaa

视觉语言模型 (VLM) 可以通过分析医学图像并进行自然语言交互来支持临床医生，从而帮助诊断和治疗任务。然而，VLM 经常表现出“幻觉”行为，生成与上下文多模态信息不符的文本输出。这种挑战在医疗领域尤为突出，因为我们不仅要求 VLM 输出在单次交互中准确，而且在多轮对话中与临床推理和诊断路径保持一致。为此，我们提出了一种新的对齐算法，该算法使用临床推理的符号表示将 VLM 融入医疗知识。这些表示用于 (i) 大规模生成 GPT-4 引导的视觉指令微调数据，模拟临床医生-VLM 对话，并展示临床推理，以及 (ii) 创建一个自动奖励函数，评估临床医生-VLM 交互中 VLM 生成的临床有效性。我们的算法消除了人类参与训练数据生成或奖励模型构建的需要，与标准的基于人类反馈的强化学习 (RLHF) 相比，降低了成本。我们将我们的对齐算法应用于开发 Dr-LLaVA，这是一种针对分析骨髓病理切片而微调的对话式 VLM，在多轮医疗对话中表现出强大的性能。

发布时间: 10/11/2024

查看原文

利用知识图谱和大型语言模型生成有趣的科学想法：来自100位研究组组长的评估

作者: Xuemei Gu, Mario Krenn

科学文献的快速增长使得研究人员难以识别新颖且有影响力的想法，尤其是在跨学科领域。现代人工智能 (AI) 系统提供了新的方法，有可能激发人类独自无法想到的想法。但是，这些 AI 生成的想法有多么引人注目，我们如何提高它们的质量？在这里，我们介绍了 SciMuse，它利用 5800 万篇研究论文和大型语言模型来生成研究想法。我们进行了一项大规模评估，其中 100 多位研究组负责人（从自然科学到人文科学）根据自己的兴趣对 4400 多个个性化想法进行了排名。这些数据使我们能够使用以下方法预测研究兴趣：(1) 在人类评估上训练的监督神经网络，以及 (2) 使用大型语言模型进行的无监督零样本排名。我们的结果表明，未来的系统如何帮助生成引人注目的研究想法并促进意想不到的跨学科合作。

发布时间: 10/11/2024

查看原文

FiDeLiS：基于大型语言模型的知识图谱问答中的忠实推理

作者: Yuan Sui, Yufei He, Nian Liu, Xiaoxin He, Kun Wang, Bryan Hooi

大型语言模型在生成响应时经常面临错误或“幻觉”的挑战，特别是在复杂的推理任务中。为了缓解这个问题，我们提出了一种检索增强推理方法 FiDeLiS，该方法通过将响应锚定到结构化、可验证的推理路径来增强知识图问答。FiDeLiS 使用了一种关键词增强检索机制，从 KG 的向量索引中获取相关实体和关系，以确保高召回率检索。一旦检索到这些实体和关系，我们的方法就会构建候选推理路径，然后使用逐步束搜索对其进行细化。这确保了我们创建的所有路径都可以自信地链接回 KG，确保它们是准确可靠的。我们方法的一个独特特征是它将自然语言规划与束搜索相结合，以优化推理路径的选择。此外，我们重新设计了推理路径评分的方式，将此过程转变为演绎推理任务，使 LLM 能够通过演绎推理而不是传统的 logits 评分来评估路径的有效性。这有助于避免误导性的推理链，并减少不必要的计算需求。大量的实验表明，我们的方法，即使作为一种无训练方法，具有较低的计算成本和更高的通用性，在三个数据集上也优于已建立的强大基线。

发布时间: 10/11/2024

查看原文

MedSafetyBench：评估和提升大型语言模型的医疗安全性

作者: Tessa Han, Aounon Kumar, Chirag Agarwal, Himabindu Lakkaraju

随着大型语言模型 (LLM) 能力不断提升并在医疗领域得到应用，评估其医疗安全性变得至关重要，因为它们对个人和公共健康、患者安全以及人权具有深远的影响。然而，人们对 LLM 医疗安全的概念几乎没有了解，更不用说如何评估和改进它了。为了填补这一空白，我们首先基于美国医学会提出的医学伦理原则，定义了 LLM 中的医疗安全概念。然后，我们利用这一理解，引入了 MedSafetyBench，这是第一个旨在衡量 LLM 医疗安全性的基准数据集。我们通过使用 MedSafetyBench 来评估和改进 LLM 的医疗安全性，证明了它的实用性。我们的结果表明，公开可用的医疗 LLM 并不符合医疗安全标准，而使用 MedSafetyBench 对其进行微调可以提高它们的医疗安全性，同时保持其医疗性能。通过引入这个新的基准数据集，我们的工作使人们能够系统地研究 LLM 中的医疗安全现状，并激发该领域的未来工作，为减轻 LLM 在医学中的安全风险铺平道路。基准数据集和代码可在 https://github.com/AI4LIFE-GROUP/med-safety-bench 获取。

发布时间: 10/11/2024

查看原文

基于内部对比学习的广义分布外故障诊断 (GOOFD)

作者: Xingyue Wang, Hanrong Zhang, Xinlong Qiao, Ke Ma, Shuting Tao, Peng Peng, Hongwei Wang

故障诊断对于监控工业过程中的机器至关重要。随着工作条件日益复杂以及生产安全需求的提高，需要采用多种诊断方法，并且迫切需要能够处理多种任务的集成故障诊断系统。然而，诊断子任务通常被单独研究，目前的方法对于这种通用系统仍需改进。为了解决这个问题，我们提出了通用分布外故障诊断（GOOFD）框架来整合诊断子任务。此外，还提出了一种基于内部对比学习和马氏距离的统一故障诊断方法来支撑所提出的通用框架。该方法包括通过内部对比学习进行特征提取，以及基于马氏距离进行异常值识别。我们提出的方法可以应用于多种故障诊断任务，并比现有的单任务方法取得更好的性能。在基准数据集和实际过程数据集上进行了实验，表明了所提出框架的有效性。

发布时间: 10/11/2024

查看原文

开放道路驾驶员状态检测数据集

作者: Delong Liu, Shichao Li, Tianyi Shi, Zhu Meng, Guanyu Chen, Yadong Huang, Jin Dong, Zhicheng Zhao

在众多关于驾驶员状态检测的研究中，可穿戴生理测量提供了一种实用的实时监测方法。然而，目前公开道路场景下的驾驶员生理数据集很少，现有的数据集存在信号质量差、样本量小、数据采集时间短等问题。因此，本文开发了一个大型多模态驾驶数据集 OpenDriver，用于驾驶员状态检测。OpenDriver 包含 3278 次驾驶行程，信号采集时长约 4600 小时。OpenDriver 包含两种驾驶信号模态：来自 81 名驾驶员及其车辆的心电图 (ECG) 信号和来自运动测量单元 (IMU) 的方向盘六轴运动数据。此外，我们的工作还涉及三个具有挑战性的任务，即 ECG 信号质量评估、基于 ECG 信号的个人生物识别和复杂驾驶环境下的生理信号分析。为了促进这些任务的研究，我们也引入了相应的基准。首先，采用噪声增强策略生成一个更大规模的 ECG 信号数据集，通过逼真的噪声模拟进行质量评估。其次，采用端到端的对比学习框架进行个人生物识别。最后，对不同驾驶条件下驾驶员的 HRV 特征进行了综合分析。每个基准都提供了评估指标和参考结果。OpenDriver 数据集将公开发布在 https://github.com/bdne/OpenDriver。

发布时间: 10/11/2024

查看原文

噪声特征下的上下文线性老虎机：迈向贝叶斯先知

作者: Jung-hun Kim, Se-Young Yun, Minchan Jeong, Jun Hyun Nam, Jinwoo Shin, Richard Combes

我们研究了特征不确定的情境线性老虎机问题，其中特征存在噪声且存在缺失条目。为了应对这种噪声带来的挑战，我们分析了基于观察到的噪声特征的贝叶斯先验。我们的贝叶斯分析表明，最优假设可能会显著偏离潜在的可实现函数，这取决于噪声特征。这些偏差非常不直观，在经典的无噪声设置中不会发生。这意味着经典方法无法保证非平凡的遗憾界。因此，我们提出了一种算法，旨在根据该模型下的观察信息近似贝叶斯先验，在存在大量臂的情况下实现了 $\tilde{O}(d\sqrt{T})$ 遗憾界。我们使用合成数据集和真实数据集演示了所提出的算法。

发布时间: 10/11/2024

查看原文

LatteCLIP：基于 LMM-合成文本的无监督 CLIP 微调

作者: Anh-Quan Cao, Maximilian Jaritz, Matthieu Guillaumin, Raoul de Charette, Loris Bazzani

大规模视觉语言预训练 (VLP) 模型（例如 CLIP）以其多功能性而闻名，因为它们可以在零样本设置下应用于各种应用。然而，当这些模型用于特定领域时，由于领域差异或这些领域在训练数据中的代表性不足，其性能往往会下降。虽然在具有人工标注标签的自定义数据集上微调 VLP 模型可以解决此问题，但即使是标注一个小规模数据集（例如 100k 个样本）也可能是一项昂贵的任务，如果任务很复杂，往往需要专家标注员。为了应对这些挑战，我们提出了 LatteCLIP，这是一种无监督方法，用于在自定义领域中使用已知类名对 CLIP 模型进行分类微调，而无需依赖人工标注。我们的方法利用大型多模态模型 (LMM) 为单个图像和图像组生成表达性的文本描述。这些提供了额外的上下文信息，以指导自定义领域的微调过程。由于 LMM 生成的描述容易出现幻觉或遗漏细节，我们引入了一种新策略来仅提取有用信息并稳定训练。具体来说，我们从嘈杂的生成文本和双重伪标签中学习丰富的每个类原型表示。我们在 10 个特定领域数据集上的实验表明，LatteCLIP 在 top-1 准确率方面优于预训练的零样本方法，平均提高了 +4.74 个点，并且优于其他最先进的无监督方法，提高了 +3.45 个点。

发布时间: 10/11/2024

查看原文

PointOBB-v2：迈向更简单、更快、更强大的单点监督定向目标检测

作者: Botao Ren, Xue Yang, Yi Yu, Junwei Luo, Zhidong Deng

单点监督目标检测在社区中引起了关注，并取得了初步进展。与依赖于单次样本或强大的预训练模型（例如 SAM）的方法不同，PointOBB 由于其无先验特征而展现出潜力。本文提出了一种更简单、更快、更强大的方法 PointOBB-v2，该方法无需任何先验知识即可从点生成伪旋转框。具体来说，我们首先通过使用非均匀正负样本训练网络来生成类别概率图（CPM）。我们证明 CPM 能够学习近似目标区域及其轮廓。然后，应用主成分分析 (PCA) 来准确估计目标的方向和边界。通过进一步引入分离机制，我们解决了 CPM 上重叠造成的混淆，使其能够在高密度场景中运行。大量的比较表明，与之前的最先进方法 PointOBB 相比，我们的方法在 DOTA-v1.0/v1.5/v2.0 数据集上实现了 15.58 倍的训练速度和 11.60%/25.15%/21.19% 的精度提升。这极大地推动了模块化轨道中单点监督定向检测的最新进展。

发布时间: 10/11/2024

查看原文

大型多模态模型中无需地面真实监督的像素定位新方法

作者: Shengcao Cao, Liang-Yan Gui, Yu-Xiong Wang

当前的大型多模态模型（LMM）在接地方面面临挑战，这要求模型将语言组件与视觉实体关联起来。与对 LMM 进行微调以获得额外接地监督的常见做法相反，我们发现接地能力实际上可以在没有显式接地监督的情况下训练的 LMM 中出现。为了揭示这种新出现的接地能力，我们引入了一种“注意和分割”方法，该方法利用来自标准 LMM 的注意力图来执行像素级分割。此外，为了增强接地能力，我们提出了 DIFFLMM，一种利用基于扩散的视觉编码器（而不是标准 CLIP 视觉编码器）并使用相同的弱监督进行训练的 LMM。由于不受接地特定监督数据的偏差和有限规模的限制，我们的方法更具通用性和可扩展性。与分别接地 LMM 和通用 LMM 相比，我们在接地特定和通用视觉问答基准测试中都取得了具有竞争力的性能。值得注意的是，在没有接地监督的情况下，我们在接地对话生成中实现了 44.2 的接地掩码召回率，优于经过广泛监督的模型 GLaMM。项目页面：https://groundLMM.github.io。

发布时间: 10/11/2024

查看原文