arXiv:2504.05254v1 类别: cross
摘要: 有许多方法可以解释图像分类模型是如何做出决策的,但很少有研究探索解释分类器为何对其预测缺乏信心的方法。由于分类器失去信心的原因可能有很多种,因此不仅表明其不确定性水平,还能解释其不确定性的原因将是非常有价值的。反事实图像已被用于可视化可应用于图像以生成不同分类决策的变化。在这项工作中,我们探索使用反事实图像来解释低模型能力——一种衡量信心的泛化形式——的方法。为此,我们开发了五种新颖的方法来生成高能力的反事实图像,即图像梯度下降(Image Gradient Descent, IGD)、特征梯度下降(Feature Gradient Descent, FGD)、自动编码器重构(Reco)、潜在梯度下降(Latent Gradient Descent, LGD)和潜在最近邻(Latent Nearest Neighbors, LNN)。我们在包含六个已知导致低模型能力原因的独特数据集上评估了这些方法,发现Reco、LGD和LNN是生成反事实图像最有前景的方法。我们进一步评估了这些三种方法如何可用于预训练的多模态大型语言模型(MLLMs),以生成关于低模型能力的语言解释。我们发现,在语言模型查询中加入反事实图像极大地提高了模型生成准确解释低模型能力原因的能力,从而证明了反事实图像在解释低感知模型能力方面的实用性。
arXiv:2504.05248v1 通报类型: cross
摘要: 从测量数据中对微分方程进行参数估计是一个在定量科学中普遍存在的逆问题。物理信息神经网络(PINNs)已成为解决此类问题的有效工具,特别是在稀疏测量和不完整系统信息的情况下。然而,PINNs 面临收敛问题、稳定性问题、过拟合以及复杂的损失函数设计。在这里,我们引入了 PINNverse,这是一种训练范式,通过将学习过程重新表述为一个受约束的微分优化问题来解决这些限制。该方法在训练过程中动态平衡数据损失和微分方程残差损失,同时防止过拟合。PINNverse 结合了 PINNs 的优点和修改后的差分乘法器方法,使得优化可以在帕累托前沿上的任意一点收敛。我们通过物理和生物学中四个经典的 ODE 和 PDE 模型展示了从噪声数据中获得稳健且准确的参数估计。我们的方法即使在前向问题难以解决时也能实现准确的参数推断。
arXiv:2504.05220v1 类别: 交叉领域
摘要:检索模型通常依赖于昂贵的人工标注查询-文档相关性注释来进行训练和评估。为了降低这种成本并利用大型语言模型(LLMs)在相关性判断方面的潜力,我们旨在探索LLM生成的注释是否能够有效地替代人工注释来训练检索模型。检索通常强调相关性,这指的是文档与查询之间的“主题相关性”,而在RAG(检索-生成答案)中,文档的价值(或效用)取决于它对答案生成的贡献。认识到这一点,一些研究者使用LLM在使用文档作为标签的下游任务上的表现作为标签,但这种方法需要特定任务的手动答案,导致高昂的成本和有限的泛化能力。在另一项研究中,提示LLM选择有用的文档作为RAG参考文献,消除了人工注释的需要且不是任务特定的。如果我们利用LLM的效用判断来标注检索数据,我们可以在大规模语料库中保留跨任务泛化能力而无需人工注释。因此,我们研究了使用LLM进行大尺度检索训练数据的效用导向标注,涵盖检索和RAG任务的领域内和领域外设置。为了减少由LLM标注的低质量正样本的影响,我们设计了一种新的损失函数,即Disj-InfoNCE。我们的实验揭示了以下几点:(1) 在领域外设置中进行效用导向标注训练的检索模型明显优于使用人工标注训练的检索模型,展示了更强的泛化能力。(2) 在领域内设置中,LLM注释并不能完全替代人工注释。然而,仅将20%的人工标注数据纳入训练,使用效用导向标注训练的检索模型就能达到完全使用人工标注数据训练的模型的性能。
arXiv:2504.05216v1 通知类型: 交叉
摘要: 密集检索是信息检索(IR)中的一项关键任务,并且是重排序等下游任务的基础。最近,大型语言模型(LLMs)展示了令人信服的语义理解能力,吸引了那些研究密集检索的研究人员的兴趣。LLMs 作为一种解码器风格的生成模型,擅长语言生成,但在建模全局信息方面存在不足,因为它们无法关注后续的 tokens。受经典基于单词的语言建模方法(即查询似然模型 QL)在信息检索中的启发,我们希望通过 QL 最大化充分利用 LLMS 的生成能力。然而,我们不是用 QL 估计来对文档进行排序,而是引入一个辅助任务即 QL 最大化,以便提供一个更好的对比学习区别检索器的骨干。我们将我们的模型命名为 LLM-QL。为了在 QL 模型中将全局文档语义压缩到一个向量,LLM-QL 有两个主要组成部分:注意力停止(AS)和输入破坏(IC)。AS 在生成 token 的注意力停止在文档结束 token 之前,不会停留在前一个 token 上。IC 在预测过程中遮盖输入文档中一部分 token。在 MSMARCO 上的实验表明,LLM-QL 可以显著优于其他基于 LLM 的检索器,使用 LLM-QL 估计的 QL 进行排序的效果也显著优于基于单词的 QL。
arXiv:2504.05210v1 类别: cross
摘要:由于数据集转移,机器学习(ML)系统可能会随时间出现性能下降。为解决这一问题,专家通常建议定期更新ML系统以确保持续的性能稳定性。部分学术文献已经开始探讨不同更新方法所伴随的认知和伦理挑战。然而,迄今为止,关于模型更新对ML辅助决策过程本身的影响,尤其是在这方面的人工智能伦理学和人工智能知识论文献中,几乎没有给予关注。本文旨在填补这一文献空白。本文认为,模型更新引入了一种新的ML辅助决策过程中的透明度缺失类型——更新透明度,当用户无法理解更新如何或为何改变ML系统的推理或行为时,就会出现这种情况。这种类型的透明度存在各种独特的认知和安全问题,现有的解决ML黑箱问题的方法大都无法有效应对。可以开发或追求各种替代策略,以更直接地解决更新透明度的问题,包括双事实解释、动态模型报告和更新兼容性等。然而,每种策略都存在其自身的风险或固有的限制。未来的研究将需要解决模型更新和更新透明度相关的重要认知和安全问题。
arXiv:2504.05207v1 交叉发布类型: cross
摘要: 在CT研究中进行通用病灶检测和标记(ULDT)对于肿瘤负担评估以及跟踪病灶状态(增殖/缩小)随时间的变化至关重要。然而,缺乏完全标注的数据妨碍了有效ULDT方法的发展。先前的工作使用DeepLesion数据集(4,427名患者,10,594项研究,32,120张CT切片,32,735个病灶,32个身体部位标签)进行算法开发,但该数据集并未完全标注且存在类别不平衡。为解决这些问题,本文开发了一个自训练管道用于ULDT。该研究在受限的11.5% DeepLesion子集(边界框+标签)上训练了一个VFNet模型,用于检测和分类CT研究中的病灶。然后,它识别并整合了更大规模的未知数据子集中的新型病灶候选者到其训练集中,并在多轮次中自我训练。进行了多次不同阈值策略的自训练实验,以选择高质量的预测病灶并覆盖类别不平衡。我们发现直接自训练在代价于欠代表类别的敏感性提高的情况下,提高了过度代表的病灶类别的敏感性。然而,结合病灶训练和变量阈值策略放大的样本占比,在4个误报的情况下的敏感性提高了6.5%,相对于未进行类别平衡的自训练(72% 对 78.5%)以及相对于相同自训练策略但未放大规模样本的情况下提升了11.7%(66.8% 对 78.5%)。此外,我们展示了我们的结果要么提高了要么保持了所有8个病灶类别的4个误报情况下的敏感性。
arXiv:2504.05201v1 类别: cross
摘要:放射科医生通常需要执行一个繁琐的任务,即在计算机断层扫描(CT)研究中进行病灶定位、分类和大小测量。通用病灶检测和标记(ULDT)可以同时帮助减轻病灶测量的繁琐性,并实现肿瘤负担评估。之前的ULDT方法使用了公开可用的DeepLesion数据集,但该数据集并未提供病灶的完整体积(3D)范围,且存在严重的类别不平衡问题。在本文中,我们提出了一种自训练管道,用于检测3D病灶并根据病灶发生的部位对其进行标记。我们使用DeepLesion数据集的一个显著受限的30%子集,训练了一个VFNet模型进行2D病灶检测和标记。接下来,将2D病灶上下文扩展到3D,并将挖掘出的3D病灶建议融入基础训练数据中,以多次训练模型。通过自训练过程,我们的VFNet模型从自己的预测中学习,检测到3D病灶并进行标记。我们的结果表明,使用30%的数据子集,我们的VFNet模型在[0.125:8]假阳性(FP)下的平均灵敏度为46.9%,而一个现有的方法使用整个DeepLesion数据集的灵敏度为46.8%。据我们所知,我们首次实现了同时3D检测病灶并根据体部位标签对其标记。
arXiv:2504.05196v1 交叉公告类型
摘要: 在多参数磁共振成像(mpMRI)中稳健地定位淋巴结(LNs)对于评估淋巴结肿大至关重要。放射科医生通常会测量淋巴结的大小以区分良性与恶性淋巴结,这将需要随后的癌症分期。测量是一个繁琐的任务,且由于LNs在mpMRI中的多样表现使得测量变得困难。此外,在繁忙的临床工作中,较小的可能具有转移性的淋巴结可能会被忽略。为了缓解这些成像和工作流程问题,我们建议了一种管道,用于在随后进行测量时在身体中普遍检测良性及转移性淋巴结。我们使用了最近提出的VFNet神经网络来识别由各种扫描器在不同检查协议下获取的T2抑制和弥散加权成像(DWI)序列中的淋巴结。我们还使用了一种名为Intra-Label LISA(ILL)的选择性增强技术,在训练过程中使模型看到更多样化的输入数据样本,从而在评估阶段提高其鲁棒性。与未使用ILL时相比,我们在4 FP/vol的条件下达到了约83%的灵敏度,而未使用ILL时约为80%。与当前评估mpMRI中淋巴结检测方法相比,我们展示了在4 FP/vol条件下约9%的灵敏度改进。
arXiv:2504.05187v1 技术类型: 广义交叉
摘要:波束形成是毫米波(mmWave)通信的关键技术,通过优化方向性和强度来提高信号传输效果。然而,传统的信道估计方法,如探针信号或波束扫描,往往难以适应快速变化的通信环境。为解决这一局限性,利用各种传感数据(来自如LiDAR、雷达、GPS和RGB图像等设备)进行多模态辅助波束预测的方法受到了广泛关注。尽管这种方法具有很大的潜力,但在实际应用中,多模态辅助波束预测的采用受制于高计算复杂性、高成本和有限的数据集。因此,在本文中,提出了一种资源高效的学习方法,基于跨模态关系知识蒸馏(CRKD)将多模态网络的知识转移到雷达唯一(雷达)模式网络上,减少了计算开销并保持预测准确性。为了实现具有现实数据的多模态学习,开发了一种新的多模态模拟框架,该框架将来自自主驾驶模拟器CARLA生成的传感器数据与基于MATLAB的mmWave信道建模集成在一起,并反映真实世界条件。提出的CRKD通过在不同特征空间中提取关系信息来实现其目标,从而在不依赖昂贵的传感数据的情况下提高了波束预测性能。仿真结果表明,CRKD有效地提取了多模态知识,使雷达唯一模型的性能达到了老师模型的94.62%,并且仅使用了老师网络参数的10%,显著降低了计算复杂性和对于多模态传感器数据的依赖。
arXiv:2504.05181v1 交叉类型:公告
摘要:生成式信息检索(GenIR)是一种有前景的神经检索范式,它将文档检索任务建模为文档标识符(docid)生成任务,从而可以实现针对统一全局检索目标的端到端优化。然而,现有的GenIR模型存在标记级对齐问题,即训练模型预测下一个标记时,往往无法有效地捕捉文档级别的相关性。尽管基于强化学习的方法,如相关反馈强化学习(RLRF),试图通过奖励建模来解决这个对齐问题,但它们引入了显著的复杂性,需要优化一个辅助的奖励函数,然后进行强化微调,这在计算上是昂贵的且往往不稳定。为了解决这些挑战,我们提出了直接文档相关性优化(DDRO),该方法通过直接优化对文档级别的相关性进行估算,将标记级别docid生成与文档级别相关性对齐,从而消除了显式奖励建模和强化学习的需求。在MS MARCO文档和自然问题等基准数据集上的实验结果显示,DDRO在MS MARCO上的MRR@10性能比基于强化学习的方法高出7.4%,在自然问题上的性能提高了19.9%。这些发现突显了DDRO在简化优化方法的情况下提高检索效果的潜力。通过将对齐问题建模为直接优化问题,DDRO简化了GenIR模型的排名优化管道,并提供了一种基于强化学习方法的可行替代方案。