arXiv 论文列表

作者: Tianchi Xie, Jiangning Zhu, Guozu Ma, Minzhi Lin, Wei Chen, Weikai Yang, Shixia Liu

样本选择通过提供信息丰富且具有代表性的样本，提高了机器学习模型的效率和有效性。通常，样本可以被建模为样本图，其中节点是样本，边代表它们的相似性。大多数现有方法都基于局部信息，例如样本的训练难度，从而忽略了全局信息，例如连接模式。这种疏忽会导致次优选择，因为全局信息对于确保所选样本能很好地代表图的结构特性至关重要。为了解决这个问题，我们采用结构熵来量化全局信息，并使用 Shapley 值将其从整个图无损地分解到各个节点。基于这种分解，我们提出了基于结构熵的样本选择 (SES) 方法，该方法整合了全局和局部信息来选择信息丰富且具有代表性的样本。SES 首先根据样本之间的相似性构建一个 kNN 图。然后，它通过将结构熵（全局度量）与训练难度（局部度量）相结合来衡量样本的重要性。最后，SES 应用重要性偏差的蓝噪声采样来选择一组多样化且具有代表性的样本。在三种学习场景（监督学习、主动学习和持续学习）上的综合实验清楚地证明了我们方法的有效性。

发布时间: 10/8/2024

查看原文

与逻辑一致：衡量、评估和改进大型语言模型的逻辑一致性

作者: Yinhong Liu, Zhijiang Guo, Tianya Liang, Ehsan Shareghi, Ivan Vuli\'c, Nigel Collier

大型语言模型 (LLM) 在许多自然语言处理任务中已取代传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLM 的方法...

发布时间: 10/8/2024

查看原文

基于正则化流的图像生成度量

作者: Pranav Jeevan, Neeraj Nixon, Amit Sethi

我们提出了两种新的评估指标，基于归一化流来评估生成图像的真实性：一种更简单、更高效的基于流的似然距离 (FLD) 和一种更精确的双流基于似然距离 (D-FLD)。由于归一化流可以用来计算精确的似然，因此所提出的指标评估了生成图像与给定域中真实图像分布的匹配程度。这一特性使所提出的指标比广泛使用的 Fréchet inception distance (FID) 和其他最近的指标具有几个优势。首先，所提出的指标只需要几百张图像就能稳定（在均值上收敛），而 FID 需要数万张图像，其他指标至少需要几千张图像。这使得即使是对少量生成的图像集（例如训练循环中的验证批次）也能进行可靠的评估。其次，用来计算所提出指标的网络参数数量比用来计算 FID 的 Inception-V3 少一个数量级以上，因此在计算上更高效。为了评估新领域（例如，X 射线图像）中生成图像的真实性，理想情况下，这些网络应该在真实图像上重新训练以模拟其独特的分布。因此，我们更小的网络在新的领域中将更加有利。大量的实验表明，所提出的指标与各种图像退化的程度具有所需的单调关系。

发布时间: 10/8/2024

查看原文

面向心脏磁共振全面评估的视觉基础模型

作者: Athira J Jacob, Indraneel Borgohain, Teodora Chitiboi, Puneet Sharma, Dorin Comaniciu, Daniel Rueckert

心脏磁共振成像 (CMR) 被认为是无创心脏评估的金标准，是一种多样化且复杂的模式，需要执行各种图像处理任务，以全面评估心脏形态和功能。深度学习的进步使得能够开发用于这些任务的最先进 (SoTA) 模型。然而，由于数据和标签的稀缺，尤其是对于不太常见的成像序列，模型训练具有挑战性。此外，每个模型通常针对特定任务进行训练，相关任务之间没有联系。在这项工作中，我们介绍了一种针对 CMR 评估训练的视觉基础模型，该模型以自监督的方式在 3600 万张 CMR 图像上进行训练。然后，我们以监督的方式对模型进行微调，以针对 CMR 工作流程中常见的 9 项临床任务，包括分类、分割、地标定位和病理检测。我们证明了在各种可用标记数据集大小上，所有任务的准确性和稳健性都有所提高。我们还展示了使用更少的标记样本进行改进的少样本学习，这是医学图像分析中常见的挑战。我们实现了与大多数临床任务的 SoTA 相当的开箱即用性能。因此，所提出的方法提供了一个资源高效、统一的 CMR 评估框架，有可能加速基于深度学习的图像分析任务解决方案的开发，即使只有少量标注数据可用。

发布时间: 10/8/2024

查看原文

基于熵的不确定性建模在自动驾驶轨迹预测中的应用

作者: Aron Distelzweig, Andreas Look, Eitan Kosman, Faris Janjo\v{s}, J\"org Wagner, Abhinav Valada

在自动驾驶中，准确的运动预测对于安全高效的运动规划至关重要。为了确保安全，规划器必须依赖于周围代理人预测未来行为的可靠不确定性信息，但这一方面却鲜有关注。本文着眼于轨迹预测中不确定性建模这一长期被忽视的问题。我们采用了一种整体方法，重点关注不确定性量化、分解以及模型组合的影响。我们的方法基于理论上扎实的基于信息论的方法来衡量不确定性，使我们能够将总不确定性分解为其偶然性和认知性成分。我们在nuScenes数据集上进行了大量实验，以评估不同的模型架构和配置如何影响不确定性量化和模型鲁棒性。

发布时间: 10/8/2024

查看原文

OpenMathInstruct-2：利用海量开源指令数据加速数学领域的 AI 发展

作者: Shubham Toshniwal, Wei Du, Ivan Moshkov, Branislav Kisacanin, Alexan Ayrapetyan, Igor Gitman

大型语言模型 (LLM) 在数学推理方面取得了显著进展，但由于缺乏训练数据，许多最先进的模型已成为闭源。数据访问受限阻碍了研究人员理解数据合成和利用的不同选择的影响。为了创建高质量的数学推理微调 (SFT) 数据集，我们使用最近发布的 \texttt{Llama3.1} 模型系列对数据合成进行了仔细的消融实验。我们的实验表明：(a) 解决方案格式很重要，过度冗长的解决方案对 SFT 性能有害，(b) 由强大教师生成的數據优于由弱学生模型生成的同等规模的數據，(c) SFT 对低质量解决方案具有鲁棒性，允许进行不精确的数据过滤，以及 (d) 问题多样性对于实现数据扩展增益至关重要。基于这些见解，我们创建了 OpenMathInstruct-2 数据集，其中包含 1400 万个问答对（约 60 万个独特问题），使其规模几乎是之前最大的开源数学推理数据集的八倍。使用 OpenMathInstruct-2 微调 \texttt{Llama-3.1-8B-Base} 在 MATH 上的性能优于 \texttt{Llama3.1-8B-Instruct}，绝对提升了 15.9%（51.9% $\rightarrow$ 67.8%）。最后，为了加速开源工作，我们以商业许可协议发布了代码、微调模型和 OpenMathInstruct-2 数据集。

发布时间: 10/8/2024

查看原文

FLAME：面向联邦学习部署的自适应反应式概念漂移缓解方法

作者: Ioannis Mavromatis, Stefano De Feo, Aftab Khan

本文提出了一种名为“自适应监控与消除的联邦学习”（FLAME）的全新解决方案，用于检测和缓解联邦学习（FL）物联网（IoT）环境中的概念漂移。概念漂移对部署在动态真实环境中的 FL 模型提出了重大挑战。FLAME 利用 FL 架构，考虑了真实世界的 FL 管道，并证明了其能够在解决带宽和隐私约束的同时保持模型性能和准确性。FLAME 在先前工作的基础上引入了各种功能和扩展，为概念漂移提供了稳健的解决方案，显著降低了计算负荷和通信开销。与知名轻量级缓解方法相比，FLAME 在保持高 F1 分数和降低大规模物联网部署中的资源利用方面表现出优越的性能，使其成为现实世界应用中很有前景的方法。

发布时间: 10/8/2024

查看原文

从代码到正确性：用分层调试弥合代码生成的最后一步

作者: Yuling Shi, Songsong Wang, Chengcheng Wan, Xiaodong Gu

虽然大型语言模型在代码生成方面取得了重大进展，但生成的代码通过率受到细微错误的限制，通常需要人工干预才能通过测试，尤其是在处理复杂问题时。现有的基于LLM的调试系统将生成的程序视为整体单元，无法解决不同粒度级别的错误，从低级语法错误到高级算法缺陷。在本文中，我们介绍了多粒度调试器 (MGDebugger)，这是一种分层代码调试器，它通过隔离、识别和解决不同粒度级别的错误来进行调试。MGDebugger 将有问题的代码分解成子函数的分层树结构，每一层代表特定粒度的错误。在调试过程中，它会分析每个子函数，并以自下而上的方式迭代地解决错误。为了有效地测试每个子函数，我们提出了一种 LLM 模拟的 Python 执行器，它跟踪代码执行并跟踪重要的变量状态，以准确地定位错误。大量实验表明，MGDebugger 的性能优于现有的调试系统，在 HumanEval 中的种子生成方面准确率提高了 18.9%，在 HumanEvalFix 中的修复成功率达到了 97.6%。此外，MGDebugger 有效地修复了不同类别和难度级别的错误，证明了其鲁棒性和有效性。

发布时间: 10/8/2024

查看原文

softmax 不足以应对（尖锐的）分布外数据

作者: Petar Veli\v{c}kovi\'c, Christos Perivolaropoulos, Federico Barbero, Razvan Pascanu

推理系统的一个关键属性是对输入数据做出明确的决策。对于当代人工智能系统而言，softmax 函数是实现明确行为的关键载体，它能够执行可微查询-键查找。人们普遍认为，利用 softmax 的网络的预测能力源于“电路”，这些电路能够在许多不同的输入中始终如一地执行特定类型的计算。然而，为了使这些电路具有鲁棒性，它们需要很好地泛化到任意有效的输入。在本文中，我们揭穿了这一神话：即使对于像寻找最大键这样简单的任务，任何学习到的电路都必须随着测试时项数的增加而分散。我们将此归因于 softmax 函数在鲁棒地逼近尖锐函数方面的基本局限性，从理论上证明了这种现象，并提出了自适应温度作为一种在推理时提高 softmax 锐度的临时技术。

发布时间: 10/8/2024

查看原文

无人机立体视觉用于辐射松枝条检测和距离测量：利用深度学习和YOLO集成

作者: Yida Lin, Bing Xue, Mengjie Zhang, Sam Schofield, Richard Green

本研究致力于开发配备修剪工具和立体视觉相机的无人机，以准确检测和测量树枝的空间位置。研究采用 YOLO 进行枝条分割，并探索了单目和立体两种深度估计方法。与 SGBM 相比，深度学习技术可以生成更精细、更准确的深度图。在缺乏真实数据的情况下，采用深度神经网络的微调过程来近似最佳深度值。这种方法有助于精确地检测枝条和测量距离，解决修剪作业自动化过程中的关键挑战。结果表明，该方法在准确性和效率方面取得了显著进展，突出了深度学习在推动农业领域创新和增强自动化方面的潜力。

发布时间: 10/8/2024

查看原文