arXiv 论文列表

作者: Huan Ma, Jingdong Chen, Joey Tianyi Zhou, Guangyu Wang, Changqing Zhang

arXiv:2502.00290v5 Announce Type: replace-cross 摘要：近年来，大规模语言模型（LLMs）发展迅速，并在各种领域得到了广泛应用。然而，LLMs 面临幻觉问题，在模型缺乏相关知识时，可能会生成不可靠的响应。为了解决潜在的幻觉问题，已经引入了不确定性估计方法，并且大多数方法都确认了可靠性在于关键的标记。然而，基于概率的方法在识别标记可靠性方面表现不佳，限制了它们的实际应用价值。在本文中，我们揭示了基于概率的方法未能估计标记可靠性，原因是训练阶段积累的证据强度信息丢失。因此，我们提出了 Logits-诱导标记不确定性（LogTokU），这是一种用于评估LLMs解耦标记不确定性的框架，能够实现实时不确定性估计，不需要多次采样过程。我们通过证据建模来实现LogTokU，并使用估计的不确定性来指导下游任务。实验结果表明，LogTokU在效果和潜力方面具有显著优势。

发布时间: 5/12/2025

查看原文

AdaCoT: 通过自适应链式思考重构跨语言事实推理

作者: Xin Huang, Tarun Kumar Vangani, Zhengyuan Liu, Bowei Zou, Ai Ti Aw

arXiv:2501.16154v2 宣告类型: replace-cross 摘要：通过在多样化的语料库上进行预训练，大型语言模型展示了令人印象深刻的多语言能力。虽然这些模型表现出很强的推理能力，但由于训练数据分布不平衡，其在不同语言上的表现显著不同。现有的利用样本级翻译进行广泛多语言预训练和跨语言调整的方法面临着可扩展性的挑战，并且往往无法捕捉跨语言细微的推理过程。在这篇论文中，我们介绍了一种名为 AdaCoT（自适应链式思维）的框架，该框架通过在中间“思维语言”中动态路由思维过程，生成目标语言响应，从而增强多语言事实推理。AdaCoT 利用了语言无关的核心，并结合了一种基于奖励的自适应机制，用于选择最优的推理路径，而不需要额外的预训练。我们在多个基准上的全面评估表明，在事实推理质量和跨语言一致性方面均取得了显著改进，特别是在低资源语言环境中表现尤为明显。结果表明，自适应推理路径可以有效缩小高资源语言和低资源语言之间的性能差距，同时保持文化与语言的细微差别。

发布时间: 5/12/2025

查看原文

JustLogic：评估大型语言模型演绎推理能力的综合基准

作者: Michael K. Chen, Xikun Zhang, Dacheng Tao

arXiv:2501.14851v2 通告类型：替换-交叉摘要：逻辑推理是大型语言模型（LLMs）的关键组成部分，近年来的研究旨在增强其演绎推理能力。然而，由于现有的演绎推理基准数据包缺乏任务复杂性、存在先验知识的干扰以及表面化的错误分析，这些基准数据对评估和推进LLMs是不足的。为了解决这些缺陷，我们提出了JustLogic，这是一个用于 rigorously 评估LLMs的合成生成的演绎推理基准数据集。JustLogic具有以下特点：(i) 高度复杂，能够生成多样化的语言模式、词汇和论证结构；(ii) 与先验知识无关，消除了模型具有先验知识的优势，确保只有通过演绎推理来回答问题；(iii) 能够对推理深度和论证形式的异质效应对模型准确性进行深入分析。我们的JustLogic实验结果显示：(i) 当前最先进的（SOTA）推理型LLMs的表现与人类平均水平相当或更好，但在人类天花板之下表现较差；(ii) 当前最先进的非推理模型的表现仍然低于人类平均水平。所有代码和数据可在 https://github.com/michaelchen-lab/JustLogic 获得。

发布时间: 5/12/2025

查看原文

三维等变深度网络的高效稀疏核生成器

作者: Vivek Bharadwaj, Austin Glover, Aydin Buluc, James Demmel

arXiv:2501.13986v4 宣布类型：替换-交叉摘要: 旋转不变图神经网络，即设计用于确保存在某些几何关系的输入和输出的网络，在空间深度学习任务中达到了最先进的性能。与经典方法相比，这些模型在训练过程中表现出高度的数据效率，并且在原子间势能计算中的推理时间显著减少。这些模型的核心是Clebsch-Gordon (CG) 张量积，这是一种将两个密集特征向量与一个高度结构化的稀疏张量相结合以产生一个密集输出向量的核。该操作在典型等变模型中可能需要重复数百万次，是一个代价高昂且效率低下的瓶颈。我们引入了一种GPU稀疏核生成器来实现CG张量积，其在最佳现有开源和闭源实现的基础上提供了显著的加速。我们的实现通过在模型编译时进行静态分析，精细管理有限的GPU共享内存，从而减少对全局内存的读写操作，从而达到高性能。我们将其张量积分解为一系列较小的核，操作数完全容纳在寄存器中，这使我们能够生成最大限度地利用指令级并行性的长算术指令流。通过将CG张量积与后续的图卷积相结合，我们减少了两种简单方法中由于重复输入数据而产生的中间存储和全局内存流量。我们还提供了CG张量积梯度的优化核以及用于预测原子间力所需的更高阶偏导数的新型恒等式。我们的核在NVIDIA的闭源cuEquivariance包上提供了高达1.3倍的加速，在广泛使用的e3nn包上提供了高达10倍的加速。在FP64精度下，我们针对MACE化学基础模型提供了高达6.2倍的推理时间加速，相比于原版本。

发布时间: 5/12/2025

查看原文

开源大型语言模型能否用于德国的肿瘤记录？——泌尿科医生笔记的评估

作者: Stefan Lenz, Arsenij Ustjanzew, Marco Jeray, Meike Ressing, Torsten Panholzer

arXiv:2501.12106v3 宣布类型：替换交叉摘要：在德国，肿瘤记录主要通过手动方式完成，需要阅读病人的记录并将其数据输入到结构化的数据库中。大型语言模型（LLMs）有可能通过提高效率和可靠性来增强这一过程。这项评估测试了十一个不同开源LLMs，其模型参数从1亿到70亿不等，针对肿瘤记录过程中的三个基本任务：识别肿瘤诊断、分配ICD-10编码、提取首次诊断日期。为了评估LLMs在这些任务上的表现，准备了一个基于匿名泌尿科医生笔记的注释文本片段数据集。使用了不同的提示策略来调查少量示例提示中示例数量的影响，并探索LLMs的一般能力。在任务中，Llama 3.1 8B、Mistral 7B和Mistral NeMo 12 B的表现相当好。较少训练数据或参数少于7亿的模型性能明显较低，而更大的模型并未表现出性能提升。来自不同于泌尿科的其他医学领域的示例也可能提高少示例提示的效果，这表明LLMs有能力处理肿瘤记录所需的任务。开源LLMs在自动化肿瘤记录方面显示出强大的潜力。拥有7-12亿参数的模型可能在性能和资源效率之间提供最佳平衡。通过定制微调和精心设计的提示，这些模型可能成为未来临床记录的重要工具。评估的代码可在https://github.com/stefan-m-lenz/UroLlmEval上获得。我们还发布了一个新的数据集，作为德语医学自然语言处理中缺乏的真正且容易获取的基准资源的新有价值的资源。

发布时间: 5/12/2025

查看原文

从模型到网络拓扑：去中心化联邦学习中的拓扑推理攻击

作者: Chao Feng, Yuanzhe Gao, Alberto Huertas Celdran, Gerome Bovet, Burkhard Stiller

arXiv:2501.03119v2 公告类型: replace-cross 摘要：联邦学习（FL）因其避免直接数据交换的模型共享机制而被广泛视为一种隐私保护的机器学习范式。然而，模型训练会留下可以利用的痕迹，从而可以用来推断敏感信息。在去中心化联邦学习（DFL）中，定义参与者如何连接的拓扑结构对于塑造模型的隐私、鲁棒性和收敛性起着关键作用。然而，拓扑结构引入了一个未被探索的脆弱性：攻击者可以利用它来推断参与者的相互关系并发起有针对性的攻击。这项工作通过提出一种新颖的拓扑推理攻击，仅从模型行为中推断拓扑结构，揭示了DFL拓扑结构隐藏的风险。介绍了拓扑推理攻击的分类法，根据攻击者的能力和知识对其进行分类。针对各种场景设计了实用的攻击策略，并进行了实验以确定影响攻击成功率的关键因素。结果表明，仅分析每个节点的模型就可以准确地推断出DFL拓扑结构，突显了DFL系统中的一个关键隐私风险。这些发现为提高DFL环境中隐私保护提供了宝贵的见解。

发布时间: 5/12/2025

查看原文

VladVA：LVLMs的辨别性微调

作者: Yassine Ouali, Adrian Bulat, Alexandros Xenos, Anestis Zaganidis, Ioannis Maniadis Metaxas, Brais Martinez, Georgios Tzimiropoulos

arXiv:2412.04378v3 宣告类型: 替换-交叉摘要：像CLIP这样的对比训练的视觉-语言模型（VLMs）已成为区分视觉-语言表示学习的默认方法。然而，这些模型在语言理解方面有限，常常表现出“词汇包”的行为。同时，大型视觉-语言模型（LVLMs），将视觉编码器与大语言模型（LLMs）结合在一起，已经被证明能够进行详细的视觉-语言推理，但它们的自回归性质使得它们不太适用于区分任务。在这项工作中，我们提出了一种结合“两者之长”的新方法：一种用于LVLMs区分微调的新训练方法，这种方法使得模型具备强大的区分性和组合能力。本质上，我们的方法将生成型的LVLM转换为区分型的LVLM，从而解锁其强大的图像-文本区分能力，同时增强语言理解。我们的贡献包括：（1）一个精心设计的训练/优化框架，利用变量长度和粒度的图像-文本对训练模型，结合对比损失和下一个词预测损失，这伴随着消除研究，证明了我们框架各个组件的必要性；（2）一种参数效率的适应方法，结合软提示和LoRA适配器；（3）在与CLIP类似规模的领先模型中，包括标准的图像-文本检索基准，以及在组合性方面的显著改进。

发布时间: 5/12/2025

查看原文

SRA-MCTS：自驱力推理增强与蒙特卡洛树搜索在代码生成中的应用

作者: Bin Xu, Yiguan Lin, Yinghao Li, Yang Gao

arXiv:2411.11053v5 通告类型: 替换-交叉摘要: 大型语言模型在简单的代码生成任务中表现出色，但在处理复杂问题时仍面临挑战。这些挑战可能源自推理和问题分解能力不足。为了解决这一问题，我们提出了一种增强推理的数据生成过程，SRA-MCTS，它引导模型自主生成高质量的中间推理路径。这创建了一个正反馈循环，从而使模型能够持续改进。我们的方法完全通过模型本身进行，无需额外的监督。通过合成自然语言推理路径并将其转化为可执行代码，该方法确保了分析准确性，并提高了解决复杂任务的成功率。实验结果表明，即使没有额外的监督信号，我们的方法在不同模型规模上也能实现性能提升，展示了小型模型自我改进的巨大潜力。此外，在传统链式思考（CoT）方法表现下降时，该方法在多样性指标如pass@10方面也表现出显著改进。我们鼓励进一步探索训练数据中的推理过程，以增强语言模型处理复杂问题的能力。我们的代码和数据可在 https://github.com/DIRECT-BIT/SRA-MCTS 公开获取。

发布时间: 5/12/2025

查看原文

Shavette：通过算法级别误差检测和欠压技术实现低功耗神经网络加速

作者: Mikael Rinkinen, Lauri Koskinen, Olli Silven, Mehdi Safarpour

arXiv:2410.13415v3 公布类型: replace-cross 摘要：减压操作是提高数字电路显著能效的有效技术。本文介绍了一种简单方法，只需进行软件修改即可使深度神经网络（DNN）加速器实现减压操作。传统的实现减压操作的方法，例如定时误差检测（TED）系统，会带来显著的开发成本和额外开销，而不适用于现成的组件。与此相反，本文提出的方法依赖于基于算法的误差检测，因此开发成本低，不需要任何电路修改，并且即使对于普通设备也适用。通过在流行的 DNN（即 LeNet 和 VGG16）和 GPU 平台上进行实验，我们展示了在没有任何模型准确率损失的情况下，通过整合误差检测方案实现 18% 至 25% 的节能率，并且从整合误差检测方案到 DNN 的开销来看，吞吐量损失不到 3.9%。将本文提出的算法解决方案集成到设计中比基于 TED 的传统方法更简单，后者需要在电路级别进行广泛的修改、单元库表征或特殊的设计工具支持。

发布时间: 5/12/2025

查看原文

学习算法变得简单

作者: Noorbakhsh Amiri Golilarz, Elias Hossain, Abdoljalil Addeh, Keyan Alexander Rahimi

arXiv:2410.09186v2 宣告类型: 替换-交叉摘要：在本文中，我们讨论了学习算法及其在不同类型应用中的重要性，包括培训以识别重要模式和特征，方式简单明了。我们将回顾人工智能（AI）、机器学习（ML）、深度学习（DL）和混合模型的主要概念。本文还讨论了机器学习算法的一些重要子集，如监督学习、无监督学习和强化学习。这些技术可以用于一些重要任务，如预测、分类和分割。卷积神经网络（CNN）用于图像和视频处理以及许多其他应用。本文深入探讨了CNN的架构以及如何将CNN与机器学习算法集成以构建混合模型。本文探讨了学习算法对噪声的易感性，导致误分类。我们进一步讨论了将学习算法与大型语言模型（LLM）集成，以生成适用于医疗、营销和金融等领域的一致性响应，通过从大量数据中学习重要模式。此外，本文还讨论了下一代学习算法及其可能存在的统一自适应和动态网络，以执行重要任务。总体而言，本文提供了学习算法的简要概述，探讨了它们当前的状态、应用和未来方向。

发布时间: 5/12/2025

查看原文