arXiv 论文列表

作者: Dylan Bouchard, Mohit Singh Chauhan

arXiv:2504.19254v2 宣告类型: replace-cross 摘要：幻觉是大型语言模型（LLMs）的一个持续性问题。随着这些模型在如医疗保健和金融等高风险领域的使用日益增多，有效的幻觉检测变得至关重要。为此，我们提出了一种通用框架，可让从业者将其应用于实际应用场景中的幻觉检测。为了实现这一目标，我们对各种现有的不确定性量化（UQ）技术进行了调整，包括黑盒不确定性量化、白盒不确定性量化和LLM-as-a-Judge，必要时将它们转化为标准化的从0到1的主题置信分数。为了增强灵活性，我们引入了一个可调集成方法，可以结合任何一个个体置信分数的组合。这种方法使从业者能够针对特定应用场景优化集成方法，从而提高性能。为了简化实现过程，本文附带提供了一个名为UQLM的Python工具包，其中包括全套评分器。我们通过使用多个LLM问答基准进行大量实验，评估了各种评分器的性能。我们发现，我们的可调集成通常优于其个体组件，且优于现有的幻觉检测方法。我们的结果表明，定制化的幻觉检测策略可以提高LLMs的准确性和可靠性。

发布时间: 5/1/2025

查看原文

进化遇上传播：高效神经架构生成

作者: Bingye Zhou, Caiyang Yu

arXiv:2504.17827v3 Announce Type: replace-cross 摘要：神经架构搜索（NAS）因其在深度学习模型设计中的革命性潜力而引起了广泛的关注。然而，NAS庞大的且复杂的搜索空间导致了显著的计算和时间成本。神经架构生成（NAG）通过将NAS重新定义为生成问题来解决这一问题，能够为特定任务生成精确的最佳架构。尽管NAG充满了希望，主流方法如扩散模型在全局搜索能力方面仍然存在局限，仍然受到高计算和时间需求的阻碍。为了克服这些挑战，我们提出了一种新的方法进化扩散基于神经架构生成（EDNAG），该方法实现了高效且无需训练的架构生成。EDNAG利用进化算法模拟扩散模型中的去噪过程，使用适应度来引导从随机高斯分布到最佳架构分布的过渡。这种方法结合了进化策略和扩散模型的优点，能够实现快速且有效的架构生成。广泛的实验证明，EDNAG在架构优化方面达到了目前最先进（SOTA）的性能，准确率提高了高达10.45%。此外，它消除了耗时的训练需求，并将推理速度平均提高50倍，展示了其卓越的效率和有效性。

发布时间: 5/1/2025

查看原文

重访脉冲神经网络中的重置机制以进行序列建模：针对二元激活RNN的专门离散化方法

作者: Enqi Zhang

arXiv:2504.17751v3 Announce Type: 替换交叉摘要：在图像识别领域，突触神经网络（SNNs）已经实现了与传统人工神经网络（ANNs）性能相当的表现。在这样的应用中，SNNs 本质上充当着具有量化激活值的传统神经网络。本文则从另一个替代视角出发，将 SNNs 视为用于序列建模任务的二值激活递归神经网络（RNNs）。从这一视角出发，当前的 SNN 架构在序列建模方面面临着几个基本挑战：（1）传统模型缺乏有效的长距离序列建模机制；（2）SNNs 中的生物启发组件（如重置机制和去极化期应用）在序列任务中仍然在理论上被过度探索；（3）SNN 中的类似 RNN 的计算范式阻止了在不同时间步的并行训练。为解决这些挑战，本研究对基于二值激活 RNN 的 SNN 序列模型中重置操作和去极化期的基本机制进行了系统的分析。我们重新审查了这些生物机制是否严格必要以产生稀疏的突触放电模式，并提供了新的理论解释和见解，最终提出了一种固定去极化期的 SNN 架构用于序列建模。

发布时间: 5/1/2025

查看原文

Hexcute：一种具有自动布局和任务映射合成的基于瓷砖的编程语言

作者: Xiao Zhang, Yaoyao Ding, Yang Hu, Gennady Pekhimenko

arXiv:2504.16214v2 宣告类型: replace-cross 摘要：深度学习（DL）工作负载主要在GPU等加速器上运行。近期的DL量化技术需要一个新的混合输入数据类型的矩阵乘法运算符，这进一步复杂了GPU的优化。之前的一些高级编译器，如Triton，缺乏实现细粒度数据管道和硬件友好的内存布局等关键优化的能力，而像Hidet、Graphene和CUTLASS这样的低级编程模型则要求大量的编程努力。为了在表达能力和工程努力之间取得平衡，我们提出了一种基于瓷砖的编程语言Hexcute，它暴露了共享内存和寄存器抽象，以实现这些操作符的细粒度优化。此外，Hexcute利用任务映射来调度GPU程序，并通过一种新型的类型推理算法自动生成布局和任务映射。我们的评估表明，Hexcute可以应用于广泛类型的DL操作符，在混合类型操作符方面比现有DL编译器实现了1.7-11.28倍的速度提升，并且在端到端评估方面带来了高达2.91倍的速度提升。

发布时间: 5/1/2025

查看原文

FinSage：一个面向财务报表问答的多方面检索生成系统

作者: Xinyu Wang, Jijun Chi, Zhenghan Tai, Tung Sum Thomas Kwok, Muzhi Li, Zhuhong Li, Hailin He, Yuchen Hua, Peng Lu, Suyuchen Wang, Yihong Wu, Jerry Huang, Jingrui Tian, Ling Zhou

arXiv:2504.14493v2 消息类型: 替换-交叉摘要: 在现实世界的应用场景中利用大型语言模型通常需要使用特定领域的数据和工具，以遵守合理的使用所需的复杂规定。在金融领域，现代企业越来越多地依赖检索增强生成（RAG）系统来解决金融文件工作流程中的复杂合规要求。然而，现有的解决方案难以应对数据的固有异质性（例如，文本、表格、图表）和监管标准的不断变化，导致关键信息提取的准确性受到损害。我们提出了FinSage框架作为解决方案，利用一个针对多模态金融文件合规性分析的多方面RAG框架。FinSage引入了三个创新组件：（1）一个多模态预处理流水线，统一各种数据格式并生成片段级别的元数据摘要；（2）一个多路径稀疏-密集检索系统，增强有查询扩展（HyDE）和元数据意识的语义搜索；（3）一个通过直接偏好优化（DPO）微调的领域专门化的重新排名模块，以优先处理合规性关键内容。大量的实验表明，FinSage在75个由FinanceBench问题回答数据集中超过基线方法24.06%的准确率上实现了92.51%的召回率。此外，FinSage已经在在线会议上成功部署为金融问答代理，已经为其超过1,200人提供了服务。

发布时间: 5/1/2025

查看原文

一种带有原位硬件感知学习的CMOS概率计算芯片

作者: Jinesh Jhonsa, William Whitehead, David McCarthy, Shuvro Chowdhury, Kerem Camsari, Luke Theogarajan

arXiv:2504.14070v3 宣告类型: replace-cross 摘要：本文展示了一种受概率位物理启发的求解器，该求解器配置了440个自旋，构成了一个 Chimera 图，占据面积为 0.44 mm²。通过使用电流模式实现的神经元更新电路、模拟块的标准单元设计以及将时钟周期与数字块匹配的模拟块，最大限度地提高了面积效率。利用具有硬件感知性的对比扩散算法在训练过程中有效缓解由这种方法引入的与工艺变化相关的不匹配问题。我们验证了该芯片执行概率计算任务的能力，如模拟逻辑门和全加器，以及求解最大割等问题的优化任务，展示了其在人工智能和机器学习应用中的潜力。

发布时间: 5/1/2025

查看原文

创伤千声：建模延长暴露疗法对话的大规模合成数据集

作者: Suhas BN, Dominik Mattioli, Saeed Abdullah, Rosa I. Arriaga, Chris W. Wiese, Andrew M. Sherrill

arXiv:2504.13955v3 宣告类型: replace-cross 摘要：促进心理健康支持的AI系统的发展受到治疗性对话数据有限访问的阻碍，尤其是对于创伤治疗。我们介绍了创伤的千种声音，这是一个基于 PTSD（创伤后应激障碍）暴露疗法协议的合成基准数据集，包含3000次治疗对话。该数据集包括500个独特的案例，每个案例通过六个对话视角来探讨从初始焦虑到峰值痛苦再到情绪处理的治疗过程。我们使用确定性和概率生成方法纳入了多样的人口统计特征（年龄18-80岁，平均年龄49.3岁，49.4%男性，44.4%女性，6.2%非二元性别），20种创伤类型，以及10种创伤相关行为。分析结果显示，真实合理的创伤类型分布（目击暴力10.6%，欺凌10.2%），症状分布（噩梦23.4%，物质滥用20.8%）。临床专家验证了数据集的治疗性准确性，同时强调其情感深度，并建议更进一步的改进以增强其真实性。我们还开发了一个情感轨迹基准，其中包含标准化指标，用于评估模型的响应。这个保护隐私的数据集弥补了创伤导向的心理健康数据的关键空白，为改进面向患者的应用程序和临床培训工具提供了宝贵的资源。

发布时间: 5/1/2025

查看原文

GATE3D：通用基于注意力的任务协同三维估计*

作者: Eunsoo Im, Changhyun Jee, Jung Kwon Lee

arXiv:2504.11014v4 通告类型: replace-cross 摘要：计算机视觉领域的一个新兴趋势是开发能够同时应对多种多样任务的通用模型。这种通用性通常需要在多领域数据集上进行联合训练，以确保有效的泛化。然而，由于缺乏准确三维ground-truth标签的标注数据，尤其是超出典型路面自动驾驶环境的情况，单目3D物体检测在多领域训练中面临着独特的挑战。为了解决这一挑战，我们引入了一种新颖的弱监督框架，利用伪标签。当前的预训练模型在非路面环境中往往难以准确检测行人，这反映了数据集固有的偏差。与泛化图像基础的二维物体检测模型不同，单目3D检测的一致性泛化在很大程度上尚未被探索。在本文中，我们提出了GATE3D，这是一种专为弱监督下的通用单目3D物体检测设计的新框架。GATE3D通过在2D和3D预测之间使用一致性损失有效地弥合了领域差距。令人惊讶的是，我们的模型在KITTI基准测试以及我们收集的用于评估框架泛化能力的室内办公室数据集上均取得了具有竞争力的性能。我们的结果表明，GATE3D能够通过有效的预训练策略从有限的标注数据中显著加速学习过程，这突显了其在机器人技术、增强现实和虚拟现实应用中的广泛影响潜力。项目页面：https://ies0411.github.io/GATE3D/

发布时间: 5/1/2025

查看原文

权重集成能提高语言模型的推理能力

作者: Xingyu Dang, Christina Baek, Kaiyue Wen, Zico Kolter, Aditi Raghunathan

arXiv:2504.10478v3 宣告类型: replace-cross 摘要: 在推理模型训练过程中，我们研究了一种失效模式，即生成的多样性能开始崩溃，导致在测试时的缩放效果变差。值得注意的是，在监督微调(SFT)过程中，Pass@1率可靠地得到了改善，但Pass@k迅速恶化。令人惊讶的是，通过简单地将最新的SFT检查点权重与早期检查点权重进行内插，也就是WiSE-FT，几乎完全恢复了Pass@k，同时也提高了Pass@1。WiSE-FT 变体在测试时的缩放性能（Best@k，多数投票）更好，并且在通过强化学习进一步调整时，能够通过较少的数据获得更优的结果。最后，我们发现，WiSE-FT 提供了补充性性能增益，这些增益是仅通过多样性能诱导的解码策略（如温度缩放）所无法实现的。我们将Pass@k的偏差-方差权衡形式化为Pass@1在测试分布下的期望和方差。我们发现，WiSE-FT能够同时减少偏差和方差，而温度缩放则固有地在偏差和方差之间权衡。

发布时间: 5/1/2025

查看原文

全方位碟盘：任意中式菜品的 PHOTO_REALISTIC 和忠实地图像生成与编辑

作者: Huijie Liu, Bingcan Wang, Jie Hu, Xiaoming Wei, Guoliang Kang

arXiv:2504.09948v2 公告类型: 替换- 摘要：菜肴图像在数字时代发挥着重要作用，随着食品行业和电子商务的数字化，对文化特色菜肴图像的需求持续增加。一般情况下，现有的文本到图像生成模型在生成高质量图像方面表现出色；然而，它们在捕捉特定领域的多样特性和忠实细节方面面临挑战，尤其是中国菜肴。为了解决这一限制，我们提出了Omni-Dish，这是专门为中式菜肴设计的第一个文本到图像生成模型。我们开发了一整套菜肴策划管道，构建了迄今为止最大的菜肴数据集。此外，我们引入了重新描述策略，并采用从小到大的训练方案，帮助模型更好地学习细粒度的烹饪 nuances。在推理过程中，我们使用预先构建的高质量图像库和大型语言模型增强用户的文本输入，从而实现更具现实感和忠实度的图像生成。此外，为了扩展我们模型在菜肴编辑任务的能力，我们提出了增强概念的P2P。基于此方法，我们构建了一个菜肴编辑数据集，并训练了一个专门的编辑模型。广泛的经验表明，我们方法的优势。

发布时间: 5/1/2025

查看原文