arXiv 论文列表

作者: Xiaonan Jing, Srinivas Billa, Danny Godbout

arXiv:2410.12222v3 宣告类型: replace-cross 摘要：幻觉在自然语言生成（NLG）中是一个热门话题。在实际应用中，不忠实的内容可能导致数据质量差或用户失去信任。因此，在采用NLG进行生产使用之前进行事实核查至关重要，这如果是人工进行的话会很昂贵。在本文中，我们研究了引导式NLG的自动化忠实性评估。我们开发了一种评分标准模板，并使用大型语言模型（LLMs）在量化尺度上对生成内容进行评分。我们将流行的LLMs以及广泛使用的自然语言推理（NLI）模型进行了比较，以评估质量和敏感性。此外，我们开发了生成合成不忠实数据的方法，以及量化幻觉比例的启发式方法。我们在4个旅游领域的行业数据集中进行的实验结果显示，GPT-4可以提供准确的判断和解释，判定源内容和生成内容是否事实一致。此外，我们发现，对合成数据进行NLI模型调优可以提高性能。最后，我们提出了部署此类系统的延迟和成本方面的见解。

发布时间: 2/11/2025

查看原文

Sabi\'a-3技术报告

作者: Hugo Abonizio, Thales Sales Almeida, Thiago Laitz, Roseval Malaquias Junior, Giovana Kerche Bon\'as, Rodrigo Nogueira, Ramon Pires

arXiv:2410.12049v3 宣告类型: replace-cross 摘要: 本报告介绍了我们的新旗舰语言模型 Sabi\'a-3，以及更经济实惠的姊妹模型 Sabiazinho-3。这些模型是在大型巴西中心语料库上进行训练的。在多种多样专业和学术基准上的评估表明，它们在葡萄牙语和与巴西相关的任务上表现出色。Sabi\'a-3 在与我们此前最佳模型 Sabia-2 Medium 相比时，在推理密集型任务中的表现有显著提升。值得注意的是，Sabi\'a-3 的每token价格是前沿大语言模型的三到四倍低，这进一步强化了领域专业化的好处。

发布时间: 2/11/2025

查看原文

DPD-NeuralEngine：一种基于22纳米工艺、每平方毫米6.6-TOPS/W的宽带功率放大器数字预失真 recurrent 神经网络加速器

作者: Ang Li, Haolin Wu, Yizhuo Wu, Qinyu Chen, Leo C. N. de Vreede, Chang Gao

arXiv:2410.11766v2 宣告类型: replace-cross 摘要：现代通信系统中基于深度神经网络（DNN）的数字预失真（DPD）的日益采用需要高效的硬件实现。本文介绍了基于门控循环单元（GRU）神经网络（NN）的DPD-NeuralEngine，这是一种超快速、面积小巧且能效高的DPD加速器。通过协同设计软件和硬件的方法，我们的22nm CMOS实现工作在2GHz，能够处理高达250 MSps的I/Q信号。实验结果表明，吞吐量为256.5 GOPS，能效为1.32 TOPS/W，在邻道功率比（ACPR）为-45.3 dBc和误差矢量幅度（EVM）为-39.8 dB的情况下，具有DPD线性化性能。据我们所知，这项工作代表了第一个基于AI的DPD专用集成电路（ASIC）加速器，实现了6.6 TOPS/W/mm²的功率面积效率。

发布时间: 2/11/2025

查看原文

CleanUMamba：基于通道剪枝的紧凑型Mamba网络用于语音降噪

作者: Sjoerd Groot, Qinyu Chen, Jan C. van Gemert, Chang Gao

arXiv:2410.11062v2 宣告类型: replace-cross 摘要：本文介绍了CleanUMamba，这是一种用于实时因果音频降噪的时间域神经网络架构，直接应用于原始波形。CleanUMamba利用了U-Net编码器-解码器结构，并在瓶颈层中加入了Mamba状态空间模型。通过将传统的自注意力机制和LSTM机制替换为Mamba，我们的架构在保持恒定内存占用的同时提供了卓越的降噪性能，从而支持流式操作。为了提高效率，我们应用了结构化通道剪枝，实现了8倍模型大小的减少，而无需牺牲音频质量。我们的模型在2020年Interspeech深度噪声抑制挑战赛中表现出色。具体而言，CleanUMamba仅使用442K参数和468M MACs，实现了PESQ评分为2.42和STOI为95.1%，并且在实时性能上与更大规模的模型相匹配或超越。代码将在以下地址提供：https://github.com/lab-emi/CleanUMamba

发布时间: 2/11/2025

查看原文

基于相关矩阵的图神经网络心律失常分类

作者: Seungwoo Han

arXiv:2410.10758v4 通告类型: replace-cross 摘要: 随着图神经网络的发展，人们越来越感兴趣将其应用于ECG信号分析。在本研究中，我们使用提取特征的协方差矩阵生成了一个邻接矩阵，并应用图神经网络对心律失常进行分类。所提出的方法与文献中现有的方法进行了比较。结果表明，所有心律失常类别的精确率和召回率均超过50%，这表明该方法可以被视为心律失常分类的一种方法。

发布时间: 2/11/2025

查看原文

通过构象优化预测分子基态构象

作者: Fanmeng Wang, Minjie Cheng, Hongteng Xu

arXiv:2410.09795v3 宣告类型: replace-cross 摘要: 预测分子基态构象（即能量最小化构象）对于许多化学应用至关重要，如分子对接和性质预测。经典的能量基模拟在解决此问题时耗时，而现有的基于学习的方法在计算效率方面具有优势，但牺牲了准确性和可解释性。在本工作中，我们提出了一种新的有效方法来弥合能量基模拟和基于学习的策略之间的差距，通过设计并学习受Wasserstein梯度流驱动的SE(3)变换器WGFormer，用于分子基态构象预测。具体来说，我们的方法在自编码框架下处理此任务，通过提出的方法WGFormer对低质量构象进行编码，并通过MLP解码相应基态构象。WGFormer的架构对应于Wasserstein梯度流——它通过最小化定义在原子潜在混合模型上的能量函数来优化分子构象，从而显著提高性能和可解释性。广泛的实验表明，我们的方法在与最先进的竞争对手相比时始终表现出色，提供了一种新的富有洞察力的方法来预测分子基态构象。

发布时间: 2/11/2025

查看原文

在测试时高效学习：主动微调大型语言模型

作者: Jonas H\"ubotter, Sascha Bongni, Ido Hakimi, Andreas Krause

arXiv:2410.08020v3 宣布类型: replace-cross 摘要：近年来，在微调语言模型时，人们经常依赖于自动数据选择，通常使用大规模数据集中的最近邻检索。然而，我们在理论上表明，这种方法倾向于选择冗余数据，这限制了其有效性，甚至可能损害性能。为了解决这一问题，我们引入了SIFT（Selective Information Fusion and Treatment），这是一种数据选择算法，旨在减少给定提示时对模型响应的不确定性，将检索和主动学习的想法统一起来。虽然最近邻检索在信息重复存在时通常会失败，但SIFT考虑了信息重复，并优化了所选示例的整体信息增益。我们将评估集中在Pile数据集上的针对提示特定的语言模型测试时微调上，并展示了SIFT在计算开销最小的情况下始终优于最近邻检索。此外，我们展示了我们的不确定估计可以预测测试时微调的性能增益，并利用这一点开发了一个适应性算法，将测试时的计算投入与实现出的性能增益成比例。我们提供了一个$\texttt{activeft}$（主动微调）库，可以作为最近邻检索的即用型替代品。

发布时间: 2/11/2025

查看原文

Transformer模型能进行逻辑推理吗？基于SAT求解问题的研究

作者: Leyan Pan, Vijay Ganesh, Jacob Abernethy, Chris Esposo, Wenke Lee

arXiv:2410.07432v2 Announce Type: replace-cross 摘要：我们正式研究了仅解码器Transformers在布尔可满足性（SAT）问题中的逻辑推理能力。首先，我们通过构造证明，在非均匀计算模型中，仅解码器Transformers可以使用回溯和通过Chain-of-Thought（CoT）进行的演绎决定3-SAT。我们通过显示与著名的DPLL SAT求解算法的跟踪等价性来证明其正确性。其次，我们使用我们设计的工具（PARAT）实现了这种构造，并通过实验证明其正确性，并探讨其性质。第三，而不是编程Transformer去推理，我们通过直接学习我们理论构造中的算法跟踪（“推理路径”）来评估它是否可以被训练去进行推理。训练后的模型在训练时遇到的问题大小上展示了强大的分布外泛化能力，但在长度泛化上有限，这与我们的理论结果的一致性相符。

发布时间: 2/11/2025

查看原文

SC-Bench: 一个大型数据集，用于智能合约审计

作者: Shihao Xia, Mengting He, Linhai Song, Yiying Zhang

arXiv:2410.06176v2 安全检查类型: 交叉替换摘要：确保列在区块链平台上智能合约的安全性和经济标准合规性的需求非常巨大。目前，通常使用手动审计的方式来实现这一目标。基于机器学习的自动化技术有望减轻人力负担和由此带来的成本。然而，与其他领域中的巨大成功相比，在智能合约审计方面还没有提出或应用系统的机器学习技术。我们提出了SC-Bench，这是第一个用于智能合约自动化审计研究的数据集。SC-Bench包含在以太坊上运行的5,377个真实世界智能合约，以及15,975个以太坊上称为ERC的标准违反情况。在这15,975个违规情况中，有139个是由程序员实际犯下的错误。其余的则是我们系统地注入的错误，以反映不同ERC规则的违反情况。我们使用GPT-4对SC-Bench进行了评估，通过提供智能合约和ERC规则来提示GPT-4。此外，我们手动识别了每个违反的规则及其对应的代码位置（即Oracle），然后用这些信息提示GPT-4回答真或假的问题。我们的结果显示，在没有Oracle的情况下，GPT-4只能检测到0.9%的违规情况，而在使用Oracle的情况下，它可以检测到22.9%的违规情况。这些结果表明，在智能合约审计方面的基于机器学习的技术有很大的改进空间。

发布时间: 2/11/2025

查看原文

基于LLM的 federated 知识图谱上的自然语言到SPARQL查询生成

作者: Vincent Emonet, Jerven Bolleman, Severine Duvaud, Tarcisio Mendes de Farias, Ana Claudia Sima

arXiv:2410.06062v4 通知类型: replace-cross 摘要：我们介绍了一种检索增强生成（RAG）系统，该系统利用大型语言模型（LLMs）将用户问题翻译成准确的联邦SPARQL查询，以跨越生物信息学知识图（KGs）进行查询。为了提高查询生成的准确性和减少幻觉，我们的系统利用了KGs中的元数据，包括查询示例和模式信息，并整合了一步验证来纠正生成的查询。该系统可在chat.expasy.org在线获取。

发布时间: 2/11/2025

查看原文