arXiv 论文列表

作者: Austin Yubo He, Zi-Wen Liu

arXiv:2502.14372v1 宣告类型：交叉摘要：实现可扩展且容错的量子计算预计取决于量子纠错码。在寻找更高效的量子容错方法中，一个关键的代码参数是提取错误信息的测量权重：随着更高测量权重需要更高的实施成本并引入更多错误，代码设计中优化测量权重至关重要。这推动了对量子低密度校验码（qLDPC）的研究，该研究主要集中在渐近（大码长极限）性质上。在本文中，我们提出了一种基于强化学习（RL）的灵活且计算高效的稳定器码权重减少方法，该方法在实际相关参数范围内产生了显著优于现有先进技术的新低权重码，将先前可访问的小距离范围大幅扩展。例如，我们的方法在权重为6的码中与现有结果相比，物理量子比特开销节省了1到2个数量级，并将开销带入了近未来实验的可行范围。我们还利用我们的RL框架研究了代码参数之间的相互作用，提供了关于实际可行编码策略潜力效率和效能的新见解。总体而言，我们的结果展示了如何通过RL有效推进至关重要的但极具挑战性的量子码发现问题，从而加快容错量子技术实际实施的步伐。

发布时间: 2/21/2025

查看原文

熵-UID：一种优化信息密度的方法

作者: Xinpeng Shou

arXiv:2502.14366v1 宣传类型: 交叉摘要：平衡且高效的Information流对于优化语言生成模型至关重要。在本文中，我们提出了一种新的token选择方法——Entropy-UID，该方法通过平衡熵和均匀信息密度（UID）原理来增强文本生成的效率。我们的方法通过联合最小化熵和惊诧值来适应性地调整token选择，从而促进生成序列中信息分布更加均匀。理论验证表明，Entropy-UID在减少信息突起的同时保持了流畅性和一致性。该方法已在多个基准数据集上使用信息论指标进行评估，包括WikiText-2、OpenWebText和WMT。实验结果表明，与标准GPT-2和替代启发式方法相比，Entropy-UID实现了更低的惊诧值和熵的方差，从而产生了更加平衡和人类般的文本生成。我们的研究结果表明，可以通过利用信息论约束来改进自回归语言模型中的token选择策略。

发布时间: 2/21/2025

查看原文

鞅学习是一个病态问题吗？

作者: Philipp Wissmann, Daniel Hein, Steffen Udluft, Thomas Runkler

arXiv:2502.14365v1 宣告类型: cross 摘要：本文研究了在连续环境中Q-learning的不稳定性，这是实践中经常遇到的一个挑战。传统上，这种不稳定性被认为是由于强化学习中的回溯（bootstrapping）和回归模型误差造成的。通过使用一个代表性的强化学习基准，我们系统地通过逐步消除这些潜在的误差来源来检查回溯和模型不准确性的影响。我们的发现表明，在相对简单的基准中，Q-learning的基本任务——从政策特定的目标值中迭代学习Q函数——可能是本质上病态的，并且容易失败。这些见解对未来学习问题中Q-learning的可靠性的质疑提出了疑问。

发布时间: 2/21/2025

查看原文

纯度最高的量子态识别

作者: Yingqi Yu, Honglin Chen, Jun Wu, Wei Xie, Xiangyang Li

arXiv:2502.14334v1 Announce Type: cross 摘要：在噪声约束下精确识别量子态对于量子信息处理至关重要。在这项研究中，我们将经典的最优臂识别问题推广到量子领域，设计了一种方法来识别在未知的 $K$ 个 $n$-量子比特量子态中最为纯净的一个，使用 $N$ 个样本。% ，并在量子计算和量子通信中有直接应用。我们提出了两种不同的算法：(1) 一种使用无相干测量的算法，其误差为 $\exp\left(- \Omega\left(\frac{N H_1}{\log(K) 2^n }\right) \right)$，(2) 一种使用相干测量的算法，其误差为 $\exp\left(- \Omega\left(\frac{N H_2}{\log(K) }\right) \right)$，突显了量子记忆的强大能力。此外，我们通过证明所有使用固定两结局无相干正交正部观测器（POVM）的策略必须遭受超过 $\exp\left( - O\left(\frac{NH_1}{2^n}\right)\right)$ 的错误概率，确立了一个下界。该框架为克服量子技术中的采样瓶颈提供了具体的指导原则。

发布时间: 2/21/2025

查看原文

基于反馈的多步推理综述：大型语言模型在数学中的应用

作者: Ting-Ruen Wei, Haowei Liu, Xuyang Wu, Yi Fang

arXiv:2502.14333v1 类型: cross 摘要：大型语言模型（LLM）的最新进展发现，通过多步思考提示策略能够提高LLM的推理能力，这主要是通过鼓励逐步解决问题实现的。因此，后续研究致力于通过过程奖励作为反馈将多步推理过程集成到LLM本身中，并实现了对提示策略的改进。由于步骤级标注的成本较高，一些研究转向结果奖励作为反馈。除了这些基于训练的方法之外，无需训练的技术利用冻结的LLM或外部工具在每一步提供反馈，以增强推理过程。由于数学领域因其实证性质而工作丰富，我们综述了利用步骤级和结果级反馈提升LLM多步数学推理的各种策略。鉴于多步推理已成为扩展LLM的关键组成部分，我们希望为更易于理解奠定基础，并促进进一步研究。

发布时间: 2/21/2025

查看原文

上升的线？关于评估大型语言模型基准的固有限制슁 user 下面是一篇 arxiv 的论文的标题，请你翻译成中文，直接返回翻译的结果就好，不需要任何其他内容Training Language Models to Talk about Risks and Benefits of Technology

作者: James Fodor

arXiv:2502.14318v1 分类：cross 摘要：大型语言模型（LLMs）在各种语言、知识和推理基准上定期展示出新的令人印象深刻的表现。这种快速进步已使得许多评论者争论认为，LLMs 的通用认知能力也迅速提高，进而表明这些模型在各种实际任务中变得越来越有能力。在这里，我总结了一些理论和实证考量以挑战这种叙述。我认为，基准测试 paradigma 内在的限制，以及现有基准的具体限制，使得基准测试绩效极为不适合作为衡量认知任务上通用胜任能力的度量标准。我也认为，评估 LLM 能力的替代方法，包括对抗性刺激和可解释性技术，表明 LLMs 在许多语言和推理任务上并不具备稳健的能力，并且经常未能学习出促进通用推断的表示。我得出结论认为，不应将基准测试绩效作为可靠指标来衡量通用 LLM 认知能力。

发布时间: 2/21/2025

查看原文

带有3D扩散先验的实 tekstured 3D再生形变

作者: Songlin Yang, Yushi Lan, Honghua Chen, Xingang Pan

arXiv:2502.14316v1 文本类型: cross 摘要: 文本化3D形变在两个3D对象之间创建平滑且合理的时间插值序列，不仅关注形状的过渡，也关注纹理的过渡。这对于电影制作中的视觉效果等创意应用非常重要。先前的方法依赖于建立点对点对应关系并确定平滑变形轨迹，这本身限制它们只能在无纹理且拓扑对齐的数据集上进行形状的形变。这种限制导致了劳动密集型的预处理和较差的一般泛化性能。为克服这些挑战，我们提出了一种使用3D扩散先验的3D再生形变方法。与依赖显式对应关系和形变的先前方法不同，我们的方法消除了获取对应关系的额外需求，并利用3D扩散先验生成形变。具体而言，我们引入了一个3D扩散模型，并在三个层次上插值源和目标信息：初始噪声、模型参数和条件特征。然后我们探索了一种注意力融合策略以生成更平滑的形变序列。为了进一步提高语义插值和生成的3D表面的合理性，我们提出了两种策略：(a) 令牌重排序，我们基于语义分析匹配近似令牌以在扩散模型的去噪过程中引导隐式对应关系；(b) 低频增强，我们增强令牌中的低频信号以改进生成表面的质量。实验结果表明，我们的方法在多种跨类别对象对的3D形变中实现了更优越的平滑度和合理性，提供了一种使用纹理表示的新颖再生形变方法。

发布时间: 2/21/2025

查看原文

MedHallu: 一个全面的大语言模型医学幻觉检测基准

作者: Shrey Pandit, Jiawei Xu, Junyuan Hong, Zhangyang Wang, Tianlong Chen, Kaidi Xu, Ying Ding

arXiv:2502.14302v1 类别: cross 摘要: 大型语言模型（LLMs）的进步及其在医疗服务问答中的日益广泛应用，需要对其可靠性的严格评估。其中一个关键挑战是幻觉现象，即模型生成看似合理但实际上不正确的输出。在医疗领域，这会严重威胁患者的医疗安全和临床决策。为了解决这个问题，我们提出了MedHallu，这是第一个专门针对医疗幻觉检测的基准测试。MedHallu包含从PubMedQA中抽取的10,000个多质询-回答对，这些回答是通过受控管道系统性生成的。我们的实验表明，最先进的LLMs，包括GPT-4o、Llama-3.1和医学微调的UltraMedical，在这种二元幻觉检测任务中表现不佳，最好的模型在检测“硬”类别幻觉时的F1分数仅为0.625。利用双向蕴含聚类，我们证明了更难检测的幻觉在语义上与事实更接近。通过实验，我们还展示了引入领域特定知识并引入“不确定”类别作为回答类别之一，可以将精确度和F1分数相对基线提高高达38%。

发布时间: 2/21/2025

查看原文

SEA-HELM: 东南亚综合语言模型评估

作者: Yosephine Susanto, Adithya Venkatadri Hulagadri, Jann Railey Montalan, Jian Gang Ngui, Xian Bin Yong, Weiqi Leong, Hamsawardhini Rengarajan, Peerat Limkonchotiwat, Yifan Mai, William Chandra Tjhi

arXiv:2502.14301v1 评测类型:横跨评测摘要:随着大型语言模型（LLMs）新能力的快速涌现，集成的多语言和多文化基准测试的需求变得更加迫切。尽管现有的LLM基准测试能够评估LLMs在英语以及各种中低资源语言中的特定能力，包括东南亚（SEA）地区语言，但到目前为止，一个全面且真实的SEA语言评估套件尚未开发。在这里，我们提出了SEA-HELM，这是一项全面的语文和文化LLM评估套件，重点是SEA语言，涵盖了五个核心支柱：（1）NLP经典，（2）LLM特定内容，（3）SEA语言学，（4）SEA文化，（5）安全性。SEA-HELM目前支持菲律宾语、印度尼西亚语、泰米尔语、泰语和越南语。我们还介绍了SEA-HELM排行榜，这使得用户能够以系统而用户友好的方式理解模型在多语言和多文化方面的表现。

发布时间: 2/21/2025

查看原文

对Sakana的AI科学家进行自主研究评估：是wishful thinking还是通往“通用研究人工智能”(AGRI)的新兴现实？

作者: Joeran Beel, Min-Yen Kan, Moritz Baumgart

arXiv:2502.14297v1 通知类型: 交叉摘要：实现人工通用智能（AGI）和超级智能的一个重大进步是人工智能能够自主开展研究，我们将其称为人工通用研究智能（AGRI）。如果机器能够在没有人类干预的情况下生成假设、进行实验并撰写研究论文，这将彻底改变科学界。最近，Sakana.ai推出了AI科学家，这是一个声称能够自动化研究生命周期的系统，引发了人们的兴奋和怀疑。我们评估了AI科学家，发现它是AI驱动研究的一个里程碑。尽管它简化了一些方面，但仍未能达到预期。文献回顾较弱，近半数实验失败，且稿件中有时包含幻觉结果。最值得注意的是，用户必须提供实验流程，限制了AI科学家在研究设计和执行方面的自主性。尽管存在这些限制，AI科学家仍推动了研究自动化。许多仅进行浅层评估的审稿人或教师可能无法识别其输出为AI生成。该系统能够以最少的人力和成本生产研究论文，我们的分析表明，一篇论文只需几小时的人工参与即可完成，这远远快于人类研究人员。与几年前的AI能力相比，这标志着向AGRI迈进了一步。随着AI驱动研究系统的兴起，在信息检索（IR）和更广泛的科学社区中亟需进行紧急讨论。增强文献检索、引文验证和评估基准可以提高AI生成研究的可靠性。我们提出了具体步骤，包括AGRI特定的基准、细化同行评审和标准化归属框架。AGRI是否成为通往AGI的一步，取决于学术界和人工智能社区如何塑造其发展。

发布时间: 2/21/2025

查看原文