arXiv 论文列表

APIGen-MT: 具有模拟代理-人类互动的多轮数据生成智能管道

作者: Akshara Prabhakar, Zuxin Liu, Ming Zhu, Jianguo Zhang, Tulika Awalgaonkar, Shiyu Wang, Zhiwei Liu, Haolin Chen, Thai Hoang, Juan Carlos Niebles, Shelby Heinecke, Weiran Yao, Huan Wang, Silvio Savarese, Caiming Xiong

arXiv:2504.03601v3 宣告类型: replace-cross 摘要：为多轮交互训练有效的AI代理需要能够捕捉现实人类-代理动态的高质量数据，但此类数据稀缺且手工收集成本高昂。我们提出了APIGen-MT，这是一种两阶段框架，用于生成可验证和多样的多轮代理数据。在第一阶段，我们的代理管道利用LLM复查员和迭代反馈循环生成详细的任务蓝图，带有真实动作。然后，这些蓝图通过模拟的人-代理互动转换为完整的交互轨迹。我们训练了一组模型——xLAM-2-fc-r系列，参数量从1B到70B不等。我们的模型在$\tau$-bench和BFCL基准测试中优于GPT-4o和Claude 3.5等前沿模型，小型模型在多轮设置中尤其超越其较大对应物，同时在多次试验中保持了更优越的一致性。全面的实验表明，我们验证的蓝图到细节的方法能够生成高质量的训练数据，从而促进更可靠、更高效、更强大的代理的开发。我们开源了5K合成数据轨迹和训练好的xLAM-2-fc-r模型，以推动AI代理研究的发展。可以通过以下链接访问模型、数据集和网站：模型：https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4 数据集：https://huggingface.co/datasets/Salesforce/APIGen-MT-5k 网站：https://apigen-mt.github.io

发布时间: 5/6/2025

查看原文

噪声增强微调以减轻大型语言模型中的幻觉

作者: Afshin Khadangi, Amir Sartipi, Igor Tchappi, Ramin Bahmani

arXiv:2504.03302v2 更新类型: 替换交叉摘要：大型语言模型（LLMs）经常产生不准确或误导性的内容-幻觉。为了解决这一挑战，我们引入了噪声增强微调（NoiseFiT）这一新型框架，该框架利用基于信噪比（SNR）的自适应噪声注入来增强模型的鲁棒性。特别是，NoiseFiT根据识别为高-SNR（更鲁棒）或低-SNR（可能欠正则化）的层，以动态缩放的高斯噪声有选择地扰动这些层。我们还提出了一种混合损失，结合了标准交叉熵、软交叉熵和一致性正则化，以确保在有噪声的训练条件下能稳定且准确地输出。我们的理论分析表明，自适应噪声注入是无偏且方差保持的，为期望收敛提供了强大保证。在多个测试和基准数据集上的实验证明，NoiseFiT显著降低了幻觉率，在关键任务上常常优于或匹配基线性能。这些发现突显了噪声驱动策略在不增加计算开销的情况下实现稳定、可信的语言建模的潜力。鉴于我们实验的全面和详细性质，我们已将微调日志、基准评估的工具、以及源代码分别在W&B、Hugging Face和GitHub上公开发布，以促进进一步的研究、易用性和可再现性。

发布时间: 5/6/2025

查看原文

大型语言模型测试时扩展综述：什么、如何、在哪里以及效果如何？

作者: Qiyuan Zhang, Fuyuan Lyu, Zexu Sun, Lei Wang, Weixu Zhang, Wenyue Hua, Haolun Wu, Zhihan Guo, Yufei Wang, Niklas Muennighoff, Irwin King, Xue Liu, Chen Ma

arXiv:2503.24235v3 宣布类型: 替换-交叉摘要：随着在预训练时代对放大计算（数据和参数）的兴趣逐渐减弱，测试时缩放（TTS），也称作“测试时计算”，已经成为一个突出的研究重点。最近的研究表明，TTS 可以进一步激发大型语言模型（LLMs）的问题解决能力，不仅在数学和编程等专门推理任务中，而且也在开放问答等通用任务中实现了重大突破。然而，尽管该领域最近的努力急剧增加，仍然迫切需要一份全面的综述，以提供系统性的理解。为了填补这一空白，我们提出了一种统一的多维度框架，沿四个核心维度组织TTS研究：要放大什么、如何放大、在哪里放大和放大效果如何。在此分类的基础上，我们进行了广泛的评估方法、应用场景和评估方面审查，并呈现了有组织的分解，强调了技术在更广泛TTS景观中的独特功能作用。从这一分析中，我们提炼了迄今为止TTS的主要发展轨迹，并提供了实际部署的实用指南。此外，我们指出了几个开放性挑战，并提出了未来方向的有价值的见解，包括进一步放大、阐明技术的功能本质、将技术推广到更多任务以及更多的归属问题。我们的仓库可在 https://github.com/testtimescaling/testtimescaling.github.io/ 上获取。

发布时间: 5/6/2025

查看原文

动态参数检索增强生成以提高测试时的知识增强

作者: Yuqiao Tan, Shizhu He, Huanxuan Liao, Jun Zhao, Kang Liu

arXiv:2503.23895v3 宣告类型: replace-cross 摘要: 检索增强生成 (RAG) 通过从外部来源检索相关文档并将它们融入到上下文中，增强了大型语言模型 (LLMs)。虽然它通过提供事实性文本提高了可靠性，但在上下文长度增长时显著增加了推理成本，并引入了 RAG 幻觉的挑战性问题，主要原因是 LLM 缺乏相应的参数知识。一种有效的解决方案是在测试时增强 LLM 的知识。参数化 RAG (PRAG) 通过将文档嵌入到 LLM 的参数中来进行测试时的知识增强，通过离线训练有效地降低了推理成本。然而，其高昂的训练和存储成本，以及有限的泛化能力，显著限制了其实际应用。为了解决这些挑战，我们提出了动态参数化 RAG (DyPRAG)，这是一种新的框架，利用轻量级的参数翻译模型高效地将文档转换为参数知识。DyPRAG 不仅降低了推理、训练和存储成本，还能动态生成参数知识，无缝增强 LLM 的知识，并在测试时以即插即用的方式解决知识冲突。在多个数据集上的 extensive 实验展示了 DyPRAG 的有效性和泛化能力，提供了一种强大的实用 RAG 架构，能够在实际应用中实现卓越的知识融合并缓解 RAG 幻觉。我们的代码可在 https://github.com/Trae1ounG/DyPRAG 获取。

发布时间: 5/6/2025

查看原文

深度神经OFDM接收机：两种新型架构及其与现有最佳架构的BER-BLER优化与对比

作者: Erhan Karakoca, H\"useyin \c{C}evik, \.Ibrahim H\"okelek, Ali G\"or\c{c}in

arXiv:2503.20500v2 宣告类型: 替换-交叉摘要：神经接收机最近成为了一个热门话题，在这种接收机中，可以通过数据驱动机制如机器学习和深度学习直接解码接收到的信号。在本文中，我们提出了两种基于神经网络的正交频分复用（OFDM）接收机，这些接收机执行信道估计和均衡任务，并直接从接收到的同相和正交相位（IQ）信号中预测对数似然比（LLR）。第一个网络，双注意力变压器（DAT），采用了一种最先进的（SOTA）变压器架构，并带有注意力机制。第二个网络，残差双非局部注意力网络（RDNLA），利用了一种并行残差架构，并带有非局部注意力模块。在不同信噪比（SNR）水平下，我们提出的方法与各种最先进的神经接收机架构的位错误率（BER）和块错误率（BLER）性能进行了比较。仿真结果表明，DAT 和 RDNLA 在多个信噪比水平下均优于传统通信系统和现有神经接收机模型。所提出的神经接收机的计算效率支持它们在下一代通信系统中的可行性。

发布时间: 5/6/2025

查看原文

非正统化生成AI： queer艺术家如何揭示并挑战生成AI模型的规范性

作者: Jordan Taylor, Joel Mire, Franchesca Spektor, Alicia DeVrio, Maarten Sap, Haiyi Zhu, Sarah Fox

arXiv:2503.09805v2 宣布类型: replace-cross 摘要：在关于生成人工智能的研究中，同性恋群体通常被认为是偏见、伤害或歧视的目标。然而，同性恋群体与生成人工智能的具体互动方式，以及这些互动可能如何支持同性恋群体的具体应用，尚未被探索。我们与13名同性恋艺术家进行了一项研讨会研究，在研究过程中，我们为参与者提供了GPT-4和DALL-E 3的访问权限，并组织了小组意义构建活动。我们发现参与者因这些模型中嵌入的各种规范价值观（例如过度积极和反性）而难以使用这些模型。我们描述了参与者为克服这些模型的局限性而开发的各种策略，并讨论了尽管如此，参与者仍从这些高度规范的技术中发现了价值。借助女权主义同性恋理论，我们讨论了对“最先进的”模型概念化的意义，并考虑FAccT研究人员如何支持同性恋替代方案。

发布时间: 5/6/2025

查看原文

几何知识引导下的局部全局分布对齐联邦学习

作者: Yanbiao Ma, Wei Dai, Wenke Huang, Jiayi Chen

arXiv:2503.06457v2 通知类型: 替换-交叉摘要: 在联邦学习中，数据异质性的特征是本地分布与全局分布之间有显著的不匹配，这导致了本地优化方向的发散，并妨碍了全局模型的训练。现有研究主要关注于优化局部更新或全局聚合，但这些间接方法在处理高度异质的数据分布时表现出不稳定性，尤其是在标签偏斜和领域偏斜共存的情况下。为了解决这个问题，我们提出了一种基于几何指导的数据生成方法，该方法以在本地模拟全局嵌入分布为中心。首先，我们引入了嵌入分布几何形状的概念，然后在隐私约束下解决了获得全局几何形状的挑战。随后，我们提出了GGEUR方法，该方法利用全局几何形状来指导新样本的生成，从而更接近理想全局分布。在单领域场景中，我们根据全局几何形状增强样本以提高模型的泛化能力；在多领域场景中，我们进一步使用类别原型来模拟跨领域的全局分布。广泛的实验结果表明，我们的方法在处理高度异质数据，包括标签偏斜、领域偏斜及其共存情况下，显着提升了现有方法的性能。代码发布在: https://github.com/WeiDai-David/2025CVPR_GGEUR

发布时间: 5/6/2025

查看原文

通过扩散合成的生成轨迹拼接

作者: Yunhao Luo, Utkarsh A. Mishra, Yilun Du, Danfei Xu

arXiv:2503.05153v2 宣告类型：替换交叉摘要：长期规划中的有效轨迹拼接是机器人决策中的一个重大挑战。尽管扩散模型在规划方面显示出潜力，但它们仅限于解决与其训练数据相似的任务。我们提出了一种名为CompDiffuser的新颖生成方法，该方法可以通过学习组合拼接之前看到的任务中的较短轨迹片段来解决新任务。我们的关键见解是通过将轨迹分布划分为重叠片段，并通过单一的双向扩散模型学习它们的条件关系来进行建模。这使得在生成过程中片段之间的信息得以传播，从而确保物理上的一致性连接。我们在涵盖不同环境大小、代理状态维度、轨迹类型、训练数据质量和各种难度的基准任务上进行了实验，并表明CompDiffuser显著优于现有方法。

发布时间: 5/6/2025

查看原文

对称功率变压器的共形变换

作者: Saurabh Kumar, Jacob Buckman, Carles Gelada, Sean Zhang

arXiv:2503.03269v2 宣布类型: replace-cross 摘要：具有线性注意力的变换器在计算上比基于softmax的变换器具有显著优势，但通常会表现出性能下降。对称幂（sympow）变换器，一种特定类型的线性变换器，通过利用对称张量嵌入来部分解决这一性能差距，实现了与softmax变换器相当的性能。然而，sympow变换器中递归状态的有限容量限制了其保留信息的能力，在扩展训练或评估上下文长度时导致性能下降。为了解决这一问题，我们提出了符合对称幂（conformal-sympow）变换器，在此变换器中，通过数据依赖的乘性门控动态释放容量，并使用数据依赖的旋转嵌入适当地存储信息。在LongCrawl64数据集上的初步实验表明，conformal-sympow克服了sympow变换器的局限性，在扩展的训练和评估上下文中实现了稳健的性能。

发布时间: 5/6/2025

查看原文

Yet Another 休息状态EEG-GAN

作者: Yeganeh Farahzadi, Morteza Ansarinia, Zoltan Kekecs

arXiv:2503.02636v3 Announce Type: replace-cross 摘要：在本研究中，我们实现了一种带梯度惩罚的Wasserstein生成对抗网络（WGAN-GP），以生成多通道静息态EEG数据，并通过视觉和特征基于的评估方法来评估合成信号的质量。结果显示，该模型有效地捕捉了真实EEG数据的统计特性和频谱特征，尽管在再现前额区域的高频振荡方面仍存在挑战。此外，我们展示了判别器学习到的表示可以重用于性别分类任务，其离样本准确率显著优于打乱标签的基线模型和直接在EEG数据上训练的模型。这些发现表明生成模型不仅可以作为EEG数据生成器，还可以作为无监督特征提取器，从而减少手动特征工程的需求。本研究突显了基于GAN的无监督学习在EEG分析中的潜力，为神经科学中更高效的数据驱动深度学习应用提供了方向。

发布时间: 5/6/2025

查看原文