arXiv 论文列表

作者: Maria B{\aa}nkestad, Jennifer R. Andersson, Sebastian Mair, Jens Sj\"olund

arXiv:2402.10206v3 宣告类型: replace-cross 摘要：在不牺牲其整体属性的情况下减少图的结构是一个具有多种应用的重要问题。通常，减少图的方法是通过删除边（稀疏化）或合并节点（细化）来实现的，且在没有明确下游任务的情况下以无监督的方式进行。在这篇论文中，我们提出了一种使用定义在节点或边上的伊辛模型，并通过图神经网络学习伊辛模型的外部磁场的方法来进行图结构的子采样。我们的方法是特定于任务的，因为它可以在端到端的方式下学习如何为特定的下游任务减少图，而不需要为任务定义可微损失函数。我们展示了我们的方法在四个不同应用中的通用性：图像分割、图分类的解释性、3D形状稀疏化以及稀疏近似矩阵逆的确定。

发布时间: 4/9/2025

查看原文

GPT模型能遵循人类总结准则吗？针对特定沟通目标的研究

作者: Yongxin Zhou, Fabien Ringeval, Fran\c{c}ois Portet

arXiv:2310.16810v2 公告类型: replace-cross 摘要：本研究考察了GPT模型（ChatGPT、GPT-4和GPT-4o）生成符合人类指导方针的对话摘要的能力。我们的评估涉及在两个数据集（DialogSum，英语社交对话；DECODA，法语呼叫中心交互）上尝试各种提示，以引导模型遵循指导方针。基于摘要指导方针的人类评估作为主要评估方法，结合了广泛的定量和定性分析。我们的研究表明，GPT生成的摘要更受青睐，超过了特定任务的预训练模型和参考摘要，强调了尽管GPT模型有时会产生较长的输出且与参考摘要在词汇和结构上存在差异，它们仍能够遵循人类指导方针的能力。ROUGE、BERTScore和人类评估之间的差异强调了需要更加可靠的自动评估指标的必要性。

发布时间: 4/9/2025

查看原文

频率图揭示了对抗攻击与隐含偏差之间的相关性

作者: Lorenzo Basile, Nikos Karantzas, Alberto d'Onofrio, Luca Manzoni, Luca Bortolussi, Alex Rodriguez, Fabio Anselmi

arXiv:2305.15203v3 宣告类型: replace-cross 摘要：尽管神经网络在分类任务中表现出色，但它们已知容易受到对抗性攻击的影响，即人为设计的输入数据微小扰动，旨在欺骗模型。在这项工作中，我们研究这些扰动与基于梯度的算法训练的神经网络的隐式偏差之间的关联。为此，我们通过傅里叶变换的视角分析神经网络隐式偏差的表示。具体而言，我们通过计算每个图像准确分类所需的基本频率和其对抗性扰动版本导致误分类的频率，识别出隐式偏差和对抗性攻击的独特指纹。这种方法使我们能够揭示并分析这些基本频率之间的关联，提供网络偏见在傅里叶空间如何与对抗性攻击利用的频率成分对齐或对立的精确地图。为此，我们使用了一种新引入的技术，该技术能够检测高维数据集之间的非线性关联。我们的结果提供了实证证据，证明傅里叶空间中的网络偏见与对抗性攻击的目标频率高度相关，并建议了新的潜在对抗防御策略。

发布时间: 4/9/2025

查看原文

神经架构搜索：两种常数共享权重初始化

作者: Ekaterina Gracheva

arXiv:2302.04406v3 宣布类型: replace-cross 摘要：在过去的十年中，零成本度量在神经架构搜索（NAS）中因其能够无需训练即可评估架构的能力而逐渐崭露头角。这些度量方法比传统NAS方法显著更快、计算成本更低，并提供了对神经架构内部工作原理的洞见。本文介绍了一种名为epsinas的新颖零成本NAS度量方法，该方法使用两个共用权重初始化以及它们输出的统计信息来评估架构潜力。我们展示了归一化后的原始输出分布与其平均幅度的关系强烈地与训练准确性相关。这种效果在NAS-Bench-101、NAS-Bench-201和NAS-Bench-NLP的图像分类任务和语言任务中均成立。我们的方法不需要数据标签，仅在一个批量数据上运行，并且消除了梯度计算的需求，因此与训练超参数、损失度量和人类注释无关。该方法可以在几毫秒内评估一个网络，并无缝集成到现有的NAS框架中。支持本研究的代码可以在GitHub上找到，网址为https://github.com/egracheva/epsinas。

发布时间: 4/9/2025

查看原文

生成与使用相关的问答以在对话型推荐系统中 eliciting 偏好

作者: Ivica Kostric, Krisztian Balog, Filip Radlinski

arXiv:2111.13463v2 宣布类型: 替换-交叉摘要：对话型推荐系统与传统推荐系统的一个关键区别特征在于，它们能够使用自然语言引出用户的偏好。目前，主要的偏好引出方法是直接询问用户关于物品或物品属性的问题。搜索推荐的用户可能对该领域的可用选项缺乏深入了解。因此，他们可能不了解关键属性或其期望值。然而，在许多情况下，即使对于新接触领域的用户，讨论物品的使用计划也不会带来任何困难。在本文中，我们提出了一种新的偏好引出方法，基于物品使用情况提出隐含问题。作为本文的主要贡献之一，我们开发了一种多阶段的数据标注协议，使用众包创建高质量的标注训练数据集。另一个主要贡献是在问题生成任务中开发了四种模型：两种基于模板的基线模型和两种基于神经网络的文本到文本模型。基于模板的模型使用从训练数据中提取的启发式模式，而神经模型则利用训练数据自动学习生成问题。使用机器翻译中常用的自动评估指标，我们表明，即使在训练数据有限的情况下，我们的方法也能有效生成引出问题。我们还通过点对点和成对评估设计的人工评估来比较生成的问题。我们发现人工评估结果与自动评估结果一致，使我们能够确定生成的问题的质量。最后，我们对模型展示其局限性的具体案例进行了详细分析。

发布时间: 4/9/2025

查看原文

VAPO: 高效可靠的高级推理任务 reinforcement 学习

作者: Yu Yue, Yufeng Yuan, Qiying Yu, Xiaochen Zuo, Ruofei Zhu, Wenyuan Xu, Jiaze Chen, Chengyi Wang, TianTian Fan, Zhengyin Du, Xiangpeng Wei, Xiangyu Yu, Gaohong Liu, Juncai Liu, Lingjun Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Ru Zhang, Xin Liu, Mingxuan Wang, Yonghui Wu, Lin Yan

arXiv:2504.05118v2 通告类型: 修改摘要: 我们展示了VAPO（基于价值的增强近端策略优化框架），该框架专门针对基于价值的范式中的推理模型。VAPO在AIME 2024数据集上的表现达到了最先进的得分$\mathbf{60.4}$。在相同的实验设置下与之前报道的结果进行直接比较时，VAPO在性能上超过了DeepSeek-R1-Zero-Qwen-32B和DAPO超过10个点。VAPO的训练过程因其稳定性和效率而突出。它仅在5,000步内达到了最先进的性能。此外，在多次独立运行中，没有出现训练崩溃的情况，这突显了其可靠性。这项研究通过基于价值的强化学习框架探讨了长推理链（long-CoT）推理。我们指出了基于价值的方法面临的三个主要挑战：价值模型偏差、序列长度的异质性以及奖励信号的稀疏性。通过系统的架构设计，VAPO提供了一种综合的解决方案，有效地缓解了这些挑战，从而在长推理链推理任务中实现了更优异的表现。

发布时间: 4/9/2025

查看原文

HypRL：超属性控制策略的强化学习

作者: Tzu-Han Hsu, Arshia Rafieioskouei, Borzoo Bonakdarpour

arXiv:2504.04675v2 公告类型: 替代摘要: 我们研究了使用超性质学习复杂任务的控制策略的问题。使用超性质的原因在于它们在正式指定多智能体系统的要求以及涉及多个执行迹的表达性方面具有显著的能力（例如，隐私和公平性）。给定一个具有未知转移（表示环境）的马尔可夫决策过程M及一个HyerLTL公式φ，我们首先利用Skolem化来处理φ中的量词交替。我们为HyerLTL引入定量鲁棒性函数，以定义M的有限迹相对于φ的奖励。最后，我们利用一个合适的强化学习算法来学习（1）φ中每个迹量词的策略，以及（2）M的转移概率分布，这些分布共同最大化期望奖励，从而最大化M中φ满足的概率。我们提出了以下案例研究：（1）保持安全的多智能体路径规划，（2）资源分配中的公平性，以及（3）后对应问题（PCP）。

发布时间: 4/9/2025

查看原文

基于众包的大语言模型在构建药物副作用知识图谱中的应用：以司美格鲁肽为例

作者: Zhijie Duan, Kai Wei, Zhaoqian Xue, Jiayan Zhou, Shu Yang, Siyuan Ma, Jin Jin, Lingyao li

arXiv:2504.04346v2 宣告类型: 替代摘要：社交媒体是一个丰富的实时数据来源，其中包含了对药物警戒有价值的病人体验信息。然而，挖掘来自无结构且噪声较大的社交媒体内容的数据仍然是一个具有挑战性的任务。我们提出了一种系统的框架，利用大规模语言模型（LLMs）从社交媒体中提取药物副作用，并将其组织到知识图谱（KG）中。我们使用来自Reddit的数据将这一框架应用于减肥用赛美格鲁肽的副作用提取。通过构建的知识图谱，我们进行了全面的分析，以调查不同赛美格鲁肽品牌在不同时间报告的副作用。这些发现通过与FAERS数据库中报告的不良事件进行比较来进一步验证，提供了关于赛美格鲁肽副作用的重要病人中心化的见解，这些见解补充了赛美格鲁肽的安全性概况以及有关赛美格鲁肽的现有知识库，适用于医疗专业人士和患者。我们的工作展示了如何利用LLMs将社交媒体数据转换为结构化的知识图谱以用于药物警戒的可行性。

发布时间: 4/9/2025

查看原文

从复述到推理：尖端语言模型为何会在小学水平的推理问题上失败？

作者: Kai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen

arXiv:2504.00509v2 通告类型: 替换摘要：近年来，大型语言模型基准从小学水平问题到前沿问题难度的急剧上升，为研究人员创造了一个奇迹，仿佛人类智能已经近在咫尺。然而，这些大型语言模型令人瞩目的推理能力究竟是基于人类标准的真正智能，还是只是在互联网训练过程中简单复述解决方案？为了研究这一问题，我们提出了RoR-Bench，这是一个新颖的多模态基准，用于在简单推理问题但在条件上微小变动的情况下检测大型语言模型的复述行为，并对基准进行了实证分析。令人惊讶的是，我们发现现有的最先进的大型语言模型普遍表现出极其严重的复述行为；通过将条件中的一个短语改变，顶级模型如OpenAI-o1和DeepSeek-R1在小学水平的算术和推理问题上的性能会损失60%。这些发现对大型语言模型社区构成了警醒，促使我们重新评估最先进的大型语言模型的真实智能水平。

发布时间: 4/9/2025

查看原文

最佳的N选1就是最好的吗？推理时对齐的覆盖率、扩展性和最优性研究

作者: Audrey Huang, Adam Block, Qinghua Liu, Nan Jiang, Akshay Krishnamurthy, Dylan J. Foster

arXiv:2503.21878v2 宣告类型：替换摘要：推理时的计算为扩展语言模型的性能提供了一个强大的轴。然而，像Best-of-N采样这样的技术简单地增加计算可能会由于奖励作弊而导致性能下降。为了更好地理解如何最好地利用额外的计算，我们集中在推理时对齐上，将其形式化为改进给定提示的预训练策略生成高质量响应的问题，同时具有不完美的奖励模型访问权限。我们从响应质量（i）和计算（ii）两方面分析推理时对齐算法的性能，并提供了新的结果，突显了预训练策略对高质量响应的覆盖范围对于性能和计算扩展的重要性： 1. 我们展示了当选择理想的N时，Best-of-$N$对齐可以实现严格的覆盖下的最佳性能，但当N较大时，它会可证明地遭受奖励作弊，且在更现实的覆盖条件下无法获得紧致的保证。 2. 我们引入了$\texttt{InferenceTimePessimism}$这一新算法，通过故意使用推理时的计算来减轻奖励作弊，通过拒绝采样的方式，在不确定性面前实施悲观原理；我们证明了该算法在N的变化下性能最佳且不会退化，这意味着它是可扩展单调的。我们通过实验评估补充了我们的理论结果，证明了$\texttt{InferenceTimePessimism}$在各种任务和模型中的优势。

发布时间: 4/9/2025

查看原文