arXiv:2502.08685v1 声明类型: cross
摘要: 用户行为记录是推荐系统的基础。尽管行为数据容易获取,但它常常受到质量变化的影响。当前的方法利用数据估值来区分高质量数据和低质量数据。然而,这些方法往往采用黑盒设计,缺乏透明性和可解释性。此外,它们通常针对特定的评估指标定制,导致在各种任务中适用性有限。为解决这些问题,我们提出了一种可解释且通用的框架DVR,该框架可以针对任何模型架构和评估指标的要求提升数据利用效率。为了实现可解释的数据估值,我们提出了一种数据估值器,通过从博弈论的角度计算其Shapley值来评估数据质量,确保其具有稳健的数学特性和可靠性。为了适应各种评估指标,包括可微分和不可微分的指标,我们基于强化学习设计了一个指标适配器,其中将指标视为引导模型优化的强化奖励。我们在多个基准上进行的广泛实验验证了我们的框架可以在各种指标(包括精确度排名、多样性、公平性)上提升当前推荐算法的性能。具体而言,与现有方法相比,我们的框架在代表性的NDCG指标上可实现多达34.7%的性能提升。代码可在https://github.com/renqii/DVR获取。
arXiv:2502.08684v1 交叉类型
摘要:组合优化问题,如调度和路径规划,在各个行业中至关重要,但由于其NPC难解性,它们在计算上不可行。神经组合优化方法利用机器学习来应对这些挑战,但通常依赖于顺序决策过程,这种过程容易因小错误的累积而产生错误。受到大型语言模型中自我评估技术的启发,我们提出了一种新颖的框架,该框架生成并评估分配的子集,超越了传统的逐步方法。应用于作业车间调度问题,我们的方法结合了异构图神经网络和Transformer来构建策略模型和自我评估函数。在具有挑战性的知名基准上的实验验证表明,我们的方法具有有效性,超越了最先进的方法。
arXiv:2502.08682v1 宣告类型: cross
摘要:深度学习在二进制代码分析方面取得了显著的进步。特别是,预训练的汇编代码嵌入已成为解决分析任务(如衡量代码相似性或识别函数)的标准方法。这些嵌入能够从未标记的代码中学习向量表示。然而,与自然语言处理不同,二进制代码分析中的许多任务都有丰富的标签信息。例如,从编译器提供的调试信息中,可以轻松推导出函数边界、优化级别和参数类型的数据标签。因此,嵌入的主要动机并不直接适用于二进制代码分析。
在本文中,我们从批判性的角度探索预训练嵌入的作用。为此,我们在来自Debian分发的120万个函数的语料库上系统性地评估了最近的汇编代码嵌入在五个下游任务上的表现。我们观察到,在有足够的标记数据时,多个嵌入表现出相似的效果,此前工作中报道的差异几乎没有明显的区别。令人惊讶的是,我们发现没有预训练的端到端学习在平均表现上最佳,这引起了对专有嵌入必要性的质疑。通过对标记数据量的变化,我们最终得出嵌入何时提供优势以及何时对二进制代码分析而言端到端学习更为优选的指导原则。
arXiv:2502.08681v1 宣布类型: cross
摘要:由于可再生能源发电量的增加,电网操作变得越来越复杂。最近举行的几届Learning To Run a Power Network (L2RPN) 竞赛鼓励使用人工代理辅助人类调度员进行电力系统操作。然而,动作空间的组合性质给传统的优化器和学习控制器带来了挑战。动作空间因式分解,即将决策分解为更小的子任务,是一种应对维数灾难的方法。在本研究中,我们提出了一种中心协调多代理(CCMA)架构,用于动作空间因式分解。在此方法中,区域代理提出动作,随后协调代理选择最终动作。我们调查了CCMA架构的几种实现形式,并在不同的实验设置中与各种L2RPN基准方法进行基准测试。CCMA架构表现出更高的样本效率和更好的最终性能。结果表明,CCMA方法在更高维度的L2RPN以及实际电力系统设置中具有很高的应用潜力。
arXiv:2502.08680v1 Announce Type: cross
摘要:大型语言模型(LLM)中的数学推理通常通过带有有限数值范围的基准进行评估,未能反映跨不同尺度的实际问题解决能力。此外,现有的大多数评估方法仅将模型输出与真实答案进行比较,隐藏了推理过程的洞察。为了解决这些局限性,我们引入了GSM-Ranges,这是一个源自GSM8K的数据集生成器,系统地对数学问题中的数值进行扰动,以评估模型在不同数值尺度下的稳健性。此外,我们提出了一种新的评分方法,能够区分逻辑错误和无逻辑错误,提供了一种超越计算准确性更精确的推理过程的评估方法。我们的实验表明,随着数值复杂性的增加,逻辑错误率显著提高,最多可达到14个百分点,这表明模型对于不在训练分布中的数值值进行推理时存在普遍弱点。此外,尽管模型在独立算术任务中表现出高准确性,但当计算嵌入在文字问题中时,其性能显著下降。这些发现提供了对大型语言模型数学推理能力的全面评估,并为提高语言模型数值泛化能力的未来研究方向提供了指导。
arXiv:2502.08679v1 宣告类型:交叉
摘要:在动态环境中进行恶意软件分类面临着显著的挑战,因为恶意软件数据的统计特性随时间演变,给检测带来了复杂性。为了解决这个问题,我们提出了一种结合了遗传算法的深度学习框架,以提高恶意软件分类的准确性和适应性。我们的方法在遗传算法中结合了变异操作和适应度评分评估,以不断细化深度学习模型,确保对不断演变的恶意软件威胁具有鲁棒性。实验结果表明,这种方法在分类性能和适应性方面显著增强,优于传统的静态模型。提出的这种方法为不断变化的网络安全环境中提供了实时恶意软件分类的有希望的解决方案。
arXiv:2502.08666v1 宣告类型: cross
摘要: [Kalai 和 Vempala 2024] 的近期理论工作证明了一个特定的幻觉率观念在大语言模型(LLMs)中必须低于训练数据单事实率(与经典的 Good-Turing 缺失质量估计器相关)减去模型校准偏差。通过系统地使用 n-克模型和基于上下文的大语言模型实验,我们通过分析不同的底层数据分布如何影响单事实率和模型产生幻觉的倾向来实证研究并验证这一理论。然后,我们通过控制训练样本的加权来改变模型的校准偏差,同时保持单事实率不变,从而使我们能够孤立出校准偏差减少幻觉的效果。这些发现表明,训练数据中事实频率的分布以及校准-幻觉权衡都是概率语言生成的固有属性。我们的结果还表明,当前训练数据中的激进去重做法可能需要重新考虑,因为选择性的复制可以作为一个原则性的机制来减少幻觉。
arXiv:2502.08664v1 宣告类型:交叉
摘要:近年来,自动驾驶领域吸引了越来越多的公众关注。准确预测各类交通参与者未来行为对于自动驾驶车辆(AVs)的决策至关重要。本文专注于自主驾驶车辆的场景驱动和感知驱动的运动预测。我们提出了一种正式的问题表述方法来预测运动,并总结了该领域研究面临的主耍挑战。我们还详细介绍了与该领域相关的代表性数据集和评估指标。此外,本研究将最近的研究分为两类主要类别:监督学习和自监督学习,反映了场景驱动和感知驱动运动预测中的不断演变的范式。在监督学习的情境下,我们深入检查和分析了该方法的关键要素。对于自监督学习,我们总结了常用的技巧。文章以推进这一关键领域的技术进步为目标,提出了潜在的研究方向进行讨论。
arXiv:2502.08663v1 类型:跨领域
摘要:幻觉是影响大语言模型(LLMs)的主要问题之一,阻碍了它们在生产系统中的广泛应用。虽然当前研究中用于检测幻觉的方法主要基于启发式方法,但在本文中,我们提出了一个数学上严谨的方法来推理幻觉问题,并利用该方法构建了一个检测幻觉的工具。据我们所知,这是我们首次证明幻觉内容在结构上与正确内容存在差异。为证明这一结果,我们借助嵌入空间中的闵可夫斯基距离。我们的发现表明,在使用不同距离范数和不同关键词、问题或响应数量的情况下,嵌入距离分布具有统计学上的显著差异,且这些差异是无量纲的——它们在使用不同距离范数和不同数量的关键词、问题或响应的情况下也能够定性地保持。我们利用这些结构差异来开发一个检测幻觉响应的工具,在特定的系统参数配置下,其准确率达到66%——与领域内最佳结果相当。综上所述,所建议的方法具有潜力且新颖,可能为该领域的进一步研究铺平道路,尤其是我们在未来工作中标记出的方向。
arXiv:2502.08662v1 宣告类型: cross
摘要: 缓解语言模型(LMs)对于列表输入的位置偏差是一个众所周知且重要的问题(例如,迷失在中间)。虽然已经提出了零shot的不变序列表际模型来解决这一问题,但在实际列表问题上的成功却有限。在本文中,作为第一个贡献,我们识别并克服了两个限制,使零shot的不变序列表际模型更加实用:(1)由于修改位置ID分配以强制执行不变性而引起的训练和推理分布不匹配,以及(2)无法适应实际列表问题中混合的不变序和敏感输入。为了解决这些问题,我们提出:(1)RoToR,一种对于真正不变序输入的零shot不变序列表际模型,仅对位置ID进行最小的修改,以及(2)选择性路由,一种适应性框架,能够处理列表任务中不变序和有序敏感输入。我们在Lost in the middle(LitM)、知识图谱问答(KGQA)和MMLU基准测试中展示了RoToR与选择性路由相结合可以有效地以零shot的方式处理实际列表输入任务。