arXiv:2505.03825v1 交叉类型:
摘要:从现实系统中分类多维时间序列需要在低训练数据可用性的实际挑战下学习复杂的特征,如跨维度依赖性和类内变化。然而,标准深度学习(DL)在低数据环境中由于模型过拟合而难以学习可泛化的特征。我们提出了一种兼具通用性和数据高效性的框架,智能增强对比张量分解(ITA-CTF),用于从多维时间序列中学习有效的表示。CTF模块学习时间序列的核心解释性成分(例如,传感器因子、时间因子),并且更重要地,它们的联合依赖性。值得注意的是,与标准张量分解(TF)不同,CTF模块集成了一个新的对比损失优化,以促使学习到的表示具有相似性和类意识,从而提高分类性能。为了加强这种对比学习,先前的ITA模块生成有针对性但信息丰富的增强,突出了原始数据中的现实类内模式,同时保持类别的属性。这通过动态采样一个“软”的类原型来引导每个查询数据样本的扭曲来实现,结果是在“软”的类原型和查询样本之间智能地混合增强。这些增强使CTF模块能够在原始训练数据有限的情况下识别复杂的类内变化,并寻找不变的类特征,以实现准确的分类性能。该方法在五个不同的分类任务上进行了全面评估。与标准张量分解和几个DL基准相比,实现了高达18.7%的显著性能提升。
arXiv:2505.03824v1公告类型: cross
摘要: 大型语言模型(LLMs)在解决推荐任务方面展示了极大的潜力。凭借理解用户偏好的能力,LLM个性化已成为为个体提供定制化回应的关键领域。当前的研究通过提示设计和微调来探索个性化,为个性化LLM的进一步研究铺平了道路。然而,现有的方法要么成本高且在捕捉多样化用户偏好方面效率低下,要么无法考虑到用户的及时历史更新。为了解决这些差距,我们提出了记忆辅助个性化LLM(MAP)。通过用户交互,我们首先为每位用户创建一个历史概况,捕捉他们的偏好,例如历史上项目的价格。在推荐过程中,我们根据相似性提取相关记忆,并将其整合到提示中以增强个性化推荐。在我们的实验中,我们使用顺序评分预测任务在两种场景下评估MAP:单领域场景,其中记忆和任务属于同一类别(例如,电影),和跨领域场景(例如,电影的记忆和书籍推荐任务)。结果表明,MAP在直接通过提示设计整合用户历史的常规LLM推荐器中表现出色。此外,随着用户历史的增长,MAP在两种场景下的优势都增加,使其更适合应对连续的个性化用户请求。
arXiv:2505.03822v1 声明类型: cross
摘要:服务质量(QoS)数据在云服务选择中起着关键作用。由于用户无法访问所有服务,QoS 可以用一个高维度且不完整的(HDI)矩阵来表示。潜在因子分析(LFA)模型已被证明是解决此问题的有效低秩表示技术。然而,大多数 LFA 模型依赖于一阶优化器并使用 L2-范数正则化,这可能导致较低的 QoS 预测精度。为了解决这一问题,本文提出了一种双正则化二次潜在因子(DRSLF)模型,该模型有两个关键思想:a) 结合 L1-范数和 L2-范数正则化项以提高低秩表示性能;b) 通过在每个共轭梯度步骤中计算海森行列式向量积来引入二次信息。在两个真实世界响应时间 QoS 数据集上的实验结果表明,DRSLF 在低秩表示能力方面优于两个基线模型。
arXiv:2505.03821v1 类别: cross
摘要: 我们通过一套新的视觉任务调查了视觉语言模型(VLMs)进行视觉换位思考的能力,这些任务受传统的成人测试启发而设计。我们的方法利用了精心控制的场景,在这些场景中,一名单人形小人偶与单一物体配对。通过系统地改变空间配置——例如,物体相对于人形小人偶的位置以及人形小人偶的朝向——并使用鸟瞰图和表面视图,我们创建了144个独特的视觉任务。每个视觉任务都配套有7道诊断性问题,用于评估三种层次的视觉认知:场景理解、空间推理和视觉换位思考。我们对几种最先进的模型,包括GPT-4-Turbo、GPT-4o、Llama-3.2-11B-Vision-Instruct以及Claude Sonnet的变体进行了评估,结果显示,尽管它们在场景理解方面表现出色,但在空间推理方面性能显著下降,进一步在换位思考方面则表现更差。我们的分析表明,表面级别的物体识别与完成复杂视觉任务所需的深层次的空间和换位推理之间存在差距,这表明未来在开发VLM时需要整合明确的几何表示和定制化的训练协议。
arXiv:2505.03819v1 宣告类型: cross
摘要: 我们提出了两种新颖的测试时微调方法,以改进不确定模型的预测。我们的方法不需要辅助数据,并且仅使用给定的测试实例。我们不进行贪婪选择最可能的类来进行预测,而是引入了推理过程中的一个额外关注可能类别的步骤。通过应用单步梯度下降,我们可以在初始前向传递表明高不确定性时对预测进行细化。这使得预测更接近于将不太可能的结果赋予零概率的理想状态。我们的理论讨论为共享和非共享特征(聚焦类)之间的影响提供了更深入的理解。实验评估展示了在使用相同超参数的情况下,对于来自文本和图像领域的一系列展示高决策不确定性的样本,预测准确性的提升。
arXiv:2505.03818v1 内容类型:交叉领域
摘要:大规模语言模型(LLMs)可以在日常编码任务中取得优异性能,但在需要对程序语义进行非平凡推理的复杂任务上可能会失败。找到训练示例来教LLMs解决这些任务可能是具有挑战性的。
在这项工作中,我们探索了一种基于语义不等价游戏SInQ的方法来合成生成代码推理训练数据:生成器代理创建具有语义差异的程序变体,这些变体源自真实世界的编程任务数据集,而评估器代理则需要识别会导致原始程序和生成变体在行为上发生分歧的输入示例,代理之间通过半对抗的方式进行训练。我们证明,这种设置在理论上可以通过自我对弈无限提高,在无限计算资源的情况下尤为明显。
我们使用多种代码生成和理解基准测试评估了我们的方法,包括跨语言漏洞检测基准(Lu et al., 2021),在仅使用Python代码进行训练的情况下,我们的方法在C/C++代码中提高了漏洞检测能力,并且还在具有挑战性的Python内置标识符交换基准测试(Miceli-Barone et al., 2023)中显示出显著的改进,尽管现代LLMs在这一基准测试中仍然存在困难。
我们发布了可重现实验所需的代码以及生成的合成数据,这些数据可以用来微调LLMs。
arXiv:2505.03817v1 通报类型: 交叉
摘要:本文提出了一种利用逆强化学习(IRL)从系统级审计日志中全面建模攻击者偏好的方法。对手建模是网络安全中的一项重要能力,它使防御者能够描述潜在攻击者的 behavior,从而能够将已知的网络对手群体归因。现有方法依赖于记录不断演变的攻击者工具和技术,以追踪已知威胁行为者。尽管攻击方式不断演变,但攻击者的行为偏好是内生的且较少变化。我们的方法从对手工具和技巧的取证数据中学习其行为偏好。我们将对手建模为一个在计算机主机中位置未知的行为决策专家。我们利用审计日志的攻击溯源图来推导出攻击的状态-行动轨迹。我们在包含真实攻击数据的开放数据集中测试了我们的方法。我们的结果首次表明,低级别的取证数据可以自动揭示攻击者的主观偏好,这些偏好为对手建模和记录提供了额外的维度。尽管攻击者使用不同的工具,其偏好通常保持不变,这反映出攻击者内在的倾向。因此,这些推断出的偏好可以潜在地作为攻击者的独特行为特征,并有助于威胁归因。
arXiv:2505.03816v1 交叉公告类型
摘要:城市交通在现代城市生活中起着至关重要的作用,影响着人们和货物的流动效率。本研究使用了两个数据集来分析交通模式:来自纽约市的NYC Taxi Trip数据集和来自孟加拉国达卡的Pathao Food Trip数据集。我们的目标是识别需求的关键趋势、高峰时段以及重要的地理热点。我们首先进行探索性数据分析(EDA)以了解数据集的基本特征。接下来,我们进行地理空间分析以绘制出高需求和低需求区域。我们使用SARIMAX模型进行时间序列分析以预测需求模式,捕捉季节性和周日的波动。最后,我们应用聚类技术以识别高需求和低需求的重要区域。我们的发现为优化乘客运输和食品配送服务的车队管理和资源分配提供了宝贵的见解。这些见解有助于提高服务效率、更好地满足客户需求,并增强不同城市环境中的城市交通系统。
arXiv:2505.03814v1 交叉公告类型
摘要:随着基础模型不断发展,训练好的模型的规模呈指数增长,这为它们的评估带来了重大挑战。当前的评估实践涉及创建越来越大的数据集,以评估大规模语言模型(LLMs)的性能。然而,缺乏系统分析和指导来确定测试数据的充分性或选择合适的测试样本进行评估。本文介绍了一种可验证且成本效益高的LLM评估框架。我们的框架适应不同的评估目标,并输出高概率包含真实值的置信区间。我们使用“测试样本复杂性”来量化需要的测试点数量以进行可验证的评估,并推导出测试样本复杂性的紧密边界。根据开发的理论,我们开发了一种基于分割的算法,命名为Cer-Eval,该算法自适应地选择测试点以最小化LLM评估的成本。现实世界的实验表明,Cer-Eval在各种基准测试中可以节省20%到40%的测试点,同时保持与当前评估过程相当的估计误差水平,并提供95%的信心保证。
arXiv:2505.03811v1 类别: cross
摘要: 本文介绍了ScarceGAN,它专注于从具有少量和弱标记先验的多维纵向遥测数据中识别极其稀有或稀缺的样本。我们特别解决了以下问题:(i) 正类的严重稀缺性,源自数据本身的有机偏斜以及极其有限的标签;(ii) 负样本的多类别性质,特征分布不均匀且部分重叠;以及 (iii) 大量未标记的数据导致正类和负类的先验微小且薄弱,未标记数据集中可能存在未见过或未知的行为,尤其是在负类中。虽然与PU学习问题有关,但我们认为对负类的知识(或缺乏知识)可以在半监督方式下更好地利用,以学习其互补类(即正类)。为此,ScarceGAN 重新定义了半监督GAN,以容纳多类别弱标记的负样本和可用的正样本。通过引入一个“容错”项来放松监督判别器对负样本之间精确区分的约束。我们还对判别器和生成器的监督和无监督路径的成本目标进行了修改。对于识别技能游戏中风险玩家,此方法在整个过程中使我们的稀缺类召回率超过85%(相较于普通的半监督GAN提升了约60%),并且在未知空间中几乎没有冗余。此外,ScarceGAN 在识别KDDCUP99挑战赛入侵数据集中一种极为罕见攻击类(0.09%)方面优于最近的基于GAN的专业化模型,并建立了新的基准。