arXiv 论文列表

作者: Yifan Zhang, Yang Yuan, Andrew Chi-Chih Yao

arXiv:2409.10038v3 宣告类型: replace-cross 摘要: 当前的大型语言模型（LLMs）展示了令人印象深刻的性能，但在处理复杂、多步骤的推理任务时却存在困难。现有的方法通常通过需要外部控制机制或多种模型的协调来解决这一问题，这会增加系统的复杂性，并且通常缺乏推理正确性的形式保证。我们提出了思维图谱（DoT，Diagram of Thought），这是一种框架，在这种框架中，单个自回归LLM在内部构建并导航有向无环图（DAG）。该DAG代表了迭代的推理过程，包括提出想法、批判它们、根据反馈进行完善以及综合结论。这个自我协调、自我包含的过程通过标准生成循环中嵌入的学习角色特定标记（例如，<proposer>、<critic>、<summarizer>）进行引导，从而消除对外部依赖的需要。至关重要的是，我们通过拓扑理论为DoT建立了严格的数学基础。我们将推理DAG形式化为适当拓扑内的一个图表，并证明最终的综合步骤，即汇总验证过的信息，从语义上对应于计算相关子图的柯里特（colimit）。这种形式化为合成结果的逻辑一致性和鲁棒性提供了理论保证。因此，DoT提供了一种统一的、自我包含的、可解释的、高效的形式化方法，旨在显著提高LLMs的复杂推理能力。

发布时间: 4/1/2025

查看原文

内部变异性对深度学习气候模拟器benchmarking的影响

作者: Bj\"orn L\"utjens, Raffaele Ferrari, Duncan Watson-Parris, Noelle Selin

arXiv:2408.05288v2 宣告类型: 替换-交叉摘要：全复杂度地球系统模型（ESMs）在计算上非常昂贵，限制了它们在探索多种排放路径下的气候结果的应用。高效的仿真是可以近似ESMs，并直接将排放映射到气候结果上的计算工具，目前基准测试正被用于评估它们在标准化任务和数据集上的准确性。我们在数据驱动气候仿真的一个流行基准——ClimateBench上研究了当前表现最佳的深度学习基仿真实现方法。我们将这些基于深度学习的仿真实现方法与基于线性回归的仿真实现方法（类似于模式扩展）进行了比较，并且发现它们在四个区域气候变化变量中有三个变量的性能优于现有的100M参数深度学习基准模型ClimaX，尤其在地表温度和降水量方面。虽然模拟地表温度预计主要为线性过程，但对于模拟降水量这一结果则出乎意料。降水量是一个更加嘈杂的变量，并且我们发现，深度学习仿真实现方法会因低频内部变异性噪声而过拟合，这使得它们在与线性仿真实现方法的比较中表现出色。我们通过增加每条排放路径的气候模拟次数（从3次增加到50次），并使用MPI-ESM1.2-LR模型对应的成员平均值更新基准目标来解决过拟合问题。使用新的目标，我们展示了在地表温度上，线性模式扩展仍然更为准确，但在模拟降水量方面，则可以被基于深度学习的技术超越。我们已在github.com/blutjens/climate-emulator上发布了我们的代码和数据。

发布时间: 4/1/2025

查看原文

LLM 稳定性：一些惊喜的详细分析

作者: Berk Atil, Sarp Aykent, Alexa Chittams, Lisheng Fu, Rebecca J. Passonneau, Evan Radcliffe, Guru Rajan Rajagopal, Adam Sloan, Tomasz Tudrej, Ferhan Ture, Zhe Wu, Lixinyu Xu, Breck Baldwin

arXiv:2408.04667v3 宣告类型: replace-cross 摘要：大型语言模型（LLM）从业者普遍注意到，在预期为确定性的设定下，对于相同的输入，输出结果会有所不同。然而，这种现象的普遍性及其对结果的影响尚未系统性地进行研究。我们在10次运行中，在零样本和少样本设置下，对五种LLM进行配置，使其在八项常见任务上运行时模拟确定性，并调查了非确定性问题。我们观察到，在自然发生的多次运行中，准确率波动高达15%，最佳表现与最差表现之间的差距最高可达70%。事实上，并没有一种LLM能够在所有任务中稳定地提供一致的准确率，更不用说一致的输出字符串了。与内部人员分享初步结果表明，非确定性可能是通过混合输入缓冲区数据来高效利用计算资源的关键，因此这个问题并不会很快得到解决。为了更好地量化我们的观察结果，我们引入了专注于量化确定性的指标：TARr@N（在N次运行中原始输出的总一致率）和TARa@N（解析出的答案的总一致率）。我们的代码和数据可以在http://github.com/REDACTED公开获得。

发布时间: 4/1/2025

查看原文

基于因果扩散的图表示学习及稀有分布推荐

作者: Chu Zhao, Enneng Yang, Yuliang Liang, Pengxiang Lan, Yuting Liu, Jianzhe Zhao, Guibing Guo, Xingwei Wang

arXiv:2408.00490v3 宣告类型: replace-cross 摘要：基于图神经网络（GNN）的推荐算法通常假设训练数据和测试数据来自独立同分布（IID）的空间。然而，在出现离分布（OOD）数据时，这一假设往往无法成立，导致显著的性能下降。在本研究中，我们构建了一个结构因果模型（SCM）来分析交互数据，揭示了环境混杂因素（例如，COVID-19大流行）会导致基于GNN的模型中不稳定的关联性，从而妨碍其对OOD数据的泛化能力。为解决这一问题，我们提出了一种新颖的方法，因果扩散下的图表示学习（CausalDiffRec），以应对OOD推荐问题。该方法通过消除环境混杂因素并学习不变的图表示来增强模型对OOD数据的泛化能力。具体而言，我们使用后门调整和变分推断来推断真实的环境分布，从而消除环境混杂因素的影响。随后，该推断出的分布被用作先验知识，在扩散过程的反向阶段指导表示学习，以学习不变的表示。此外，我们提供了一个理论推导，证明优化CausalDiffRec的目标函数可以鼓励模型学习环境不变的图表示，从而在数据分布转移的情况下实现推荐的优异泛化性能。我们广泛的实验验证了CausalDiffRec在提高OOD数据泛化能力方面的有效性，在Food、KuaiRec、Yelp2018和Douban数据集上的平均改进分别为10.69%、18.83%、22.41%和11.65%。

发布时间: 4/1/2025

查看原文

基于会话的多目标推荐系统中的帕累托前沿 approximation

作者: Timo Wilm, Philipp Normann, Felix Stepprath

arXiv:2407.16828v3 通告类型: replace-cross 摘要：本文介绍了MultiTRON，该方法将帕累托前沿逼近技术应用到基于会话的多目标推荐系统中，使用transformer神经网络。我们的方法通过在采样的偏好向量上进行训练，优化点击率和转化率等关键指标之间的权衡。一个重要的优势在于，在训练完成后，单个模型可以访问整个帕累托前沿，允许通过调整一个附加的权重向量来适应不同利益相关者的特定需求。我们通过广泛的离线和在线评估验证了该模型的性能。为了更广泛的推广应用和研究，源代码可在https://github.com/otto-de/MultiTRON公开获取。结果表明，该模型能够在多个推荐目标之间有效管理，提供了一种灵活的工具来满足多种业务需求。

发布时间: 4/1/2025

查看原文

PQCache：基于产品量化的大模型长上下文KV缓存推理方法

作者: Hailin Zhang, Xiaodong Ji, Yilin Chen, Fangcheng Fu, Xupeng Miao, Xiaonan Nie, Weipeng Chen, Bin Cui

arXiv:2407.12820v2 宣告类型: replace-cross 摘要：随着大型语言模型（LLMs）领域不断发展，推理中的上下文长度正在稳定增长。键值缓存（KVCache），即LLM推理过程中token的中间表示，现在由于有限的GPU内存已成为主要的内存瓶颈。当前方法通过选择性确定适用于自注意力计算的键和值来解决此问题。然而，这些方法要么未能保持模型质量，要么导致高服务延迟。受数据管理社区广泛采用的高级嵌入检索技术的启发，我们将KVCache的存储和检索视为典型的嵌入检索问题。我们提出了PQCache，它使用产品量化（PQ）来管理KVCache，在保持模型质量的同时确保低服务延迟。在预填充阶段，我们对每个LLM层和头的token的键应用PQ。在自回归解码阶段，我们使用PQ码和质心来近似识别重要的先前token，然后获取相应的键值对进行自注意力计算。通过详细设计重叠和缓存的机制，在两个阶段中我们最小化了任何额外的计算和通信开销。广泛实验表明，PQCache在有效性与效率方面均表现出色，在InfiniteBench上比现有方法提高了4.60%的分数，并且在预填充和解码阶段系统延迟较低。

发布时间: 4/1/2025

查看原文

瞳孔感应：基于网络摄像头的瞳孔直径估计的新型应用

作者: Vijul Shah, Ko Watanabe, Brian B. Moser, Andreas Dengel

arXiv:2407.11204v2 通告类型: replace-cross 摘要：测量瞳孔直径对于了解生理和心理状态至关重要——传统上需要昂贵的专业设备如 Tobii 眼动追踪器和 Pupillabs 头盔。本文介绍了一种新型应用，能够使用标准网络摄像头估计瞳孔直径，从而使这一过程在没有专业设备的情况下也能在日常环境中有获得。我们的应用从视频中估计瞳孔直径，并提供详细的分析，包括激活图、预测左眼和右眼瞳孔直径的图表，以及眨眼期间的眼部纵横比。此工具扩大了瞳孔直径测量在日常生活中的可访问性，特别是在人行为研究和医疗保健领域中受益。此外，我们还介绍了一个新的开源数据集，用于使用网络摄像头图像进行瞳孔直径估计，该数据集包含裁剪的眼部图像及其相应的瞳孔直径测量值。

发布时间: 4/1/2025

查看原文

后门图凝练

作者: Jiahao Wu, Ning Lu, Zeiyu Dai, Kun Wang, Wenqi Fan, Shengcai Liu, Qing Li, Ke Tang

arXiv:2407.11025v4 公告类型: replace-cross 摘要：图凝聚技术最近已经成为提高图神经网络（GNNs）训练效率的一种主流方法。它将一个大图凝缩为一个小图，使得在小合成图上训练的GNN可以达到在大图上训练的GNN相当的表现。然而，现有的图凝聚研究主要集中在图的尺寸与GNN性能的最佳权衡（模型效用）上，忽视了图凝聚的安全问题。为解决这一问题，我们首先探索针对在凝缩图上训练的GNN的后门攻击。我们介绍了一种有效的针对图凝聚的后门攻击，称为BGC。这种攻击旨在（1）即使在注入触发器的情况下也保持凝缩图的质量，（2）通过凝聚过程确保触发器的有效性，从而实现高的攻击成功率。具体来说，BGC在凝缩过程中一致地更新触发器，并针对代表性的节点进行污染。广泛的实验展示了我们攻击的有效性。BGC在所有情况下都实现了高的攻击成功率（接近1.0）和良好的模型效用。此外，针对多种防御方法的结果表明，BGC在这些防御措施下的鲁棒性。最后，我们分析了影响攻击性能的关键超参数。我们的代码可以在以下链接获取：https://github.com/JiahaoWuGit/BGC。

发布时间: 4/1/2025

查看原文

人工智能与机器学习研究中的可重复性是什么？

作者: Abhyuday Desai, Mohamed Abdelhamid, Nakul R. Padalkar

arXiv:2407.10239v2 Announce Type: replace-cross 摘要：在快速发展的人工智能（AI）和机器学习（ML）领域中，可重复性危机强调了需要清晰的验证方法的重要性，以维护科学的完整性并鼓励进步。这种危机在很大程度上是由普遍存在的验证术语混淆所加剧的。为应对这一挑战，我们提出了一种框架，以阐明关键验证努力的角色和定义：重复性、依赖性和独立性可重复性以及直接和概念性可再现性。该结构化框架旨在为AI/ML研究人员提供这些基本概念所必需的清晰度，促进验证研究的适当设计、实施和解释。通过阐明每种验证研究的细微差别和特定角色，我们旨在提高研究结果的可靠性和可信度，并支持社区有效地应对可重复性挑战。

发布时间: 4/1/2025

查看原文

可持续的技术以提高训练图像解释模型推荐系统中的数据质量

作者: Jorge Paz-Ruza, David Esteban-Mart\'inez, Amparo Alonso-Betanzos, Bertha Guijarro-Berdi\~nas

arXiv:2407.06740v2 宣布类型: replace-cross 摘要：基于用户上传图像的视觉解释是向推荐系统（RS）提供透明度的有效且自包含的方法，但在这种解释范式中使用的数据的内在局限性导致现有的方法使用有较高稀疏性和标签噪声的低质量训练数据。流行的训练丰富方法如模型扩展或大规模数据收集都是昂贵且环境不可持续的，因此我们寻求提供与负责任AI原则相符的更好的视觉解释。在这项工作中，我们通过开发三种新的策略，研究了有利于视觉基推荐系统解释模型的有效且可持续的训练丰富策略的交汇点：1) 使用正未标学习选择可靠的负训练示例，2) 基于变换的数据增强，3) 基于文本到图像生成的数据增强。在三个最先进的解释模型中整合这些策略提高了这些视觉基推荐系统解释模型的相关排名指标的性能5%，且不会牺牲它们在多个实际世界餐馆推荐解释数据集中的实际长期可持续性。

发布时间: 4/1/2025

查看原文