arXiv 论文列表

SessionRec：生成型序列推荐的下次会话预测范式

作者: Lei Huang, Hao Guo, Linzhi Peng, Long Zhang, Xiaoteng Wang, Daoyuan Wang, Shichao Wang, Jinpeng Wang, Lei Wang, Sheng Chen

arXiv:2502.10157v1 宣告类型: 交叉摘要: 我们引入了SessionRec，这是一种用于生成性序列推荐的新会话预测范式（NSPP），解决了传统单个项级自回归生成（NIPP）范式与实际推荐场景之间的根本性不一致。与NIPP中与实际基于会话的用户交互相矛盾的项级自回归生成不同，我们的框架通过层次序列聚合（会内/会间）引入了会话感知的表示学习，这降低了注意计算复杂性，同时允许对大量隐式负交互进行建模，并且通过多项推荐在后续会话中更好地捕捉用户多样的兴趣。此外，我们发现，在后续会话预测范式中为会话内的项目引入排名损失可以显著提高生成序列推荐模型的排名有效性。我们还验证了SessionRec表现出与大规模语言模型（LLMs）观察到的幂律缩放定律相似的特性。在公共数据集和美团应用上的在线A/B测试中进行的广泛实验表明，SessionRec的有效性。该提出的范式通过其模型无感知的架构和计算效率为开发工业规模的生成性推荐系统奠定了新的基础。

发布时间: 2/17/2025

查看原文

基于情绪对齐和时间边界生成视频 soundtrack

作者: Serkan Sulun, Paula Viana, Matthew E. P. Davies

arXiv:2502.10154v1 交叉类型公告摘要：我们提出了一种名为EMSYNC的基于视频的符号音乐生成模型，该模型能够使音乐与视频的情感内容和时间边界相匹配。该模型采用了两阶段框架，首先，预训练的视频情绪分类器提取情感特征；然后，条件音乐生成器根据情感和时间线索生成MIDI序列。我们引入了边界偏移（Boundary Offsets）这一新颖的时间条件机制，使模型能够预测并调整音乐和场景剪辑之间的关联。与现有模型不同，我们的方法保留了事件编码，从而确保了精细的时间控制和表达性音乐细节。我们还提出了一种映射方案，将视频情绪分类器产生的离散情绪类别与基于连续情感（快感-唤醒值）的MIDI生成器相连接。在主观听音测试中，EMSYNC在所有主观指标上均超过了最先进的模型，这一结果对于音乐理论意识的参与者和普通听众都成立。

发布时间: 2/17/2025

查看原文

不共享特征的关联表数据学习

作者: Zhaomin Wu, Shida Wang, Ziyang Wang, Bingsheng He

arXiv:2502.10125v1 公告类型: cross 摘要：学习关系表格数据最近受到了广泛关注，但大多数研究专注于单个表格，忽视了跨表格学习的潜力。在表格缺乏共享特征和预对齐数据的情况下，跨表格学习尤其具有巨大的机会，但也带来了重大挑战。对齐的空间是巨大的，确定表格之间的准确对齐具有高度复杂性。我们提出了一种名为潜实体对齐学习（Leal）的新型框架，该框架能够在不要求共享特征或预对齐数据的情况下实现有效的跨表格训练。Leal 的工作原理是正确对齐的数据比错误对齐的数据会产生更低的损失，这种概念在其软对齐机制中得到了体现。该机制与可微分的聚类采样模块相结合，确保了对大型关系表格的高效扩展。此外，我们提供了聚类采样模块近似能力的理论证明。在五个真实世界和五个合成数据集上的广泛实验表明，Leal 的预测性能比最先进的方法提高了高达 26.8%，证明了其有效性和可扩展性。

发布时间: 2/17/2025

查看原文

图像嵌入采样方法用于多样化描述

作者: Sania Waheed, Na Min An

arXiv:2502.10118v1 交叉公告类型：cross 摘要：基于最先进的视觉语言模型（VLM）的图像字幕随着时间的推移显著改进；然而，这代价是计算复杂性的增加，使得它们对于资源受限的应用如移动设备和辅助技术而言不够易于访问。相反，较小的VLM更侧重于高层次的场景描述，忽略了对图像更丰富理解有贡献的细节。在本文中，我们引入了一种无需训练的框架，通过利用相对较小的VLM（BLIP）作为骨干，明确关注不同的图像区域，从而增强字幕的多样性和信息量。我们的方法利用结构化分割产生层次表示，捕捉全局和局部分义。无需额外的模型训练，我们证明了我们的方法使较小的VLM在图像-字幕对齐、语义完整性和多样性方面能够达到与大型模型相当的性能。我们在MSCOCO、Flickr30k和Nocaps测试数据集上评估了我们的框架，分别获得了Div-2评分为0.735、0.750和0.748，同时保持了与人类标注的字幕相似的图像-字幕相关性和语义完整性。

发布时间: 2/17/2025

查看原文

生成模型中一种新颖的数据生成方法

作者: JaeHong Kim (Healthcare, Legal and Policy Center, Graduate school of Law, Korea University, Seoul 02841, Korea, Human-Inspired AI Research, Korea University, Seoul 02841, Korea), Jaewon Shim (Center for 0D Nanofluidics, Institute of Applied Physics, Department of Physics and Astronomy, Seoul National University, Seoul 08826, Korea)

arXiv:2502.10092v1 报告类型：交叉学科摘要：变分自编码器（VAEs）和其他生成模型在人工智能中广泛用于合成新数据。然而，当前的方法依赖于欧几里得几何假设和统计近似，这些假设和近似无法捕捉数据生成的结构化和涌现性质。本文介绍了收敛融合范式（CFP）理论，这是一种新颖的几何框架，通过伴随定性变革的维度扩展重新定义数据生成。通过修改潜在空间几何以与涌现的高维结构交互，CFP 理论解决了诸如可识别性问题和大型语言模型（LLM）中意外特征（如幻觉）等关键挑战。CFP 理论基于两个关键的概念假设，重新定义了生成模型在数据和算法之间的关系结构。通过 CFP 理论的视角，我们批判性地审视了现有的度量学习方法。CFP 理论通过引入时间反向度量嵌入和结构收敛机制，推进了这一视角，导致了一种新的几何方法，这种方法更好地解释了数据生成作为一种结构化知识过程。除了其计算含义外，CFP 理论还为数据生成的本体论基础提供了哲学见解。通过提供一个系统框架来理解高维学习动力学，CFP 理论为理解人工智能中的数据-关系结构奠定了理论基础。最后，CFP 理论未来的研究将侧重于其对实现质变的潜在影响，引入希伯特空间在生成建模中的潜力。

发布时间: 2/17/2025

查看原文

_manual2skill: 使用视觉-语言模型学习阅读手册并获取家具组装的机器人技能_

作者: Chenrui Tie, Shengxiang Sun, Jinxuan Zhu, Yiwei Liu, Jingxiang Guo, Yue Hu, Haonan Chen, Junting Chen, Ruihai Wu, Lin Shao

arXiv:2502.10090v1 介绍类型: cross 摘要：人类拥有理解并执行复杂操作任务的非凡能力，通过解释抽象的指令手册。然而，对于机器人来说，这一能力仍是一个重大的挑战，因为他们无法解释抽象指令并将其转化为可执行的动作。在本文中，我们提出了Manual2Skill，这是一个新的框架，使机器人能够在高级手工指令的指导下执行复杂的装配任务。我们的方法利用视觉语言模型（VLM）从指令图像中提取结构化信息，然后利用这些信息构建分层装配图形。这些图形表示部件、子装配件及其之间的关系。为了促进任务执行，姿态估计模型在每个装配步骤中预测组件的相对6D姿态。同时，运动规划模块生成实际机器人实施的动作序列。我们通过成功组装几个真实的宜家家具件来展示了Manual2Skill的有效性。这一应用突显了其在高效和精准管理长期操作任务方面的潜力，极大地提高了机器人从指令手册学习的实际可行性。这项工作标志着在使机器人系统能够理解和执行类似于人类能力的复杂操作任务方面取得了进展。

发布时间: 2/17/2025

查看原文

一种混合边缘分类器：结合了TinyML优化的CNN与RRAM-CMOS ACAM的能量高效推理

作者: Kieran Woodward, Eiman Kanjo, Georgios Papandroulidakis, Shady Agwa, Themis Prodromakis

arXiv:2502.10089v1 交叉类型：cross 摘要：近年来，智能边缘计算系统的发展势头日益增强，这些系统旨在本地处理信息。许多接近传感器的机器学习（ML）方法已被实施，以在资源受限的边缘感知系统（例如可穿戴设备）中引入准确且节能的模板匹配操作。为了引入适用于极端边缘情况的新解决方案，已经开始提出结合传统技术和新兴技术的混合解决方案。针对边缘应用优化的深度神经网络（DNN）以及在设备和架构层面的新计算方法，可能成为实施竞争性准确分类的边缘ML解决方案的有力候选者，同时使用常规ML解决方案一小部分的电力。在本工作中，我们提出了一个旨在服务于极端边缘附近传感器系统的混合软硬件边缘分类器。该分类器由两部分组成：(i) 一个优化的数字极简ML网络，作为前端特征提取器，(ii) 一个后端的RRAM-CMOS模拟内容可寻址存储器（ACAM），作为最终阶段的模板匹配系统。该混合系统在准确性和能量效率之间表现出可竞争的权衡，每分类操作的前端能耗 \(E_{front-end}\) 为 96.23 nJ，后端能耗 \(E_{back-end}\) 为 1.45 nJ，相比之下，原教师模型的能耗为 78.06 μJ，能耗降低了 792 倍，使其成为极端边缘应用的可行解决方案。

发布时间: 2/17/2025

查看原文

斯特拉斯滕多体系数组硬件架构

作者: Trevor E. Pogue, Nicola Nicolici

arXiv:2502.10063v1 Announce Type: cross 摘要：尽管Strassen矩阵乘法算法减少了朴素矩阵乘法的复杂度，通用硬件并不适合实现该算法承诺的理论加速效果。这使得人们不禁要问，是否可以在为执行该算法而专门设计的定制硬件架构中更好地利用该算法。然而，关于这一领域的先前工作有限，目前尚不清楚如何设计这样的架构，或者它们是否最终能实现实际的改进。我们填补了这一空白，提出并评估了一种新的 systolic 数组架构，该架构能高效地将Strassen算法的理论复杂度减少直接转化为硬件资源节省。此外，这些架构是多 systolic 数组设计，与单 systolic 数组设计相比，在执行较低层数的 Strassen 递归时可以乘以更小的矩阵并具有更高的利用率。在 FPGA 上实现的提出的设计在实现了 Strassen 递归层级为 r 时将 DSP 需求降低了 1.14^r 倍，并且在支持 32x32 和 24x24 矩阵（分别对应于 1-2 层 Strassen 递归）时，所需的总体软逻辑资源与基线设计和先前工作相当。我们分别在独立和集成到完整的机器学习加速器中对提出的设计进行了评估，并与基线设计和以前的工作进行了比较，实现了最先进的性能。

发布时间: 2/17/2025

查看原文

适应性双层多机器人任务分配与学习：具有时间逻辑约束的不确定性环境下的方法

作者: Xiaoshan Lin, Roberto Tron

arXiv:2502.10062v1 宣告类型:交叉摘要:本文解决了在不了解机器人转换模型的情况下多机器人协调的问题，确保由时间窗口时空逻辑指定的任务以用户定义的概率阈值得到满足。我们提出了一种双层框架，该框架包括(i)高层任务分配，根据机器人估计的任务完成概率和预期奖励分配任务，以及(ii)低层分布式策略学习与执行，机器人独立优化辅助奖励同时完成分配的任务。为了处理机器人动力学的不确定性，我们的方法利用实时任务执行数据迭代地细化预期的任务完成概率和奖励，从而使任务分配具有自适应性，无需显式机器人转换模型。我们从理论上验证了所提出的算法，证明了任务分配以高信心度满足了期望的概率阈值。最后，通过全面的仿真演示了我们框架的有效性。

发布时间: 2/17/2025

查看原文

LLM驱动的代理在推荐系统中的研究综述

作者: Qiyao Peng, Hongtao Liu, Hua Huang, Qing Yang, Minglai Shao

arXiv:2502.10050v1 异类类型: cross 摘要：推荐系统是许多在线平台的重要组成部分，但传统方法仍然难以理解复杂的用户偏好并提供可解释的推荐。由大型语言模型（LLM）驱动的代理的出现提供了一种前景广阔的方法，通过实现自然语言交互和可解释的推理，有望变革推荐系统领域的研究。这篇综述提供了对当前LLM驱动代理在推荐系统中的新兴应用的系统性回顾。我们识别并分析了当前研究中的三个关键范式：(1) 以推荐系统为导向的方法，利用智能代理来增强基本的推荐机制；(2) 以交互为导向的方法，通过自然对话和可解释的建议促进动态用户参与；以及 (3) 以模拟为导向的方法，利用多代理框架来建模复杂的用户-项目交互和系统动力学。除了范式分类，我们还分析了LLM驱动的推荐代理的架构基础，探讨了其核心组件：资料构建、内存管理、策略规划和动作执行。我们的调查还扩展到了该领域基准数据集和评估框架的全面分析。这种系统性检查不仅阐明了当前LLM驱动代理推荐系统的状态，还勾画了这一变革性领域中的关键挑战和有前途的研究方向。

发布时间: 2/17/2025

查看原文