arXiv:2503.24235v2 宣布类型: replace-cross
摘要:随着预训练时代对计算扩展(数据和参数)的热情逐渐减弱,测试时扩展(TTS),也 referred 为“测试时计算”,已经开始成为研究的重点。最近的研究表明,TTS 可以进一步激发大型语言模型(LLMs)的问题解决能力,不仅在诸如数学和编码等专门的推理任务上取得了重大突破,还在诸如开放式问答等一般任务上也取得了进展。然而,尽管在这个领域最近的努力激增,仍然迫切需要提供一个综合的调查,以提供系统性的理解。为了填补这一空白,我们提出了一种统一的、多维度的框架,该框架围绕 TTS 研究的四个核心维度构建:要扩展什么、如何扩展、在哪里扩展以及扩展得如何。基于这一分类体系,我们对方法、应用场景和评估方面进行了广泛的审查,并提出了一个组织化的分解,突显了个体技术在更广泛的 TTS 地景中的独特功能角色。通过这一分析,我们提炼至今为止 TTS 的主要发展轨迹,并提供了实用部署的手册指南。此外,我们指出了几个待解决的开放挑战,并提供了有希望的未来方向的见解,包括进一步扩展、澄清技术的功能本质、向更多任务泛化以及提供更多归因。我们的资源库可在 https://github.com/testtimescaling/testtimescaling.github.io/ 上访问。
arXiv:2503.22675v2 通知类型: replace-cross
摘要: 顺序推荐(SeqRec)旨在通过捕捉用户历史交互中的序列模式来预测下一个项目,在许多现实世界的推荐系统中扮演着关键角色。然而,现有的方法主要采用直接前向计算范式,其中序列编码器的最终隐状态作为用户表示。我们argue认为,由于这种推理范式的计算深度有限,它难以建模用户偏好复杂演变的性质,并且缺乏对长尾项目的细致理解,导致性能不佳。为了解决这个问题,我们提出了\textbf{ReaRec},这是第一个用于推荐系统的推理时计算框架,通过隐式的多步推理增强用户表示。具体来说,ReaRec 自回归地将序列的最后一个隐状态输入到顺序推荐器中,同时结合特殊的推理位置嵌入,从原始项目编码空间解耦出多步推理空间。此外,我们引入了两种轻量级的基于推理的学习方法,即集成推理学习(ERL)和逐步推理学习(PRL),以进一步充分利用ReaRec的推理潜力。在五个公开的真实世界数据集和不同的SeqRec架构上进行的广泛实验表明,我们提出的方法ReaRec具有普遍性和有效性。值得注意的是,事后分析显示,ReaRec显着提高了多个顺序推荐骨干网的性能天花板,大约提高了30%-50%。因此,我们认为这项工作可以为未来在顺序推荐中的推理时计算研究方向开辟一个新的和有前途的研究途径。
arXiv:2503.22328v2 宣告类型: replace-cross
摘要:场景流估计的目标是从两个相邻的LiDAR扫描中恢复每个点的运动。但在实际应用中,如自动驾驶,点很少独立移动,尤其是属于同一物体的邻近点,它们通常共享相同的运动。将这种局部刚性运动约束纳入自监督场景流估计中一直是一个关键挑战,通常通过后处理或附加额外的正则化来解决。虽然这些方法能够提高预测流的刚性,但它们缺乏模型结构中的局部刚性的诱导偏置,导致学习效率低下且性能不佳。相比之下,我们通过轻量级的附加模块在神经网络设计中强制执行局部刚性,从而使端到端学习成为可能。我们设计了一个离散的投票空间,容纳所有可能的平移,并通过可微投票识别由邻近点共享的平移。此外,为了确保计算效率,我们采取了支柱而非点的操作方式,并为每个支柱学习代表性的特征用于投票。我们将投票模块插入流行的模型设计,并在Argoverse 2和Waymo数据集上评估其益处。仅凭少量的计算开销,我们在基准工作中取得了更好的性能。代码可在https://github.com/tudelft-iv/VoteFlow 获取。
arXiv:2503.19887v5 宣布类型:替换-交叉
摘要:近年来,人工智能能力的进步加剧了人们对人工智能系统可能对国家安全构成威胁的担忧,例如,使恶意行为者更容易对关键基础设施进行网络攻击,或者通过失去对自主人工智能系统的控制。与此同时,美国联邦立法者提出了初步的“人工智能事件制度”,以识别和应对类似威胁。在本文中,我们汇集了这两种趋势,并提出了一项及时的建议,即一项由法律强制实施的部署后人工智能事件制度,旨在对抗人工智能系统的潜在国家安全威胁。我们首先在论文中引入“安全关键”一词来描述对国家安全构成极端风险的领域,然后论证“安全关键”适用于民用核电、航空、生命科学双重用途研究中的关注事项,以及前沿人工智能开发。接着,我们详细阐述了我们的人工智能事件制度建议,并通过证明其与美国其他“安全关键”领域的国内事件制度的相似性来为每个组成部分提供理据。最后,我们勾勒了一个假设场景,说明我们提出的人工智能事件制度如何处理人工智能网络攻击事件。我们提出的人工智能事件制度分为三个阶段。第一阶段围绕“人工智能事件”概念的新颖操作化展开,我们建议在部署前沿人工智能系统之前,人工智能提供商必须创建一个“国家安全案例”。第二和第三阶段明确了人工智能提供商应向政府机构报告事件,并要求政府机构参与修改人工智能提供商的安全和安全程序,以应对未来的国家安全威胁。
arXiv:2503.19653v3 宣告类型: replace-cross
摘要: 本文识别了OpenSDI,这是一个在开放世界环境中识别由扩散生成的图像的挑战。为应对这一挑战,我们定义了一个新的基准,即OpenSDI数据集(OpenSDID),其与现有数据集相比脱颖而出,因为它采用了多种大型视觉-语言模型来模拟开放世界的扩散式操作。OpenSDID的另一个突出特点是包含了由扩散模型全局和局部操纵的图像的检测和定位任务。为了应对OpenSDI的挑战,我们提出了一种协同预训练模型(SPM)方案,以构建混合基础模型。此方法利用了多种预训练基础模型之间的协作机制,以增强在OpenSDI上下文中的泛化能力,超越传统的训练方法,通过提示和关注策略来综合多个预训练模型。基于此方案,我们介绍了MaskCLIP,这是一种基于SPM的模型,将对比语言-图像预训练(CLIP)与掩码自编码器(MAE)对齐。对OpenSDID的广泛评估表明,MaskCLIP显著优于当前针对OpenSDI挑战的最先进的方法,在检测和定位任务中分别在IoU(F1分别为14.11%)和精度(F1分别为2.38%)上取得了显著的相对改进14.23%(2.05%)。我们的数据集和代码可在https://github.com/iamwangyabin/OpenSDI 下获得。
arXiv:2503.16514v3 宣告类型: replace-cross
摘要:设计 Verilog 模块需要对正确性、效率以及遵循设计规范进行细致的关注。然而,手动编写 Verilog 代码仍然是一个复杂且耗时的任务,需要专业知识和迭代改进。利用最近在大型语言模型(LLMs)及其结构化文本生成能力方面的进展,我们提出了 VeriMind,这是一个用于 Verilog 代码生成的智能体 LLM 框架,显著自动化并优化了合成过程。与传统的基于 LLM 的代码生成器不同,VeriMind 采用了一种结构化的推理方法:给定用户提供的描述设计要求的提示后,系统首先形成一个详细的推理过程,然后再生成最终的 Verilog 代码。这种多步方法提高了硬件设计的可解释性、准确性和可适应性。此外,我们引入了一个新的评估指标 pass@ARC,结合了传统的 pass@k 度量与平均迭代完善周期(ARC)来捕获成功率和迭代完善效率。在各种硬件设计任务上的实验结果表明,我们的方法在 pass@k 度量上提高了最高 8.3%,在 pass@ARC 度量上提高了最高 8.1%。这些发现强调了智能体 LLM 在自动化硬件设计、RTL 开发和数字系统综合方面的变革潜力。
arXiv:2503.11720v3 通告类型: 替换-交叉
摘要: 我们引入了富偏好优化(RPO),这是一种新颖的流水线,利用丰富的反馈信号来改进文本到图像扩散模型微调中的偏好对的管理。传统的 方法,如扩散-DPO,通常仅依赖于奖励模型标注,这可能导致结果不透明、限制了对偏好的合理解释,并可能面临奖励作弊或过拟合等问题。相比之下,我们的方法始于生成合成图像的详细批评,以提取可靠且可操作的图像编辑指令。通过实施这些指令,我们创建了精炼的图像,从而产生具有信息性的偏好对,这些偏好对作为优化的微调数据集。我们展示了我们流水线及其生成的数据集在微调最先进的扩散模型方面的有效性。
arXiv:2503.11129v2 Announce Type: replace-cross
摘要:行间有序的图像标记序列在行结束处表现出显著的欧几里得距离,使得它不适合自回归生成。为了解决这一问题,本文提出了具有方向意识的对角自回归图像生成(DAR)方法,该方法按照对角扫描顺序生成图像标记。提出的对角扫描顺序确保了具有相邻索引的标记保持在近距离内,同时允许因果注意力从更广泛的方向收集信息。此外,引入了两个具有方向意识的模块:4D-RoPE 和方向嵌入,增强了模型处理生成方向频繁变化的能力。为了利用图像分词器的表征能力,我们将其代码簿用作图像标记嵌入。我们提出了不同规模的模型,规模范围从 485M 到 2.0B。在 256×256 ImageNet 基准上,我们的DAR-XL (2.0B) 超越了所有先前的自回归图像生成器,达到了最先进的 FID 分数 1.37。
arXiv:2503.08714v3 宣布类型: replace-cross
摘要:在电影制作中,导演通常会让演员根据剧本自由表演,然后再给出具体的指导,要求他们如何呈现关键动作。AI生成的内容也面临着类似的需要,用户不仅需要从音频输入中自动生成唇同步和基本手势,还希望通过文本描述“直接引导”富有表现力的全身动作。因此,我们提出了VersaAnimator,这是一个多功能框架,可以从任意人物肖像图像中生成富有表现力的对话人类视频。具体来说,我们设计了一个运动生成器,可以从音频输入中生成基本的节奏性动作,并支持通过文本提示控制特定动作。生成的全身3D运动令牌可以动画化不同规模的人物肖像,产生对话头部、半身手势,甚至全身图像的腿部动作。此外,我们引入了一种多模态控制的视频扩散模型,生成逼真的视频,其中语音信号控制唇同步、面部表情和头部动作,而身体动作则由2D姿势引导。此外,我们引入了一个token2pose翻译器,将其3D运动令牌平滑地映射到2D姿态序列。这种设计减轻了从3D到2D直接转换而导致的僵硬感,并增强了生成的身体动作的细节。广泛的实验表明,VersaAnimator可以生成唇同步且保持身份的视频,同时生成富有表现力且具有语义意义的全身动作。
arXiv:2503.04110v2 通知类型: 交叉替换
摘要:大型语言模型(LLMs)和生成性视觉分析系统的崛起已经改变了数据驱动的洞察,但在准确解释用户分析和交互意图方面仍然存在重大挑战。尽管语言输入提供了灵活性,但它们往往缺乏精确度,使得复杂意图的表达变得低效、容易出错且耗时。为了解决这些局限性,我们通过对文献的回顾和初步的头脑风暴会议,探索了生成性视觉分析中多模态交互的设计空间。基于这些见解,我们引入了一种高度可扩展的工作流,该工作流结合了多个LLM代理用于意图推断和可视化生成。我们开发了InterChat,这是一种结合可视化元素直接操作与自然语言输入的生成性视觉分析系统。这种整合使得精确意图通信成为可能,并支持逐步、以视觉为导向的探索性数据分析。通过有效的提示工程,并结合上下文交互链接,以及直观的可视化和交互设计,InterChat 在用户交互与LLM驱动的可视化之间架起了一座桥梁,提升了解释性和可用性。广泛的评估,包括两个使用场景、一项用户研究和专家反馈,表明了InterChat 的有效性。结果表明,InterChat 在处理复杂视觉分析任务的准确性和效率方面取得了显著改进,突显了多模态交互重新定义生成性视觉分析中用户参与和分析深度的潜力。