arXiv 论文列表

作者: Salar Abbaspourazad, Anshuman Mishra, Joseph Futoma, Andrew C. Miller, Ian Shapiro

arXiv:2412.11276v2 宣布类型: replace-cross 摘要：现代可穿戴设备可以方便地在各种日常生活中不同环境中记录各种生物信号，从而提供了丰富的个体健康视图。然而，并非所有的生物信号都一样：高保真生物信号，如光电容积描记图（PPG），包含更多的生理信息，但需要具有高功耗足迹的光学传感器。相反，较低保真度的生物信号，如加速度计，具有显著较小的功耗足迹，并且几乎可以在任何可穿戴设备中获得。虽然加速度计广泛用于活动识别和健身，但其在健康生物标志物和诊断方面的探索较少。在这里，我们展示了加速度计基础模型可以预测多种健康目标。为了提高性能，我们使用了来自大约17.2万参与者在Apple心脏与活动研究中收集的2000万分钟未标记数据，并从中提取PPG编码器的知识传递给加速度计编码器。我们在未见过的数据上观察到了强大的跨模态对齐，例如，从加速度计嵌入中检索PPG嵌入的准确率为99.2%的top-1准确率。我们表明，这些提取的加速度计编码器相比于直接在加速度计数据上训练的自监督或监督编码器，具有显著更多的信息性表示，这至少在预测心率和心率变异性方面表现出23%至49%的性能提升。我们还展示了提取的加速度计编码器可以预测一系列下游健康目标，即它们是通用的基础模型。我们认为，用于健康的加速度计基础模型可能为从任何可穿戴设备开发数字化生物标志物开辟新的机会。

发布时间: 2/3/2025

查看原文

监督学习增强的多组演员评论家方法在_feed直播分配中的应用

作者: Jingxin Liu, Xiang Gao, Yisha Li, Xin Li, Haiyang Lu, Ben Wang

arXiv:2412.10381v4 宣布类型: replace-cross 摘要: 在短视频和直播流混合推荐场景下，直播流推荐系统(RS)决定是否将最多一个直播流分配给每个用户请求。为了最大化长期用户参与度，确定一个准确的直播流分配策略至关重要。不合适的直播流分配策略会严重影响使用应用程序的时长和用户留存，而忽视了直播流分配的长期负面影响。最近，强化学习(RL)在推荐系统中被广泛应用于捕捉长期用户参与度。然而，传统RL算法经常面临发散和不稳定的问题，这限制了其在大规模工业推荐系统中的应用，尤其是在上述具有挑战性的场景中。为了解决这些挑战，我们提出了一种新的监督学习增强多组演员评论家算法(SL-MGAC)。具体来说，我们引入了一种监督学习增强的演员评论家框架，其中结合了方差减少技术，多任务奖励学习有助于在评论家学习过程中限制自举误差的累积。此外，我们为演员和评论家网络设计了一个多组状态分解模块，以减少预测方差并提高模型稳定性。我们还提出了一种新的奖励函数，以防止过于贪婪的直播流分配。通过实证研究，我们使用离线策略评估(OPE)和在线A/B测试来评估SL-MGAC算法。实验结果表明，所提出的方法不仅在平台级约束下优于基线方法，而且在在线推荐场景中表现出更好的稳定性。

发布时间: 2/3/2025

查看原文

CLOVER：跨层正交向量剪枝与微调

作者: Fanxu Meng, Pingzhi Tang, Fan jiang, Muhan Zhang

arXiv:2411.17426v3 Decoder-only模型通过缓存键/值向量自回归地生成令牌，但随着缓存的增长，推理变得受到内存限制。为了解决这一问题，我们引入了CLOVER（Cross-Layer Orthogonal Vectors），这是一种新颖的方法，将每个多头注意力层中的注意力层对视为低秩分解集。CLOVER对每个注意力头中的\( Q \)-\( K \)和\( V \)-\( O \)对应用奇异值分解（SVD）。由此得到的奇异值可以指导剪枝或作为有效的可训练参数，以高效地调整所有正交向量。剪枝或微调后，这些值会被重新整合到模型中，不会增加参数数量。我们对包括GPT-2 XL、DeepSeek-V2-Lite、Whisper-Large-v3、Stable Diffusion XL和LLaMA-3.2-11B-Vision在内的多种模型应用了CLOVER。我们的结果显示，CLOVER显著提高了剪枝效率。例如，在GPT-2 XL中剪枝70%的\( Q \)-\( K \)对的困惑度与使用传统方法仅剪枝8%的困惑度相似。进一步微调奇异值后，结果产生了完整的秩更新，在包括八项常识任务在内的LLaMA-2 7B上分别优于LoRA、DoRA、HiRA和PiSSA的7.6%、5.5%、3.8%和0.7%。

发布时间: 2/3/2025

查看原文

谨慎的优化器：通过一行代码改进训练

作者: Kaizhao Liang, Lizhang Chen, Bo Liu, Qiang Liu

arXiv:2411.16085v3 优化器类型: replace-cross 摘要: AdamW 已经成为变压器预训练的默认优化器。多年来，我们的社区一直在寻找更快更稳定的优化器，但结果一直受到限制。在这项工作中，我们提出了一种在 Pytorch 中对任何基于动量的优化器进行单行修改的方法，我们将其更名为谨慎优化器，例如 C-AdamW 和 C-Lion。我们的理论结果表明，这种修改保留了 Adam 的哈密尔顿函数，并且在李雅普诺夫分析下不会破坏收敛性保证。此外，我们的理论洞察揭示了一整类新的优化器。在这其中，我们选择了一个最简单的版本进行实验，结果显示不仅在 Llama 和 MAE 预训练上速度提高了 1.47 倍，而且在大语言模型后训练任务上也取得了更好的结果。相关代码可在 https://github.com/kyleliang919/C-Optim 获取。

发布时间: 2/3/2025

查看原文

UniGuard: 针对多模态大型语言模型 Jailbreak 攻击的通用安全护栏

作者: Sejoon Oh, Yiqiao Jin, Megha Sharma, Donghyun Kim, Eric Ma, Gaurav Verma, Srijan Kumar

arXiv:2411.01703v2 安全类型：替换-跨越摘要：多模态大语言模型（MLLMs）在视觉语言理解方面取得了革命性的进步，但仍然容易受到多模态监狱突破攻击的威胁，其中恶意的输入精心设计以引发有害或不恰当的响应。我们提出了一种名为UniGuard的新颖的多模态安全护栏，它同时考虑单模态和跨模态的有害信号。UniGuard训练一个多模态的护栏，以最小化在有毒语料库中生成有害响应的可能性。该护栏可以在推理过程中无缝应用于任何输入提示，同时最小化计算成本。广泛的实验表明，UniGuard在多种模态、攻击策略以及多种最先进的MLLMs（包括LLaVA、Gemini Pro、GPT-4o、MiniGPT-4和InstructBLIP）上具有良好的泛化能力。值得注意的是，这一稳健的防御机制保持了模型的整体视觉语言理解能力。

发布时间: 2/3/2025

查看原文

隐私泄露在人工智能的视角下被忽视：关于语言模型代理中隐私的人工监督研究

作者: Zhiping Zhang, Bingcan Guo, Tianshi Li

arXiv:2411.01344v2 代理类型: replace-cross 摘要：代理语言模型（LM）代理用户执行个人任务（例如回复邮件）可以提升生产力，但也容易受到无意的隐私泄露风险的影响。我们首次探讨了人们监督语言模型代理的隐私影响的能力。通过开展一项基于任务的调查（N=300），我们研究了当人们在异步人际通信任务中回应生成由LM代理生成的回应与他们自己写的回应时，他们的反应和评估情况。我们发现，人们可能会更倾向于那些含有更多隐私泄露的代理回应，或者认为两个回应都很好，这导致了有害信息披露增加了从15.7%到55.0%。我们进一步识别了六种不同的隐私概况，以描述人们在语言模型代理中的不同关注模式、信任水平和隐私偏好。我们的发现有助于设计能够促进隐私保护交互的代理系统，并实现双向对齐以帮助用户调整信任水平。

发布时间: 2/3/2025

查看原文

Birdie：以奖励驱动目标和课程为基础推进状态空间模型

作者: Sam Blouir, Jimmy T. H. Smith, Antonios Anastasopoulos, Amarda Shehu

arXiv:2411.01030v4 Announce Type: replace-cross 摘要：高效的状态空间模型（SSMs），如线性递归神经网络和线性注意力变体，在计算效率上优于Transformer，但在执行需要长距离上下文检索的任务，如文本复制、关联回忆和长文本上下文的问答时却表现不佳。之前为了解决这些问题，主要集中在架构上的修改，但往往会重新引入计算上的低效性。在本文中，我们提出了一种新的训练过程Birdie，该过程显著增强了SSMs的上下文检索能力，而不会改变其架构。我们的方法结合了双向输入处理与动态混合的专业预训练目标，并通过强化学习进行优化。我们介绍了一种新的双向SSM架构，该架构能够无缝地从双向上下文处理过渡到因果生成。实验评估表明，Birdie在多号码电话簿查找、长段落问答和填充等检索密集型任务上的性能显著提高。这缩小了与Transformer的性能差距，同时保持了计算效率。我们的研究结果突出了训练过程对利用SSMs固定状态容量的重要性，并提供了一种新的方向以进一步提升其能力。所有代码和预训练模型均可在https://www.github.com/samblouir/birdie获取，支持JAX和PyTorch。

发布时间: 2/3/2025

查看原文

掌握数据合成工艺以应对CodeLLMs

作者: Meng Chen, Philip Arthur, Qianyu Feng, Cong Duy Vu Hoang, Yu-Heng Hong, Mahdi Kazemi Moghaddam, Omid Nezami, Thien Nguyen, Gioacchino Tangari, Duy Vu, Thanh Vu, Mark Johnson, Krishnaram Kenthapadi, Don Dharmasiri, Long Duong, Yuan-Fang Li

arXiv:2411.00005v2 Announce Type: replace-cross 摘要：大型语言模型（LLMs）在代码理解与生成方面的表现令人印象深刻，这使得编码任务成为研究者的重点研究方向，因为它们在实际应用中的价值以及作为评估LLM的试验场方面具有重要意义。数据合成和过滤技术在这一领域中被广泛采用并显示出极高的有效性。在本文中，我们提出了一项集中的回顾和分类方法，强调了这些技术的最新进展。我们指出了关键挑战，探讨了未来的研究方向，并为新进入该领域的研究人员提供了实用指导。

发布时间: 2/3/2025

查看原文

一个衍生链库用于现代标准阿拉伯语

作者: Reham Marzouk, Sondos Krouna, Nizar Habash

arXiv:2410.20463v2 通告类型: 替换-交叉摘要: 我们引入了新的阿拉伯衍生链银行 CHAINBANK 概念，以利用形式与意义之间的关系来建模阿拉伯衍生形态学。我们构建了一个包含抽象模式及其衍生关系的知识图网络，并将其与 CAMELMORPH 形态分析器数据库中的引词汇条进行了对齐。这一过程产生了通过衍生关系连接衍生词引词汇条的链，总共包括 23,333 个衍生连接。

发布时间: 2/3/2025

查看原文

Pantograph: 一种用于高级定理证明、高层次推理和Lean 4中数据提取的机器到机器交互界面

作者: Leni Aniva, Chuyue Sun, Brando Miranda, Clark Barrett, Sanmi Koyejo

arXiv:2410.16429v2 通告类型: 替换-交叉摘要: 机器辅助定理证明是指通过结构化推理自动为数学定理生成证明的过程。最近，人们越来越关注将机器学习模型与证明助手相结合，以执行这一任务。在本文中，我们介绍了Pantograph，这是一个提供了Lean 4证明助手多功能接口的工具，并通过强大的搜索算法（如蒙特卡洛树搜索）实现了高效证明搜索。此外，Pantograph 通过更稳健地处理 Lean 4 的推理步骤，支持高层次的推理。我们概述了Pantograph的架构和功能。我们还报告了一个示例应用场景：使用机器学习模型和证明草图来证明Lean 4定理。Pantograph的创新功能为更高级的机器学习模型执行复杂证明搜索和高层次推理铺平了道路，为未来的研究人员设计更灵活和强大的定理证明器提供了支持。

发布时间: 2/3/2025

查看原文