LLM2D

arXiv 论文列表

作者: Chengzhi Lin, Shuchang Liu, Chuyuan Wang, Yongqi Liu
arXiv:2407.12223v4 宣布类型: replace-cross 摘要:准确预测观看时间对于优化短视频平台的推荐和用户体验至关重要。然而,现有方法通常只能估计单一的平均观看时间,往往无法捕捉用户参与模式中固有的不确定性。本文中,我们提出条件分位数估计(CQE)来建模每个用户-视频对的观看时间的整个条件分布。通过分位数回归,CQE 描述了每个用户-视频对的复杂观看时间分布,提供了一种灵活且全面的方法来理解用户行为。我们进一步设计了多种策略来结合分位数估计,以适应不同的推荐场景和用户偏好。大量的离线实验和在线 A/B 测试展示了 CQE 在观看时间预测和用户参与建模方面的优越性。具体而言,在一个拥有数亿日活跃用户的大型平台上线 CQE 后,主要评估指标,包括活跃天数、参与时间和视频观看次数,均有显著提升。这些结果突显了我们提出的这种方法在增强用户体验和短视频推荐系统整体性能方面的实际影响。代码将在 https://github.com/justopit/CQE 发布。
发布时间: 4/15/2025
查看原文
作者: Sandra C. Matz, Heinrich Peters, Moran Cerf, Eric Grunenberg, Paul W. Eastwick, Mitja D. Back, Eli J. Finkel
arXiv:2407.10989v2 Announce Type: replace-cross 摘要:随着人工智能(AI)模型成为日常生活不可或缺的一部分,我们与它们的互动从纯粹的功能性交换转变为更具关系性的体验。为了使这些体验取得成功,人工智能代理需要能够检测和解释社交提示和人际动态;不仅限于他们自己的人类-代理关系。在这篇论文中,我们探讨AI模型是否能够准确解码一种被认为是最重要但同时也是最复杂的社交信号之一:浪漫吸引力。具体来说,我们测试大型语言模型在人类短暂的相互了解互动中能否检测到浪漫吸引力。通过分析964次快速约会的数据,我们表明ChatGPT可以预测快速约会成功率的客观指标和主观指标(r=0.12-0.23)。尽管预测性能仍然相对较低,但ChatGPT对实际匹配(即交换联系方式)的预测与人类评判者相当,并且优于快速约会者的自我预测。此外,ChatGPT的判断与人类观察者做出的判断有显著的重叠(r=0.21-0.35),突显了它们在浪漫吸引力表示上的相似性,这与准确性无关。我们的研究结果还提供了关于ChatGPT如何得出预测及其错误的见解。具体而言,我们使用Brunswik透镜方法来识别ChatGPT(和人类评判者)在预测实际匹配方面利用的言语和对话线索,以及与实际匹配预测相关的线索。
发布时间: 4/15/2025
查看原文
作者: M. Rempe, F. H\"orst, C. Seibold, B. Hadaschik, M. Schlimbach, J. Egger, K. Kr\"oninger, F. Breuer, M. Blaimer, J. Kleesiek
arXiv:2407.06165v2 宣告类型: replace-cross 摘要:我们提出了一种新颖的预处理和预测管道,用于磁共振成像(MRI)的分类,利用了丰富的复值k-Space信息。使用一个包含312个受试者和总计9508层的公开可用MRI原始数据集,我们展示了利用k-Space相比于仅使用图像域中的幅度信息,对于前列腺癌发生概率估计的优越性,AUROC为$86.1\%\pm1.8\%$。此外,通过使用高欠采样率和简单的主成分分析(PCA)进行线圈压缩,我们减少了重建所需时间,避免了耗时的GRAPPA重建算法。通过使用数字欠采样进行实验,我们展示了可以减少扫描和重建时间。即使在欠采样因子为16的情况下,我们的方法也能够取得有意义的结果,AUROC为$71.4\%\pm2.9\%$,使用PCA线圈组合并且考虑到k-Space信息。通过这项研究,我们展示了保留相位和k-Space信息的可行性,并且能够获得一致的结果。除了保存进一步诊断所需的重要信息外,这种方法还可以省去耗时的ADC和重建计算,大大减少后处理时间,以及潜在的扫描时间,提高患者舒适度,并允许接近实时预测。
发布时间: 4/15/2025
查看原文
arXiv:2407.02268v2 通告类型: replace-cross 摘要:人工智能(AI)在政府和私人行业的广泛应用带来了进步,同时也引发了隐私和安全方面的担忧。《通用数据保护条例》(GDPR)第17条规定了抹除权,要求从系统中永久删除数据,以防止潜在泄露。尽管现有研究主要集中在抹除敏感数据属性上,但仍有多个被动数据泄露机制未被充分探索和解决。其中一个问题来源于嵌入在预测模型中的训练数据残留足迹。测试数据和训练数据之间的性能差异可能会无意中揭示哪些数据点属于训练集,从而构成隐私风险。本研究探讨了分类器系统中的两个基本方面——训练数据质量和分类器训练方法——如何导致隐私漏洞。我们的理论分析表明,在数据不平衡和分布变化的条件下,分类器普遍表现出隐私漏洞。实证结果进一步支持了我们的理论结果,强调了训练数据质量在分类器易感性中的重要性。此外,我们的研究揭示了分类器的操作机制和架构设计对其漏洞的影响。我们还研究了通过数据模糊化技术的缓解策略,并分析了这些技术对隐私和分类性能的影响。为了帮助实践者,我们引入了一个隐私-性能权衡指数,提供了一种结构化的方法来平衡隐私保护与模型效果。研究结果为在各种实际应用中选择分类器和构建训练数据提供了有价值的见解。
发布时间: 4/15/2025
查看原文
作者: Angeline Aguinaldo, Evan Patterson, William Regli
arXiv:2406.15961v2 公告类型: replace-cross 摘要:本文介绍了一种利用函子数据迁移的方法来进行基于本体的机器人计划转移,这是一种源自范畴论的结构化映射方法。函子提供了规划领域本体之间的结构化映射,从而可以在无需重新规划的情况下转移任务计划。与针对特定计划的方法不同,我们的框架一旦定义了结构化映射,则可以在源领域中普遍应用。我们通过将经典Blocksworld领域的任务计划转移到兼容AI2-THOR Kitchen环境的领域中,来展示这一方法。此外,我们讨论了实际限制,提出了评估符号计划转移方法的标准,并概述了扩展此方法的方向。
发布时间: 4/15/2025
查看原文
作者: Rotem Shalev-Arkushin, Aharon Azulay, Tavi Halperin, Eitan Richardson, Amit H. Bermano, Ohad Fried
arXiv:2406.14510v2 Announce Type: replace-cross 摘要:基于扩散的生成模型最近展示了出色的图像和视频编辑能力。然而,局部视频编辑,特别是去除小属性(如眼镜)仍然是一项挑战。现有方法要么过度修改视频,生成不现实的伪影,要么无法在视频中一致地执行所需的编辑。在本文中,我们专注于在视频中一致且保持身份去除眼镜的任务,将其作为局部视频属性去除的案例研究。由于缺少配对数据,我们采用半监督方法并生成合成的不完美数据,利用调整后的预训练扩散模型。尽管数据不完美,通过从我们生成的数据中学习并利用预训练扩散模型的先验知识,我们的模型能够在不破坏原始视频内容的情况下一致地执行所需编辑。此外,我们通过将其成功应用于面部贴纸去除,展示了我们方法对其他局部视频编辑任务的一般化能力。我们的方法在现有方法上显示出显著的改进,展示了利用合成数据和强视频先验知识进行局部视频编辑任务的潜力。
发布时间: 4/15/2025
查看原文
arXiv:2406.10999v5 通知类型: 替换-交叉 摘要:本文探讨了认知偏见在大型语言模型(LLMs)决策过程中的作用,挑战了消除所有偏见的传统目标。当适当平衡时,我们表明某些认知偏见可以通过理性的偏差和启发式捷径来提升决策效率。通过引入启发式调节和退出选项(允许LLMs在不确定时不出回应),我们降低了错误率,提高了决策准确性,并优化了决策速度。利用通过专家合作开发的平衡严谨性和实用性(BRU)数据集,我们的研究结果表明,有针对性地检查认知偏见能够使LLM的决策与人类推理更一致,从而增强可靠性,并建议未来改进的策略。这种方法为利用认知偏见提升LLM在各种应用中的实际效用提供了新的途径。
发布时间: 4/15/2025
查看原文
作者: Sheng Zhang, Maolin Wang, Wanyu Wang, Jingtong Gao, Xiangyu Zhao, Yu Yang, Xuetao Wei, Zitao Liu, Tong Xu
arXiv:2406.10244v3 通告类型: replace-cross 摘要:基于Transformer的模型在序列推荐系统(SRSs)中因能够有效捕捉用户-项目交互而获得了显著的关注。然而,这些模型往往面临着高计算成本和慢推理的问题。同时,现有的高效SRS方法在嵌入高质量语义和位置信息到潜在表示方面也有困难。为了解决这些挑战,本文引入了GLINT-RU,这是一种轻量级且高效的SRS,利用单一层次密集选择性门控循环单元(GRU)模块来加速推理。通过引入密集选择性门,GLINT-RU能自适应地捕捉时间依赖性和精细位置信息,生成高质量的潜在表示。此外,一个并行混合块将细粒度的位置特征注入用户-项目交互中,从而提高推荐质量和效率。在三个数据集上的广泛实验表明,GLINT-RU在预测准确性和推理速度上表现优异,优于基于RNN、Transformer、MLP和SSM的基线模型。这些结果确立了GLINT-RU作为序列推荐系统中强大且高效的解决方案的地位。
发布时间: 4/15/2025
查看原文
作者: Eugene Choi, Arash Ahmadian, Matthieu Geist, Oilvier Pietquin, Mohammad Gheshlaghi Azar
arXiv:2406.01660v4 宣布类型: 替换-交叉 摘要:在线和离线RLHF方法,如PPO和DPO,在使AI与人类偏好保持一致方面取得了巨大成功。尽管取得了这些成就,这些方法仍然存在根本性的局限性:(a) 使用RLHF训练的模型可以在训练过程中通过RL机制或对比损失学习从错误或负面示例中吸取教训。但在推理阶段,它们缺乏内在的自我改进机制来进行错误修正。(b) 现有方法的最优解高度依赖于特定任务,这使得它们难以泛化到新任务。为了解决这些挑战,我们提出了Self-Improving Robust Preference Optimization (SRPO),这是一种实用且具有数学原理的离线RLHF框架。SRPO的核心思想是将从人类偏好中学习的过程视为一个自我改进的过程,数学上表示为一种联合优化自我改进策略和生成策略的对抗性最小-最大目标。最关键的是,该优化问题的解与训练任务无关,这使其对任务的变化具有鲁棒性。然后我们证明,可以通过重新表述为非对抗性的离线损失来实现这一目标,这种损失可以利用大规模的标准监督学习技术进行高效优化。为了展示SRPO的有效性,我们使用AI胜率(WR)与人类(GOLD)完成情况进行了评估。在对XSum数据集进行测试时,SRPO在进行了5次自我修订后,比DPO高出15%,取得了令人印象深刻的90% WR。此外,在具有挑战性的Arena-Hard提示下,SRPO在没有修订的情况下比DPO和IPO分别高出4%和6%,并在单次修订后达到了56% WR,与Llama-3.1-8B-Instruct的较量中取得了胜利。
发布时间: 4/15/2025
查看原文
作者: Zichao Hu, Junyi Jessy Li, Arjun Guha, Joydeep Biswas
arXiv:2405.20179v3 宣告类型: replace-cross 摘要:代码大型语言模型已经在将自然语言任务转换为可由服务机器人执行的程序方面展示了有希望的结果。我们对为此目的微调小型、专门化的大型语言模型感兴趣,但收集针对每台机器人专门的任务-程序对数据集耗费时间和成本。虽然 SELF-INSTRUCT 和 EVOL-INSTRUCT 等方法能够在少量示例的基础上生成新的任务,但它们无法使用提供的编程接口生成相应的程序,这些程序能够遵守物理世界和机器人约束。使用模拟器是一个检查此类约束的自然潜在解决方案,但构建能够处理任意任务及其所需对象和位置的模拟环境具有挑战性。为了应对这些挑战,我们提出了 ROBO-INSTRUCT,该方法在程序执行过程中根据实体在任务程序中的使用情况即刻合成任务专用的模拟环境,并以机会性的方式推断实体的属性并基于这些属性施加相应的约束。此外,ROBO-INSTRUCT 结合了基于大型语言模型的后处理程序,以改进指令与机器人程序的对齐。我们在多个大型语言模型上展示了 ROBO-INSTRUCT 的有效性,结果显示,我们的微调模型超过了所有基线方法,并且在某些情况下甚至能够匹配或超越几个较大且专有的模型的性能。
发布时间: 4/15/2025
查看原文