arXiv:2407.05441v4 通知类型: 替换-交叉
摘要:近期的研究实证表明,语言模型(LMs)不仅包含简单的语义知识,还包含了丰富的世界知识,这引起了各个领域的广泛关注。然而,在推荐领域,仍旧不确定LMs是否隐式地编码了用户偏好信息。与普遍的认知不符,即由于语言建模和行为建模目标的巨大差距,LMs和传统推荐器学习两个不同的表示空间,这项工作重新审视了这种认知,并探索从语言表示空间直接抽取推荐空间的可能性。令人惊讶的是,我们的发现表明,当高级LM表示通过线性映射到项目表示时,推荐性能表现出色。这一结果表明,高级语言表示空间与有效的项目表示空间之间可能存在同构性,暗示协作信号可能被LMs隐式编码。受这些发现的启发,我们探索了纯粹基于语言表示设计高级协作过滤(CF)模型的可能性,而无需基于ID的嵌入。具体而言,我们结合了几个关键组件,以项目标题作为输入构建了一个简单有效的模型。实验结果表明,这种简单的模型可以超越领先的基于ID的CF模型,这为使用语言表示进行更好的推荐提供了新的视角。此外,我们系统地分析了这一简单模型,并发现了一些使用高级语言表示的关键特征:项目表示的良好初始化、零样本推荐能力以及对用户意图的意识。我们的发现突显了语言建模与行为建模之间的联系,可以启发自然语言处理和推荐系统社区。
arXiv:2407.03185v2 时序预测类型: 替换-交叉
摘要:我们提出了一种适用于时间序列预测的变压器架构,重点在于时间序列标记化,并将其应用于定价领域的实际预测问题。我们的架构旨在同时在所有可用数据的多个尺度上学习有效的表示。该模型包含若干新颖模块:一种采用多种分辨率的差异化时间序列分割形式,一种用于捕捉时间变化已知变量的多种分辨率模块,一种基于混合法捕捉跨系列信息的模块,以及一种新型输出头,以有利的放大比例来应对标记数量增加的情况。我们展示了这种模型在大型零售商的 markdown 团队面临的一个实际预测问题中的应用。在实验中,我们的模型在内部模型和选定的现有深度学习架构中表现出更好的性能。
arXiv:2406.19314v2 评测类型: 替换交叉
摘要: 测试集污染是指基准测试中的测试数据意外出现在新模型的训练集中,这是公平的语言模型评估中一个已知的障碍,会导致基准测试迅速过时。为解决这一问题,许多近期的基准测试尝试通过人类或语言模型法官来众包新的提示和评估;然而,这些做法可能会引入重大偏见,并且在评分困难问题时会失效。在本文中,我们引入了一个新的针对语言模型的基准测试,旨在抵抗测试集污染和语言模型评估以及人类众包的陷阱。我们发布了LiveBench,这是第一个包含以下内容的基准测试:(1) 基于近期信息源的频繁更新的问题,(2) 根据客观的基准值自动评分答案,以及(3) 包含各种具有挑战性的任务,涵盖了数学、编程、推理、语言、指令跟随和数据分析。为了实现这一点,LiveBench 包含基于最近发布的数学竞赛、arXiv 论文、新闻文章和数据集的问题,并且包含来自以前基准测试(如 Big-Bench Hard、AMPS 和 IFEval)的更难的、污染限制版本的任务。我们评估了许多知名的闭源模型,以及从 0.5B 到 405B 不等的几十个开源模型。LiveBench 比较困难,甚至顶级模型的准确率也低于 70%。我们发布了所有问题、代码和模型答案。问题每月都会更新,并且我们会随着时间的推移发布新的任务和更难的版本,以便 LiveBench 能够在未来区分语言模型的能力。我们欢迎社区参与和合作,以扩大基准测试中的任务和模型。
arXiv:2406.14191v3 通知类型: 替换交叉
摘要:知识库问答(KBQA)一直是基于知识库回答问题的一个长期研究领域。最近,知识演变动态吸引了对新兴的临时知识图谱问答(TKGQA)任务的越来越浓厚兴趣,该任务旨在回答时间相关的问题。然而,这一领域在定义临时问题方面存在模糊性,并且缺乏现有的TKGQA方法的系统分类。因此,本文从两个视角对TKGQA进行了全面调研:时间问题的分类和TKGQA的方法分类。具体而言,我们首先建立了先前研究中涉及的详细时间问题分类。接着,我们对两类TKGQA技术进行了全面回顾:基于语义解析的方法和基于TKG嵌入的方法。基于这一回顾,论文概述了旨在推进TKGQA领域的潜在研究方向。本文旨在作为TKGQA的全面参考,并激发进一步的研究。
arXiv:2406.08472v4 Announce Type: replace-cross
摘要:获得复杂的行為對於人工智慧代理是必不可少的,但在高維設定中學習這些行為由於龐大的搜索空間而構成了重大挑戰。傳統的強化學習(RL)需要大量人工工程來設計獎勵函數。逆強化學習(IRL)從專家示范中發現獎勵函數,但依賴於常見的迭代過程,往往計算成本高昂。模仿學習(IL)提供了一種更有效的替代方案,可以直接比較代理的行為與專家示范;然而,在高維環境中,這種直接對比往往無法提供足夠的反饋來實現有效的學習。我們介紹了RILe(强化模仿学习),这是一种结合了模仿学习和逆强化学习优势的框架,可以高效地学习稠密奖勵函数,并在高维任务中实现出色表现。RILe 使用了一种新颖的训练-学生框架:训练器学习适应性的奖勵函数,学生则使用此奖励信号模仿专家行为。随着学生的发展,训练器动态调整其指导,提供跨学习不同阶段的细腻反馈。我们的框架在直接模仿无法复制复杂行为的高维任务中生成高性能策略。我们通过在具有挑战性的机器人运动任务中验证RILe,展示了它在多种设置中显著优于现有方法,并实现了接近专家级的表现。
arXiv:2406.06560v2 通知类型: 替换-交叉
摘要:反馈数据广泛用于 fine-tune 和评估最先进的 AI 模型。成对文本偏好是一种常见的形式,其中人类或 AI 注释员选择两个选项中的“更好”一个。这类偏好用于训练(奖励)模型或将模型按综合统计进行排名。对于许多应用而言,理解注释员的偏好不仅是建模它们,而且还了解它们是很有价值的——尤其是因为先前大量研究表明偏好数据集中的各种未预期偏见。然而,偏好数据集仍然很难解读。无论是黑盒奖励模型还是统计方法都无法解释为何某个文本比另一个更受偏好。手动解读大量的(长)响应配对通常同样不可行。在本文中,我们引入了逆宪法 AI (ICAI) 问题,将成对文本偏好数据的解释形式化为压缩任务。在宪法 AI 中,一组原则(宪法)用于提供反馈并 fine-tune AI 模型。ICAI 将这一过程反过来:给定一个反馈数据集,我们的目标是从中提取一个宪法,该宪法最好地使大型语言模型 (LLM) 能够重构原始注释。我们提出相应的 ICAI 算法,并基于多个数据集的注释重构准确性对其进行定量验证:(a) 具有已知原则的合成反馈数据;(b) AlpacaEval 交叉注释的人类反馈数据;(c) 群体聊天机器人竞技场数据;以及 (d) 来自不同人口群体的 PRISM 数据。作为对原始数据集简短且可解释的表示,生成的宪法具有许多潜在的应用场景:帮助识别不受欢迎的注释员偏见、更好地理解模型性能、将反馈扩展到未见数据或将模型适应个别用户或群体偏好。我们已在 https://github.com/rdnfn/icai 发布了源代码。
arXiv:2405.18560v4 公告类型: replace-cross
摘要:深层度量学习 (DML) 涉及训练一个网络来学习一种语义上有意义的表示空间。许多当前的方法是从例子的 n-元组中挖掘例子,并在每个元组内建模相互作用。我们提出了一种新颖的、组合的 DML 模型,该模型不再使用元组,而是通过连续的势场来表示每个例子(嵌入)的影响,并叠加这些场以获得其组合的全局势场。我们使用吸引/排斥的势场来表示相同/不同类图像嵌入之间的相互作用。与典型的学习方法不同,在这些方法中,样本之间的相互影响与其距离成正比,我们强制这种影响随距离减小,导致一个衰减的场。我们展示了这种衰减有助于提高具有大类内变异和标签噪声的实际数据集上的性能。与基于代理的方法一样,我们还使用代理来简要表示例子的亚群。我们在 Cars-196、CUB-200-2011 和 SOP 数据集上评估了我们的方法,该方法在这些标准的 DML 基准上优于最先进的基线。
arXiv:2405.02929v3 动态通知类型: 替换-交叉
摘要: 以前的扫描路径预测研究主要集中在群体模型上,忽视了个体的扫描路径和注意行为是多样的事实。这种忽视对社会人机交互尤其有害,其中机器人通常基于启发式方法或预定义的模式模仿人类的注视。然而,人类的注视模式是异质性的,不同的行为会对这种人机交互的结果产生显著影响。为了弥补这一差距,我们开发了一种基于深度学习的社会线索整合模型,用于预测显著性,以预测视频中的扫描路径。我们的模型通过门控机制和顺序注意,递归地整合固定历史和社会线索来学习扫描路径。我们在动态社会场景的注视数据集下观察的自由观看条件下,评估了我们的方法。将固定历史引入我们的模型,使得有可能训练一个统一的模型,而不是为每个扫描路径集训练单独的模型,而不是资源密集型的方法。我们观察到,当在大数据集上训练模型时,晚期神经整合方法优于在具有相似分布的小数据集上进行早期融合。结果还表明,利用所有观察者扫描路径训练的统一模型与单独训练的模型相比,性能相当或更优。我们推测,这一结果是因为群体显著性表示在模型中灌输了普遍注意,而监督信号和固定历史引导它学习个性化的行为,从而使统一模型比个别模型更有优势,因为后者隐含地表示了普遍注意。
arXiv:2404.11888v2 宣告类型: replace-cross
摘要:联邦学习(FL)因其隐私保护的特性,在多种应用中具有巨大的潜力。然而,FL 的收敛性常常受到非IID 数据分布的挑战,这限制了其在实际部署中的有效性。现有的方法通过基于优化的客户端约束、自适应客户端选择或使用预训练模型或合成数据来解决这些挑战。在本文中,我们将这些方法重新解释为都引入了一个“隐式引导任务”来正则化和引导客户端学习。基于这一洞察,我们提出将一个“显式的全局引导任务”引入当前的FL框架中,以提高收敛性和性能。为此,我们提出了FedEGG,这是一种新的FL算法,使用基于公共数据集和大型语言模型(LLMs)定义的一个易于收敛的明确学习任务来构建全局引导任务。这种方法有效地结合了联邦学习(原始FL任务)和集中学习(全局引导任务)的优点。我们对FedEGG的收敛性进行了理论分析,探讨了引导任务和FL任务之间数据异质性的影响以及引导强度的影响。我们的分析推导出最优引导强度的上界,为实施提供了实际的见解。实验中,FedEGG在IID和非IID设置下均表现出优于最先进的FL方法的性能,并且在结合使用时进一步提高了其性能。
arXiv:2403.12176v4 宣告类型:replace-cross
摘要:端到端学习管道正在逐渐改变高度自主车辆(AV)持续开发中的范式转变,这主要归功于深度学习的进步、大规模训练数据集的可用性以及集成传感器设备的改进。然而,当前学习方法实时决策的解释性不足阻碍了用户的信任,并减弱了这些车辆的广泛部署和商业化。此外,当这些汽车参与或造成交通事故时,这一问题更为严重。因此,在整个过程中解释的可解释性对于建立车辆自动化领域的信任至关重要。据此,汽车研究人员尚未严格探讨解释在端到端自主驾驶中的安全影响。本文旨在弥合这些主题之间的差距,并寻求回答以下研究问题:解释在端到端自主驾驶中的安全影响是什么?为此,我们首先重新审视端到端驾驶中的既存安全和解释性概念。此外,我们展示了解释在增强驾驶安全性中的关键作用。最后,我们描述了实证研究的见解,并揭示了关于其对端到端驾驶安全性潜在影响的实际可解释AI方法的价值、局限性和注意事项。