arXiv:2309.02711v2 宣告类型: replace-cross
摘要:对称性是理解我们周围环境的一个基本概念,但从数学角度来看,它往往过于简化了现实。人类是这一规则的典型例子,在外观和认知偏差(例如,左右手偏好)方面不完全对称。尽管如此,我们的大脑能够轻松克服这些缺陷,并有效地适应对称任务。本文的驱动力在于通过强化学习捕捉这种能力。为此,我们引入了自适应对称学习(ASL),这是一种模型最小化的行为-批评扩展,能够通过学习过程中的自我调整来解决不完整或不准确的对称性描述。ASL 包含一个对称适应组件和一个模块化损失函数,该损失函数在所有状态下强制执行一种共同的对称关系,同时适应学习到的策略。我们将 ASL 的性能与现有的一些增强对称性的方法在涉及四条腿蚂蚁模型的多向移动任务案例研究中进行了比较。结果表明,ASL 能够从大范围干扰中恢复,并将知识推广到隐藏的对称状态。在大多数场景中,ASL 达到了与替代方法相当甚至更好的性能,使其成为在利用模型对称性的同时弥补固有干扰的有价值的方法。
arXiv:2210.15657v5 Announce Type: replace-cross
摘要:在线社交媒体是人类生活中不可或缺的部分,它促进了消息传递、信息共享和保密通信,同时保护隐私。例如,Twitter、Instagram和Facebook等方面都体现了这一现象。然而,由于网络异常,用户常常面临挑战,这些异常经常来自于诸如为了财务利益或伤害而进行的身份盗用等恶意活动。本文提出了一种新颖的方法,使用用户相似性度量和生成对抗网络(GAN)算法来识别Twitter数据集中虚假用户账号。尽管这个问题很复杂,但该方法在分类和检测虚假账号时实现了80%的AUC率。值得注意的是,这项研究建立在先前研究的基础上,展示了在线社交网络中异常检测不断演变的景观中的进步和见解。
arXiv:2207.06030v4 宣告类型: replace-cross
摘要:虽然训练模型和标注数据需要大量的资源,但存在大量的预训练模型和未标注数据。为了有效利用这些资源,我们提出了一种在尽量减少标注成本的情况下主动选择预训练模型的方法。我们将此问题框架化为在线上下文主动模型选择问题:在每一轮中,学习者会收到一个未标注数据点作为上下文。目标是在有限的标签请求下,自适应地选择最适合该上下文的模型进行预测。为了应对这个问题,我们提出了CAMS,这是一种依赖于两种新颖组件的上下文主动模型选择算法:(1)上下文模型选择机制,该机制利用上下文信息来做出关于哪种模型在给定的上下文中表现最佳的明智决策;(2)主动查询组件,该组件有策略地选择何时请求数据点的标签,从而最小化整体的标注成本。我们为在对抗性和随机设置下的后悔和查询复杂性提供了严格的理论分析。此外,我们在一系列基准分类任务上展示了我们算法的有效性。值得注意的是,与CIFAR10和DRIFT基准上现有的方法相比,CAMS需要的标注努力要少得多(少于10%),而达到相似或更好的准确性。我们的代码可以在以下地址公开获取:https://github.com/xuefeng-cs/Contextual-Active-Model-Selection。
arXiv:2502.03512v2 宣告类型: 更改
摘要:文本到图像(T2I)系统中的精确对齐至关重要,以确保生成的视觉不仅准确地捕捉用户意图,还符合严格的伦理和美学标准。像谷歌 Gemini 恶剧这样的事件,其中错配的输出引发了重大公众反弹,强调了需要稳健对齐机制的紧迫性。相反,大型语言模型(LLMs)在对齐方面已取得显著成功。在此基础上,研究者们热衷于将类似的对齐技术,如直接偏好优化(DPO),应用到T2I系统中,以提高图像生成的精确度和可靠性。
我们提出了YinYangAlign,这是一种先进的基准框架,系统地量化了T2I系统的对齐精确度,解决了六个基本且内在矛盾的设计目标。每一对代表了图像生成中的基本紧张关系,例如在遵循用户提示与创造性修改之间平衡,或在保持多样性的同时维持可视化连贯性。YinYangAlign 包括详细的公理数据集,其中包含人类提示、对齐(选择)的响应、未对齐(被拒)的AI生成输出以及这些底层矛盾的解释。
arXiv:2502.01387v2 宣告类型: 替换
摘要:尽管深度强化学习(DRL)和大型语言模型(LLMs)各自在解决自主驾驶中的决策挑战方面展现出潜力,但DRL经常遭受高样本复杂性的困扰,而LLMs则难以确保实时决策。为了解决这些限制,我们提出了TeLL-Drive,这是一种混合框架,将教师LLM与基于注意力的学生DRL策略集成。通过对上下文丰富的提示中包含风险指标、历史场景检索和领域启发式信息,LLM通过逐步推理生成高层次的驾驶策略。随后,一种自我注意力机制将这些策略与DRL代理的探索融合,加速策略的收敛并提升在各种驾驶条件下的一致性。我们在多个交通场景下的实验结果显示,TeLL-Drive在成功率、平均回报和实时可行性方面优于现有的基线方法,包括其他基于LLM的方法。消融研究强调了每个模型组件的重要性,尤其是注意力机制与LLM驱动指导之间的协同作用。这些发现表明,TeLL-Drive显著增强了自主驾驶系统的适应性和安全性,并提供了一种更高效和可扩展的策略学习方法。完整的验证结果可在我们的网站上查看。
arXiv:2501.16609v2 类别:替换
摘要:尽管许多关于网络代理的研究强调了其代表用户自主执行任务的潜力,但在现实世界的情景中,代理在复杂任务上的表现往往不尽如人意,且在建模用户偏好方面也存在不足。这为人类与代理合作并有效利用代理的能力提供了机会。我们提出了 CowPilot 框架,支持自主导航以及人类与代理的协作式网络导航,并在任务成功率和任务效率方面进行了评估。CowPilot 通过允许代理提议下一步操作来减少人类需要执行的步骤数量,同时用户可以暂停、拒绝或采取替代行动。在执行过程中,用户可以通过 Override 建议或在需要时恢复代理控制来交错他们的操作。我们在五个常见的网站上进行了案例研究,发现协作模式实现了最高的成功率95%,同时仅需人类执行总步骤的15.2%。即使在任务执行过程中有用户干预,代理也能独自驱动一半以上的任务成功。CowPilot 可以作为跨网站进行数据收集和代理评估的有用工具,我们认为这将有助于研究用户和代理如何合作。视频演示可在 https://oaishi.github.io/cowpilot.html 查看。
arXiv:2501.06802v2 宣告类型: 替换
摘要:2020年,OpenAI 提出了第一种扩展定律,描述了模型损失与参数规模、数据量和训练计算量之间的关系。2024年,OpenAI 提出了第二种扩展定律,描述了模型推理性能与推理计算量之间的关系。在本文中,我们从无损压缩的角度,利用条件柯尔莫哥洛夫复杂度分析大规模语言模型(LLMs)的训练和推理过程,并统一了这两种扩展定律。我们发现,这两种扩展定律通过增加图灵机的执行步骤来改善对条件柯尔莫哥洛夫复杂度的逼近。第一种扩展定律通过增加模型参数的数量来增加执行步骤。第二种扩展定律通过增加中间令牌的数量来增加执行步骤。
arXiv:2501.03888v2 宣告类型: 替换
摘要: 尽管深度强化学习已被证明是有效的,但模型的黑盒特性阻碍了直接策略解释。为了解决这一问题,我们提出了一种称为神经DNF-MT的神经符号方法,用于端到端策略学习。神经DNF-MT模型的可微性质使其能够使用深度actor-critic算法进行训练。同时,其架构被设计成使得训练后的模型可以直接翻译成用标准(二值或概率)逻辑程序表达的可解释策略。此外,还可以添加额外的层来从复杂观察中提取抽象特征,作为一种谓词发明的形式。逻辑表示具有高度可解释性,我们展示了如何编辑确定性策略的标准表示形式,并将其重新包含到神经模型中,从而实现手动干预和学习策略的适应。我们在多种任务上评估了我们的方法,这些任务需要从不同形式的观察中学习确定性或随机行为。我们的实验结果表明,我们的神经DNF-MT模型在与竞争的黑盒方法相当的同时提供了可解释的策略。
arXiv:2412.14019v2 公告类型: 修订
摘要: 因果发现对于理解复杂系统至关重要,因为它旨在从观察数据(通常以因果有向无环图(DAG)的形式)中揭示因果关系。然而,传统方法往往依赖于一些强且无法验证的假设,这使其在实际应用中不可靠。大型语言模型(LLMs)提供了一种有潜力的替代方法,可以从基于文本的元数据中提取因果知识,整合领域专业知识。然而,LLMs 容易出现不可靠性和幻觉,需要采用策略来克服其局限性。一种这样的策略是利用一致性度量来评估可靠性。此外,大多数文本元数据没有清晰地区分直接因果关系与间接因果关系,进一步增加了发现因果 DAG 的复杂性。因此,专注于因果顺序而非因果 DAG 作为一种更实用和稳健的方法出现了。我们提出了一种新方法,用于从 LLM 获取的一致性分数中推导出一组有向无环图(表示合理的因果顺序)。我们的方法首先计算变量之间的成对一致性分数,生成一个半完备的有向图来聚合这些分数。从这种结构中,我们确定了最优的有向无环图,优先选择那些在所有配置中最大化一致性的方案。我们在多个公认的基准测试以及来自流行病学和公共卫生的实际数据集上测试了我们的方法。我们的结果证明了我们的方法在恢复因果顺序类方面的有效性。
arXiv:2412.13422v2 通告类型: 重写
摘要: 归纳推理——从少量观察中推断出普遍规则的过程——是人类智能的基本方面。近期研究表明,大型语言模型(LLMs)可以通过生成多个关于规则的假设并选择最能解释观察结果的那个来进行归纳推理。然而,由于多元独立同分布(IID)采样,经常生成语义上冗余的假设,导致计算资源浪费严重。在本文中,我们 1) 证明增加温度以增强多样性受到文本退化问题的限制,并且 2) 提出一种新颖的方法来提高多样性同时保持文本质量。我们首先分析了增加温度参数,即LLM的多样性控制参数,对IID假设的影响。我们的分析表明,随着温度的升高,假设的多样性和准确性会增加,但这种趋势由于文本退化而饱和。为了生成更多语义多样性和质量更高的假设,我们提出了一种受人类归纳推理启发的新方法,称为概念混合(MoC)。当应用于几个归纳推理基准时,MoC 在性能上显著优于标准的 IID 采样方法和其他方法。