arXiv:2502.01692v3 宣布类型: replace-cross
摘要:指导扩散模型生成是定制预训练扩散模型的生成过程以应对特定下游任务的一个有 promise 的方向。现有指导扩散模型要么依赖于预收集的数据集对指导模型进行训练,要么需要目标函数是可微的。然而,对于大多数实际任务来说,离线数据集往往不可用,且它们的目标函数往往不可微,例如带有human偏好的图像生成、药物发现中的分子生成以及材料设计。因此,我们需要一种**在线**算法能够在运行时收集数据,并支持**黑盒**目标函数。此外,算法的**查询效率**也至关重要,因为在实际场景中,对查询的目标进行评估往往是非常昂贵的。在本文中,我们提出了一种新的简单算法**Fast Direct**,以实现高效的在线黑盒目标生成。我们的Fast Direct在数据流形上构建一个伪目标,使用通用方向更新扩散模型的噪声序列,这有望实现高效的指导生成。在十二项高分辨率(1024 × 1024)图像目标生成任务和六项3D分子目标生成任务上的广泛实验表明,分别可以获得最多6倍到10倍和最多11倍到44倍的查询效率改进。我们的实现已在以下 GitHub 地址公开:https://github.com/kimyong95/guide-stable-diffusion/tree/fast-direct
arXiv:2405.01768v3 通告类型: 替换-交叉
摘要: 为了提供高质量的个性化回复,大型语言模型(LLMs)必须有效地整合上下文信息——特定于最终用户的个人、人口统计和文化信息。例如,当要求模型用“我是一个幼儿”作为上下文解释牛顿第二定律时,其回复应该与“我是一名物理学教授”作为上下文时有所不同。然而,在实践中利用上下文是一项复杂且具有挑战性的任务,通常依赖于具体情况或用户群体。模型必须在提供具体的个性化回复和保持普遍适用性之间找到平衡。当前的解决方案,如提示工程和微调,需要收集上下文适当的例子来进行示例,这使得它们耗时且难以在不同上下文中使用。在本文中,我们介绍了上下文导向(CoS)——一种简单、无需训练的解码方法,可以增强上下文在下一个词预测中的影响。CoS通过比较包含和不包含上下文的两个LLM前向传递的输出概率来计算上下文影响。通过线性缩放上下文影响,CoS允许从业者灵活地控制不同用例中的个性化程度。我们展示了CoS可以应用于自回归LLMs,并在个性化推荐方面表现出强劲性能。此外,我们展示了CoS可以作为一种贝叶斯生成模型,用于推断和量化开放文本之间的相关性,从而拓宽了其潜在应用领域。
arXiv:2502.03206v2 跨领域通知类型:交叉学科
摘要:行走是类人机器人的一项基本技能。然而,大多数现有工作将行走简化为单一的、繁琐的、不可扩展且被动的运动。这限制了类人机器人的运动学能力。与此相反,人类具备多样的体育能力:跑步、跳跃、 hops,并且能够精细调整行走参数,如频率和脚部高度。在本文中,我们研究了将这种多样性带来类人行走的解决方案,并提出了一种统一且通用的人体全身控制器 HUGWBC,用于精细控制行走。通过在任务和行为方面设计通用的命令空间,并结合对称损失和干预训练等先进技术,在仿真中学习全身类人控制策略,HUGWBC 使现实世界的类人机器人能够生产出各种自然步态,包括行走(跑步)、跳跃、站立和 hops,所有这些步态都可以通过可定制的参数(例如频率、脚摆高度)以及不同的身体高度、腰部旋转和身体俯仰在一个单一的策略中实现。除了行走,HUGWBC 还支持来自外部上身控制器(如遥控操作)的实时干预,从而在任何行走行为下维持精确控制的同时进行操作。我们的实验验证了 HUGWBC 在所有命令下进行干预和不进行干预时的高跟踪精度和鲁棒性,并进一步深入分析了各种命令如何影响人类动作以及它们之间的关系。据我们所知,HUGWBC 是第一个支持如此精细的行走行为、具备高鲁棒性和灵活性的人体全身控制器。
arXiv:2502.03038v2 通知类型: 新
摘要:图灵奖得主Yann LeCun曾有一个广为流传的类比,将机器智能比作蛋糕——无监督学习奠定了基础,监督学习增加了糖霜,而强化学习则是最后的樱桃。我们将这个“智能化的蛋糕”类比从简单的结构隐喻扩展到人工智能系统生命周期的全过程,将其进一步扩展到原材料(数据)的获取、食谱(指令)的构想、烘焙过程(训练)以及品尝和销售蛋糕(评估与分配)。利用我们重新概念化的视角,我们描述了每一步所伴随的社会影响及其在统计假设下的边界。尽管技术基础和社会影响紧密交织,但在许多情况下它们是孤立研究的,这形成了限制有意义参与的障碍。我们重新概念化为弥合这一差距提供了道路,通过将技术基础与社会结果相互作用进行映射,突出了跨学科对话的机会。最后,我们提出了每个比喻的人工智能蛋糕生命周期阶段的实际建议,增强未来的AI从业者、用户和研究者对更广泛的人工智能讨论的认识和能力。
arXiv:2502.02649v2 宣告类型: 新
摘要:本文认为不应开发完全自主的人工智能代理。为支持这一观点,我们从先前的科学研究文献和当前的产品营销中进行了阐述,区分了不同类型的人工智能代理,并详细说明了每个级别的伦理价值,记录了潜在利益和风险之间的权衡。我们的分析表明,系统的自主性越高,对人的风险就越大:用户赋予人工智能代理的控制权越多,对人的风险就越大。特别是关于安全风险尤为令人担忧,这些风险会影响人类生活并对其他价值产生影响。
arXiv:2502.02610v1 类型: 新发表
摘要: 音乐是一种深刻个人化的体验,我们的目标是通过一个完全自动化的个性化音乐视频生成管道来增强这种体验。我们的工作使得听众不仅仅是消费者,还可以成为音乐视频生成过程中的共同创造者,通过基于歌词、节奏和音乐情感创建个性化的、一致的和情境驱动的视觉效果。管道结合了多模态翻译和生成技术,并利用低秩适应对听众的图像进行处理,从而创造出既反映音乐又反映个人的沉浸式音乐视频。为了确保用户身份的伦理使用,我们还引入了 CHARCHA(暂未授予专利)——一种面部身份验证协议,该协议在保护人们免受未经授权使用其面部的同时,还从用户那里收集授权图像以个性化其视频。因此,本文提供了一个安全且创新的框架,用于创建高度个性化的音乐视频。
arXiv:2502.01127v2 宣告类型: 替换-交叉
摘要:当多名影响者试图争夺接收者的注意力时,他们的影响策略必须考虑到彼此的存在。我们引入了影响者博弈(Battling Influencers Game, BIG),这是一种多玩家同时行动的多位势博弈,用来提供对这一社会现象的博弈论刻画。我们证明BIG是一种潜力博弈,拥有一个或无限多个纯纳什均衡(NEs),这些纯NEs可以通过凸优化找到。有趣的是,我们还证明,在任何纯NE中,除了可能最多一个,所有影响者都必须将他们的行为夸大到最大程度。换句话说,由于影响者预期其他影响者会部分抵消其影响力,因此他们采取非真相和极端的行为是有道理的。我们讨论了BIG对价值对齐的影响。
arXiv:2502.00634v2 安布类型: replace-cross
摘要: 同步机器翻译(SiMT)在其接收流式源输入时生成翻译。这要求SiMT模型学习读写策略,决定何时翻译以及何时等待更多源输入。大量语言学研究表明,在SiMT场景中的观众有不同的偏好,例如准确的翻译、简单的语法和不必要的延迟。调整SiMT模型以与这些人类偏好相一致对提高其性能至关重要。然而,这个问题仍然未被探索。此外,SiMT任务中的偏好优化也具有挑战性。现有方法仅专注于优化生成的响应,忽略了偏好优化阶段与延迟和读写策略优化相关的人类偏好。为解决这些挑战,我们提出了Simultaneous Preference Learning(SimulPL),这是一种针对SiMT任务的偏好学习框架。在SimulPL框架中,我们将SiMT人类偏好分为五个方面:翻译质量偏好、单调性偏好、关键点偏好、简洁性偏好和延迟偏好。通过利用前四个偏好,我们构建了人类偏好提示,以高效地引导GPT-4/4o生成SiMT任务的偏好数据。在偏好优化阶段,SimulPL将延迟偏好整合到优化目标中,并使SiMT模型能够改进读写策略,从而更有效地与人类偏好相一致。实验结果表明,在Zh→En、De→En和En→Zh SiMT任务的所有延迟级别上,SimulPL与人类偏好的一致程度更好。我们的数据和代码将可从https://github.com/EurekaForNLP/SimulPL获取。
arXiv:2502.00620v2 宣告类型: replace-cross
摘要:弱到强泛化(W2SG),即弱模型监督强模型,为理解未来人类如何引导超人类智能提供了重要的类比。一些有希望的实验证据表明,强模型可以超越其弱的监督者。虽然最近的工作已经为这一现象提供了理论上的见解,但弱模型和强模型之间交互作用如何驱动W2SG这一问题仍然不清楚。我们通过理论视角对W2SG进行研究,并证明它可以使用从弱模型和强模型内部表示的主要成分导出的核来表征。这些核可以用来定义一个空间,在高层次上,它可以捕捉弱模型无法学习但可由强模型学习的东西。将标签投影到该空间可以量化由于弱监督而强模型未能充分发挥其潜力的程度。这种表征还提供了有关强模型如何纠正某些弱监督中的错误的见解,无论是否存在过拟合。我们的理论具有重大的实际意义,提供了一种基于表示的度量,可以在不需要标签的情况下预测W2SG性能趋势,在分子预测任务和涉及52个大语言模型的5个NLP任务中进行了实验验证。
arXiv:2502.00334v2 通知类型: 替换跨领域
摘要:大型语言模型(LLMs)在解决复杂推理任务方面展现了令人瞩目的能力,特别是在数学领域。然而,物理推理领域面临着独特的挑战,这些挑战得到了显著较少的关注。现有的评估基准往往在评估LLMs在本科物理层次的广度和深度方面不够充分,强调了全面评估的需要。为了填补这一空白,我们引入了UGPhysics,一个大型且全面的基准,专门设计用于评估LLMs在本科物理(UGPhysics)推理方面的能力。UGPhysics包含5,520个本科物理问题,涵盖了13个科目,七种不同的答案类型和四种不同的物理推理技能,所有这些都经过严格筛选以防止数据泄露。此外,我们还开发了一个名为Model-Assistant Rule-based Judgment(MARJ)的管道,专门针对评估物理问题的答案正确性,确保准确评价。我们对31个领先LLMs的评估结果显示,总体最高准确率49.8%(由OpenAI-o1-mini实现)强调了更强物理推理技能的需求,而不仅仅是数学能力。我们希望通过UGPhysics和MARJ推动未来用于物理推理的AI的发展。相关代码和数据可在https://github.com/YangLabHKUST/UGPhysics 上获取。