大型语言模型 (LLM) 生成内容的营收是网络广告的下一个前沿领域。我们考虑一种场景,其中广告商旨在影响 LLM 的响应以使其符合自身利益,而平台则寻求最大化广告商价值并确保用户满意度。挑战在于,广告商的偏好通常与用户的偏好相冲突,并且广告商可能会虚报其偏好。为了解决这个问题,我们引入了 MOSAIC,这是一种拍卖机制,它确保真实报告成为广告商的主导策略,并将每个广告商的效用与其对社会福利的贡献相一致。重要的是,该机制无需对 LLM 进行微调或访问模型权重,并且随着计算资源的增加,可以证明其收敛到经过最佳微调的 LLM 的输出。此外,它可以整合关于广告商的上下文信息,从而显著提高社会福利。通过对公开可用的 LLM 进行实验,我们表明 MOSAIC 能够以较低的计算开销实现较高的广告商价值和平台营收。虽然我们的应用动机是网络广告,但我们的机制可以应用于任何涉及货币转移的场景,使其成为一种通用的解决方案,用于真实地汇总自利代理对 LLM 生成回复的偏好。
我们通过在印度和美国进行面对面的民族志研究,调查了年轻人(18-24岁)在生成式人工智能(genAI)成为主流之际如何信任在线内容。我们发现,在线时,参与者判断哪些内容值得信赖的方式受到情绪状态的影响,我们将此称为“信息模式”。参与者会本能地在不同的模式之间切换以维持“情绪平衡”,并在他们花费最多时间的较为被动的模式中放弃运用批判性阅读技能。我们发现,参与者将来自既定在线环境的信任启发式方法应用到新兴环境(即genAI)中。这导致他们使用了不合适的信任启发式方法,并使他们面临信任虚假和误导性信息的风险。尽管许多人对人工智能心存疑虑,并优先考虑效率,但他们还是使用genAI和习惯性的启发式方法来快速实现目标,而牺牲了准确性。我们得出结论,旨在匹配用户不同信息模式的读写能力干预措施将最有效。
基于事件的传感器因其快速的响应时间和将传感器数据编码为连续时间差而非常适合实时处理。然而,当数据转换为基于帧的格式时,这些和其他有价值的特性(例如高动态范围)会被抑制。然而,目前大多数方法要么将事件折叠成帧,要么在直接逐事件处理事件数据时无法扩展。在这项工作中,我们解决了大规模处理此类传感器发出的长事件流的逐事件建模的关键挑战,这对神经形态计算来说是一个特别相关的问题。虽然先前的方法最多可以处理几千个时间步长,但我们基于现代循环深度状态空间模型的模型可以扩展到数百万事件的事件流,用于训练和推理。我们利用其稳定的参数化来学习长期依赖关系、沿序列维度的并行化及其有效整合异步事件的能力,从而将其扩展到长的事件流。我们进一步用新颖的以事件为中心的技术增强这些模型,使我们的模型能够在几个基于事件的基准测试中达到或超过最先进的性能。在脉冲语音命令任务中,我们将最先进水平提高了 7.7%,达到 88.4%。在 DVS128-Gestures 数据集上,我们在不使用帧或卷积神经网络的情况下取得了具有竞争力的结果。我们的工作首次证明,可以使用完全基于事件的处理和纯循环网络在几个基于事件的基准测试中实现最先进的任务性能。
大型语言模型 (LLM) 的最新进展显著推动了角色扮演语言代理 (RPLA) 的兴起,即旨在模拟指定角色的专业人工智能系统。通过利用LLM的多种高级能力,包括上下文学习、指令遵循和社交智能,RPLA实现了令人瞩目的类人感和生动的角色扮演效果。RPLA可以模拟各种各样的角色,从历史人物和虚构人物到现实生活中的人物。因此,它们催生了许多人工智能应用,例如情感伴侣、互动视频游戏、个性化助手和副驾驶以及数字克隆。本文对该领域进行了全面综述,阐述了RPLA与尖端LLM技术集成的演变和最新进展。我们将角色分为三类:1)人口统计角色,利用统计学上的刻板印象;2)人物角色,专注于知名人物;3)个性化角色,通过持续的用户互动定制,以提供个性化服务。我们首先对当前RPLA的方法进行了全面概述,然后详细介绍了每种角色类型,涵盖相应的数据来源、代理构建和评估。之后,我们讨论了RPLA的基本风险、现有局限性和未来前景。此外,我们简要回顾了RPLA在人工智能应用中的应用,这反映了塑造和推动RPLA研究的实际用户需求。通过这项工作,我们旨在建立RPLA研究和应用的清晰分类,促进该关键且不断发展的领域未来的研究,并为人类和RPLA和谐共存的未来铺平道路。
切片Wasserstein距离(SW)和广义切片Wasserstein距离(GSW)因其计算和统计的可扩展性而被广泛应用。然而,SW和GSW仅定义于支持在同质域上的分布之间。这一限制阻碍了它们在具有异质联合分布(其边缘分布支持在多个不同域上)的应用中的使用。直接在联合域上使用SW和GSW无法进行有意义的比较,因为它们的同质切片算子,即Radon变换(RT)和广义Radon变换(GRT),不足以捕捉联合支撑集的结构。为了解决这个问题,我们提出了两个新的切片算子,即部分广义Radon变换(PGRT)和分层混合Radon变换(HHRT)。更详细地说,PGRT是部分Radon变换(PRT)的推广,它非线性地变换函数参数的子集,而HHRT是在边缘域参数上对PRT和多个特定于域的PGRT的组合。通过使用HHRT,我们将SW扩展到专门用于比较异质联合分布的分层混合切片Wasserstein (H2SW)距离。然后,我们讨论了H2SW的拓扑、统计和计算特性。最后,我们证明了H2SW在3D网格变形、深度3D网格自编码器和数据集比较中的良好性能。
大型语言模型 (LLM) 凭借其多功能性和对各种任务的实用性,已在科学和工业领域得到广泛应用。然而,大规模部署和服务这些模型以实现最佳吞吐量和延迟仍然是一个重大挑战,这主要是因为LLM对计算和内存的需求很高。可以通过路由机制将针对特定任务优化的专用模型组合起来,从而创建一个模块化推理系统。本文介绍了 Expert Router,这是一种可扩展的路由架构,可将提示定向到专门的专家模型。我们对多种 Expert Router 配置进行了表征,包括在最多 1000 个并发用户下使用量化和非量化权重的不同 LLama 3 模型。我们的研究结果表明,Expert Router 引入了最小的延迟开销,其中专家模型的配置是性能结果的主要决定因素。高参数专家模型在中等并发级别下可提供稳定的吞吐量和延迟。相比之下,与张量并行基线模型相比,较小的专家模型在更广泛的并发用户范围内保持竞争力。这突出了 Expert Router 在高效且可扩展的 LLM 部署方面的潜力。
全景畸变对360度深度估计提出了重大挑战,尤其在南北极尤为明显。现有方法要么采用双投影融合策略去除畸变,要么建模长程依赖关系以捕捉全局结构,这可能导致结构模糊或局部感知不足。本文提出了一种球面几何变换器SGFormer来解决上述问题,创新性地将球面几何先验知识融入视觉变换器。为此,我们将变换器解码器重新定位到球面先验解码器(称为SPDecoder),该解码器力求在解码过程中保持球面结构的完整性。具体来说,我们利用双极重投影、圆形旋转和曲线局部嵌入分别保持等畸变、连续性和表面距离的球面特性。此外,我们提出了一种基于查询的全局条件位置嵌入,以补偿不同分辨率下的空间结构。它不仅增强了空间位置的全局感知,而且还锐化了不同块之间的深度结构。最后,我们在流行的基准测试中进行了大量的实验,证明了我们优于最先进的解决方案。
虽然人工智能正在广泛地改变软件工程(SE)领域,但SE仍然需要一个框架来全面考虑所有阶段,以促进自动化软件演化(ASEv),特别是对于上下文丰富的智能应用程序,而不是独立地征服每个部分。其复杂性源于智能应用程序的复杂性、数据源的异构性和上下文的不断变化。本研究提出一个实现自动化软件演化的概念框架,强调多模态学习的重要性。基于该概念框架,开发了一个选择性顺序范围模型(3S)模型,它可以用于对现有和未来的研究进行分类,前提是这些研究涵盖不同的SE阶段和多模态学习任务。这项研究是迈向更高级ASEv蓝图的初步步骤。所提出的概念框架可以作为从业人员深入这一领域的实用指南。虽然这项研究是关于智能应用程序的,但随着人工智能为软件生命周期带来更多智能,该框架和分析方法可以适用于其他类型的软件。
任务卸载对于平衡物联网等网络中设备间的计算负载至关重要,但也带来了巨大的优化挑战,包括在严格的通信和存储约束下最小化延迟和能耗。传统的优化方法在可扩展性方面存在不足,而启发式方法难以获得最优结果。强化学习 (RL) 提供了一条有前景的途径,通过迭代交互学习最优的卸载策略。然而,强化学习的有效性取决于能否访问丰富的dataset和定制的、真实的训练环境。为了解决这个问题,我们引入了PeersimGym,这是一个开源的、可定制的仿真环境,专门用于开发和优化计算网络中的任务卸载策略。PeersimGym支持各种网络拓扑和计算约束,并集成了基于PettingZoo的接口,用于在单代理和多代理设置中部署强化学习agent。此外,我们通过深度强化学习agent的实验演示了该环境的实用性,展示了基于强化学习的方法在显著增强分布式计算环境中卸载策略方面的潜力。因此,PeersimGym弥合了理论强化学习模型及其实际应用之间的差距,为高效任务卸载方法的进步铺平了道路。
脉冲Transformer,它将脉冲神经网络 (SNN) 与 Transformer 架构集成,因其在能源效率和高性能方面的潜力而备受关注。然而,该领域现有的模型仍然存在性能欠佳的问题。我们引入了多项创新来改进性能:i) 我们提出了一种新颖的脉冲形式 Q-K 注意力机制,专门针对 SNN 设计,该机制通过具有线性复杂度的二元向量有效地模拟标记或通道维度的重要性。ii) 我们将层次结构(它显著有利于大脑和人工神经网络的性能)融入脉冲 Transformer 中,以获得多尺度脉冲表示。iii) 我们为脉冲 Transformer 设计了一个通用且强大的补丁嵌入模块,该模块具有专门设计的变形捷径。我们将这些创新结合起来,开发了 QKFormer,这是一种基于 Q-K 注意力的直接训练的层次脉冲 Transformer。QKFormer 在各种主流数据集上显示出比现有最先进的 SNN 模型显著优越的性能。值得注意的是,QKFormer(64.96 M)与 Spikformer(66.34 M,74.81%)大小相当,在 ImageNet-1k 上实现了突破性的 85.65% 的 top-1 准确率,比 Spikformer 高出 10.84%。据我们所知,这是首次直接训练的 SNN 在 ImageNet-1K 上的准确率超过 85%。代码和模型已公开发布在 https://github.com/zhouchenlin2096/QKFormer