人工智能在自动化信息判断任务中是否存在认知偏差?尽管最近在衡量和减轻人工智能和大型语言模型(LLM)中的社会和算法偏差方面取得了进展,但大型语言模型在多大程度上表现得“理性”,或者它们是否也容易受到人类认知偏差诱因的影响,这一点尚不清楚。为了解决这个问题,我们的研究包括一项众包用户实验和一项基于大型语言模型的模拟实验,比较了信息检索 (IR) 环境下大型语言模型和人工评判者在潜在诱饵效应下的可信度评估,并根据传统人工评估者的基线,实证检验了大型语言模型在 COVID-19 医学(错误)信息评估任务中的认知偏差程度。从被试间用户实验和基于大型语言模型的复制实验中收集的结果表明:1)更大更新的LLM往往在区分可信信息和错误信息方面表现出更高的一致性和准确性。然而,由于存在更显著的诱饵式错误信息结果,它们更有可能给予错误信息更高的评价;2)虽然人类和LLM评估中都出现了诱饵效应,但与人工可信度评级相比,LLM判断中不同条件和主题的诱饵效应更为普遍。与普遍假设的人工智能工具的“理性”相反,我们的研究实证证实了大型语言模型中嵌入的认知偏差风险,评估了诱饵效应对大型语言模型与人工可信度评估的影响,从而突出了对人工智能去偏差、开发心理学指导的人工智能审计技术和政策(用于自动化判断任务及其他领域)的复杂性和重要性。
基于P300事件相关电位的脑机接口拼写器允许用户通过检测视觉刺激后脑电信号中的P300成分,在图形用户界面上选择目标键来撰写句子。大多数P300拼写器脑机接口要求用户逐字拼写单词,或拼写前几个字母,导致按键需求量高,从而增加了时间成本、认知负荷和疲劳感。这凸显了开发更高效、更友好的快速句子撰写方法的必要性。在这项工作中,我们介绍了ChatBCI,这是一种利用大型语言模型(LLM)的零样本学习能力来根据用户拼写的首字母建议单词或预测后续单词(或词组),从而减少按键次数并加快句子撰写速度的P300拼写器脑机接口。ChatBCI通过远程查询GPT-3.5 API来检索单词建议。设计了一个新的图形用户界面,将GPT-3.5的单词建议显示为额外的按键。采用SWLDA进行P300分类。七名受试者完成了两个在线拼写任务:1)使用ChatBCI复制拼写自己创作的句子;2)使用ChatBCI的单词建议即兴创作句子。结果表明,在任务1中,ChatBCI平均性能优于逐字拼写脑机接口拼写器,时间和按键次数分别减少了62.14%和53.22%,信息传输率提高了198.96%。在任务2中,ChatBCI实现了80.68%的按键节省率,打字速度达到创纪录的8.53字符/分钟。总的来说,ChatBCI通过使用远程LLM查询,在现实场景中增强了句子撰写能力,在无需本地模型训练或存储的情况下,显著优于传统的拼写器。ChatBCI的(多)词预测与其新的图形用户界面相结合,为开发新一代高效且有效的实时通信拼写器脑机接口铺平了道路,尤其适用于沟通和行动不便的用户。
基于扩散模型的图像生成展现了卓越的学习能力,有效地捕捉了训练数据集的完整分布。它们能够生成各种各样的样本图像,尽管图像保真度有所权衡。引导采样方法,例如分类器引导 (CG) 和无分类器引导 (CFG),专注于将采样集中在学习良好的高概率区域,以生成高保真度的图像,但每种方法都有其局限性。由于使用了反向传播进行分类器梯度下降,CG 计算成本很高,而 CFG 作为一种无梯度方法,效率更高,但与 CG 相比,其类别标签对齐性有所降低。在这项工作中,我们提出了一种高效的引导方法,该方法无需使用梯度下降即可充分利用预训练的分类器。通过仅在推理模式下使用分类器,在每个时间步长确定一个时间自适应参考类别标签和相应的引导尺度,用于引导采样。在类别条件和文本到图像生成的扩散模型上的实验表明,所提出的无梯度分类器引导 (GFCG) 方法始终提高了类别预测精度。我们还表明 GFCG 与其他引导采样方法(如 CFG)互补。当与最先进的自动引导 (ATG) 方法结合时,无需额外的计算开销,它可以提高图像保真度,同时保持多样性。对于 ImageNet 512×512,我们实现了创纪录的 $\text{FD}_{\text{DINOv2}}$ 值 23.09,同时实现了比 ATG (90.2%) 更高的分类精度 (94.3%)。
深度学习模型通常需要专门设计的架构来处理不同维度的数 据,例如一维时间序列、二维图像和三维体数据。现有的双向模型主要关注序列数据,难以有效扩展到更高维度。为了解决这个问题,我们提出了一种新颖的多维双向神经网络架构,名为 Nd-BiMamba2,它可以高效地处理一维、二维和三维数据。Nd-BiMamba2 基于 Mamba2 模块,并引入了创新的双向处理机制和自适应填充策略,以在保持计算效率的同时捕获多维数据中的双向信息。与需要为不同维度数据设计特定架构的现有方法不同,Nd-BiMamba2 采用具有模块化设计的统一架构,简化了开发和维护成本。为了验证 Nd-BiMamba2 的可移植性和灵活性,我们成功地将其导出到 ONNX 和 TorchScript,并在不同的硬件平台(例如 CPU、GPU 和移动设备)上进行了测试。实验结果表明,Nd-BiMamba2 在多个平台上运行效率很高,证明了其在实际应用中的潜力。代码已开源:https://github.com/Human9000/nd-Mamba2-torch
AdamZ是Adam优化器的一种改进版本,旨在提高神经网络训练的收敛效率。该优化器通过结合解决优化过程中常见过冲和停滞问题的机制来动态调整学习率。具体来说,AdamZ在检测到过冲时降低学习率,在停滞期间提高学习率,并利用超参数(例如过冲和停滞因子、阈值和耐心级别)来指导这些调整。虽然与其他一些优化器相比,AdamZ可能会导致略长的训练时间,但它始终在最小化损失函数方面表现出色,这使其在精度至关重要的应用中特别有利。基准测试结果证明了AdamZ在保持最佳学习率方面的有效性,从而提高了各种任务的模型性能。
实时对话式AI代理在动态的户外环境(如自动车道点餐系统)中执行自然语言理解 (NLU) 时面临挑战。这些环境要求NLU模型在边缘设备上严格的延迟和内存限制下处理背景噪声、不同口音和多意图查询。此外,对来自上游自动语音识别 (ASR) 错误的鲁棒性至关重要,因为这些环境中的ASR输出通常很嘈杂。我们引入了Babylon,这是一种基于Transformer的架构,它将NLU视为意图翻译任务,将自然语言输入转换为常规语言单元序列(“转码”),这些单元同时编码意图和槽位信息。这种公式允许Babylon在一个对话轮次中管理多意图场景。此外,Babylon结合了基于LSTM的令牌池化机制来预处理音素序列,减少输入长度并优化低延迟、低内存的边缘部署。这也有助于减轻ASR输出中的不准确性,增强系统鲁棒性。虽然这项工作侧重于车道点餐,但Babylon的设计可以扩展到类似的易受噪声影响的场景,例如售票亭。我们的实验表明,与通常使用的NMT模型(如Flan-T5和BART)相比,Babylon在准确性-延迟-内存占用方面取得了显著更好的权衡,证明了其在边缘部署环境中进行实时NLU的有效性。
现代深度策略梯度方法在模拟机器人任务中取得了有效的性能,但它们都需要大型回放缓冲区或昂贵的批量更新,甚至两者兼而有之,这使得它们与资源受限的计算机的实际系统不相容。我们证明了当这些方法仅限于小型回放缓冲区或在增量学习过程中(其中更新仅使用最新的样本,无需批量更新或回放缓冲区)时,会灾难性地失败。我们提出了一种新颖的增量深度策略梯度方法——动作值梯度 (AVG)——以及一组归一化和缩放技术,以应对增量学习中不稳定性的挑战。在机器人模拟基准测试中,我们证明 AVG 是唯一能够有效学习的增量方法,其最终性能通常与批量策略梯度方法相当。这一进步使我们首次能够仅使用增量更新在真实机器人上实现有效的深度强化学习,使用了机器人机械臂和移动机器人。
文本到图像扩散模型,例如稳定扩散模型,在生成高质量图像方面展现出非凡的潜力。然而,最近的研究强调了在训练这些模型时使用未经授权数据的担忧,这可能导致知识产权侵犯或隐私泄露。减轻这些问题的一种有前景的方法是为图像添加水印,然后检查生成模型是否复制了类似的水印特征。在本文中,我们研究了应用于文本到图像模型的各种基于水印的保护方法的鲁棒性。我们观察到,常见的图像变换无法有效去除水印效果。因此,我们提出了\tech{},它利用扩散过程对受保护的输入进行受控图像生成,保留输入的高级特征,同时忽略水印使用的低级细节。然后,少量生成的图像用于微调受保护的模型。我们在三个数据集和140个文本到图像扩散模型上的实验表明,现有的最先进的保护方法对RATTAN并不鲁棒。
Kleinberg和Mullainathan [KM24]的最新工作为极限语言生成提供了一个具体的模型:给定来自未知目标语言的示例序列,目标是从目标语言生成新的示例,以便在某个点之后不会生成任何错误的示例。与密切相关的语言识别问题的强烈负面结果形成鲜明对比的是,他们为所有可数语言集合的极限语言生成建立了积极的结果。Raman和Tewari [RT24]的后续工作研究了算法在实现正确的语言生成之前所需的独特输入数量的界限——即,这对于集合中的所有语言是否都是一个常数(统一生成)还是一个依赖于语言的常数(非统一生成)。我们证明,每个可数语言集合都具有一个具有更强非统一极限生成属性的生成器。然而,虽然[KM24]的生成算法可以使用成员查询来实现,但我们证明任何算法都不能仅使用成员查询来非统一生成仅包含两个语言的集合。我们还通过引入穷举生成的定义,正式化了[KM24]生成算法中有效性和广度之间的张力,并展示了穷举生成的强烈负面结果。我们的结果表明,在极限生成中,有效性和广度之间的权衡是固有的。最后,受可以选择获取反馈的算法的启发,我们考虑了具有反馈的统一生成模型,根据集合的复杂性度量完全刻画了这种具有反馈的统一生成可能的语言集合。
城市场景重建对于真实的自动驾驶模拟器至关重要。尽管现有方法已经实现了逼真的重建效果,但它们大多关注针孔相机,而忽略了鱼眼相机。事实上,如何在驾驶场景中有效模拟鱼眼相机仍然是一个未解决的问题。在这项工作中,我们提出了UniGaussian,这是一种新颖的方法,它学习来自多种相机模型的统一三维高斯表示,用于自动驾驶中的城市场景重建。我们的贡献有两个方面。首先,我们提出了一种新的可微渲染方法,该方法使用一系列针对鱼眼相机模型定制的仿射变换来扭曲三维高斯分布。这解决了三维高斯散射与鱼眼相机的兼容性问题,该问题受到镜头或镜子引起的射线畸变的阻碍。此外,我们的方法在保证可微性的同时保持实时渲染。其次,基于可微渲染方法,我们设计了一个新的框架,该框架学习来自多种相机模型的统一高斯表示。通过应用仿射变换以适应不同的相机模型,并利用来自不同模态的监督来规范共享的高斯分布,我们的框架学习了一个统一的三维高斯表示,该表示具有来自多个来源的输入数据,并实现了对驾驶场景的整体理解。因此,我们的方法对多种传感器(针孔相机和鱼眼相机)和模态(深度、语义、法线和激光雷达点云)进行建模。我们的实验表明,我们的方法在驾驶场景模拟中实现了优越的渲染质量和快速的渲染速度。