边缘计算领域正在演变,其愿景是平台作为应用提供商和边缘服务器 (ES) 之间的动态中介,任务卸载与计算服务的付费相结合。为了确保高效的资源利用并满足严格的服务质量 (QoS) 要求,需要激励边缘服务器,同时优化平台的运营目标。本文研究了一个多智能体系统,其中平台和边缘服务器都是自利的实体,解决了收入最大化、资源分配和任务卸载的联合优化问题。我们提出了一种新颖的基于 Stackelberg 博弈的框架来模拟利益相关者之间的交互,并使用基于贝叶斯优化的集中式算法来解决优化问题。考虑到由于隐私问题而导致的信息收集方面的实际挑战,我们进一步设计了一种利用神经网络优化和隐私保护信息交换协议的分散式解决方案。大量的数值评估表明,与现有基线相比,所提出的机制能够实现优越的性能。
从时间序列数据中查询因果效应在医疗保健、经济学、气候科学和流行病学等各个领域都非常重要。然而,在存在随时间变化的潜在混杂因素的情况下,这项任务变得复杂起来,这些混杂因素会随着时间推移影响治疗变量和结果变量,并可能在因果效应估计中引入偏差。传统的工具变量 (IV) 方法由于需要预定义的 IV 或在动态环境中不成立的强假设,在解决此类复杂性方面受到限制。为了解决这些问题,我们开发了一种用于去偏因果效应估计的新型随时间变化的条件工具变量 (CIV),称为 TDCIV。TDCIV 利用长短期记忆 (LSTM) 和变分自动编码器 (VAE) 模型,在没有先验知识的情况下,从代理变量中解开并学习随时间变化的 CIV 及其条件集的表示。在马尔可夫性质和代理变量可用性的假设下,我们从理论上证明了这些学习到的表示在解决随时间变化的潜在混杂因素引起的偏差方面的有效性,从而能够进行准确的因果效应估计。我们提出的 TDCIV 是第一个能够有效学习随时间变化的 CIV 及其相关条件集,而无需依赖领域特定知识的方法。
近年来,三维物体重建技术取得了显著进展,但大多数现有的三维模型严重依赖现有的三维数据集。三维数据集的多样性不足导致三维重建模型的泛化能力有限。本文提出了一种利用多视角细化生成伪真值数据来增强三维重建的新框架(MVBoost)。MVBoost的关键在于结合多视角生成模型的高精度和三维重建模型的一致性,以创建一个可靠的数据源。具体来说,给定单视角输入图像,我们采用多视角扩散模型生成多个视角,然后利用大型三维重建模型生成一致的三维数据。MVBoost随后自适应地细化这些从一致的三维数据渲染的多视角图像,构建一个大型多视角数据集,用于训练前馈式三维重建模型。此外,输入视角优化旨在根据用户的输入图像优化相应的视角,确保最重要的视角能够准确地满足用户的需求。大量的评估表明,与以往的工作相比,我们的方法取得了优越的重建结果和强大的泛化能力。
我们提出了一种名为PROGRESSOR的新型框架,该框架从视频中学习与任务无关的奖励函数,从而能够通过目标条件强化学习 (RL) 进行策略训练,无需人工监督。此奖励的基础是一个关于任务进展分布的估计,该分布是当前、初始和目标观测的函数,并以自监督的方式学习。至关重要的是,PROGRESSOR 通过反推分布外观测的预测来对抗性地改进在线RL训练期间的奖励,以减轻非专家观测中固有的分布偏移。利用这种进展预测作为密集奖励以及对抗性反推,我们证明了PROGRESSOR 能够使机器人学习复杂行为,而无需任何外部监督。PROGRESSOR 在来自 EPIC-KITCHENS 的大规模自我中心人类视频上进行预训练,无需在域内特定任务数据上进行微调即可泛化到具有噪声演示的真实机器人离线 RL,其性能优于为机器人学习提供密集视觉奖励的当代方法。我们的研究结果突出了 PROGRESSOR 在直接动作标签和特定任务奖励难以获得的可扩展机器人应用中的潜力。
多模态大型语言模型(MLLM)的自我改进对于增强其可靠性和鲁棒性至关重要。然而,当前的方法往往严重依赖MLLM自身作为评判标准,导致高昂的计算成本和奖励作弊以及模型崩溃等潜在缺陷。本文介绍了一种新颖的、模型级别的无评判者自我改进框架。我们的方法采用受控反馈机制,同时无需在验证循环中使用MLLM。我们使用可控幻觉机制生成偏好学习对,并利用轻量级的对比语言图像编码器来评估和必要时反转配对,从而优化数据质量。在公共基准测试和我们新引入的旨在挑战幻觉控制的IC数据集上的评估表明,我们的模型优于传统技术。我们在计算需求显著降低的情况下实现了更高的精度和召回率。这种方法为MLLM的可扩展自我改进提供了一条高效的途径,在性能提升与降低资源需求之间取得了平衡。
大型语言模型(LLM)已取代众多自然语言处理任务中的传统方法。然而,在命名实体识别(NER)中,现有的基于LLM的方法……
AI驱动视频编辑的安全风险已引起广泛关注。尽管近期研究表明,向图像添加扰动可以保护图像免受恶意编辑,但将基于图像的方法直接应用于视频的每一帧进行扰动则会失效,因为视频编辑技术利用帧间信息的一致性来恢复被单独扰动的内容。为了应对这一挑战,我们利用视频内容的时间一致性,提出了一种简单高效、高度有效且广泛适用的方法——通用视频一致性防护(UVCG)。UVCG通过引入连续的、不可感知的扰动,将另一个视频(目标视频)的内容嵌入受保护的视频中,这能够迫使编辑模型的编码器将连续输入映射到错位的连续输出,从而抑制生成与预期文本提示一致的视频。此外,通过利用相邻帧之间扰动的相似性,我们采用扰动重用策略提高了扰动生成的计算效率。我们将UVCG应用于不同版本的潜在扩散模型(LDM),并评估了其在多个基于LDM的编辑管线中的有效性和泛化能力。结果证实了我们的方法在保护视频内容免受未经授权的修改方面的有效性、可迁移性和效率。
现代农业中,技术在种植业发展中发挥着至关重要的作用。为了提高作物产量,土壤需要具备一些特定的特性。西瓜种植需要沙质土壤、高温以及适当的灌溉。本研究旨在设计并实现一个基于物联网的智能西瓜田土壤特性表征系统,以测量土壤特性。该物联网系统使用不同的传感器测量土壤的湿度、温度和pH值,并将传感器数据通过Arduino和树莓派上传到云端,用户可以通过为此系统开发的移动应用程序和网页获取数据。为了确保框架的精度,本研究比较了现有田间土壤仪表测得的土壤参数读数、从传感器集成物联网系统获得的值以及从土壤科学实验室获得的数据。土壤中过量的盐分会影响西瓜的产量。本文提出了一种基于土壤电阻率测量土壤盐分的方法。它利用人工神经网络(ANN)从实验室获得的数据建立了土壤盐分和土壤电阻率之间的关系。
我们提出了一种快速、鲁棒的算法,用于在时域中应用线性时不变系统 (LTI) 的矩阵传递函数。计算多输入多输出 (MIMO) LTI 的 L 个状态似乎需要 L 次矩阵向量乘法。我们证明,对于任何有限的用户选择精度,矩阵向量乘法的次数可以减少到 $\mathcal{O}\left(\log_{2}L\right)$(在 $\mathcal{O}\left(L\right)$ 算法内)。该算法使用 z 域中理性传递函数的近似值,该近似值是一个度数为 $2^{N+1}-1$ 的矩阵多项式,其中 N 的选择是为了达到任何用户选择的精度。重要的是,在时域中使用级联实现,应用传递函数只需要 N+1 次矩阵向量乘法。我们注意到,LTI 系统用于状态空间模型 (SSM) 中对长程依赖关系进行建模,其中 L 很大。在 LTI 系统的状态矩阵由结构化矩阵近似逼近的应用中,计算成本进一步降低。我们简要介绍了几种可用于此目的的矩阵结构化近似方法。
大型语言模型 (LLM) 的最新进展已高效且积极地改变了许多领域的流程。物联网 (IoT) 是一个具有巨大 LLM 集成潜力的领域,这种集成带来了改进决策和系统交互的新机遇。本文探讨了 LLM 在物联网中的各种作用,重点关注其推理能力。我们展示了 LLM-IoT 集成如何促进各种物联网场景中的高级决策和上下文理解。此外,我们探讨了 LLM 与边缘、雾和云计算范式的集成,并展示了这种协同作用如何优化资源利用、增强实时处理以及为复杂的物联网应用提供可扩展的解决方案。据我们所知,这是第一项全面研究边缘、雾和云系统之间 IoT-LLM 集成的研究。此外,我们提出了一种用于工业物联网应用的新型系统模型,该模型利用基于 LLM 的集体智能来实现预测性维护和状态监控。最后,我们重点介绍了关键挑战和未解决的问题,这些问题为物联网 LLM 集成领域的未来研究提供了见解。