轻量级且高效的神经网络模型对于深度联合信源信道编码(JSCC)至关重要,这在语义通信中扮演着关键角色。本文提出了一种名为 MambaJSCC 的新型 JSCC 架构,它在保持低计算量和参数开销的情况下实现了最先进的性能。MambaJSCC 利用视觉状态空间模型与信道自适应 (VSSM-CA) 模块作为其骨干,用于在无线信道上传输图像,其中 VSSM-CA 主要由广义状态空间模型 (GSSM) 和零参数、零计算信道自适应方法 (CSI-ReST) 组成。我们设计了 GSSM 模块,利用可逆矩阵变换来表达广义扫描扩展操作,并从理论上证明了两个 GSSM 模块可以有效地捕获全局信息。我们发现 GSSM 本身具有适应信道的能力,这是一种内生智能的形式。基于此,我们设计了 CSI-ReST 方法,该方法将信道状态信息 (CSI) 注入 GSSM 的初始状态以利用其自然响应,并注入残余状态以减轻 CSI 遗忘,从而在不引入额外的计算量和参数开销的情况下实现有效的信道自适应。实验结果表明,MambaJSCC 不仅在各种场景中优于现有的 JSCC 方法(例如 SwinJSCC),而且显着减少了参数大小、计算开销和推理延迟。
时空预测是各种智慧城市应用的关键组成部分,例如交通优化、能源管理和社会经济分析。近年来,人们提出了几种自动时空预测方法,以自动搜索最优的神经网络架构来捕捉复杂的时空依赖关系。然而,现有的自动方法存在神经架构搜索开销过高的缺陷,这阻碍了它们的实际应用以及对更细粒度的各种时空算子的进一步探索。本文提出了一种名为AutoSTF的解耦自动神经架构搜索框架,用于实现经济高效的自动时空预测。从效率的角度来看,我们首先将混合搜索空间解耦为时间空间和空间空间,并分别设计了表示压缩和参数共享方案来缓解参数爆炸。解耦时空搜索不仅加快了模型优化过程,而且为更有效的时空依赖建模留下了新的空间。从有效性的角度来看,我们提出了一种多块迁移模块,以联合捕捉多粒度时间依赖关系,并扩展了空间搜索空间,以实现更细粒度的逐层空间依赖搜索。在八个数据集上的大量实验表明了AutoSTF在准确性和效率方面的优越性。具体而言,我们提出的方法与最先进的自动时空预测方法相比,速度提高了高达13.48倍,同时保持了最佳的预测精度。
与单一机器人相比,多机器人系统 (MRS) 由于拥有多个具有不同能力的成员,可以更有效地执行任务。然而,由于存在不确定性和各种障碍物(例如,建筑群和树木),在广阔的现实世界环境中部署 MRS 仍然具有挑战性。由于对环境不确定性对性能的了解有限,MRS 无法灵活地调整其行为(例如,团队合作、负载共享、轨迹规划),以确保环境适应和任务完成。在这项工作中,设计了一种新颖的联合偏好景观学习和行为调整框架 (PLBA)。PLBA 有效地将实时的人类引导整合到 MRS 协调中,并利用具有可变输出噪声的稀疏变分高斯过程,通过利用环境特征之间的空间相关性来快速评估人类偏好。然后,一种基于优化的行为调整方法安全地将 MRS 行为适应环境。为了验证 PLBA 在 MRS 行为适应中的有效性,设计了洪水灾害搜救任务。20 位人类用户根据从 MRS 行为中获得的人类偏好提供了 1764 条反馈,这些偏好与“任务质量”、“任务进度”、“机器人安全”有关。预测准确率和适应速度结果表明 PLBA 在偏好学习和 MRS 行为适应方面的有效性。
随着大型语言模型 (LLM) 的发展,越来越多的开源软件项目将 LLM 作为其核心功能组件。尽管 LLM 的研究和实践引起了相当大的兴趣,但目前还没有专门的研究探讨 LLM 开源项目实践者面临的挑战、这些挑战的原因以及潜在的解决方案。为了填补这一研究空白,我们进行了一项实证研究,以了解实践者在开发和使用 LLM 开源软件时遇到的问题、这些问题可能的原因以及潜在的解决方案。我们收集了 15 个 LLM 开源项目的全部已关闭问题,并标记了符合我们要求的问题。然后,我们从标记的问题中随机选择了 994 个问题作为数据提取和分析的样本,以了解普遍存在的问题、其根本原因和潜在的解决方案。我们的研究结果表明:(1)模型问题是实践者面临的最常见问题;(2)模型问题、配置和连接问题以及功能和方法问题是识别出的最常见问题原因;(3)优化模型是解决这些问题的首选方案。基于研究结果,我们为 LLM 开源项目的实践者和研究人员提供了启示。
源无关域适应 (SFDA) 是目标检测中的一个难题,其中预训练的源模型被适应到一个新的目标域,而没有使用任何源域数据,以保护隐私和提高效率。大多数用于目标检测的最新 SFDA 方法都是为 Faster-RCNN 提出的,这是一种以计算复杂度高而闻名的检测器。本文重点研究了面向现实世界视觉系统的域适应技术,特别是针对 YOLO 系列单次检测器,该系列以其快速基线和实际应用而闻名。我们提出的 SFDA 方法——源无关 YOLO (SF-YOLO)——依赖于一个师生框架,其中学生接收带有学习到的、特定于目标域的增强图像,允许模型仅使用未标记的目标数据进行训练,而无需特征对齐。在没有标签的情况下使用均值教师架构进行自训练的一个挑战是,由于噪声或漂移的伪标签,准确率会迅速下降。为了解决这个问题,引入了师生之间的一种通信机制,以帮助稳定训练并减少对模型选择中带注释的目标数据的依赖。尽管我们的方法很简单,但在几个具有挑战性的基准数据集上,它与最先进的检测器具有竞争力,有时甚至超过了使用源数据进行适应的方法。
确定热带气旋(TC)表面环流中心的地理位置——“中心定位”——是TC预报过程中的关键第一步,影响着当前和未来对路径、强度和结构的估计。尽管最近自动中心定位方法的数量有所增加,但只有一项此类方法(ARCHER-2)投入使用,并且其最佳性能是在使用微波或散射计数据时实现的,而这些数据并非在每个预报周期都可用。我们开发了一种名为GeoCenter的深度学习算法;它仅依赖于静止轨道红外卫星图像,这些图像在白天和黑夜都可以为所有TC盆地提供高频(10-15分钟)和低延迟(<10分钟)的数据。GeoCenter接收红外图像的动画(时间序列),包括高达3小时滞后时间的10个通道。动画以“首次猜测”位置为中心,该位置与真实TC中心位置的平均偏移为48公里,有时大于100公里;GeoCenter的任务是纠正此偏移。在一个独立的测试数据集上,GeoCenter对于所有系统实现了26.9/23.3/32.0公里的平均/中位数/均方根(RMS)误差,对于热带系统为25.7/22.3/30.5公里,对于2-5级飓风为15.7/13.6/18.6公里。这些值与ARCHER-2使用微波或散射计数据时的误差相似,并且优于ARCHER-2仅使用红外数据时的误差。GeoCenter还执行熟练的不确定性量化(UQ),产生一个经过良好校准的200个TC中心位置的集合。此外,GeoCenter使用的所有预测因子都可以在实时获得,这将使GeoCenter易于每10-15分钟在操作上实现。
尽管存在各种视觉定位方法,例如场景坐标和姿态回归,但这些方法往往难以克服高内存消耗或繁重的优化需求。为了解决这些挑战,我们利用新颖的视图合成技术的最新进展,特别是 3D 高斯散点 (3DGS) 来增强定位。3DGS 允许使用其空间特征对 3D 几何形状和场景外观进行紧凑编码。我们的方法利用了 XFeat 的轻量级关键点检测和描述模型产生的密集描述图。我们建议将这些密集的关键点描述符蒸馏到 3DGS 中,以提高模型的空间理解能力,从而通过 2D-3D 对应关系获得更准确的相机姿态预测。在估计初始姿态后,我们使用光度扭曲损失对其进行细化。在流行的室内和室外数据集上的基准测试表明,我们的方法优于最先进的神经渲染姿态 (NRP) 方法,包括 NeRFMatch 和 PNeRFLoc。
新冠肺炎疫情的全球爆发造成了前所未有的公共卫生危机,其高发病率在近几十年来前所未有。研究人员为找到这场疫情的最佳解决方案付出了许多努力。药物再利用是一种新兴的、强大的策略,可以节省成本、时间和人力。目前缺乏针对新冠肺炎的已知药物再利用候选药物,需要更多努力来探索潜在的抑制剂以实现有效治疗。在本研究中,我们结合分子对接和机器学习回归方法探索了新冠肺炎治疗的潜在抑制剂。我们利用分子对接方法计算了这些药物与多靶点蛋白的结合亲和力。我们通过采用各种机器学习回归方法进行QSAR建模,以识别潜在的抗新冠肺炎抑制剂。我们的研究结果表明,R2和RMSE得分最高的决策树回归(DTR)模型是最适合探索潜在抑制剂的模型。我们提出了五种新的有希望的抑制剂,它们的锌ID分别为ZINC (3873365, 85432544, 8214470, 85536956, 和 261494640),结合能范围在-19.7 kcal/mol到-12.6 kcal/mol之间。我们进一步分析了这些最有效抑制剂的理化性质和药代动力学性质,以考察其行为。这些性质的分析是促进公共卫生有效治疗的关键因素。我们的工作构建了一个有效的结构,用于探测针对新冠肺炎的潜在抑制剂,将分子对接与机器学习回归方法相结合。
数字平台,例如社交媒体和电子商务网站,采用推荐系统来为用户提供价值。然而,其采用带来的社会后果仍不清楚。许多学者认为,推荐系统可能会导致负面影响,例如算法建议与用户选择之间的反馈循环导致的偏见放大。尽管如此,推荐系统在多大程度上影响用户倾向的变化仍不确定。在这种情况下,在部署之前为推荐算法提供一个受控的环境以进行评估非常重要。为了解决这个问题,我们提出了一种随机模拟框架,该框架模拟了长期场景中用户与推荐系统之间的交互。特别是,我们通过形式化一个用户模型来模拟用户选择,该模型包含行为方面,例如用户对推荐算法的抵抗力和他们依赖接收建议的惯性。此外,我们引入了两个新的指标来量化算法对用户偏好的影响,特别是在时间上的漂移方面。我们在多个合成数据集上进行了广泛的评估,旨在测试我们的框架在考虑不同场景和超参数设置时的鲁棒性。实验结果证明,所提出的方法能够有效地通过模拟检测和量化用户偏好的漂移。所有用于执行实验的代码和数据均公开提供。
近年来,参数高效迁移学习(PETL)因预训练模型规模的不断扩大以及对下游任务进行微调(FT)以获得更高性能的需求而备受关注。这种社区范围的热情引发了大量新方法的出现。然而,缺乏对这些方法的性能和适用场景进行系统性研究,导致何时应用PETL以及选择哪种方法等问题仍然没有得到解答。本文对视觉Transformer背景下的代表性PETL方法进行了统一的实证研究。我们对这些方法的超参数进行了系统性调整,以公平地比较它们在下游任务上的准确率。我们的研究不仅提供了有价值的用户指南,还揭示了一些新的见解。首先,如果仔细调整,不同的PETL方法可以在低样本基准VTAB-1K上获得相当的准确率。这包括像FT偏差项这样的简单方法,这些方法被认为效果较差。其次,虽然准确率相似,但我们发现PETL方法犯了不同的错误并做出了不同的高置信度预测,这可能是由于它们的归纳偏差不同。这种不一致(或互补性)为集成方法提供了机会,我们对此进行了初步尝试。第三,超越常用的低样本任务,我们发现PETL在多样本场景下也有用——它使用更少的可学习参数,实现了与全FT相当甚至更好的准确率。最后但并非最不重要的是,我们研究了PETL保留预训练模型对分布偏移(例如,CLIP骨干)的鲁棒性的能力。也许并不令人惊讶的是,PETL方法优于单独的全FT。然而,使用权重空间集成,全FT模型可以在下游和非分布性能之间实现更好的平衡,这为PETL的未来研究方向提供了启示。