大型语言模型 (LLM) 在处理长上下文输入方面表现出了非凡的能力,但代价是增加了计算资源和延迟。我们的研究提出了一种新颖的方法来解决长上下文瓶颈,以加速 LLM 推理并降低 GPU 内存消耗。我们的研究表明,LLM 可以在生成查询答案之前,在早期层识别相关标记。利用这一见解,我们提出了一种算法,该算法使用 LLM 的早期层作为过滤器来选择和压缩输入标记,从而显着减少后续处理的上下文长度。我们的方法 GemFilter 在速度和内存效率方面与现有技术(如标准注意力和 SnapKV/H2O)相比,展现出显著的改进。值得注意的是,与 SOTA 方法相比,它实现了 2.4 倍的加速和 30% 的 GPU 内存使用率降低。在“大海捞针”任务上的评估表明,GemFilter 显著优于标准注意力和 SnapKV,并在 LongBench 挑战中表现出相当的性能。GemFilter 简单、无需训练,并且广泛适用于不同的 LLM。至关重要的是,它通过允许人类检查所选输入序列来提供可解释性。这些发现不仅为 LLM 部署提供了实际益处,而且还增强了我们对 LLM 内部机制的理解,为 LLM 设计和推理的进一步优化铺平了道路。我们的代码可在 \url{https://github.com/SalesforceAIResearch/GemFilter} 获取。
我们开发了长短期记忆(LSTM)模型来预测太阳表面活动区的形成。利用太阳动力学天文台(SDO)日震与磁成像仪(HMI)的都卜勒频移速度、连续谱强度和磁场观测数据,我们创建了声功率和磁通量的时间序列数据集,用于训练LSTM模型预测12小时后的连续谱强度。这些新颖的机器学习(ML)模型能够捕捉到与即将出现的磁通量和连续谱强度下降相关的声功率密度的变化。模型性能测试是在5个活动区的数据上进行的,这些数据在训练期间模型从未见过。表现最好的模型8在实验环境中对所有测试活动区成功预测了出现,并在实际操作中对其中三个活动区成功预测了出现。该模型分别提前10、29和5小时预测了AR11726、AR13165和AR13179的出现,并且该模型的变体在太阳圆盘上的活动区和宁静区都获得了平均RMSE值为0.11。这项工作为机器学习辅助的太阳活动区预测奠定了基础。
虚假新闻对信息生态系统的完整性和公众信任构成了重大威胁。大型语言模型 (LLM) 的出现为改变反假新闻斗争带来了巨大希望。总的来说,LLM 在这场斗争中是一把双刃剑。一个主要担忧是,LLM 可以很容易地被用来大规模制作和传播误导性信息。这引发了紧迫的问题:LLM 能否轻松生成有偏见的假新闻?所有 LLM 都具备这种能力吗?相反,由于 LLM 对世界的广泛了解和强大的推理能力,它们为反击假新闻提供了宝贵的希望。这引出了其他关键问题:我们能否利用 LLM 来检测假新闻,它们是否优于典型的检测模型?在本文中,我们旨在通过探索各种 LLM 的性能来回答这些关键问题。我们的目标是探索各种 LLM 在有效对抗假新闻方面的能力,这标志着首次对七种此类模型进行分析。我们的结果表明,虽然一些模型严格遵守安全协议,拒绝生成有偏见或误导性的内容,但其他模型可以轻松生成各种偏见的假新闻。此外,我们的结果表明,更大的模型通常表现出更强的检测能力,并且 LLM 生成的假新闻比人工撰写的假新闻更不容易被检测到。最后,我们的发现表明,用户可以从 LLM 生成的解释中获益,从而识别假新闻。
本文从社会技术角度出发,提出了一种特征化方法。首先,该方法关注商业生态系统,重点分析了供应商、企业和客户之间通过供应链管理 (SCM)、企业资源规划 (ERP) 和客户关系管理 (CRM) 平台建立的联系,以实现以下目标:(1)通过 OID 模型整合商业智能 (BI)、模糊逻辑 (FL) 和 TRIZ(发明问题解决理论);(2)通过 OIDK 模型整合知识管理 (KM) 和不完美知识管理 (IKM)。其次,本文探讨了 E-GenAI 商业生态系统,该系统将基于生成式人工智能 (GenAI) 的 SCM、ERP 和 CRM 平台与基于 GenAI 的 BI、FL、TRIZ、KM 和 IKM 平台相集成,通过 E-GenAI (OID) 模型对大型语言模型 (LLMs) 进行对齐。最后,为了理解 LLMs 的动态特性,我们利用有限自动机来模拟粉丝和被关注者之间的关系。这有助于构建能够识别社交媒体平台上用户特定特征的 LLMs。
目标检测是自动驾驶中一项至关重要的任务。虽然现有的研究已经提出了各种针对目标检测的攻击,例如使用对抗性补丁或贴纸的攻击,但对 3D 表面投影攻击的探索仍然很大程度上未被触及。与具有固定对抗模式的对抗性补丁或贴纸相比,投影攻击允许对这些模式进行瞬态修改,从而实现更灵活的攻击。在本文中,我们介绍了一种专门针对自动驾驶场景中目标检测的对抗性 3D 投影攻击。我们将攻击公式化作为一个优化问题,利用颜色映射和几何变换模型的组合。我们的结果证明了所提出的攻击在欺骗 YOLOv3 和 Mask R-CNN 在物理环境中的有效性。在室内环境中进行的评估表明,在低环境光条件下,攻击成功率高达 100%,突出了我们的攻击在现实世界驾驶场景中的潜在危害。
用户历史交互序列在训练能够准确预测用户偏好的推荐系统中起着至关重要的作用。然而,由于用户行为的随意性,这些序列中存在的噪声对预测推荐系统中用户的下一个行为提出了挑战。为了解决这个问题,我们的动机基于这样一个观察结果:以相同的权重训练噪声序列和干净序列(没有噪声的序列)会影响模型的性能。我们提出了一种新颖的自我监督辅助任务联合训练 (ATJT) 方法,旨在更准确地对推荐系统中的噪声序列进行重新加权。具体来说,我们从用户的原始序列中战略性地选择子集,并执行随机替换以生成人工替换的噪声序列。随后,我们对这些人工替换的噪声序列和原始序列进行联合训练。通过有效的重新加权,我们将噪声识别模型的训练结果融入推荐模型中。我们在三个数据集上使用一致的基础模型评估我们的方法。实验结果表明,引入自我监督辅助任务可以有效地提高基础模型的性能。
当今农业产业面临的一个重大挑战是人工劳动力供应的不确定性和相关成本。自动化的花果密度估计、定位和计数可以帮助简化采收、产量估计和作物负荷管理策略,例如花果疏花疏果。本文提出了一种基于深度回归的网络 AgRegNet,用于估计树果冠层中花果的密度、数量和位置,无需显式目标检测或多边形标注。受流行的 U-Net 架构的启发,AgRegNet 是一种 U 形网络,具有编码器到解码器的跳跃连接,并以修改后的 ConvNeXt-T 作为编码器特征提取器。AgRegNet 可以根据点标注信息进行训练,并利用分割信息和注意力模块(空间和通道)来突出显示相关的花果特征,同时抑制不相关的背景特征。在非结构化果园环境下的苹果花果冠层图像的实验评估表明,AgRegNet 在结构相似性指数 (SSIM)、百分比平均绝对误差 (pMAE) 和平均精度 (mAP) 方面取得了可喜的准确率,分别用于估计花果密度、数量和质心位置。具体而言,花卉图像的 SSIM、pMAE 和 mAP 值分别为 0.938、13.7% 和 0.81。对于水果图像,相应的数值分别为 0.910、5.6% 和 0.93。由于所提出的方法依赖于点标注信息,因此它适用于稀疏和密集分布的物体。这种简化的技术将非常适用于种植者准确估计产量并确定最佳的化学和机械疏花疏果实践。
无监督多重图学习 (UMGL) 旨在学习各种边类型上的节点表示,无需人工标注。然而,现有的研究忽略了一个关键因素:图结构的可靠性。现实世界中的数据通常表现出复杂性,包含大量与任务无关的噪声,严重影响了 UMGL 的性能。此外,现有方法主要依赖于对比学习来最大化不同图之间的互信息,这将它们局限于多重图冗余场景,无法捕获视图独有的与任务相关的的信息。在本文中,我们专注于一个更现实且更具挑战性的任务:从多个图中无监督地学习一个融合图,该融合图保留了足够的任务相关信息,同时去除了与任务无关的噪声。具体而言,我们提出的信息感知无监督多重图融合框架 (InfoMGF) 使用图结构细化来消除无关噪声,并同时最大化视图共享和视图独有的任务相关信息,从而解决了非冗余多重图的难题。理论分析进一步保证了 InfoMGF 的有效性。在不同下游任务上针对各种基线进行的综合实验表明了其优越的性能和鲁棒性。令人惊讶的是,我们的无监督方法甚至超越了复杂的监督方法。源代码和数据集可在 https://github.com/zxlearningdeep/InfoMGF 获取。
现代车辆配备了传感器和摄像头等多种信息收集设备,持续生成大量原始数据。准确预测周围车辆的轨迹是理解复杂驾驶环境的重要组成部分。然而,训练轨迹预测模型面临着两方面的挑战。处理大规模数据计算量大。此外,简单-中等驾驶场景通常在数据集中占主导地位,而复杂驾驶场景(如密集交通)的代表性不足。例如,在 Argoverse 运动预测数据集中,包含 $\ge 50$ 个代理的实例非常少,而包含 $10 \thicksim 20$ 个代理的场景则更为常见。为了减轻过度代表的驾驶场景中的数据冗余,并减少复杂场景数据稀缺导致的偏差,本文提出了一种基于核心集选择的新型数据高效训练方法。该方法策略性地选择了一个小而具有代表性的数据子集,同时平衡了不同场景难度的比例。据我们所知,我们是第一个提出能够有效压缩大规模轨迹数据集的方法,同时实现最先进的压缩率。值得注意的是,即使只使用 50% 的 Argoverse 数据集,模型也可以在性能几乎没有下降的情况下进行训练。此外,选定的核心集保持了良好的泛化能力。
传统的检索方法对于评估文档相似性至关重要,但难以捕捉语义细微差别。尽管潜在语义分析 (LSA) 和深度学习取得了进展,但由于高维度和语义鸿沟,实现全面的语义理解和准确的检索仍然具有挑战性。上述挑战需要新的技术来有效地降低维度并弥合语义鸿沟。为此,我们提出了 VectorSearch,它利用先进的算法、嵌入和索引技术来进行精细检索。通过利用创新的多向量搜索操作和使用先进的语言模型对搜索进行编码,我们的方法显着提高了检索准确性。在真实数据集上的实验表明,VectorSearch 优于基线指标,证明了其在大型检索任务中的有效性。