arXiv 论文列表

GroCo：度量自监督单目深度估计的地面约束

单目深度估计近年来取得了显著进展，但预测度量深度的模型在跨不同相机姿态和数据集的泛化能力上仍面临挑战。尽管最近的监督方法通过在推理时利用地面先验信息缓解了这一问题，但由于尺度恢复的额外挑战，它们在自监督设置中的适应性有限。针对这一差距，本文提出了一种专为自监督范式设计的新型地面区域约束机制。该机制不仅能够准确恢复尺度，还确保了深度预测与地面先验之间的一致性。实验结果表明，我们的方法在KITTI基准测试中超越了现有的尺度恢复技术，并显著增强了模型的泛化能力。这一改进可以通过其在不同相机旋转下的更稳健表现以及在零样本条件下对未见过的驾驶数据集（如DDAD）的适应性来观察。

发布时间: 9/24/2024

查看原文

正交微调用于直接偏好优化

arXiv:2409.14836v1 公告类型: 交叉摘要: DPO是一种有效的偏好优化算法。然而，DPO调优的模型往往对不偏好的样本过度拟合，表现为生成过于冗长且缺乏多样性。尽管最近的正则化方法通过修改目标函数努力缓解这一问题，但它们在实现这一目标的同时牺牲了对齐性能。本文中，我们创新性地从权重更新的角度引入正则化，以抑制对齐过度拟合。通过初步实验，我们发现过度拟合与超球面能量波动之间存在正相关关系。因此，我们通过一种称为权重旋转偏好优化（RoPO）的方法引入正交微调，该方法仅对权重参数进行旋转和幅度拉伸更新，以保持超球面能量不变，从而保留神经元之间角度编码的知识。大量实验表明，我们的模型在仅使用0.0086%的可训练参数的情况下，完美地与人类偏好对齐，同时保留了原有的表达能力，表明了有效的过度拟合正则化。具体而言，RoPO在MT-Bench上比DPO高出最多10分，在AlpacaEval 2上高出最多2.8分，同时生成多样性平均提高了6分。

发布时间: 9/24/2024

查看原文

识别如人所为：第一人称射击游戏下一代反作弊框架的探索者

arXiv:2409.14830v1 公告类型: 交叉摘要: 游戏行业经历了显著增长,但在线游戏中的作弊行为对游戏体验的完整性构成了重大威胁。作弊,尤其是在第一人称射击(FPS)游戏中,会给游戏行业带来巨大损失。现有的反作弊解决方案存在局限性,如客户端硬件限制、安全风险、服务器端不可靠的方法,以及双方都缺乏全面的现实世界数据集。为了解决这些局限性,本文提出了HAWK,一个针对热门游戏CS:GO的服务器端FPS反作弊框架。HAWK利用机器学习技术模拟人类专家的识别过程,采用新颖的多视角特征,并配备了完善的流程。作者使用首个包含多种作弊类型和作弊复杂度的大型现实世界数据集评估了HAWK,结果显示其具有良好的效率和可接受的额外开销,封禁时间比现有反作弊系统更短,显著减少了人工劳动,并能够捕捉到逃避官方检查的作弊者。

发布时间: 9/24/2024

查看原文

ToolPlanner：一种基于路径规划和反馈的多粒度指令增强工具的大型语言模型

arXiv:2409.14826v1 公告类型: 交叉摘要: 近期，工具增强型大型语言模型（LLMs）引起了越来越多的关注。给定一个指令，工具增强型LLMs可以与各种外部工具进行多轮交互并提供最终答案。然而，之前的LLMs是在过于详细的指令上训练的，这些指令包括API名称或参数，而真实用户不会明确提及这些API细节。这导致训练的LLMs与现实场景之间存在差距。此外，大多数工作忽略了交互过程是否遵循指令。为了解决这些问题，我们构建了一个名为MGToolBench的训练数据集，其中包含陈述和类别级别的指令，以更好地反映现实场景。此外，我们提出了ToolPlanner，一个两阶段的强化学习框架，利用路径规划和两种反馈机制来增强LLM的任务完成和指令遵循能力。实验结果表明，与SOTA模型相比，ToolPlanner显著提高了匹配率、通过率和胜率，分别提高了26.8%、20.2%和5.6%。人类评估验证了多粒度指令能更好地符合用户的习惯。我们的数据和代码将在接受后发布。

发布时间: 9/24/2024

查看原文

面向实际部署的非侵入式负载监测系统：挑战与实践

非侵入式负载监测（NILM）作为一种关键的负载监测技术，能够大幅降低传统电力传感器部署的成本。以往的研究主要集中在开发仅限于云端的NILM算法，这些算法往往导致高计算成本和显著的服务延迟。为解决这些问题，我们提出了一种三层框架，通过边缘与云端的协作来增强NILM系统的实际应用性。考虑到边缘和云端可用的计算资源，我们在边缘实现了一个轻量级的NILM模型，在云端则实现了一个基于深度学习的模型。除了模型实现的差异化，我们还设计了一种特定的NILM部署方案，结合Gunicorn和NGINX，以弥合理论算法与实际应用之间的差距。为验证所提出框架的有效性，我们应用了真实的NILM场景设置，并实现了数据采集、模型训练和系统部署的全过程。结果表明，我们的框架在实际考虑下能够实现高分解精度，同时显著减少云端工作负载和通信开销。

发布时间: 9/24/2024

查看原文

过去与现在：利用大型语言模型构建历史类比

arXiv:2409.14820v1 公告类型: 交叉摘要: 历史类比，即将已知的过去事件与当代但陌生的事件进行比较，是帮助人们做出决策和理解世界的重要能力。然而，应用历史学的研究表明，人们难以找到合适的类比。此外，人工智能领域的先前研究也忽视了历史类比。为了填补这一空白，本文聚焦于历史类比获取任务，旨在为给定事件获取类似的历史事件。我们探讨了基于不同大型语言模型（LLMs）的检索和生成方法来获取历史类比。此外，我们提出了一种自我反思方法，以减轻LLMs在生成历史类比时产生的幻觉和刻板印象。通过人类评估和我们专门设计的自动多维度评估，我们发现LLMs在历史类比方面具有良好的潜力。并且，通过使用我们的自我反思方法，模型的性能可以进一步提高。

发布时间: 9/24/2024

查看原文

移动视觉语言模型：提升界面内与界面间理解的视觉语言模型

arXiv:2409.14818v1 公告类型: 交叉摘要: 近期，基于视觉语言模型（VLM）的移动AI代理引起了越来越多的关注。这些研究通常利用VLM作为基础，通过基于指令的移动数据集对其进行微调。然而，这些VLM通常在通用领域数据上进行预训练，这往往导致缺乏移动领域特有的基本能力。因此，它们可能在识别特定UI元素和理解UI内部细粒度信息方面表现不佳。此外，当前的微调任务主要集中在与给定指令最相关的元素上。这些微调后的VLM可能仍然忽视了UI页面之间的关系，忽略了元素在页面转换中的作用，并缺乏跨UI的理解。为了解决这些问题，我们提出了一种名为MobileVLM的VLM，它包括两个额外的预训练阶段，以增强UI内部和跨UI的理解。我们定义了四个基于UI的预训练任务，使模型能够更好地感知细粒度元素并捕捉页面转换动作。为了解决移动预训练数据缺乏的问题，我们从零开始构建了一个大型中文移动数据集Mobile3M，其中包含300万UI页面和真实世界的转换动作，形成了一个有向图结构。实验结果显示，MobileVLM在我们的测试集和公开的移动基准测试中均表现优异，超越了现有的VLM。

发布时间: 9/24/2024

查看原文

VARADE：一种基于变分自回归模型的边缘异常检测方法

arXiv:2409.14816v1 公告类型: 交叉摘要: 在工业4.0中，检测海量数据中的复杂异常是一项关键任务，深度学习是最佳解决方案。然而，现有解决方案计算量大，需要易受延迟和带宽问题影响的云架构。本文提出了VARADE，一种基于变分推断的轻量自回归框架的新解决方案，最适合在边缘设备上实时执行。该方法在一个机器人手臂上进行了验证，该机器人手臂是试点生产线的一部分，并与几种最先进的算法进行了比较，在两种不同的边缘平台上获得了异常检测准确性、功耗和推理频率之间的最佳平衡。

发布时间: 9/24/2024

查看原文

基于机器学习的动态数据流异常检测研究

arXiv:2409.14796v1 公告类型: 交叉摘要: 当代网络攻击的复杂性和多样性使得仅依赖代理、网关、防火墙和加密隧道等单一防御策略变得不足。因此，主动识别数据异常已成为数据安全领域的一个重要研究方向。大多数现有研究集中于样本均衡数据，导致在不平衡数据情况下的检测效果不佳。本研究采用无监督学习方法来识别动态数据流中的异常。首先，从实时数据中提取多维特征，并利用聚类算法分析数据模式，从而自动识别潜在的异常点。通过聚类相似数据，模型能够在无需标记数据的情况下检测出显著偏离正常流量的数据行为。实验结果表明，所提出的方法在各种场景下对异常检测表现出高准确性。特别值得注意的是，它在不平衡数据情况下表现出稳健且适应性强的性能。

发布时间: 9/24/2024

查看原文

大型语言模型在信息不完整场景下是否具备问题解决能力？

大型语言模型（LLMs）在不完全信息场景下的问题解决能力评估日益重要，涵盖提问、知识搜索、错误检测和路径规划等能力。当前研究主要集中在LLMs的问题解决能力，如“二十问”游戏。然而，这类游戏并不要求识别误导性线索，而这是不完全信息场景中必需的。此外，现有的游戏如“谁是卧底”具有高度主观性，使得评估变得困难。因此，本文引入了一种基于“谁是卧底”和“二十问”的新游戏——BrainKing，用于评估LLMs在不完全信息场景下的能力。它要求LLMs通过有限的“是或否”问题和潜在的误导性答案来识别目标实体。通过设置简单、中等和困难难度模式，我们全面评估了LLMs在各个方面的表现。我们的结果揭示了LLMs在BrainKing中的能力和局限性，为LLMs的问题解决水平提供了重要见解。

发布时间: 9/24/2024

查看原文