arXiv:2412.04272v3 宣告类型: replace-cross
摘要:近年来,表格推理已经引起了大量的研究兴趣,特别是在与大规模语言模型(LLMs)的集成方面,这种集成重塑了自然语言应用程序。现有的典型LLM基础研究实现了逐步推理,促进了在表格理解和分析方面的能力。虽然这些方法强调自主探索以实现任务目标,但它们忽略了推理过程中的系统性思考,导致遗漏步骤、逻辑混乱和误导性结果的风险。在本文中,我们提出了PoTable,这是一种新的阶段导向的计划-执行推理方法,可以在表格上实现系统的思考。具体而言,PoTable 部署了几个明确目标的表分析阶段,并实现了阶段性的推理。为实现阶段特定的目标,PoTable 进行了计划-执行推理,首先在阶段目标下规划操作链,然后通过代码生成、实时运行和反馈处理依次执行每个操作。因此,PoTable 可以产生可靠的表格推理结果,带有高度准确、逐步注释和完全可执行的程序。它在特有的表格数据分析师方面具有高度的对齐性,提供了高精度和可解释性的优势。最后,我们在来自WikiTQ和TabFact基准的四个评估数据集中进行了广泛的实验,结果表明了PoTable的有效性,以及其高效性和可解释性。
arXiv:2412.02205v3 任务类型: replace-cross
摘要:商业智能(BI)通过将现代组织中的大量数据转化为有行动意义的见解,促进了基于信息的决策过程。最近,基于大型语言模型(LLM)的代理已经通过自动根据自然语言(NL)查询在可执行环境中执行任务规划、推理和操作,简化了BI工作流。然而,现有方法主要集中在诸如NL2SQL和NL2VIS等个别BI任务上。由于BI的迭代和协作性质,不同数据角色和工具之间的任务碎片化导致了效率低下和潜在错误。在本文中,我们介绍了DataLab,这是一个结合了一站式LLM代理框架和增强计算笔记本界面的统一BI平台。DataLab通过无缝结合LLM辅助和用户自定义,在单一环境中支持为不同数据角色在数据准备、分析和可视化中的各种BI任务。为了实现这一统一,我们设计了一个针对企业特定BI任务的领域知识整合模块,一个跨代理通信机制以促进BI工作流中的信息共享,以及一个基于单元格的上下文管理策略以提高BI笔记本中的上下文利用效率。广泛的实验表明,DataLab在流行的BI研究基准上的各种BI任务上达到了最先进的性能。此外,DataLab在来自腾讯的实际数据集上保持了高效率和有效性,针对企业特定的BI任务,其准确率提高了58.58%,令牌成本减少了61.65%。
arXiv:2411.17931v3 宣告类型: 替换-交叉
摘要:虽然互联网已成为全球通信平台,但黑客和黑客活动主义团体等恶意行为者经常通过“暗网”这种常规互联网的隐蔽对应物来传播意识形态内容并协调活动。目前,信息过载和网络威胁数据的碎片化性质阻碍了对这些行为者进行全面画像,从而限制了对它们在线活动预测性分析的效果。同时,互联网连接设备的数量已经超过了全球人口数量,随着物联网(IoT)的扩展,这一差距预计将扩大。技术社区正在积极推进与物联网相关的研究,以应对其日益广泛的社会融合。本文提出了一种新的预测性威胁情报框架,旨在系统地收集、分析和可视化暗网数据,以识别恶意网站,并将这些信息与潜在的物联网漏洞进行关联。该方法整合了自动化数据采集技术、分析技术和可视化映射工具,同时也在检查物联网设备的安全漏洞,以评估其被利用的可能性。通过填补网络安全研究中的空白,本文旨在增强预测性威胁建模,并为政策制定提供建议,从而为日益互联的数字生态系统中的减缓网络风险提供情报研究支持。
arXiv:2411.16537v4 Announce Type: replace-cross
摘要:空间理解是使机器人能够感知其周围环境、对其环境进行推理并与其互动的一项关键能力。在现代机器人技术中,这些能力越来越多地由视觉语言模型提供。然而,这些模型在空间推理任务中面临着重大挑战,因为它们的训练数据基于普通用途的图像数据集,通常缺乏复杂的空间理解。例如,数据集经常未能捕捉到参考框架理解的能力,而有效的空间推理需要理解是从自我中心、世界中心还是物体中心的角度进行推理。为了解决这一问题,我们引入了RoboSpatial,这是一个大规模的空间理解数据集,应用于机器人技术。该数据集包含真实的室内和台面场景,以3D扫描和自我中心图像的形式捕获,并且附带了与机器人相关的丰富空间信息进行了标注。该数据集包括100万张图像、5000个3D扫描以及300万标注的空间关系。将2D自我中心图像与3D扫描配对使得该数据集既适合2D又适合3D的应用。我们的实验表明,使用RoboSpatial训练的模型在诸如空间可利用性预测、空间关系预测以及机器人操作等下游任务中表现优于基线模型。
arXiv:2411.14927v2 宣布类型: replace-cross
摘要:时间知觉是指检测和跨时间序列跟踪物体的能力,是自主驾驶系统中的一个基本组成部分。虽然单一车辆感知系统受到由于物体遮挡和固有的盲区导致的不完整感知限制,合作感知系统则面临传感器校准精度和定位精度的问题。为了解决这些问题,我们引入了LET-VIC,这是一种基于LiDAR的端到端跟踪框架,用于车-基础设施合作(Vehicle-Infrastructure Cooperation, VIC)。首先,我们采用时间自注意力和VIC交叉注意力模块有效地从车辆和基础设施的角度整合时空信息。然后,我们开发了一个新的传感器校准误差补偿(CEC)模块,以减轻传感器对齐问题,促进准确的特征对齐。在V2X-Seq-SPD数据集上的实验表明,LET-VIC显著优于基线模型。与LET-V相比,LET-VIC在mAP上提高了15.0%,在AMOTA上提高了17.3%。此外,在不考虑通信延迟的情况下,LET-VIC优于代表性的检测跟踪模型,如V2VNet、FFNet和PointPillars,在mAP上提高了至少13.7%,在AMOTA上提高了13.1%,展示了其稳健的检测和跟踪性能。实验表明,将多视图视角、时间序列或CEC整合到端到端训练中,显著提高了检测和跟踪性能。所有代码都将开源。
arXiv:2411.09540v2 通告类型: replace-cross
摘要:视觉提示(VP)是一种新的技术,能够将冻结的预训练模型适配到源域任务,用于目标域任务。本研究探讨了VP在黑盒模型级别后门检测中的优势。在VP中,视觉提示将源域和目标域的类子空间进行映射。我们发现了清洁数据集和受污染数据集之间的一个不匹配现象,称为类子空间不一致。基于此,我们提出了一种名为\textsc{BProm}的黑盒模型级别检测方法,用于识别可疑模型中的后门,如果存在后门的话。\textsc{BProm}利用了模型在存在后门时分类准确率较低的现象。广泛的实验验证了\textsc{BProm}的有效性。
arXiv:2411.05679v3 宣告类型:替换了原来的版本
摘要:视觉和音频场景的内容是多方面的,因此一个视频可以搭配各种各样的音频,反之亦然。因此,在视频到音频生成任务中,引入引导方法以控制生成的音频是至关重要的。尽管视频到音频生成是一个成熟的生成任务,现有的方法在可控性方面存在不足。在本工作中,我们提出VATT,这是一个多模态生成框架,它接受视频和可选的文字提示作为输入,并生成音频和可选的音频描述文本。该框架有两个优势:i) 通过文字对视频到音频生成过程进行细化和控制,以补充视觉信息的上下文,ii) 模型可以根据生成的音频描述文本建议适合视频的音频内容。VATT 包含两个关键模块:VATT Converter,一个专为指令微调的LLM,并包含一个投影层,将视频特征映射到LLM向量空间;以及VATT Audio,一个变压器,通过迭代并行解码从视觉帧和可选文本提示生成音频令牌。预训练神经编码器将音频令牌转换为波形。实验显示,当将VATT与现有视频到音频生成方法进行客观指标比较时,在未提供音频描述文本的情况下,VATT达到竞争力的性能。当提供音频描述文本作为提示时,VATT实现了更加精细的性能(最低KLD分数为1.41)。此外,主观研究显示,VATT Audio 生成的音频比现有方法生成的音频更受偏好。VATT 通过文字实现可控的视频到音频生成,并通过音频描述文本为视频提供文字提示,打开了新的应用可能性,例如以文本引导的视频到音频生成和视频到音频描述。
arXiv:2410.18921v2 宣告类型: 交叉替换
摘要: 考虑这样一个数学问题:“莉莉昨天从她最好的朋友那里收到了3块饼干,早餐时吃了5块。今天,她的朋友又给了她3块饼干。莉莉现在有多少块饼干?” 在之前的许多研究中,大型语言模型(LLMs)通过计算“3 - 5 + 3”来得出答案“1”。但从人类的视角来看,我们知道这个问题本身存在一个固有的缺陷:莉莉不可能吃掉5块饼干,如果她最初只有3块。这种不一致引发了关键问题:当前的LLMs仅仅是盲目的解题者,他们在没有更深层次的推理时仅仅是应用数学运算,还是能够成为能够识别逻辑不一致性的逻辑思考者?
为了探讨这一问题,我们提出了一组基准数据集,名为FaultyMath,其中包括丰富多样且存在错误的数学问题:i) 多个数学类别,例如代数、几何、数论等;ii) 不同的难度级别;iii) 不同的错误来源——从违反常识和含糊的陈述到数学矛盾等。我们使用FaultyMath对开源、封闭源和专门针对数学的模型进行了全面的评估,在三个维度上进行测量:(i) 模型在没有明确提示的情况下,能够多准确地检测到错误的数学问题?(ii) 当提供关于问题有效性的提示(无论是正确的还是误导性的)时,LLMs在多大程度上能适应成为可靠的逻辑思考者?(iii) 当LLMs识别出一个数学问题存在缺陷时,它们生成的解释有多可靠?通过广泛的实验和详细的分析,我们的结果表明,现有的LLMs主要表现为盲目的解题者,在执行逻辑思考者的推理能力方面仍然不足。
arXiv:2410.15714v3 通告类型: replace-cross
摘要:近年来,深度学习在实时解决组合优化问题方面展现了显著的潜力。与传统方法不同,深度学习能够高效地生成高质量的解决方案,这对于诸如路径规划和调度的应用至关重要。然而,现有的方法如深度强化学习(RL)和行为克隆具有明显的局限性,深度RL存在学习速度慢的问题,而行为克隆则完全依赖专家动作,可能导致泛化问题和优化目标忽视。本文介绍了针对具复杂约束的组合优化问题的一种新颖的离线RL方法,其中状态表示为异构图,动作空间可变。我们的方法通过边属性编码动作,并平衡预期奖励与专家解决方案的模仿。我们在作业车间调度和可重构作业车间调度基准上证明了该方法的有效性,其性能优于现有的先进方法。
arXiv:2410.15536v2 通知类型: replace-cross
摘要: 我们介绍了GRS (Generating Robotic Simulation tasks) 系统,这是一个针对机器人模拟的从现实到虚拟的系统。GRS 从单张RGB-D 观测中生成可解决的任务的虚拟代理训练数字双胞胎模拟。使用视觉-语言模型 (VLMs),我们的流水线分为三个阶段:1) 使用SAM2 进行场景理解以进行分割和物体描述,2) 匹配物体与模拟就绪的资产,3) 生成适当的任务。我们通过生成的测试套件确保模拟任务的一致性,并引入了一个路由器以迭代地细化模拟和测试代码。实验通过我们新的路由器机制展示了系统在物体对应和任务环境生成方面的有效性。