arXiv 论文列表

作者: Jon Guti\'errez-Zaballa, Koldo Basterretxea, Javier Echanobe, \'Oscar Mata-Carballeira, M. Victoria Mart\'inez

本文探讨了使用低成本系统级模块（SOM）平台实现高效高光谱成像（HSI）处理器在自动驾驶中的应用。该工作解决了针对资源受限和功耗受限的处理设备，在低延迟的板载图像语义分割中，设计和部署多层全卷积网络（FCN）的挑战。本文详细描述了将先前在高端异构多处理片上系统（MPSoC）上测试成功的轻量级HSI分割FCN重新设计和定制以适应低成本SOM施加的约束的步骤。该SOM具有低端但价格低廉得多的MPSoC，适用于自动驾驶系统（ADS）的部署。本文特别报告了用于将FCN适配到商用定点可编程AI协处理器IP中的数据和硬件特定量化技术，并提出了一种完全定制的训练后量化方案，以在不影响分割精度的情况下降低计算和存储成本。

发布时间: 11/27/2024

查看原文

AI增强型道德黑客：Linux环境下手动漏洞利用和权限提升的实践研究

作者: Haitham S. Al-Sinani, Chris J. Mitchell

本研究探讨了生成式人工智能 (GenAI) 在基于 Linux 的渗透测试环境中手动漏洞利用和权限提升任务中的应用，这两个领域对于全面的网络安全评估至关重要。基于先前关于 GenAI 在道德黑客生命周期中作用的研究，本文介绍了在一个受控虚拟环境中进行的实践实验分析，以评估 GenAI 在支持这些关键且通常是手动任务方面的效用。我们的研究结果表明，GenAI 可以简化流程，例如在权限提升过程中识别潜在的攻击向量和解析复杂输出以获取敏感数据。该研究还指出了与 GenAI 相关的关键优势和挑战，包括增强的效率和可扩展性，以及与数据隐私、意外发现漏洞和潜在滥用相关的伦理问题。这项工作通过强调人机协作的重要性（尤其是在需要仔细决策的背景下），而不是完全取代人工输入，为不断发展的 AI 辅助网络安全领域做出了贡献。

发布时间: 11/27/2024

查看原文

HSI-Drive v2.0：面向自动驾驶场景理解的新挑战与更多数据

作者: Jon Guti\'errez-Zaballa, Koldo Basterretxea, Javier Echanobe, M. Victoria Mart\'inez, Unai Mart\'inez-Corral

我们提出了HSI-Drive数据集的更新版本，旨在利用高光谱成像(HSI)技术开发自动驾驶系统(ADS)。v2.0版本包含在真实驾驶场景中，于冬季和秋季录制的视频中新标注的图像。除了之前v1.1版本中包含的春季和夏季图像外，新的数据集包含涵盖四季的752张图像。在本文中，我们展示了在v1.1数据集上获得的先前发表结果的改进，展示了在新的v2.0数据集上训练的模型的增强性能。我们还通过实验更强大的图像分割模型，展示了在全面场景理解方面取得的进展。这些模型包括新的分割类别，旨在识别重要的道路安全物体，例如车辆和道路标志的存在，以及高度弱势群体，例如行人和骑车者。此外，我们还提供了证据，证明这些模型在分割在各种环境和条件下捕获的HSI视频序列时的性能和鲁棒性。最后，为了正确评估本文中描述的结果，必须考虑可以合理地部署在ADS车辆中的处理平台所施加的约束。因此，尽管实现细节不在本文的讨论范围之内，但我们的研究重点是开发计算效率高、轻量级的机器学习模型，这些模型最终能够以高吞吐率运行。数据集和一些分割视频示例可在https://ipaccess.ehu.eus/HSI-Drive/访问。

发布时间: 11/27/2024

查看原文

关于条件扩散变换器的统计速率：逼近、估计和极小极大最优性

作者: Jerry Yao-Chieh Hu, Weimin Wu, Yi-Chen Lee, Yu-Chao Huang, Minshuo Chen, Han Liu

我们研究了具有无分类器引导的条件扩散Transformer (DiT) 的逼近率和估计率。我们针对四种常见数据假设，对“上下文”条件DiT进行了全面的分析。我们表明，在确定的设置下，条件DiT及其潜在变体都实现了无条件DiT的极小极大最优性。具体来说，我们将输入域离散化为无穷小网格，然后在Hölder光滑数据假设下对条件扩散评分函数进行逐项泰勒展开。这使得能够通过更详细的分段常数逼近来更精细地利用Transformer的万能逼近能力，从而获得更紧的界限。此外，我们在线性潜在子空间假设下将我们的分析扩展到潜在设置。我们不仅表明潜在条件DiT在逼近和估计方面都比条件DiT实现了更低的界限，而且还表明了潜在无条件DiT的极小极大最优性。我们的研究结果确定了条件和无条件DiT的统计极限，并为开发更高效、更准确的DiT模型提供了实践指导。

发布时间: 11/27/2024

查看原文

推理缩放的缺陷：基于不完美验证器的LLM重采样方法的局限性

作者: Benedikt Stroebl, Sayash Kapoor, Arvind Narayanan

近期研究表明，推理规模化可能使较弱的语言模型达到甚至超过较强模型的精度，例如通过反复采样编码问题的解决方案直至通过单元测试。本文的核心论点是推理规模化并非免费的午餐：只有当“验证器”（在本例中为一组单元测试）完美无缺时，才能通过重采样实现无限的精度提升。当验证器不完美时（在推理或编码等领域几乎总是如此，例如单元测试覆盖率不完善），存在非零的误报概率：错误的解决方案通过了验证器。重采样无法降低这种概率，因此即使拥有无限的计算资源，它也对基于重采样的推理规模化的精度设置了上限。我们发现，模型的单样本精度（即无单元测试的精度）与其在 HumanEval 和 MBPP 编码基准上的误报率之间存在很强的相关性，而这些基准的单元测试覆盖率有限。因此，无论对较弱模型进行多少推理规模化，都不能使其达到足够强大的模型的单样本精度（图 1a）。当我们认为误报相对于避免产生解决方案而言具有负效用时，它会进一步向下弯曲推理规模化曲线。根据经验，我们发现，在现实假设下，最佳样本数可能小于 10（图 1b）。最后，我们表明，除了精度之外，误报还可能具有其他不良特性，例如对编码风格规范的遵守较差。

发布时间: 11/27/2024

查看原文

图像中有什么？深入探究视觉语言模型的视觉能力

作者: Omri Kaduri, Shai Bagon, Tali Dekel

视觉语言模型 (VLMs) 最近在理解复杂的视觉内容方面展现出非凡的能力。然而，VLMs 处理视觉信息背后的机制在很大程度上仍未被探索。本文进行了彻底的实证分析，重点关注跨层注意力模块。我们揭示了这些模型如何处理视觉数据的几个关键见解：(i) 查询标记的内部表示（例如，“描述图像”的表示）被 VLMs 用于存储全局图像信息；我们证明了这些模型仅从这些标记生成出令人惊讶的描述性响应，无需直接访问图像标记。(ii) 跨模态信息流主要受中间层（大约所有层的 25%）的影响，而早期和后期层的影响微乎其微。(iii) 细粒度的视觉属性和物体细节以空间局部化的方式直接从图像标记中提取，即，与特定物体或属性相关的生成的标记强烈地关注图像中相应的区域。我们提出了新颖的定量评估方法来验证我们的观察结果，利用现实世界中复杂的视觉场景。最后，我们证明了我们的发现有助于提高最先进 VLMs 中视觉处理效率的潜力。

发布时间: 11/27/2024

查看原文

拼图相似度：一种用于三维场景重建中人工制品检测的感知引导无参考度量

作者: Nicolai Hermann, Jorge Condor, Piotr Didyk

现代重建技术能够有效地从稀疏的二维视图建模复杂的3D场景。然而，由于缺乏真实图像以及无参考图像度量在预测详细伪影图方面的局限性，自动评估新视图的质量和识别伪影具有挑战性。这种质量度量的缺失阻碍了对生成视图质量的准确预测，并限制了后处理技术（例如修复）的应用，从而无法提高重建质量。在这项工作中，我们提出了一种新的无参考度量——拼图相似度，旨在定位新视图中的伪影。我们的方法利用输入视图的图像块统计数据来建立特定场景的分布，该分布随后用于识别新视图中重建不良的区域。我们在3D重建的背景下测试和评估我们的方法；为此，我们收集了一个关于人类对未见重建视图质量评估的新数据集。通过该数据集，我们证明了我们的方法不仅可以成功地定位新视图中的伪影，并且与人类评估相关，而且无需直接参考。令人惊讶的是，我们的度量标准优于无参考度量和流行的全参考图像度量。我们可以利用我们的新度量来增强诸如自动图像恢复、引导采集或从稀疏输入进行3D重建之类的应用。

发布时间: 11/27/2024

查看原文

视频扩散Transformer的精确缩放律研究

作者: Yuanyang Yin, Yaqi Zhao, Mingwu Zheng, Ke Lin, Jiarong Ou, Rui Chen, Victor Shea-Jay Huang, Jiahao Wang, Xin Tao, Pengfei Wan, Di Zhang, Baoqun Yin, Wentao Zhang, Kun Gai

由于视频扩散Transformer的高昂训练成本，在给定的数据和计算预算下实现其最佳性能至关重要。这需要在进行大规模训练之前精确确定最佳模型大小和训练超参数。虽然规模法则被用于语言模型以预测性能，但其在视觉生成模型中的存在及其精确推导仍然未被充分探索。本文系统地分析了视频扩散Transformer的规模法则，并证实了其存在。此外，我们发现，与语言模型不同，视频扩散模型对学习率和批量大小（这两个超参数通常没有被精确建模）更为敏感。为了解决这个问题，我们提出了一种新的规模法则，该法则可以预测任何模型大小和计算预算下的最佳超参数。在这些最佳设置下，与传统的缩放方法相比，我们在1e10 TFlops的计算预算内实现了可比的性能，并将推理成本降低了40.1%。此外，我们建立了验证损失、任何模型大小和计算预算之间更普遍和精确的关系。这使得能够预测非最佳模型大小的性能，这在实际推理成本约束下也可能适用，从而实现更好的权衡。

发布时间: 11/27/2024

查看原文

ShowUI：一种用于GUI视觉代理的视觉-语言-动作模型

作者: Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

构建图形用户界面 (GUI) 助手对于提高人类工作流程效率具有重要意义。虽然大多数代理是基于语言的，依赖于具有文本丰富元信息的闭源 API（例如，HTML 或辅助功能树），但它们在感知 UI 可视化方面与人类相比存在局限性，突出了对 GUI 可视化代理的需求。在这项工作中，我们开发了一个数字世界中的视觉-语言-动作模型，即 ShowUI，其具有以下创新之处：（i）UI 引导的视觉标记选择，通过将屏幕截图制定为 UI 连接图来降低计算成本，自适应地识别它们的冗余关系并作为自注意力块中标记选择的标准；（ii）交错的视觉-语言-动作流，灵活地统一 GUI 任务中的各种需求，能够有效管理导航中的视觉-动作历史或每张屏幕截图配对多轮查询-动作序列以提高训练效率；（iii）通过仔细的数据整理和采用重采样策略来解决数据类型严重不平衡问题的小规模高质量 GUI 指令遵循数据集。凭借上述组件，ShowUI（一个使用 256K 数据的轻量级 2B 模型）在零样本屏幕截图定位方面实现了 75.1% 的高准确率。其 UI 引导的标记选择进一步减少了训练期间 33% 的冗余视觉标记，并将性能提高了 1.4 倍。跨 Web Mind2Web、移动 AITW 和在线 MiniWob 环境的导航实验进一步强调了我们的模型在推进 GUI 可视化代理方面的有效性和潜力。模型可在 https://github.com/showlab/ShowUI 获取。

发布时间: 11/27/2024

查看原文

知识综述：去中心化人工智能 (DeAI)

作者: Zhipeng Wang, Rui Sun, Elizabeth Lui, Vatsal Shah, Xihan Xiong, Jiahao Sun, Davide Crapis, William Knottenbelt

人工智能（AI）的中心化带来了诸多重大挑战，包括单点故障、固有偏差、数据隐私问题和可扩展性问题。这些问题在闭源大型语言模型（LLM）中尤为突出，因为用户数据会被收集和使用，且缺乏透明度。为了缓解这些问题，基于区块链的分散式人工智能（DeAI）应运而生，成为一种极具前景的解决方案。DeAI结合了区块链和人工智能技术的优势，增强了人工智能系统的透明度、安全性、去中心化和可信度。然而，目前仍缺乏对最先进的DeAI发展（特别是针对活跃的行业解决方案）的全面理解。在这项工作中，我们对基于区块链的DeAI解决方案进行了知识系统化（SoK）。我们提出了一种分类法，根据模型生命周期对现有的DeAI协议进行分类。基于此分类法，我们提供了一种结构化的方法来阐明DeAI协议的现状，并找出它们的异同。我们分析了区块链在DeAI中的功能，研究了区块链特性如何有助于增强人工智能流程的安全性、透明度和可信度，同时确保对人工智能数据和模型贡献者的公平激励。此外，我们还确定了DeAI协议开发中的关键见解和研究空白，并突出了未来研究的几个关键方向。

发布时间: 11/27/2024

查看原文