arXiv 论文列表

作者: Hong Ding, Ziming Wang, Yi Ding, Hongjie Lin, SuYang Xi, Chia Chao Kang

针对在不断变化和不可预测的环境中，特别是当今5G无线通信世界中快速发展的自动驾驶领域，确保安全这一挑战，我们提出了Navigation Secure (NavSecure) 框架。这个基于视觉的导航框架融合了世界模型的优势和关键的安全导向决策能力，使自动驾驶车辆能够安全地应对现实世界的复杂情况。我们的方法利用世界模型的预测能力来预测潜在威胁并制定更安全的路线，从而显著减少了对大量现实世界试错学习的需求。此外，我们的方法使车辆能够通过持续实践自主学习和发展，确保系统不断发展并适应新的挑战。NavSecure结合射频技术，利用5G网络增强实时数据交换，从而提高通信和响应速度。通过在仿真到真实驾驶条件下的严格实验验证，NavSecure在安全关键场景（例如突然避障）中表现出优异的性能。结果表明，NavSecure在碰撞预防和风险降低等关键安全指标方面表现出色，超过了其他端到端方法。该框架不仅推动了自动驾驶安全性的发展，也展示了世界模型如何增强关键应用中的决策能力。NavSecure为开发更强大、更可靠的自动驾驶系统设定了新的标准，能够处理现实世界环境中固有的动态性和不确定性。

发布时间: 11/25/2024

查看原文

一统天下：自然语言连接沟通、感知与行动

作者: Simone Colombani, Dimitri Ognibene, Giuseppe Boccignone

近年来，人机交互领域的研究集中于开发能够理解复杂人类指令并在动态和多样化环境中执行任务的机器人。这些系统应用广泛，从个人助理到工业机器人，都强调机器人与人类灵活、自然和安全地交互的重要性。本文提出了一种先进的机器人动作规划架构，该架构将基于大型语言模型（LLM）的通信、感知和规划相集成。我们的系统旨在将自然语言表达的指令转换成可执行的机器人动作，结合环境信息，并根据实时反馈动态更新计划。规划器模块是系统的核心，其中在改进的 ReAct 框架中嵌入的 LLMs 用于解释和执行用户命令。通过利用其广泛的预训练知识，LLMs 可以有效地处理用户请求，而无需引入关于变化环境的新知识。改进的 ReAct 框架通过提供实时的环境感知和物理动作的结果，进一步增强了执行空间。通过将健壮且动态的语义地图表示（以图的形式）与控制组件和故障解释相结合，该架构增强了机器人的适应性、任务执行能力以及在共享和动态环境中与人类用户无缝协作的能力。通过与环境集成连续反馈回路，系统可以动态调整计划以适应意外变化，从而优化机器人的任务执行能力。利用以往经验的数据集，可以提供关于故障的详细反馈，并在下一次迭代中更新LLMs的上下文，提出克服问题的建议。

发布时间: 11/25/2024

查看原文

基于大语言模型的机器人动态环境感知中的场景图滤波方法

作者: Simone Colombani, Luca Brini, Dimitri Ognibene, Giuseppe Boccignone

大型语言模型（LLM）正在越来越多地用于动态环境（如工作场所、医院和家庭）中的机器人。因此，机器人交互必须简单直观，机器人的感知需要高效地适应人为变化。本文提出了一种机器人控制架构，该架构解决了人机交互中的关键挑战，特别关注机器人状态表示的动态创建和持续更新。该架构利用大型语言模型来整合不同的信息来源，包括自然语言指令、机器人技能表示以及感知场景的实时动态语义映射。这使得机器人能够在复杂动态环境中实现灵活自适应的行为。传统的机器人系统通常依赖于静态的预编程指令和设置，这限制了它们对动态环境和实时协作的适应性。相反，该架构使用LLM来解释复杂的高级指令并生成可执行的计划，从而增强人机协作。其核心是系统感知模块使用RGB-D传感器数据生成并持续更新语义场景图，从而提供对环境的详细且结构化的表示。粒子滤波器用于确保在动态的现实世界环境中准确的对象定位。规划模块利用这个最新的语义地图将高级任务分解成子任务，并将它们与机器人技能（如导航、物体操作（例如，拾取和放置）和移动（例如，前往））联系起来。通过结合实时感知、状态跟踪以及LLM驱动的通信和任务规划，该架构增强了动态环境中机器人的适应性、任务效率和人机协作。

发布时间: 11/25/2024

查看原文

基于自主传感器用例的生成式AI赋能FTA生成

作者: Sneha Sudhir Shetiya, Divya Garikapati, Veeraja Sohoni

功能安全是系统设计中的一个重要方面，其在汽车行业的应用近年来发展显著。迄今为止，已经开发出许多方法来针对自动驾驶的各种场景和功能获得合适的故障树分析（FTA）。本文旨在探索使用生成式人工智能 (GenAI) 开发故障树分析 (FTA) 的可能性，并以激光雷达传感器故障为例。我们探索了各种可用的开源大型语言模型 (LLM)，然后深入研究其中一个模型，以研究其响应并提供我们的分析。本文成功地展示了通过提示工程训练现有大型语言模型进行任何自动驾驶用例的故障树分析的可能性，并借助 PlantUML 工具。

发布时间: 11/25/2024

查看原文

ScribeAgent：基于生产规模工作流数据构建专业化网页代理

作者: Junhong Shen, Atishay Jain, Zedian Xiao, Ishan Amlekar, Mouad Hadji, Aaron Podolny, Ameet Talwalkar

大型语言模型 (LLM) 代理正在迅速改进，以处理日益复杂的基于 Web 的任务。大多数这些代理依赖于通用、专有的模型，如 GPT-4，并专注于设计更好的提示以提高其规划能力。然而，通用 LLM 并没有专门针对理解诸如 HTML 等专业 Web 上下文进行训练，并且它们常常难以进行长期规划。我们探索了一种替代方法，该方法使用从超过 250 个领域收集的、对应于 60 亿个标记的生产规模工作流数据来微调开源 LLM。这种简单而有效的方法在现有基准测试中显示出比基于提示的代理显著的优势——ScribeAgent 在 Mind2Web 上实现了最先进的直接生成性能，并且在 WebArena 上比之前的最佳纯文本 Web 代理将任务成功率提高了 14.1%。我们进一步对各种微调设计选择进行了详细的消融研究，并提供了对 LLM 选择、训练方法、上下文窗口优化以及数据集大小的影响的见解。

发布时间: 11/25/2024

查看原文

细胞学分类中基础模型微调的探索

作者: Manon Dausort, Tiffanie Godelaine, Maxime Zanella, Karim El Khoury, Isabelle Salmon, Beno\^it Macq

细胞学玻片是癌症诊断和分期必不可少的工具，但其分析耗时且成本高昂。基础模型已展现出在这些任务中提供辅助的巨大潜力。本文探讨了如何将现有基础模型应用于细胞学分类。更具体地说，我们关注低秩自适应，这是一种适用于少样本学习的参数高效微调方法。我们评估了四个细胞学分类数据集上的五个基础模型。我们的结果表明，与仅微调分类器头部相比，使用LoRA微调预训练主干显著提高了模型性能，在简单和复杂的分类任务上都取得了最先进的结果，同时所需数据样本更少。

发布时间: 11/25/2024

查看原文

Open-Amp：用于音频特效基础模型的合成数据框架

作者: Alec Wright, Alistair Carson, Lauri Juvela

本文介绍了Open-Amp，一个用于生成大规模多样化音频特效数据的合成数据框架。音频特效与许多音乐音频处理和音乐信息检索 (MIR) 任务相关，例如模拟模拟音频特效、自动混音、音调匹配和转录。现有的音频特效数据集范围有限，通常包含相对较少的音频特效处理器和有限数量的输入音频信号。我们提出的框架通过众包吉他放大器和特效的神经网络模拟来克服这些问题，这些模拟是由开源音频特效模拟软件的用户创建的。这允许Open-Amp的用户完全控制要由特效模型处理的输入信号，并提供数百种设备的高质量模拟。Open-Amp可以在训练期间在线渲染音频，从而在数据增强方面具有很大的灵活性。我们的实验表明，使用Open-Amp训练吉他特效编码器在多个吉他特效分类任务上取得了新的最先进的结果。此外，我们使用Open-Amp训练了一个一对多的吉他特效模型，并用它通过操纵其学习到的潜在空间来模拟未见过的模拟特效，表明其可迁移到模拟吉他特效数据。

发布时间: 11/25/2024

查看原文

瑞士ADT：一种针对瑞士语言的音频描述翻译系统

作者: Lukas Fischer, Yingqiang Gao, Alexa Lintner, Sarah Ebling

音频描述 (AD) 是一项为盲人和视障人士提供的关键辅助服务，旨在以声音形式传达视觉信息。尽管多语言机器翻译研究取得了最新进展，但缺乏精心制作且时间同步的 AD 数据阻碍了音频描述翻译 (ADT) 系统的发展，而这些系统旨在满足瑞士等多语言国家的需求。此外，由于大多数 ADT 系统仅依赖文本，因此是否存在通过结合来自相应视频片段的视觉信息来提高 ADT 输出质量的问题尚不明确。在这项工作中，我们介绍了 SwissADT，这是第一个为瑞士三种主要语言和英语实现的 ADT 系统。通过收集用德语、法语、意大利语和英语增强的精心制作的 AD 数据，并利用大型语言模型 (LLMs) 的强大功能，我们旨在通过自动将 AD 剧本翻译成所需的瑞士语言来增强瑞士不同语言人群的信息可访问性。我们广泛的实验性 ADT 结果（包括对 ADT 质量的自动和人工评估）证明了 SwissADT 在 ADT 任务中的良好能力。我们相信，将人类专业知识与 LLMs 的生成能力相结合，可以进一步提高 ADT 系统的性能，最终惠及更大规模的多语言目标人群。

发布时间: 11/25/2024

查看原文

用于条形码的大型语言模型：生成用于身份文件的多种合成数据

作者: Hitesh Laxmichand Patel, Amit Agarwal, Bhargava Kumar, Karan Gupta, Priyaranjan Pattnayak

身份文档中准确的条形码检测和解码对于安全、医疗和教育等应用至关重要，因为这些应用需要可靠的数据提取和验证。然而，由于缺乏多样化、真实的的数据集，构建强大的检测模型极具挑战性，而这一问题通常与隐私问题和各种各样的文档格式有关。传统的工具，例如 Faker，依赖于预定义的模板，使其在捕捉现实世界身份文档的复杂性方面效率较低。在本文中，我们介绍了一种新的合成数据生成方法，该方法使用大型语言模型 (LLM) 来创建上下文丰富且真实的数据，而无需依赖预定义字段。利用大型语言模型关于不同文档和内容的丰富知识，我们的方法创建的数据能够反映现实身份文档中的多样性。然后，将这些数据编码成条形码，并叠加在驾驶执照、保险卡、学生证等文档的模板上。我们的方法简化了数据集创建过程，无需大量的领域知识或预定义字段。与 Faker 等传统方法相比，大型语言模型生成的数据具有更大的多样性和上下文相关性，从而提高了条形码检测模型的性能。这种可扩展的、隐私优先的解决方案是推动机器学习用于自动化文档处理和身份验证的一大进步。

发布时间: 11/25/2024

查看原文

设计计量器：评估和改进图形设计的途径

作者: Sahil Goyal, Abhinav Mahajan, Swasti Mishra, Prateksha Udhayanan, Tripti Shukla, K J Joseph, Balaji Vasan Srinivasan

大型图形设计是有效的视觉交流媒介，涵盖从贺卡到公司宣传单等各种形式。最近，机器学习技术能够生成此类设计，从而加快内容创作速度。因此，对设计质量进行自动化评估变得至关重要。为此，我们引入了Design-o-meter，这是一种数据驱动的方法，用于量化图形设计的优劣。此外，我们的方法可以建议修改这些设计以提高其视觉吸引力。据我们所知，Design-o-meter是第一个在统一框架内对设计进行评分和改进的方法，尽管该设置本身具有主观性和模糊性。我们对该方法与针对该任务调整的基线（包括最近基于多模态大型语言模型的方法）进行了详尽的定量和定性分析，结果表明了我们方法的有效性。我们希望我们的工作能够引起人们对这个重要且实际的问题设置的更多关注。

发布时间: 11/25/2024

查看原文