arXiv:2411.02305v2 宣告类型: 替换-交叉
摘要:客户关系管理(CRM)系统对于现代企业至关重要,提供了管理和处理客户互动和数据的基础。将AI代理集成到CRM系统中可以自动化常规流程并增强个性化服务。然而,由于缺乏能够反映真实CRM任务复杂性的现实基准,部署和评估这些代理颇具挑战性。为了解决这一问题,我们介绍了CRMArena,这是一种新型基准,旨在评估AI代理在现实任务中的表现,这些任务植根于专业工作环境中。在CRM专家的指导下,并遵循行业最佳实践,我们设计了CRMArena,其中包括分布在三个角色(服务代表、分析师和经理)之间的九个客户服务任务。基准测试包括16个常用的工业对象(例如,账户、订单、知识文章、案例),这些对象具有高度的相互关联性,同时还包括潜在变量(例如,投诉习惯、政策违规),以模拟现实的数据分布。实验结果表明,在使用ReAct提示下,最先进的LLM代理成功完成的任务不到40%,即使拥有函数调用能力,成功率也低于55%。我们的研究发现强调了增强代理在函数调用和规则遵循方面的必要性,以在实际工作环境中部署。CRMArena是对社区的一项公开挑战:能够可靠地完成任务的系统在流行的工作环境中展示了直接的商业价值。
arXiv:2410.23918v3 宣告类型: replace-cross
摘要:大型语言模型(LLMs)已经彻底改变了众多应用,但在本地设备上部署这些模型仍受到内存限制的挑战。尽管扩展定律提高了LLM的能力,瓶颈已经从“能力”转变为“可用性”,突显了高效内存管理的必要性。传统的压缩方法,例如量化,通常需要预定义的压缩比例,并且每个设置都需要单独的压缩过程,这在不同内存环境下的部署中显得复杂。在这篇论文中,我们介绍了**BitStack**,这是一种新型的、无需训练的权重压缩方法,它能够在内存使用和模型性能之间实现兆字节级别的权衡。通过利用权重分解,BitStack可以动态调整模型大小,同时在运行内存和存储设备之间进行最小的传输。我们的方法在每一步分解权重时都会考虑每个参数的重要性,从而在每次分解迭代中产生大约1比特/参数的残差块。这些块按顺序存储为基本传输单元,根据当前可用的内存数量加载不同数量的块。在各种任务的广泛实验中表明,尽管提供了细粒度的大小控制,BitStack仍然能够一致地匹配或超越强大的量化基准,特别是在极端压缩比例下。据我们所知,这是第一个有效填补分解方法与实用压缩技术(如量化)之间差距的方法。代码可以在 https://github.com/xinghaow99/BitStack 获取。
arXiv:2410.23166v2 通知类型: replace-cross
摘要:大规模语言模型(LLMs)的快速进步为自动化提出创新性科学理念开辟了新的可能性。这一过程涉及两个关键阶段:文献检索和理念生成。然而,现有的方法往往由于检索阶段依赖关键词搜索工具而受到限制,这些工具忽视了重要的语义信息,并经常导致不完整的检索结果。类似地,在理念生成阶段,当前的方法倾向于仅依赖LLMs的内部知识或检索出的论文的元数据,从而忽视了包含在全文中的大量有价值见解。为了解决这些限制,我们引入了SciPIP,这是一种创新框架,旨在通过在文献检索和理念生成两方面的改进,增强基于LLMs的科学研究理念提出能力。我们的方法首先构建了一个全面的文献数据库,支持基于关键词、语义和引用关系的高级检索。此外,我们引入了多粒度检索算法,以确保更彻底和详尽的检索结果。在理念生成阶段,我们提出了一种双路径框架,有效地结合了检索出的论文内容和LLMs的广泛内部知识。这种结合极大地提高了提出理念的新颖性、可行性和实用性。我们在自然语言处理和计算机视觉等多个领域进行的实验表明,SciPIP能够生成多种创新性和实用性强的理念。这些发现突显了SciPIP作为研究人员发明突破性概念的宝贵工具的潜力。
arXiv:2410.22662v2 宣告类型: replace-cross
摘要: 异构多机器人系统(HMRS)已成为解决单个机器人无法单独完成的复杂任务的强大方法。当前基于大型语言模型的多智能体系统(LLM-based MAS)在软件开发和操作系统等领域取得了成功,但在将其应用于机器人控制时面临着独特的挑战。特别是,多机器人系统中每个智能体的能力固有地与其所使用机器人的物理组成密切相关,而不是预定义的角色。为了解决这个问题,我们介绍了一种新的多智能体框架,旨在使异构机器人在不同体态和能力下有效协作,并引入了一个新的基准名为 Habitat-MAS。我们设计中的一个关键点是“机器人简历”:与其采用人类设计的角色扮演,我们提出了一种自我提示的方法,其中智能体理解机器人URDF文件并调用机器人运动学工具来生成描述其物理能力的描述,以在任务规划和动作执行中指导其行为。Habitat-MAS基准旨在评估多智能体框架如何处理需要体态感知推理的任务,包括1)操作、2)感知、3)导航,以及4)全面的多楼层物体重组。实验结果表明,机器人简历和我们多智能体系统的分层设计对于在这一复杂问题背景下有效运行异构多机器人系统至关重要。
arXiv:2410.22353v3 通告类型: replace-cross
摘要:检索增强生成(RAG)在知识密集型问答(QA)方面展示了有前途的潜力。然而,现有的方法仅考虑查询本身,既没有为检索器指定检索偏好,也没有告知生成器如何引用检索到的文档来生成答案,这给问答性能带来了重大挑战。为了解决这些问题,我们提出了带有LM的规则引导检索增强生成(Rule-guided Retrieval-Augmented Generation with LMs,简称RuleRAG-ICL),显式地引入了上下文学习规则(RuleRAG-ICL)来引导检索器按照规则的指引回忆相关文档,并一致地指导生成器根据同一规则进行推理。此外,大多数现有的RAG数据集是在未考虑规则的情况下构建的,而知识图谱(KGs)被认可为提供高质量规则的支持。因此,我们基于知识图谱构建了五个规则感知的RAG基准数据集,名为RuleQA,以强调规则检索和推理的重要性。在RuleQA上的实验表明,在Recall@10上,RuleRAG-ICL提高了89.2%,在精确匹配上提高了103.1%的答对率,而RuleRAG-FT表现更为突出。此外,对四个现有RAG数据集的实验显示,通过在RuleQA中提供规则,RuleRAG也同样有效,进一步证明了RuleRAG中规则指导的泛化能力。
arXiv:2410.22108v2 通知类型: replace-cross
摘要: 在大量网页语料库上训练的生成模型,如大型语言模型(LLM)和多模态大型语言模型(MLLMs),可以记住并公开个体的机密和私人数据,引发法律和伦理问题。尽管许多之前的工作已经在LLM中通过机器遗忘来解决这一问题,但对于MLLMs而言,这方面的工作仍然很少。为应对这一挑战,我们引入了多模态大型语言模型遗忘基准(MLLMU-Bench),这是一种旨在推进多模态机器遗忘理解的新基准。MLLMU-Bench 包括500个虚构的个人资料和153个公众名人的个人资料,每个个人资料包含超过14个定制的问答对,从多模态(图像+文本)和单模态(文本)两个视角进行评估。基准测试分为四组,以评估遗忘算法的有效性、泛化能力和模型实用性。最后,我们使用现有的生成模型遗忘算法提供了基准结果。令人惊讶的是,我们的实验表明,在生成和填空任务中,单模态遗忘算法表现出色,而在包含多模态输入的分类任务中,多模态遗忘方法表现更好。
arXiv:2410.19100v3 公告类型: 交叉替换
摘要:视频经常用于以与仅靠文本和静态图像所能提供的不同的方式学习或提取完成任务所需的必要信息。然而,许多现有的代理基准忽略了长上下文视频理解,而是专注于文本或静态图像输入。为了弥合这一差距,我们引入了VideoWebArena(VideoWA),这是一个用于评估长上下文多模态代理视频理解能力的基准。VideoWA 包含基于手工制作的视频教程的 2021 个 web 代理任务,总计近四小时的内容。对于我们的基准,我们定义了一个基于长上下文视频的代理任务的分类法,重点关注两大领域:技能保留和事实保留。虽然技能保留任务评估代理是否可以使用给定的人类示范高效地完成任务,事实保留任务则评估代理是否可以从视频中检索到相关信息以完成任务。我们发现,最佳模型在事实保留任务中的成功率为 13.3%,在事实保留问答对中的成功率则为 45.8%,分别远低于人类表现的 73.9% 和 79.3%。在技能保留任务中,使用教程的长上下文模型的表现比不使用教程时更差,WebArena 任务的性能下降了 5%,VisualWebArena 任务的性能下降了 10.3%。我们的工作突显了提高长上下文多模态模型的代理能力的必要性,并为未来开发长上下文视频代理提供了试验台。
arXiv:2410.15281v2 通知类型: 替换-交叉
摘要: 随着大型语言模型(LLMs)的更广泛使用及其高度成功的开发,人们越来越感兴趣并迫切希望将LLMs应用于自动驾驶技术。受到其自然语言理解和推理能力的驱动,LLMs有可能增强自动驾驶系统的各个方面,从感知和场景理解到语言交互和决策。在本文中,我们首先介绍了为自动驾驶设计LLMs(LLM4AD)的新型概念。然后,我们提出了一个全面的基准,用于评估LLM4AD在仿真中的指令跟随能力。此外,我们在实际车辆平台上进行了系列实验,全面评估了我们的LLM4AD系统的性能和潜力。最后,我们展望了LLM4AD的主要挑战,包括延迟、部署、安全和隐私、安全、信任和透明度,以及个性化。我们的研究突显了LLMs在从感知和场景理解到语言交互和决策等多个方面增强自动驾驶技术的巨大潜力。
arXiv:2410.14735v4 公告类型: replace-cross
摘要: 训练大型语言模型以掌握具体技能仍然是一个具有挑战性的任务。传统的训练方法常常难以应对数据分布不平衡以及与任务特定性能不匹配的目标函数。为了解决这些挑战,我们引入了CycleQD,这是一种新颖的方法,它通过算法的循环适应利用了Quality Diversity框架,并结合了基于模型合并的杂交和基于SVD的变异。在CycleQD中,每个任务的性能指标交替作为质量度量,而其他指标则作为行为特征。这种循环关注个体任务允许在一次专注于一个任务的同时集中精力,从而消除了数据比例调整的需要,并简化了目标函数的设计。来自AgentBench的实验证明,将CycleQD应用于基于LLAMA3-8B-INSTRUCT的模型不仅使其在编码、操作系统和数据库任务中超越传统的微调方法,还能够在这些领域达到与具有更多参数的GPT-3.5-TURBO相当的表现。关键的是,这种性能的提升是在保持强大的语言能力的同时实现的,这可以通过其在广泛采用的语言基准任务中的表现来证明。我们强调了CycleQD的关键设计选择,详细说明了这些选择如何有助于其效果。此外,我们的方法是通用的,并可以应用于图像分割模型,突显了其在不同领域的适用性。
arXiv:2410.12480v2 公告类型: replace-cross
摘要:模式匹配(SM)和实体匹配(EM)任务对于数据集成至关重要。尽管大型语言模型(LLMs)在这些任务中表现出令人鼓舞的结果,但它们在任务指令方面存在幻觉和混淆的问题。本研究提出了知识合规匹配框架(KcMF),这是一种基于LLM的方法,解决了这些问题,而无需进行领域特定的微调。KcMF采用一次成型的伪代码为基础的任务分解策略,采用自然语言语句来引导LLM推理并减少各种任务类型的混淆。此外,我们还提出了两种机制——数据集作为知识(DaK)和示例作为知识(EaK),在缺乏结构化领域知识时构建领域知识集。同时,我们引入了一种结果聚合策略,利用多个知识来源并抑制格式不规范的输出。广泛的评估证实,KcMF 明显增强了两种模式匹配任务中五个LLM基础模型的表现,平均F1分比非LLM竞争对手高出17.93%。