arXiv:2410.13716v2 通知类型: 替换-交叉
摘要:传统的检索增强生成(RAG)基准使用基于启发式的度量标准来评估系统,但这些度量标准需要人工偏好的真实值作为参考。相比之下,在系统彼此竞争的赛制基准中,需要一个昂贵的大语言模型(LLM)作为可靠的评估裁判。我们提出了一种简单高效的技术,以结合两者的优点。想法是使用启发式度量标准作为输入来训练一个代理裁判,输出LLM作为裁判预测。在我们的工作中,我们开发了MIRAGE-Bench,这是一个针对维基百科18种不同语言的合成赛制基准,专注于多语言答案生成评估。它广泛结合了启发式特征和LLM作为评估裁判。我们对19种多语言LLM进行了基准测试,并观察到使用我们的代理裁判和使用Bradley-Terry框架作为教师的GPT-4o之间具有高度相关性(Kendall Tau($\tau$) = 0.909)。我们的结果显示,当前专有和大型开源LLM在MIRAGE-Bench上占主导地位。我们的代码和数据集在此处公开:https://github.com/vectara/mirage-bench。
arXiv:2410.13567v3 通知类型: replace-cross
摘要: 衣物更换的人重识别(CC-ReID),也称为长期人重识别(LT-ReID),是计算机视觉中的一个关键且具有挑战性的研究课题,最近引起了广泛关注。然而,由于构建CC-ReID数据的成本高,现有的数据驱动模型在有限的数据上难以高效训练,导致了过拟合问题。为了解决这一挑战,我们提出了一种低成本且高效的生成模拟CC-ReID任务特定实际情况的控制性和高质量合成数据的管道。特别地,我们构建了一个新的自注释CC-ReID数据集,命名为Cloth-Changing Unreal Person(CCUP),包含6,000个ID,1,179,976张图像,100个摄像头,以及每人26.5套服装。基于这个大规模的数据集,我们引入了一种有效的可扩展的预训练-微调框架,旨在增强传统CC-ReID模型的一般化能力。广泛实验表明,当将典型的两种模型TransReID和FIRe^2整合到我们的框架中,并在CCUP上进行预训练,在基准数据集如PRCC、VC-Clothes和NKUP上进行微调后,这两种模型的性能超过了其他最先进的模型。CCUP可在以下链接获取:https://github.com/yjzhao1019/CCUP。
arXiv:2410.11971v2 公布类型: replace-cross
摘要:扩散模型在生成建模(例如,文本转图像)方面表现出色,但采样需要多次去噪网络传递,限制了其实用性。通过减少传递次数来降低生成样本质量的做法,如渐进蒸馏或一致性蒸馏,已经显示出前景。在这项工作中,我们发现协变移位是多步蒸馏模型性能不佳的原因之一,因为推理时累积误差会导致性能下降。为了应对协变移位,我们将扩散蒸馏形式化为模仿学习(DDIL)框架,并通过数据分布(前向扩散)和学生诱导分布(后向扩散)增强蒸馏扩散模型的训练分布。通过在数据分布上进行训练有助于通过保留边际数据分布来多样化生成,而在学生分布上进行训练通过纠正协变移位来解决累积误差。此外,我们采用反射扩散形式进行蒸馏,并展示了改进的性能和在不同蒸馏方法下稳定的训练。我们证明,DDIL一致性在渐进蒸馏(PD)、潜在一致性模型(LCM)和分布匹配蒸馏(DMD2)的基本算法上有所改进。
arXiv:2410.10870v3 宣告类型: replace-cross
摘要:随着大型语言模型(LLMs)越来越多地塑造AI格局,为了在特定领域任务中实现最佳性能,微调预训练模型比LLM时代前夕更为流行。然而,预训练LLM,如ChatGPT,会定期演变,即模型参数会频繁更新,这使得下游有限资源用户难以跟上最新LLM的微调以适应其领域应用。尽管参数高效微调(如LoRA)的创新已大幅降低了微调成本,但并非所有下游用户都有足够的计算资源进行频繁个性化。此外,在敏感领域,如医疗保健,访问微调数据集可能是时间限制性的,这使得保留早期微调轮次中编码的知识对未来适应至关重要。本文中,我们提出了PortLLM,这是一个无需训练的框架,(i)创建一个初始的轻量级模型更新补丁以捕捉领域特定知识,(ii)并允许后续无缝插件,以以最低成本对演变中的LLM进行持续个性化。我们的广泛实验涵盖了七个代表性数据集,从较简单的问答任务{BoolQ, SST2}到较难的推理任务{WinoGrande, GSM8K},以及包括{Mistral-7B, Llama2, Llama3.1, 和 Gemma2}的模型,验证了我们设计的模型更新补丁的可移植性,并展示了我们提议框架的有效性。例如,PortLLM 在 GPU 内存使用上的减少幅度高达 12.2 倍,达到了与LoRA微调相当的性能。最后,我们提供了理论依据以理解我们模型更新补丁的可移植性,这为LLMs个性化理论维度提供了新的见解。
arXiv:2410.05080v3 通知类型: 替换-交叉
摘要:大型语言模型(LLMs)的进步引起了对基于LLM的语言代理自动化整个科学发现过程的兴趣,这既激发了人们的热情,也引发了对其真正能力的怀疑。在此项工作中,我们呼吁在对科学工作流程中的单个任务进行严格的评估之前,不要做出关于端到端自动化的大胆声明。为此,我们提出了ScienceAgentBench,这是一种新的评估语言代理进行数据驱动科学发现的标准。为了确保我们的标准的科学真实性和实际相关性,我们从44篇同行评议的出版物中提取了四个学科的102个任务,并邀请九名专业领域的专家进行验证。我们将每个任务的目标输出统一为一个自包含的Python程序文件,并使用一系列评估指标来检查生成的程序、执行结果和成本。每个任务通过多次人工验证和专业领域的专家验证,以确保注释质量和科学合理性。我们还提出了两种有效的策略来缓解数据污染的担忧。使用ScienceAgentBench,我们评估了五种开源和专有的LLM,每种LLM使用三种框架:直接提示、OpenHands CodeAct和自我调试。给每个任务三次尝试的机会,性能最佳的代理只能独立解决32.4%的任务,并在专家提供的知识的帮助下解决34.3%的任务。此外,我们还使用直接提示和自我调试评估了OpenAI o1-preview,这可以将其性能提升到42.2%,证明了增加推理时计算能力的有效性,但成本是其他LLM的10多倍。尽管如此,我们的结果强调了当前语言代理生成用于数据驱动发现的代码的局限性,更不用说科学研究的端到端自动化了。
arXiv:2410.01532v3 宣告类型: 替换-交叉
摘要:自然语言处理(NLP)的进步催生了如GPT、Llama、Claude和Gemini等大型语言模型(LLMs),这些模型在各种任务上表现出色,但需要大量精细调整以使其输出符合人类预期。实现这种对齐的广泛使用方法是基于人类反馈的强化学习(RLHF),尽管这种方法取得了成功,但在准确建模人类偏好方面仍面临挑战。在本文中,我们介绍了一种新颖的框架GazeReward,该框架将隐式反馈——特别是眼动追踪(ET)数据——整合到奖励模型(RM)中。此外,我们还探讨了基于ET的功能如何为用户提供见解。通过消融研究,我们使用不同的集成方法、LLMs和ET生成模型测试了该框架,证明了我们的方法显着提高了RM在现有的人类偏好数据集上的准确度。这项工作推进了关于优化AI与人类价值观对齐的持续讨论,探索了认知数据的潜在性,以塑造未来的NLP研究方向。
arXiv:2409.17538v4 公告类型: replace-cross
摘要:自然语言处理中的一个重要方法是在通用领域数据上对模型进行大规模预训练,然后将其适应到特定的任务或领域。随着模型规模的扩大,对所有参数进行全面微调变得越来越不切实际。为了解决这个问题,已经提出了一些针对语言模型的低秩任务适应方法,例如LoRA和FLoRA。这些方法保持预训练模型权重固定,并在变压器架构的一些层中引入可训练的低秩分解矩阵,称为适配器。这种方法与全面微调所有参数相比,显著减少了下游任务所需的可训练参数数量。在本文中,我们从数据隐私的角度审视了低秩适应。我们理论证明,LoRA和FLoRA中的低秩适应会在批量梯度中注入一些随机噪声,这与适配器参数有关。我们量化了注入噪声的方差,并表明当适应秩较小时,噪声方差较大。通过在注入噪声的分布和具有相同方差的高斯分布之间的总变异性距离上建立类似于Berry-Esseen的界,我们证明了低秩适应的动力学与适配器的微分隐私微调非常接近。最后,借助Johnson-Lindenstrauss引理,当我们与梯度缩放相结合时,低秩适应非常接近使用固定噪声尺度执行DPSGD算法以微调适配器。根据我们的理论发现并由实验结果支持,我们证明了除了缓解空间和计算复杂性外,低秩适应还隐含地提供了对微调数据的隐私保护,而不会导致DPSGD的高空间复杂性。
arXiv:2409.15688v2 宣告类型: 替换-交叉
摘要:随着自动化消化内窥镜检查(RDE)的应用越来越多,确保在不规则且狭窄的消化道中安全高效地导航已成为一个重要挑战。现有的自动化强化学习导航算法常常由于缺乏必要的手动干预而导致潜在的风险碰撞,这显著限制了RDE在实际临床实践中的安全性和有效性。为了解决这一局限性,我们提出了一种基于人类干预(HI)的近端策略优化(PPO)框架,称为HI-PPO,该框架结合了专家知识以增强RDE的安全性。具体而言,HI-PPO 结合了增强探索机制(EEM)、奖励惩罚调整(RPA)和行为克隆相似性(BCS),以解决PPO在复杂消化道环境中进行安全导航的探索效率问题。在模拟平台上进行了比较实验,结果显示HI-PPO 的平均轨迹误差(ATE, Average Trajectory Error)为 \(8.02 \ \text{mm}\),安全评分为 \(0.862\),表明其性能与人类专家相当。一旦这篇论文发表,代码将公开发布。
arXiv:2409.15146v3 任务类型: replace-cross
摘要:利用大型语言模型(LLMs)的强大推理能力,基于LLM的机器人任务规划方法取得了令人鼓舞的结果。然而,它们主要专注于单个或多个 homogeneous 机器人在简单任务上的应用。实际上,复杂的长期任务通常需要多个异构机器人之间的协作,尤其是在具有更复杂动作空间的情况下,这使得任务更具挑战性。为了解决这一问题,我们提出了COHERENT,一种新的基于LLM的异构多机器人系统任务规划框架,其中包括四旋翼无人机、机器狗和机械臂。具体来说,设计了一个提案-执行-反馈-调整(PEFA)机制来分解和分配个体机器人的动作,其中中心化任务分配器提出一个任务规划提案,将复杂的任务分解为子任务,然后将子任务分配给机器人执行者。每个机器人执行者选择一个可行的动作来执行分配的子任务,并向任务分配器报告自我反思反馈以供计划调整。PEFA循环直到任务完成。此外,我们创建了一个具有100个复杂长期任务的具有挑战性的异构多机器人任务规划基准。实验结果表明,与之前的 方法相比,在成功率和执行效率方面,我们的工作在显著程度上更胜一筹。实验视频、代码和基准已发布在https://github.com/MrKeee/COHERENT。
arXiv:2409.13366v2 通知类型: 更新-交叉
摘要:空中遥感(ARS)视觉任务由于其独特的视角特性,面临着重大的挑战。现有研究主要集中在特定任务的算法上,这在广泛范围的ARS视觉应用中应用有限。本文提出RingMo-Aerial模型,旨在填补ARS视觉领域基础模型研究的空白。通过引入频率增强多头自注意力(FE-MSA)机制以及基于仿射变换的对比学习预训练方法,模型在倾斜视角方面的小目标检测能力得到了增强和优化。此外,提出了ARS-Adapter高效参数微调方法,以提高模型在各种ARS视觉任务中的适应性和有效性。实验结果表明,RingMo-Aerial在多个下游任务上实现了最佳性能。这表明RingMo-Aerial在增强ARS视觉任务性能方面具备实际应用价值和有效性。