arXiv:2504.05220v2 宣告类型: replace-cross
摘要: 检索模型通常依赖于昂贵的人工标记查询-文档相关性注解用于训练和评估。为了减少这种成本,并充分利用大型语言模型(LLM)在相关性判断方面的潜力,我们旨在探索LLM生成的注解是否可以有效地替代人工注解用于训练检索模型。检索通常侧重于相关性,这表明文档与查询之间的“主题相关性”,而在RAG中,文档的价值(或实用性)取决于其如何贡献于答案生成。认识到这种不匹配,一些研究人员使用LLM在文档上的下游任务性能作为标签,但这需要为特定任务手动回答,导致高成本和有限的泛化。另一些研究则是通过提示LLM选择有用的文档作为RAG参考来消除人工注解的需要,这并不针对特定任务。如果利用LLM的实用性判断对检索数据进行注解,我们可能在大规模语料库中保留跨任务的泛化能力而不进行人工注解。因此,我们在检索和RAG任务中的在域和跨域设置下,调查了通过LLM进行实用性注解的大规模检索训练数据。为了减少由LLM标记的低质量正例的影响,我们设计了一种新的损失函数,即Disj-InfoNCE。我们的实验表明:(1) 基于实用性注解训练的检索器在两个任务的跨域设置中显著优于基于人工注解训练的检索器,展示了更强的泛化能力。(2) 在域设置中,LLM注解并不能替代人工注解。然而,只需整合20%的人工标注数据,基于实用性注解训练的检索器就能达到完全使用人工注解训练的模型的性能。
arXiv:2504.04939v2 宣告类型: replace-cross
摘要:自转换,即将物体在自己手中传递,是一种常见但研究不足的双用手部动作。尽管它在复杂任务中促进了无缝过渡,但其执行策略仍然被很大程度上忽视。在此,我们介绍了第一个系统化的自转换分类法,该分类法源自对21名参与者进行的烹饪活动超过12小时的手工标注。我们的分析表明,自转换不仅仅是被动的过渡,而是一种高度协调的动作,涉及两手的预期调整。为进一步实现对人类操作的自动化分析,我们进一步证明,可以使用最先进的视觉-语言模型来对自转换类型进行分类。这些发现为双用手部协调提供了新的见解,强调了自转换在实现平滑任务过渡中的作用——这是适应性双臂机器人技术所需的一项能力。
arXiv:2504.04903v2 宣告类型: replace-cross
摘要: 我们提出了Lunima-OmniLV (简称为OmniLV),这是一种针对低级视觉的通用多模态多任务框架,涵盖了四大类超过100个子任务:图像恢复、图像增强、弱语义密集预测和风格化。OmniLV 利用文本和视觉提示提供灵活且用户友好的交互。基于基于扩散变换器(DiT)生成先验,我们的框架支持任意分辨率——在1K分辨率下实现最佳性能——同时保持细腻细节和高保真度。通过广泛实验,我们证明,分别编码文本和视觉指令,并结合浅层特征控制的协同训练,对于缓解任务模糊性和增强多任务泛化是至关重要的。我们的研究结果还表明,将高级生成任务整合到低级视觉模型中可能会影响细节敏感的恢复效果。这些见解为构建更为稳健和泛化的低级视觉系统铺平了道路。
arXiv:2504.04717v2 公告类型:替换交叉
摘要:大型语言模型(LLMs)最近的进步已经彻底改变了它们处理单轮任务的能力,但在实际应用中,仍然需要复杂的多轮交互。本文综述了最近在评估和增强LLMs多轮交互方面的进展。本文着眼于特定任务场景,从数学和编程等多种领域中的指令跟随,到在角色扮演、医疗保健、教育,甚至对抗性越狱设置中的复杂对话互动,我们系统地考察了在长时间对话中保持情境、连贯性、公正性和响应性的挑战。本文将现有的基准测试和数据集组织成反映多轮对话评估演化的连贯类别。此外,我们还回顾了多轮场景下的多种增强方法,包括基于模型的策略(上下文学习、监督微调、强化学习和新型架构)、外部整合方法(增强记忆的、检索为基础的方法和知识图谱)以及基于代理的技术,用于协作交互。最后,我们讨论了开放性挑战,并提出未来研究方向,以进一步提高多轮交互在LLMs中的稳健性和有效性。相关资源和论文可在https://github.com/yubol-cmu/Awesome-Multi-Turn-LLMs找到。
arXiv:2504.04582v2 通知类型: 交叉替换
摘要:生成性扩散模型已成为合成生成训练数据的强大工具,为解决数据稀缺问题并减少下游监督深度学习应用中的标注成本提供了潜在解决方案。然而,有效利用基于文本条件的图像生成来构建分类器训练集需要解决几个关键问题:构造信息性的文本提示、适应生成模型以特定领域为目标,并确保其性能的可靠性。本文提出了基于文本条件的知识回收(TCKR)流水线以应对这些挑战。TCKR结合了动态图像描述、参数高效的扩散模型微调和生成性知识蒸馏技术来创建适用于图像分类的定制合成数据集。该流水线在十种不同的图像分类基准测试上进行了严格的评估。结果表明,仅使用TCKR生成的数据训练的模型在分类准确性上与使用真实图像训练的模型相当(在某些情况下甚至优于),并且展现出显著提升的隐私特性:会员推理攻击的易感性显著降低,与使用真实训练数据相比,平均降低5.49个点的会员推理AUC值,表明在性能-隐私权衡中的显著改进。这些发现表明,高质量的合成数据可以有效替代真实数据用于训练分类器,既能获得强大的性能,同时还能通过提供重要的新兴属性来增强隐私保护。附带的开源存储库中提供了代码和训练模型。
arXiv:2504.04466v2 通告类型: 交叉替换
摘要:循环——旨在无缝重复的简短音频片段——在许多音乐流派中起着核心作用,尤其是那些根植于舞蹈和电子风格的流派。然而,当前的生成音乐模型在生成真正可循环的音频方面面临挑战,因为仅生成一个简短的波形并不保证从其结束点平滑过渡回其起点,经常会导致可听到的不连续性。循环——旨在无缝重复的简短音频片段——在许多音乐流派中起着核心作用,尤其是那些根植于舞蹈和电子风格的流派。然而,当前的生成音乐模型在生成真正可循环的音频方面面临挑战,因为仅生成一个简短的波形并不保证从其结束点平滑过渡回其起点,经常会导致可听到的不连续性。为了解决这一差距,我们修改了一个非自回归模型(MAGNeT),使其生成令牌呈圆形模式,让模型在创建其终点时注意音频的开头。这种仅推断的方法生成的结果能够意识到未来的上下文并自然循环,无需任何额外的训练或数据。我们通过计算循环接缝周围的令牌困惑度来评估循环过渡的一致性,观察到55%的提高。盲听测试进一步确认了与基准方法相比,感知方面的显著改进,平均评分提高70%。综合这些结果,突显了仅推断方法在提高生成模型方面的有效性,并强调了非自回归方法在上下文感知音乐生成方面的优势。
arXiv:2504.04332v2 公告类型:替换-交叉
摘要:随着语言模型在对话文本生成方面实现越来越接近人类的能力,一个关键问题浮现出来:这些系统能够模拟特定个体特征到什么程度?为评估这一点,我们引入了 IMPersona 框架,用于评估语言模型在模仿特定个体的写作风格和个人知识方面的表现。通过监督微调和受层次记忆启发的检索系统,我们证明即使是规模相对较小的开源模型,如 Llama-3.1-8B-Instruct,也能达到令人担忧的模仿能力水平。在盲对话实验中,参与者在44.44%的交互中将我们的带有记忆整合的微调模型误认为是人类,而最好的提示基方法仅有25.00%的识别率。我们分析了这些结果,提出了检测方法和防御策略,以应对这种模仿行为。我们的发现引发了关于个性化语言模型的潜在应用和风险的重要问题,特别是在隐私、安全以及这些技术在现实世界中的道德部署方面。
arXiv:2504.03994v2 通知类型: 替换-交叉
摘要: 本文介绍了一种新的强化学习(RL)方法,用于在具有不同速度的处理器上调度混合关键性(MC)系统。在[1]的工作基础上,我们将其扩展以解决非抢占调度问题,该问题已被证明是NP难问题。通过将此调度挑战建模为马尔可夫决策过程(MDP),我们开发了一个RL代理,能够为实时MC系统生成接近最优的调度。我们的基于RL的调度器优先处理高关键性任务,同时保持系统总体性能。
通过大量的实验,我们展示了该方法的可扩展性和有效性。基于RL的调度器显著提高了任务完成率,在100,000个合成数据实例和实际数据样本下,在不同系统条件下,总任务完成率为80%,高关键性任务完成率为85%。此外,在没有性能退化的稳定条件下,调度器实现了总体任务完成率94%,高关键性任务完成率93%。这些结果突显了基于RL的调度器在实时和安全关键应用中的潜力,提供了处理复杂和动态调度场景的重要改进。
arXiv:2504.03989v2 宣布类型: 替换-交叉
摘要:自主车辆(Autonomous Vehicles, AVs)旨在通过减少人为错误来提高交通安全性与效率。然而,当考虑罕见的高风险交通场景时,确保AVs的可靠性和安全性是一个具有挑战性的任务。这些“角案例”(Corner Cases, CC)场景,例如意外的车辆操作或突然的行人横穿,必须在AVs的操作过程中安全可靠地应对。但是,这些场景难以高效地生成。传统CC生成依靠昂贵且有风险的实际数据收集,限制了规模性,并减缓了研究与开发的进度。基于模拟的技术也面临挑战,因为要建模多种多样的场景并捕获所有可能的CCs是复杂且耗时的。为了解决CC生成中的这些局限性,这项研究引入了CORTEX-AVD(Corner Case Testing & EXploration for Autonomous Vehicles Development,自主车辆开发中的角案例测试与探索),这是一个开源框架,结合了CARLA模拟器和Scenic,可以自动从文本描述中生成CC,增加了场景建模的多样性和自动化程度。遗传算法(Genetic Algorithms, GAs)被用于优化六种案例研究场景中的情景参数,增加了高风险事件的发生率。与之前的方法不同,CORTEX-AVD整合了一个多因素适应度函数,考虑了诸如距离、时间、速度和碰撞可能性等多种变量。此外,该研究还提供了一个基于GA的CC生成方法的基准,有助于更标准化地评估合成数据生成和场景评估。实验结果表明,CORTEX-AVD框架在显著提高CC发生率的同时,减少了无用模拟的比例。
arXiv:2504.03814v2 宣告类型:替代交叉
摘要:大型语言模型(LLMs)越来越多地参与到互联网内容的创建中。这会产生一种反馈循环,因为后续的模型将基于这些生成的、合成的数据进行训练。这一现象正逐渐引起关注,特别是因为之前的研究所表明,这可能会导致分布偏移——模型错误地代表和忘记它们预期要逼近的人类数据的真实底层分布(例如,导致质量急剧下降)。在本研究中,我们研究了人类数据属性对迭代训练循环中分布偏移动态的影响。我们首先通过对比四个数据集(两个基于推特,两个基于Reddit)证实,分布偏移动态会因人类数据的不同而变化。然后我们测试数据质量是否会影响这种偏移的速度。我们发现,在推特数据集上这是适用的,但在Reddit数据集上则不是。接着,我们将重点放在Reddit数据集上,并对一系列数据集属性进行了更全面的评估。这项实验发现词汇多样性与较大的不利偏移相关,而语义多样性与较小的不利偏移相关,表明包含具有高词汇(但受限的语义)多样性的文本可能会加剧生成文本的退化。然后,我们研究了政治偏见的发展,并发现观察到的偏移类型(偏见减少、放大或反转)取决于人类(真实)分布的政治倾向。总体而言,我们的工作通过指出这一现象高度依赖于训练所涉及的人类数据特征,扩展了关于递归微调后果的现有文献。这表明,根据其属性,互联网的不同部分(例如,GitHub、Reddit)可能会经历不同类型的偏移。