arXiv:2411.07501v3 宣布类型: replace-cross
摘要:高效深度学习方法的核心支柱之一是架构改进,如残差/跳接连接,这导致了模型收敛性和质量的显著提升。从那时起,残差连接不仅在卷积神经网络中无处不在,也在基于变换器的架构中无处不在,这些架构是大型语言模型(LLMs)的核心。
在本文中,我们引入了\emph{学习增强残差层}(LAuReL)——这是对经典残差连接的一种新颖泛化——其目标是在保持现有残差连接功能的同时,在模型质量和尺寸方面超越现有方法。我们的实验表明,使用LAuReL可以提升视觉和语言模型的性能。例如,在ResNet-50和ImageNet 1K任务上,它实现了增加一层所获得性能提升的60%,同时仅增加了0.003%的参数,而在增加参数量减少2.6倍的情况下达到了相同的效果。
arXiv:2411.06568v2 宣告类型: replace-cross
摘要:在语言模型(LLM)对齐上评估偏好优化(PO)算法是一项具有挑战性的任务,它带来了高昂的成本、噪声及多种变量如模型大小和超参数。在本文中,我们展示了在较为简单的基准测试上获得关于PO算法有效性的洞察是可能的。我们设计了一套基于MuJoCo的任务和数据集,利用这些任务和数据集系统地评估PO算法,建立了更为可控和经济的基准测试。然后,我们提出了一种基于镜像下降的新PO算法家族,称为镜像偏好优化(MPO)。通过进化策略,我们在这一类算法中搜索,发现专为特定偏好数据集属性优化的算法,例如混合质量和噪声数据。我们证明,我们发现的PO算法在目标MuJoCo设置中优于所有已知算法。最后,基于我们在MuJoCo实验中获得的洞察,我们设计了一种新PO算法,在LLM对齐任务中显著优于现有基线。
arXiv:2411.04586v2 Announce Type: replace-cross
摘要:鲁棒性是开发安全和值得信赖的模型的基础,特别是在开放世界中部署这些模型时尤为重要。在本文中,我们分析了一阶段目标检测器在面对分布外(OoD)数据时的固有能力,以稳健运行。具体而言,我们提出了一种新型检测算法,用于在图像数据中检测未知物体,该算法利用模型从每个样本中提取的特征。与文献中其他最近的方法不同,我们的提议不需要重新训练目标检测器,从而允许使用预训练模型。我们提出的OoD检测器利用监督降维技术的应用,以减轻特征提取所受的维度灾难效应。此外,它利用高分辨率特征图以无监督的方式识别潜在的未知物体。我们的实验分析了不同算法配置和推断置信度阈值导致的检测已知和未知物体性能之间的帕累托权衡。我们还将我们提出的算法性能与基于logits的后处理OoD方法以及可能的融合策略进行了比较。最后,我们讨论了在最近发布的Unknown Object Detection基准上测试的所有方法与当前最先进的OoD方法的竞争力。获得的结果证实,当与我们提出的算法结合时,尖端的后处理OoD检测器的性能可以进一步提高。
arXiv:2410.22353v2 通告类型: 替换-交叉
摘要:检索增强生成(RAG)在知识密集型问题回答(QA)中展现出了令人鼓舞的潜力。然而,现有的方法仅考虑查询本身,并未明确为检索器指定检索偏好,也未告知生成器如何引用检索到的文档来作答,这对QA性能构成了重大挑战。为了解决这些问题,我们提出了一种基于LM的规则引导检索增强生成(Rule-guided Retrieval-Augmented Generation with LMs),其中明确引入了上下文学习规则(RuleRAG-ICL)来指导检索器按照规则的方向回溯相关文档,并均匀地指导生成器按照相同的规则进行推理。此外,现有的大多数RAG数据集在构建时并未考虑规则和知识图谱(KGs),而KGs被认识到能提供高质量的规则。因此,我们基于KGs构建了五个规则感知的RAG基准测试集RuleQA,以强调规则检索和推理的重要性。在RuleQA上的实验表明,RuleRAG-ICL在Recall@10上提高了89.2%,在精确匹配上的答案准确性提高了103.1%,并且RuleRAG-FT表现更佳。此外,对四个现有RAG数据集的实验显示,通过在RuleQA中提供规则,RuleRAG也能发挥作用,进一步证明了RuleRAG中规则指导的通用性。
arXiv:2410.21582v2 宣布类型: 替换-交叉
摘要: 高性能的大规模预训练模型承诺也为学习特定任务提供了一个有价值的基石,方法是将模型微调到期望的任务上。通过从一个通用良好的模型开始,目标是在特定任务的专业化和保持鲁棒性之间取得平衡。为了评估在下游数据集上微调后模型在非分布样本上的鲁棒性,我们引入了一个新的鲁棒微调基准——ImageNet-RIB(鲁棒性继承基准)。该基准包含一系列相关但不同的专业化(下游)数据集;预训练模型在其中一个数据集上进行微调,并在其余数据集上评估其鲁棒性,覆盖所有任务的微调和评估过程。预训练数据集与下游数据集之间的距离,通过最优运输来衡量,预测了这种性能下降。尽管持续学习方法有助于保持鲁棒性,但微调通常会降低模型在相关下游任务上的泛化性能。出乎意料的是,当预训练数据集最丰富、最多样化时,在相关下游任务上进行微调后的模型鲁棒性最差。这表明,从最强的基础模型开始,并不一定是最优策略以获得在专业任务上的性能。因此,ImageNet-RIB 为开发更抗性的微调策略和构建稳健的机器学习模型提供了关键见解。https://jd730.github.io/projects/ImageNet-RIB
arXiv:2410.21000v2 通知类型: 替换-交叉
摘要:医学视觉问答(MedVQA)在计算机视觉和自然语言处理的交叉领域引起了越来越多的关注。通过解释医学图像并提供对相关临床查询的精确回答,MedVQA 有潜力支持诊断决策并减少各个领域的负担,尤其是在放射学领域。尽管最近的方法主要依赖于统一的大规模预训练视觉-语言模型,但在这一领域对更高效的融合机制的研究相对有限。在本文中,我们提出了一种名为 OMniBAN 的新型融合模型,该模型将正交性损失、多头注意力和双线性注意力网络结合起来,实现了高效计算与良好性能并存。我们进行了全面的实验,并提供了关于双线性注意力融合如何逼近像跨模态变换器之类的大型融合模型性能的见解。我们的结果显示,OMniBAN 在关键的 MedVQA 基准测试上优于传统方法,同时保持较低的计算成本。这种在效率和准确性之间的平衡表明,OMniBAN 可能在计算资源通常受限的实际医疗图像问答场景中是一个可行的选择。
arXiv:2410.18959v2 宣告类型: replace-cross
摘要:预测是众多领域决策制定中的关键任务。尽管历史数值数据提供了一个起点,但它们未能传达可靠和准确预测所需的完整背景信息。人类预测者通常依赖额外的信息,如背景知识和约束条件,这些信息可以通过自然语言高效地传达。然而,尽管最近在基于大语言模型(LLM)的预测者方面取得了进展,他们在这方面的有效性依然存在疑问。为了应对这一挑战,我们引入了“关键在于背景”(CiK)这一时间序列预测基准,该基准将数值数据与多种精心设计的文本背景相结合,要求模型整合这两种模式。关键的是,CiK 中的每个任务都要求理解文本背景才能成功解决。我们评估了一系列方法,包括统计模型、时间序列基础模型和基于大语言模型的预测者,提出了一种简单但有效的 LLM 提示方法,该方法在我们的基准上优于所有其他测试方法。我们的实验突显了 Incorporate Contextual Information 的重要性,展示了基于大语言模型的预测模型的惊人性能,同时也揭示了它们的一些关键缺陷。该基准旨在通过推动既准确又易于不同技术背景的决策者使用的模型,来促进多模态预测的发展。该基准可以在 https://anon-forecast.github.io/benchmark_report_dev/ 可视化。
arXiv:2410.13776v3 宣告类型: replace-cross
摘要:在上下文学习(In-context Learning, ICL)已经成为使用大规模语言模型(Large Language Models, LLMs)进行自然语言任务的主要方法。预训练过程中获得的知识对于这种少-shot 能力至关重要,为模型提供了任务先验。然而,最近的研究表明,ICL 通常是依赖于检索这些先验知识而不仅仅是“学习”来执行任务。这种局限性在情绪和道德等复杂的主观领域尤为明显,在这些领域里先验对后验预测的影响显著。在本文中,我们探讨了这种现象是否是由于相应数据集中使用的聚合所导致的,其中试图将低一致性、不一致的注释结合起来可能会导致注释器误差,从而在提示中产生不利的噪声。此外,我们通过应用适当且定量化的 LLM 先验衡量标准来分析后验偏向某些注释员的现象。我们的结果表明,聚合是主观任务建模中的一个混淆因素,并提倡更多地关注个体建模。然而,聚合并不能解释 ICL 和最先进的技术之间的全部差距,这意味着还有其他因素也在造成观察到的现象。最后,通过对注释员级别的标签进行严格的研究所发现的是,少数注释员不仅能够更好地与 LLMs 对齐,而且还可以进一步放大他们的视角。
arXiv:2410.13284v2 宣告类型: replace-cross
摘要:大规模语言模型(LLMs)在多种任务上展现了令人印象深刻的性能,并且越来越多地在实际应用中部署。然而,尤其是在高风险情境下,了解LLM输出可能不可靠的情况变得至关重要。根据答案的可信度,系统可以选择将问题转交给另一个专家,或者退回到安全的默认行为。在这项工作中,我们研究了LLMs在可靠地表示其答案可信度方面的程度,以及这种可信度概念如何转化为下游准确性提升。我们提出了Self-REF,这是一种轻量级的训练策略,旨在教导LLMs以可靠的方式表达其答案是否正确。Self-REF引入了信任度标记到LLM中,从这些信任度标记中可以提取信任度分数。与传统的如表达信任度和检查标记概率的方法相比,我们通过实验证明,信任度标记在下游路由和拒绝学习任务中显示出显著的改进。
arXiv:2410.08854v3 通告类型: 替换-交叉
摘要:大型语言模型(LLMs)最近因其出色的原因推理和理解能力而受到极大关注。本文探讨了将LLMs应用于车辆网络,旨在同时优化车对基础设施(V2I)通信和自动驾驶(AD)策略。我们部署LLMs进行AD决策,以最大化交通流量并避免碰撞以提高道路安全,同时使用双重深度Q学习算法(DDQN)进行V2I优化,以最大化接收数据速率并减少频繁的切换。特别是对于LLM支持的AD,我们采用欧几里得距离来识别之前探索过的AD经验,然后LLMs可以从过去的良好和不良决策中学习以进一步提高性能。然后,基于LLM的AD决策将成为V2I问题状态的一部分,DDQN将相应地优化V2I决策。之后,AD和V2I决策将迭代优化,直到收敛。这种迭代优化方法可以更好地探索LLMs与传统强化学习技术之间的互动,揭示使用LLMs进行网络优化和管理的潜力。最后,仿真实验表明,我们提出的LLM-DDQN混合方法优于传统的DDQN算法,具有更快的收敛速度和更高的平均奖励。