arXiv:2502.02014v1 类型:跨学科
摘要:尽管在基于学习的方法方面取得了进展,但对于非线性动力系统的有效Lyapunov函数的发现仍然具有挑战性。当前的神经网络方法面临两大问题:可扩展验证的挑战和有限的可解释性。为了解决这些问题,我们提出了一种端到端框架,使用变压器构建分析Lyapunov函数(局部),简化了形式验证,增强了可解释性,并为控制工程师提供了有价值的洞察。我们的框架包括一个基于变压器的训练器,生成候选Lyapunov函数,以及一个验证器,验证候选表达式并通过风险寻求的策略梯度改进模型。与Alfarano等人(2024)利用预训练并寻找低维系统全局Lyapunov函数不同,我们的模型通过强化学习(Reinforcement Learning, RL)从头开始训练,并成功地为高维和非多项式系统找到了局部Lyapunov函数。由于候选函数的分析性质,我们在训练过程中使用了高效的优化方法进行验证,并在最终验证中采用了形式验证工具。我们展示了该方法在多达十维的非线性动力系统中的效率,并证明它能够发现控制文献中未被发现的Lyapunov函数。
arXiv:2502.02013v1 类型: cross
摘要:从提取特征到生成文本,大型语言模型(LLMs)的输出通常依赖于其最终层,这一观点认为早期层只能捕捉低层级线索。然而,我们的分析表明,中间层可以编码更加丰富的表示,通常在多种下游任务中表现更好。为了解释和量化这些隐藏层的性质,我们提出了一种基于信息理论、几何和输入扰动不变性的统一表示质量度量框架。该框架突显了每一层模型在信息压缩和信号保留之间的平衡,揭示了为什么中间深度嵌入有时会超越最终层的表现。通过在32个文本嵌入任务中进行广泛的实验,并在模型架构(变换器、状态空间模型)和领域(语言、视觉)之间进行比较,我们证明了中间层始终提供更强的特征。这些发现挑战了对最终层嵌入的传统关注,并为模型分析和优化开辟了新的方向,包括战略性使用中间层表示以构建更稳健和准确的人工智能系统。
arXiv:2502.02009v1 安全公告类型:交叉
摘要:容器编排器(COs)中的安全配置错误可能对软件系统构成严重威胁。虽然静态分析工具(SATs)可以有效检测这些安全漏洞,但目前业界缺乏能够自动修复这些配置错误的解决方案。大型语言模型(LLMs)因其在代码理解和生成方面的 proven 能力,为解决这一局限性提供了机会。本研究引入了 LLMSecConfig,这是一种创新框架,通过将 SATs 与 LLMs 结合起来,弥补了这一差距。我们的方法利用先进的提示技术与检索增强生成(RAG)来自动修复安全配置错误,同时保留操作功能。对 1,000 个真实的 Kubernetes 配置的评估实现了 94% 的成功率,同时引入新的配置错误的频率较低。
我们的工作朝着自动化的容器安全管理迈出了有希望的一步,减少了配置维护所需的 manual 努力。
arXiv:2502.01995v1 类型: cross
摘要:Fréchet 回归将经典的回归方法扩展到非欧几里德度量空间,使我们能够分析在流形和图等复杂结构上的数据关系。本文通过比较几何学的视角对 Fréchet 回归进行了严格理论分析,从而提出了其在实际应用中使用的若干重要考量。该分析提供了关于 Fréchet 均值的存在性、唯一性和稳定性的关键结果,包括非参数回归的统计保证,例如指数集中性界和收敛率。此外,角稳定性的洞察揭示了流形曲率与回归估计器在这些非欧几里德上下文中的行为之间的相互作用。实际实验验证了理论发现,证明了所提出的双曲映射的有效性,特别是在处理异方差数据时,并强调了这些结果的实际实用价值。
arXiv:2502.01991v1 Announce Type: cross
摘要:如今,社交媒体在塑造公众舆论方面起着关键作用,尤其是在疫苗这样的极化问题上,不同的道德观点影响着个人的看法。在自然语言处理(NLP)中,由于诸如识别道德框架等心理语言学任务的数据稀缺性和复杂性,完全依赖人类标注员成本高昂、耗时且由于认知负荷容易导致不一致。为了解决这些问题,我们利用大型语言模型(LLMs),这些模型擅长通过少样本学习适应新任务,利用少量上下文中的示例及其与任务原则相连的解释。我们的研究探讨了LLMs在社交媒体疫苗辩论中协助人类标注员识别道德框架的潜力。我们采用两步过程:使用LLMs生成概念和解释,然后使用“大声思考”工具进行人工评估。我们的研究表明,将LLMs集成到标注过程中可以提高准确性、降低任务难度、减少认知负荷,这表明在复杂心理语言学任务中的人机协作具有很有前景的途径。
arXiv:2502.01980v1 宣告类型: cross
摘要:预测模型在部署后将遇到的各种挑战难以预料。常见的做法是一种被动的循环方法:模型部署、数据挖掘和重新训练。相反,我们通过在训练期间想象额外的数据来开发一种主动的长尾发现过程。特别地,我们开发了一般基于模型的长尾信号,包括一种不影响模型参数或预测性能但可以标记稀有或困难输入的差分的单次前向传递形式的先验不确定性。我们利用这些信号作为指导,从潜在扩散模型中生成额外的训练数据,这一过程我们称之为长尾引导(LTG)。关键的是,我们可以在不重新训练扩散模型或预测模型的情况下进行LTG,也不需要将预测模型暴露于中间扩散状态。由LTG生成的数据具有语义上的变化,对图像分类基准测试的泛化性能产生了显著提高,并且可以通过分析来主动发现、解释和解决预测模型中的概念空白。
arXiv:2502.01976v1 宣布类型: cross
摘要:大型语言模型在各种任务中取得了显著的成功,但在推断过程中却面临高昂的计算成本,这限制了它们在资源受限应用中的部署。为了解决这一问题,我们提出了一种新颖的CITER(协作的token级路由推理)框架,通过token级路由策略实现了小型语言模型(SLMs)和大型语言模型(LLMs)之间的高效协作。具体而言,CITER将非关键token路由到SLM以提高效率,将关键token路由到LLM以获取泛化质量。我们将路由器训练视为策略优化,其中路由器根据预测质量以及生成的推理成本获得奖励。这使得路由器可以学习预测token级别的路由评分,并基于当前token及其决策对未来影响的考量进行路由决策。为了进一步加快奖励评估过程,我们引入了一种捷径,显著减少了奖励估计的成本,并提高了我们方法的实用性。在五个基准数据集上的广泛实验表明,CITER在保持高质量生成的同时降低了推理成本,为实时和资源受限应用提供了有希望的解决方案。
arXiv:2502.01972v1 交叉公告类型
摘要:类风湿关节炎(RA)是一种以关节炎症和逐步的结构损伤为特征的慢性自身免疫疾病。关节空间宽度(JSW)是传统放射学检查中评估疾病进展情况的关键指标,已成为计算机辅助诊断(CAD)系统中的一个重要研究主题。然而,基于深度学习的放射学CAD系统在JSW分析中面临着数据质量方面的重大挑战,包括数据不平衡、数据多样性有限以及注解困难。本工作引入了一种具有挑战性的图像合成场景,并提出了层分离网络(LSN),用于准确分离传统手指关节X光片中的软组织层、上骨层和下骨层。利用这些层,可以合成可调节的JSW图像以应对数据质量挑战,并实现真实标签(GT)生成。实验结果表明,基于LSN的合成图像与真实X光片高度相似,并显著提高了下游任务的表现。代码和数据集将在未来公开。
arXiv:2502.01969v1 类型: cross
摘要: 大规模多模态模型 (LVLMs) 展现出令人印象深刻的跨模态推理能力,但仍然高度容易出现物体幻觉问题,即模型生成的内容与视觉内容不符的响应。最近的研究将这一问题归因于 LVLMs 内在的偏差,即视觉词元注意图与空间位置之间具有固定的关联性,并提议通过重新排序视觉词元来缓解这一问题。然而,我们发现不同类型的 LVLMs 之间视觉词元注意与空间位置之间的关联性不同,这使得现有的解决方案难以泛化到其他 LVLMs。为了解决这个问题,我们首先引入了一种无需训练的解决方案——统一注意校准 (UAC),它仅从无意义的输入图像中估计偏差,并应用一个校准矩阵来纠正注意力不平衡。为了进一步减轻偏差,我们放松了 UAC 中单个无意义输入图像的假设,并引入了一种微调解决方案——动态注意校准 (DAC),通过插件模块强制图像中标记对象的一致输出。跨多个基准的全面实验表明,UAC 和 DAC 显著减少了物体幻觉,同时提高了整体跨模态对齐。我们的方法在多种 LVLM 架构上各种指标上实现了最先进的性能。
arXiv:2502.01968v1 公告类型: 交叉
摘要: 最近的研究表明,在大型语言模型(LLMs)的监督精细调整(SFT)中,数据质量比数量更为重要。尽管大多数数据清洗方法集中在过滤整个样本上,但样本中的个别 Tokens 质量可能会有很大差异。经过预训练后,即使在高质量的样本中,也可能存在与任务无关的冗余或无信息的模式或短语。继续在这些模式上进行精细调整可能提供的益处有限,甚至可能损害下游任务性能。在本文中,我们从噪声标签的角度研究了 Token 质量,并提出了一种通用的 Token 清洗流水线,适用于 SFT 任务。该方法过滤掉无信息的 Tokens,同时保留那些携带关键任务相关信息的 Tokens。具体来说,我们首先通过检查模型更新对每个 Token 的影响来评估 Token 质量,然后应用基于阈值的分离。Token 影响可以在使用固定参考模型的单一通过中进行测量,也可以通过自我进化的参考模型进行迭代测量。两种方法的优缺点通过误差上界进行理论分析。广泛的实验表明,我们的框架在多个下游任务中一致地提高了性能。