arXiv:2503.17794v3 Announce Type: replace-cross
摘要:文本到图像生成模型往往难以处理详细描述复杂场景、多种具有独特视觉特征和空间关系的对象的长提示。本文中,我们提出了一种称为SCoPE(从粗到细提示嵌入的按计划内插)的无需训练的方法,通过逐步细化输入提示的方式,提高文本到图像的对齐度。给定一个详细的输入提示,我们首先将其分解成多个子提示,这些子提示从描述广泛的场景布局发展到描述极为详细的细节。在推理过程中,我们在这些建立的子提示之间进行内插,从而逐步将更细粒度的细节引入生成的图像。我们的无需训练即可插拔的方法显著增强了提示对齐度,在GenAI-Bench数据集中85%的提示上,与Stable Diffusion基线相比,视觉问答(VQA)分数平均提高了4%以上。
arXiv:2503.17401v5 更新类型: replace-cross
摘要: 本文介绍了AIJIM,即人工智能与新闻媒体整合模型——一种将实时AI整合到环境新闻中的新颖框架。AIJIM 结合了基于视觉变换器的危险检测、252 名验证者参与的群众化验证以及在可扩展的模块化架构内的自动化报道。通过双重解释方法,AIJIM 通过快速CAM基于视觉叠加和可选的LIME基于框级的解释确保了伦理透明。AIJIM 在2024年对马略卡岛的试点中,使用NamicGreen平台验证,实现了85.4%的检测准确率和89.7%的与专家注释的一致性,同时将报道延迟减少了40%。与传统的数据驱动新闻或AI事实检查方法不同,AIJIM 提供了一种可转移的模型,用于参与式、以社区为导向的环境报道,有助于新闻、人工智能和可持续发展目标的实现,符合联合国可持续发展目标和欧盟人工智能法案。
arXiv:2503.13915v2 宣告类型: 替换-交叉
摘要: 我们解决了一个半监督领域泛化(SSDG)问题,在该问题中训练数据和测试数据的分布不同,并且在训练过程中仅可用少量标注数据和大量未标注数据。现有的SSDG方法只利用了那些模型预测非常自信的未标注样本(自信的未标注样本),从而限制了可用未标注数据的充分利用。据我们所知,我们是首先探索将之前在SSDG设置中被忽视的不自信的未标注样本纳入方法的。为此,我们提出UPCSC以利用这些不自信的未标注样本在SSDG中,该方法由两个模块组成:1)基于未标注代理的对比学习(UPC)模块,将不自信的未标注样本视为额外的负样本对;2)替代类学习(SC)模块,通过其混淆类集为不自信的未标注样本生成正样本对。这两个模块是插即用的,并不要求任何领域标签,可以很容易地集成到现有方法中。在四个广泛使用的SSDG基准数据集上的实验表明,当附加到基线方法时,我们的方法能够一致地提高性能,并且优于其他插即用方法。我们还分析了我们方法在SSDG中的作用,表明它增强了类别级的可区辨性和减轻了领域差距。代码可在 https://github.com/dongkwani/UPCSC 获取。
arXiv:2503.13558v5 通告类型: 替换-交叉
摘要:电池退化显著影响了储能系统的可靠性和效率,尤其是在电动车和工业应用中。预测锂离子电池的剩余使用寿命(RUL)对于优化维护计划、降低费用和提高安全性至关重要。传统的RUL预测方法往往难以处理非线性退化模式和不确定性量化。为了解决这些挑战,我们提出了一种结合生存数据重构、生存模型学习和生存概率估计的混合生存分析框架。我们的方法使用路径签名将电池电压时间序列转换为失效时间数据。通过学习基于Cox的多个生存模型和基于机器学习的方法(如DeepHit和MTLR),我们可以在时间上预测电池无故障概率。我们在Toyota电池数据集和NASA电池数据集上的实验表明,我们的方法具有很高的时间依赖AUC值和一致性指数(C-指数),同时保持了较低的综合贝叶斯评分。本工作的数据和源代码已开源,地址为https://github.com/thinkxca/rul。
arXiv:2503.12790v2 通知类型: 替换-交叉
摘要:低秩适应(LoRA)通过低秩矩阵逼近使预训练语言模型的高效微调成为可能,在许多场景中实现了有效性。然而,在复杂任务或高秩依赖设置中,它的表示能力受到限制,可能限制了模型的适应性。为了解决经典低秩逼近在微调大型语言模型(LLMs)时的表达能力瓶颈,我们提出了量子张量混合适应(QTHA),这是一种参数效率高的微调方法,将量子神经网络(QNN)与张量网络相结合。QTHA 通过将预训练权重分解为量子神经网络和张量网络表示,在低秩空间内探索量子张量混合微调,利用量子态叠加来克服经典秩限制。实验表明,QTHA 在参数效率微调中的性能与 LoRA 相当甚至超越 LoRA。与 LoRA 相比,QTHA 在保持相同训练步数的情况下,减少了 76% 的可训练参数,降低了高达 17% 的训练损失,并在测试集上提高了高达 17% 的性能。这项研究不仅使量子资源能够轻量级地适应十亿参数级模型,还验证了由LLM任务驱动的量子硬件优化的可行性。它为未来的量子增强人工通用智能(AGI)系统建立了首个工程就绪的基础。
arXiv:2503.12282v2 通知类型: replace-cross
摘要:复杂事件(CEs)在CPS-IoT应用中发挥着关键作用,使得在智能监控和自主系统等领域实现高层次决策成为可能。然而,现有的大多数模型主要关注短期感知任务,缺乏用于CE检测所需的长期推理能力。CEs由受时空依赖关系控制的短时间原子事件(AEs)序列组成。由于长时间的噪音传感器数据以及过滤无关AEs并捕捉有意义模式的挑战,CEs的检测十分困难。本研究以CEs检测为例,探讨了适用于CPS-IoT基础模型的长期推理能力。我们评估了三种方法:(1)利用大型语言模型(LLMs),(2)采用各种神经架构从数据中学习CE规则,以及(3)采用神经符号方法,将神经模型与嵌入人类知识的符号引擎相结合。我们的结果表明,第二类中的状态空间模型Mamba在准确性和对更长、未见过的传感器记录的泛化能力上均优于所有方法。这些发现表明,状态空间模型可能是适用于长跨度推理任务的CPS-IoT基础模型的强有力基础。
arXiv:2503.10617v3 宣布类型: 替换-交叉
摘要:将大型语言模型适应多个任务可能会导致跨技能干扰,即一个技能的改进会损害另一个技能。虽然方法如LoRA在权重级别上施加正交约束,但它们并没有完全解决隐藏状态表示中的干扰问题。我们提出了一种新的表示法方法——组合子空间表示微调(CS-ReFT),该方法学习多个正交子空间变换,每个变换专门针对一项不同的技能,并通过轻量级路由器将它们组合起来。通过在隐藏状态而不是权重矩阵中隔离这些子空间编辑,CS-ReFT 更有效地防止了跨任务冲突。在AlpacaEval基准测试中,将CS-ReFT应用于Llama-2-7B,实现了93.94%的胜率,超过了GPT-3.5 Turbo(86.30%),仅需模型参数的0.0098%。这些发现表明,通过简单的路由器组合专门的表示编辑,可以显著提高多任务指令跟随能力,且几乎没有额外开销。
arXiv:2503.03108v2 入侵检测类型: 替换交叉
摘要:最近,基于来源(provenance)的入侵检测系统(PIDSes)被广泛提议用于端点威胁分析。然而,由于缺乏系统性的知识整合和利用,现有的PIDSes仍然需要大量的手动干预才能进行实际部署,使得全面自动化变得颇具挑战。本文通过将PIDSes根据其使用的知识类型进行分类,提出了一种颠覆性的创新。针对现有研究中普遍存在的“知识孤岛问题”,我们引入了一种由大语言模型(LLMs)驱动的新型基于来源的入侵检测框架。我们还提出了基于此框架构建的最佳实践系统OmniSec。通过集成攻击表示知识、威胁情报知识和良性行为知识,OmniSec在公共基准数据集上优于现有的方法。OmniSec可在以下网址在线获取:https://anonymous.4open.science/r/PIDS-with-LLM-613B。
arXiv:2502.20099v2 通告类型: 替换-交叉
摘要: 我们在预期可以让因果表示学习(CRL)方法起作用的一个简单现实系统上评估了CRL方法。该系统由一个专门为这种目的构建的受控光学实验组成,该实验满足CRL的核心假设,并且其中底层的因果因素(实验的输入)是已知的,提供了 ground truth。我们选择了代表不同CRL方法的方法,并发现它们都无法恢复底层的因果因素。为了理解评估算法的失败模式,我们对数据进行了消融分析,将真实的数据生成过程替换为一个简单的合成等价物。结果揭示了一个可复现性问题,尽管该合成消融的生成数据过程非常简单,大多数方法在该合成消融中就已经失败。此外,我们观察到,对于一些方法而言,常见的混合函数假设对其性能至关重要,但在真实数据中并不成立。我们的努力突显了理论上的最新进展与其实用应用所面临挑战之间的对比。我们希望这个基准测试作为简单而现实的合理性检查,进一步发展和验证方法论,缩小实际应用中的CRL方法之间的差距。我们将在 github.com/simonbing/CRLSanityCheck 公开所有代码和数据集。
arXiv:2502.19645v2 通知类型: 替换-交叉
摘要:近期的视觉-语言-动作模型(VLAs)是基于预训练的视觉-语言模型,并利用多样的机器人数据集来展示出强大的任务执行能力、语言跟随能力和语义泛化能力。尽管取得了这些成功,但VLAs在面对新型机器人配置时表现出困难,并需要微调才能达到良好的性能,然而在众多可能的策略中,哪些是最有效的微调策略并不明确。在此项工作中,我们研究了关键的VLA适应设计选择,如不同的动作解码方案、动作表示和微调中的学习目标,使用OpenVLA作为代表性的基模型。我们的实证分析为集成并行解码、动作分块、连续的动作表示以及基于L1回归的学习目标的优化微调(OFT)食谱提供建议,以改善推理效率、策略性能和模型输入输出规范的灵活性。我们提出了OpenVLA-OFT,这是一个这款食谱的实现,它在LIBERO仿真基准测试中达到了新的最先进的状态,将OpenVLA在四个任务套件中的平均成功率从76.5%提高到97.1%,并增加了动作生成吞吐量26倍。在实际评估中,我们的微调食谱使OpenVLA能够成功执行双臂ALOHA机器人的灵巧、高频率控制任务,并且在平均成功率上超过了使用其默认食谱微调的其他VLAs($\pi_0$和RDT-1B),以及从零开始训练的强大的模仿学习策略(Diffusion Policy和ACT),最多提高了15%。我们在https://openvla-oft.github.io/上发布了OFT的代码和预训练模型检查点。