arXiv:2502.00262v2 Announce Type: cross
摘要:自主驾驶系统在处理不可预测的极端情境,如对抗性行人移动、危险车辆操作和突然的环境变化时面临重大挑战。当前的端到端驾驶模型由于传统检测和预测方法的局限性,难以将这些罕见事件进行泛化处理。为了应对这一挑战,我们提出了一种名为INSIGHT(融合语义和视觉输入的一般危险跟踪)的方法,这是一种分层的视觉语言模型(VLM)框架,旨在增强危险检测和极端情境评估。通过多模态数据融合,我们的方法将语义和视觉表示整合起来,使驾驶场景的精确解释和潜在危险的准确预测成为可能。通过监督微调视觉语言模型,我们使用基于注意力机制的空间危险定位技术和坐标回归技术进行了优化。在BDD100K数据集上的实验结果表明,与现有模型相比,该方法在危险预测的清晰度和准确性上有了显著提高,并且在泛化性能上也有了显著提升。这一进步增强了自主驾驶系统的稳健性和安全性,确保在复杂现实场景中具有更好的情境意识和潜在决策能力。
arXiv:2502.00212v2 宣告类型:交叉
摘要:形式定理证明中通过大型语言模型(LLM)所面临的一个基本挑战是在高质量训练数据方面存在不足。尽管强化学习或专家迭代部分缓解了这一问题,通过对LLM生成证明和在正确生成的证明上进行微调交替进行,但由于正确的证明(稀疏奖励)稀缺,性能很快就会达到 Plateau。为了在有限的数据下继续改进模型,我们从数学家获得启发,数学家们通过提出新的猜想或练习题(这些往往是已知结果的变体)并尝试解决它们,不断开发新的成果。我们设计了Self-play Theorem Prover(STP),该系统同时承担着猜想作家和证明者两个角色,各自为对方提供训练信号。猜想作家通过迭代训练,对那些当前证明者勉强能够证明的先前生成的猜想进行训练,这激励它随着时间推移生成越来越具有挑战性的猜想。证明者尝试使用标准专家迭代来证明猜想。我们使用Lean和Isabelle的形式验证器来评估STP。在Lean的训练过程中生成了198亿个令牌后,STP在LeanWorkbook数据集中证明了26.3%的陈述,这一成果是通过专家迭代之前的最佳结果13.2%的两倍。最终模型在miniF2F-test(61.1%,pass@3200)、Proofnet-test(23.1%,pass@3200)和PutnamBench(8/644,pass@64)上的性能达到了同类方法中的最佳水平。
arXiv:2502.00029v2 公告类型: 交叉学科
摘要:像夏普比率这样的财务指标在通过风险管理与回报之间的平衡来评估投资表现时至关重要。然而,传统的指标往往在稳健性和泛化能力方面存在不足,尤其是在动态和波动的市场条件下。本文引入了AlphaSharpe,这是一种利用大型语言模型(LLMs)以迭代方式进化和优化财务指标的全新框架,旨在发现超越传统方法、在稳健性和与未来表现指标的相关性方面表现出色的增强型风险-回报指标。本工作的关键贡献包括:(1) 首次将LLMs应用于生成和完善隐含领域特定知识的财务指标,(2) 一种评分机制,以确保进化出的指标在未见过的数据上有效泛化,以及(3) 实证证明其对未来风险-回报预测的3倍能力,以及投资组合表现的2倍提升。在实际数据集的实验结果突显了发现指标的优越性,使其对投资组合经理和金融决策者具有高度相关性。该框架不仅解决了现有指标的局限性,还展示了LLMs在推动金融分析方面的能力,为知情和稳健的投资策略铺平了道路。
arXiv:2502.00409v2 宣布类型: 新
摘要: 基于大型语言模型(LLM)的系统,即包含LLM作为中央组件的互联元素(例如,对话代理),通常是一体化的静态架构,依赖单一的LLM来处理所有用户查询。然而,它们往往需要不同的预处理策略、推理层级或知识。擅长多领域的LLM(例如GPT-4),经过非常大的多主题语料库训练后,在多种任务中表现良好。然而,它们需要大量的资金、能源和硬件资源,这些可能对于基本任务来说并不必要。这可能意味着为特定查询投资不必要的成本。为了解决这个问题,路由机制将用户查询导向最适合的组件,如较小的LLM或特定主题的专家。这种方法可能会提高响应质量并减少成本。路由还可以扩展到对话代理架构的其他组件,例如最优嵌入策略的选择。本文探讨了将路由集成到LLM系统中的关键考虑因素,重点关注资源管理、成本定义和策略选择。我们的主要贡献包括对问题的正式化描述、一种新的现有方法分类法,强调相关性和资源效率,以及在与行业实践相关的对比分析。最后,我们识别了关键的挑战和未来研究的方向。
arXiv:2502.00018v1 宣告类型: 新
摘要: 模糊车间调度问题 (FJSSP) 作为车间调度问题 (JSSP) 的创新拓展出现,引入了一层不确定性,使得问题更加符合实际制造环境的复杂性。这一改进增加了求解问题的计算复杂度,同时也提高了其适用性。在确定性调度的领域,神经组合优化 (NCO) 近来已经显示出显著的效果。然而,将其应用到模糊调度领域的探索相对较少。本文旨在弥补这一空白,通过研究利用神经网络整合和处理模糊信息来解决 FJSSP 的可行性,从而利用 NCO 的进展来改进模糊调度方法。为了实现这一点,我们将 FJSSP 视作生成任务,并引入基于期望最大化算法的自回归模型 (EMARM) 来解决它。在训练过程中,我们的模型交替进行从给定示例生成调度方案 (E 步) 和根据这些生成的方案调整自回归模型权重 (M 步)。这种新颖的方法有效规避了 NCO 框架中普遍存在的难以获取真实标签的难题。在测试中,实验结果表明 EMARM 在解决 FJSSP 方面具有优越的能力,展示了其在模糊调度领域的有效性和实际应用潜力。
arXiv:2501.18592v2 宣告类型: replace-cross
摘要:在现实世界的情景中,实现领域适应和泛化提出了重大的挑战,因为模型必须适应或泛化到未知的目标分布。将这些能力扩展到未见过的多模态分布,即多模态领域适应和泛化,由于不同模态的独特特征更具挑战性。近年来取得了显著进展,应用范围从动作识别到语义分割。此外,最近大规模预训练多模态基础模型的出现,如CLIP,激发了利用这些模型增强适应性和泛化性能或将其适应于下游任务的工作。这篇综述提供了从传统方法到基础模型的近期进展的首次全面综述,涵盖了以下方面:(1)多模态领域适应;(2)多模态测试时适应;(3)多模态领域泛化;(4)借助多模态基础模型的领域适应和泛化;以及(5)多模态基础模型的适应。对于每个主题,我们形式化定义了问题,并详细回顾了现有方法。此外,我们分析了相关的数据集和应用,指出了开放的挑战和潜在的未来研究方向。我们维护了一个活跃的存储库,其中包含了最新的文献,网址为 https://github.com/donghao51/Awesome-Multimodal-Adaptation。
arXiv:2501.18124v2 通告类型: 替换-交叉
摘要:内窥镜的实时自我运动跟踪是实现高效导航和内窥镜机器人自动化的重要任务。在本文中,提出了一种新的框架来实现内窥镜的实时自我运动跟踪。首先,提出了一种多模态视觉特征学习网络,用于执行相对位姿预测,在其中从光流中提取运动特征,从场景特性和两个相邻观测的联合特征中提取预测所需的特征。由于拼接图像在通道维度上有更多的相关性信息,设计了一种基于注意力机制的新特征提取器,以整合两个连续帧拼接后的多维信息。为了从融合特征中提取更完整的特征表示,提出了一种新的姿态解码器,用于预测框架末尾的拼接特征图所表示的姿态变换。最后,基于相对姿态计算内窥镜的绝对姿态。在三个不同内窥镜场景的数据集上进行了实验,结果显示所提出的方法超越了现有最先进的方法。此外,所提出方法的推理速度超过每秒30帧,满足实时要求。项目页面在此:remote-bmxs.netlify.app
arXiv:2501.18055v2 提交类型: 替换-交叉
摘要:病理基础模型(FMs)在医疗保健领域具有巨大的潜力。在临床实践中使用它们之前,确保它们对医疗机构之间的变化具有鲁棒性是必不可少的。我们衡量病理FMs是否专注于组织和癌症类型等生物特征,还是专注于由染色程序及其他差异引入的广为人知的混杂医疗中心特征。我们引入了鲁棒性指数。这一新型鲁棒性度量反映了生物特征在多大程度上主导了混杂特征。我们评估了十个当前公开可用的病理FMs。我们发现,评估的所有当前病理基础模型在多大程度上代表了医疗机构。观察到显著的鲁棒性指数差异。迄今为止,只有一个是鲁棒性指数大于1的,这意味着生物特征主导了混杂特征,但只是稍微如此。描述了一种定量方法,用于测量医疗机构差异对基于FMs的预测性能的影响。我们分析了不鲁棒性对下游模型分类性能的影响,并发现癌症类型分类错误并非随机,而是具体归因于同一医疗机构的混杂因素:来自同一医疗机构的其他类别的图像。我们可视化了FMs的嵌入空间,发现它们比生物因素更强烈地组织在一起。因此,医疗机构的来源比组织来源和癌症类型更准确地预测。本文引入的鲁棒性指数旨在促进向临床采用鲁棒可靠病理FMs的进步。
arXiv:2501.17980v2 通知类型: 替换-交叉
摘要:随着AI技术的加速发展和部署,其基础设施的持续扩展能力至关重要。这需要不断增加的货币投资和自然资源。前沿AI应用因此带来了日益增长的金融、环境和社会成本。当AI扩展所依赖的因素达到极限时,对其加速发展和巩固的推动依然存在。在本文中,我们从四个维度(技术、经济、生态和社会)对AI扩展进行全面回顾,并探讨这些维度之间的关系,以探索AI增长的动力学。我们借鉴系统动力学概念,包括“增长的极限”等原型模型,来模拟AI扩展的动态复杂性,并综合多种观点。我们的工作描绘了技术、经济、生态和社会视角之间错综复杂的关系及其显而易见的增长极限。分析解释了行业对外部限制的反应如何使扩展得以持续进行(但仅是暂时的),并如何使大科技公司受益,同时将社会和环境损害外部化。为了避免“过度扩张和崩溃”的轨迹,我们倡导对扩展的优先事项和规范进行重新定位,以优先考虑可持续和有意识的进步。
arXiv:2501.17183v2 Announce Type: replace-cross
摘要:航空制造对技术参数的精确度要求极高。大型语言模型(LLMs),如GPT-4和Qwen,在自然语言处理方面的出色表现引发了业界对其在工艺设计、材料选择和工具信息检索等任务中的应用兴趣。然而,LLMs在专业领域容易生成“幻觉”,产生不准确或虚假信息,这会对航空产品质量和飞行安全造成重大风险。本文介绍了一套针对航空制造中LLMs的评估指标,旨在通过分析其在基于专业知识问题的回答中表现的准确性来进行评估。首先,通过对经典航空制造教科书和指南进行深入文本分析来提取关键信息。随后,利用LLM生成技术,精心构建多个具有不同难度的多项选择题,其中包含多个正确答案。接着,采用不同的LLM模型来回答这些问题,并记录其准确性。实验结果表明,LLMs在航空专业知识方面的能力亟待提高。本研究为LLMs在航空制造中的应用提供了理论基础和实用指导,填补了该领域的关键空白。