arXiv:2504.09574v1 宣布类型: 新
摘要:优化算法对于解决许多实际问题至关重要。然而,诸如过早收敛到局部最优和有效平衡探索与利用的难度等问题常常阻碍其性能。为了解决这些问题,本文提出了一种改进的FOX优化算法,即Improved FOX (IFOX)。IFOX算法引入了一种基于适应值的新自适应机制,以平衡探索与利用。它还减少了超参数的数量,并简化了原始FOX的核心方程。为了评估其有效性,IFOX在经典的一模态和多模态基准函数上进行了测试,还对进化计算会议(CEC)的基准集以及两个工程设计问题(压力容器设计和经济负荷分配)进行了测试。结果表明,IFOX优于现有的优化算法,在51个基准函数上取得了更好的结果。这些发现强调了IFOX作为广泛应用的具有竞争力和稳健性优化算法的强大潜力。
arXiv:2504.09479v1 声明类型: 新
摘要: 科学图表是跨学科传达结构化知识的重要工具。然而,它们通常以静态位图图像的形式发表,丧失了符号语义,并限制了再利用。虽然多模态大型语言模型(MLLMs)提供了视力与结构之间桥梁的可能性,但现有方法缺乏语义控制和结构可解释性,尤其是在复杂的图表上。我们提出了一种无训练框架 Draw with Thought (DwT),通过认知基础的链式思考推理引导 MLLMs 将图表重构为可编辑的 mxGraph XML 代码。DwT 通过将任务分为两个阶段,即粗到细规划和结构感知代码生成,使输出具有可解释性和可控性,而无需模型微调。Coarse-to-Fine 规划处理感知结构化和语义规范,而结构感知代码生成通过格式指导性细化得到增强。为了支持评估,我们发布了 Plot2XML,这是一个包含 247 张真实科学图表的数据集,具有金标准 XML 注释。在八种 MLLMs 上进行的广泛实验显示,我们的方法生成了高保真度、语义对齐且结构有效的重构结果,而人类评估确认了在准确性和视觉美感方面的强烈对齐,提供了一种将静态视觉转换为可执行表示的可扩展解决方案,并推进了机器对科学图表的理解。
arXiv:2504.09456v1 宣告类型: 新
摘要: 大型多模态模型 (LMMs) 在广泛的任务中展现了显著的能力。然而,它们在用户欺骗行为面前的脆弱性——故意使用误导性或矛盾性的输入——引起了对其在实际应用中的可靠性的关键性担忧。在本文中,我们探讨了一个新颖且具有挑战性的问题,即减轻基于否定的欺骗行为对 LMMs 的负面影响。这种误导性用户的陈述导致了模型准确率的大幅下降。具体地,我们提出了一种无需训练的方法 GasEraser,该方法重新分配了误导性文本标记的注意力权重到语义上显著的视觉区域。通过抑制“注意力陷阱”标记的影响并增加对视觉支持线索的注意力,GasEraser 显著提高了 LMM 的鲁棒性,而无需重新训练或额外的监督。广泛的实验结果表明,GasEraser 在 GaslightingBench 的几个领先开源 LMM 上是有效的。值得注意的是,对于 LLaVA-v1.5-7B,GasEraser 将误导率减少了 48.2%,表明其对于更可靠 LMM 的潜力。
arXiv:2504.09440v1 宣告类型: 新
摘要: 大型语言模型(LLMs)展示了强大的数学推理能力,但在定理证明、符号操作和数值计算等方面仍然容易产生幻觉,产生虽然合理但错误的陈述。虽然已经探索了自一致性(SC)作为提高LLMs事实准确性的方法,但现有方法主要将SC应用到最终答案的选择上,忽视了中间推理步骤的逻辑一致性。在这项工作中,我们引入了一个结构化的自一致性框架,旨在增强数学推理的可靠性。我们的方法在中间步骤和最终输出上强制执行自一致性,减少逻辑不一致性和幻觉。我们在三个核心数学任务上评估了我们的方法:定理证明、符号变换和数值计算。实验结果表明,SC显著提高了证明的有效性、符号推理的准确性以及数值稳定性,同时保持了计算效率。进一步的分析表明,结构化的自一致性不仅提高了问题解决的准确性,还减少了模型生成输出的变异性。这些发现突显了自一致性作为提高LLMs数学推理的稳健机制的作用,为进一步实现更可靠和可解释的AI驱动数学铺平了道路。
arXiv:2504.09302v1 宣告类型: 新
摘要: 心电图(ECG)因其强大的无创性质,在心血管诊断中是一项基本工具。其最重要的用途之一是确定是否需要进行更详细的检查,使用者从不同水平的专业知识涵盖了广泛的范围。鉴于专业知识的多样性,协助使用者避免关键错误是必不可少的。最近的机器学习研究通过从ECG数据中提取有价值的信息来应对这一挑战。利用语言模型,这些研究实施了多模态模型,旨在根据标记术语对ECG进行分类。然而,分类的数量被减少,且尚不确定该技术对除英语以外的语言是否有效。为了向实际应用迈进,我们利用了来自日本医院普通病人的心电图数据,保持了从实际心电图读数中获得的大量日语标签。利用对比学习框架,我们发现即使有98个分类标签,我们基于日语的语言模型的准确率也与之前的研究所相当。本研究将多模态机器学习框架的应用扩展到了更广泛的临床研究和非英语语言。
arXiv:2504.09301v1 宣布类型: 新文章
摘要: 当前基于概率神经网络的AI系统,如大型语言模型(LLMs),展示了非凡的生成能力,但面临关键挑战,包括幻觉、不可预测性和与人类决策脱节。这些问题从根本上说源自过度依赖随机化(概率性)神经网络——过于简化的生物神经网络模型——而忽视了程序推理(逐步思考)在可靠决策中的作用。受人类认知双元性(流体智力:灵活生成;晶体智力:结构化知识)的启发,这项研究提出了一种双通道智能架构,将概率生成(LLMs)与白盒程序推理(逐步思考)相结合,以构建可解释的、可连续学习的和与人类一致的AI系统。具体而言,这项工作:(1)将逐步思考重新定义为可编程的晶体智力载体,通过多轮交互框架实现知识动态演化和决策验证;(2)引入了一种基于任务的模块化网络设计,明确划分随机生成和程序控制的功能边界,以解决垂直领域应用中的可靠性问题;(3)证明多轮交互是智能涌现的必要条件,对话深度与系统的与人类一致性程度呈正相关。这项研究不仅为可信AI部署建立了一个新的范式,还为新一代人机协作系统提供了理论基础。
arXiv:2504.09197v1 重要类型: 新
摘要: 确保海上安全和在日益拥挤和复杂的水道中优化交通管理需要有效的水道监测。然而,现有的方法在应对来自多模态数据的挑战时表现出困难,如维度差异、目标计数不匹配、船舶规模变化、遮挡以及来自自动识别系统(AIS)和闭路电视(CCTV)等系统的时间非同步数据流。传统的多目标关联方法在这些复杂性面前常常显得力不从心,尤其是在高密度交通的水道中。为了克服这些问题,我们提出了一种基于图学习的多船舶关联(GMvA)方法,该方法专为海事多模态数据融合而设计。通过整合AIS和CCTV数据,GMvA利用时间序列学习和图神经网络有效捕捉船舶轨迹的空间时间特征。为了增强特征表示,提出的 方法引入了时间图注意力和空间时间注意力,有效捕捉了局部和全局的船舶交互。此外,基于多层感知器的不确定性融合模块计算稳健的相似性分数,并采用Hungarian算法确保全局一致性和准确的目标匹配。在真实的海事数据集上的广泛实验证实,GMvA在多目标关联中提供了更高的准确性和鲁棒性,即使在高船舶密度和AIS和CCTV数据不完整或分布不均的挑战性场景中也超过了现有的方法。
arXiv:2504.09100v1 表型类型: 新颖
摘要: 最近,大型推理模型(LRMs),如DeepSeek-R1,通过缓慢的思考过程在推理能力方面取得了显著进展。尽管取得了这些成就,LRMs 的巨大计算需求仍然带来了很多挑战。相比之下,小型推理模型(SRMs),往往是从较大的模型中提炼出来的,提供了更高的效率,并且在推理能力和认知轨迹上与LRMs表现出不同的特征。本论文调查了约170篇最近发表的关于SRMs的研究论文,旨在解决各种复杂的推理任务。我们回顾了SRMs的当前研究状况,并分析了与SRMs相关的各种训练和推理技术。此外,我们还对SRMs在特定领域的应用进行了全面回顾,并讨论了未来研究方向的可能性。本调查为研究人员提供了一个重要的参考,以便利用或开发具有高效推理功能的SRMs。
arXiv:2504.09058v1 公告类型: 新颖
摘要: 最近,逐步监督逻辑推理链(CoTs)在编码和数学等任务上取得了进展,借助了蒙特卡洛树搜索(MCTS)。然而,它对于需要特定领域专业知识和知识的任务的贡献仍未探索。受到这一兴趣的启发,我们在这类任务中识别出了MCTS的一些潜在挑战,并提出了逐步领域知识驱动的推理优化框架,利用MCTS算法为需要基本理解、推理和专门知识的问题开发逐步监督。此外,我们还提出了偏好优化向反思路径的方向,这是一种迭代学习更好视角下的自我反思的推理想法。我们进行了广泛的实验以评估这些方法的优势。实证结果证明了其在各种法律领域的有效性。我们还报告了一系列有价值的研究发现,希望能够激发对特定领域LLM和MCTS的研究热情。
arXiv:2504.09046v1 通知类型: 新
摘要:在集装箱码头堆场中,集装箱重定位问题(CRP)涉及在特定操作规则下重新排列集装箱堆垛,这是智能集装箱调度系统中一个重要的优化挑战。现有的CRP研究主要集中在使用二维海港结构最小化重新分配成本,考虑因素包括集装箱大小、重量、到达序列和提取优先级。本文提出了一种结合改进下界值的增强型深入搜索算法,以提高搜索效率。为进一步减少搜索空间,我们设计了一套相互一致的剪枝规则,以避免过度的计算开销。所提出的方法在Unrestricted Container Rehandling Problem (UCRP) 的三个广泛使用的基准数据集上进行了验证。实验结果表明,与现有的精确算法相比,我们的方法在解决更通用的UCRP变体时表现更优,特别是在处理严格时间约束下的同一优先级组内的集装箱时表现出更高的效率。