LLM2D

arXiv 论文列表

作者: Yi-Long Lu, Chunhui Zhang, Jiajun Song, Lifeng Fan, Wei Wang
arXiv:2504.01698v1 交叉类型: cross 摘要: 在大规模语言模型(LLMs)的后训练阶段应用基于规则的强化学习(RL)的最近进展,显著增强了它们在数学和逻辑推理等结构化推理任务中的能力。然而,RL 在社会推理中的有效性,特别是关于心智理论(ToM),即推断他人心理状态的能力,仍基本未被探索。在这项研究中,我们展示了即使在小型语言模型(0.5B到7B参数)中,RL 方法也能有效地解锁 ToM 推理能力。使用一个包含3200个跨多个场景的问题的小型数据集,我们的RL训练的7B模型在Hi-ToM基准测试中达到了84.50%的准确性,尽管参数数量远少于GPT-4o和DeepSeek-v3等模型。虽然较小的模型(参数数≤3B)在推理中表现出崩溃,但较大的模型(7B参数)通过一致的信念跟踪保持了稳定的表现。此外,基于RL的模型还展示了对更高阶的、分布外的ToM问题、新颖的文本呈现形式和未见过的数据集的强大泛化能力。这些发现突显了RL在增强社会认知推理方面的潜力,有助于在LLMs中弥合结构化问题解决与细微社会推理之间的差距。
发布时间: 4/3/2025
查看原文
作者: Isabella Cama, Alejandro Guzm\'an, Cristina Campi, Michele Piana, Karim Lekadir, Sara Garbarino, Oliver D\'iaz
arXiv:2504.01692v1 交叉公告类型 摘要:大多数论文警告不要使用未选择的放射组学特征进行疾病分层的预测模型,因为这些特征受轮廓变化的影响。他们提倡使用内部一致性相关系数(ICC)作为特征选择的稳定性衡量标准。然而,分割变化对预测模型的影响很少被研究。本研究探讨了分割变化对特征稳定性及预测性能的影响,使用磁共振成像基于放射组学预测三阴性乳腺癌(TNBC)亚型。总共使用了杜克数据集的244张图像,通过修改手动分割引入了分割变化。对于每个掩码,使用Shapley加权边际解释方法选择了可解释的放射组学特征,并用其训练了逻辑回归模型。通过ICC、皮尔森相关系数以及衡量特征稳定性与分割变化关系的可靠性分数,评估了分割变化对特征稳定性的影响。结果表明,分割准确性对预测性能影响不大。虽然整合肿瘤周围信息可能会降低特征的可重复性,但它不会削弱特征的预测能力。此外,特征选择与分割稳定性之间的关系并不必然关联,这表明过度依赖ICC或可靠性分数进行特征选择可能会排除有价值的预测特征。
发布时间: 4/3/2025
查看原文
arXiv:2504.01690v1 交叉公告类型 摘要:视觉变换器(ViTs)已在各种计算机视觉任务中取得了最先进的性能,但其高昂的计算成本仍然是一个挑战。令牌裁剪已被提出通过选择性地去除不太重要的令牌来降低这种成本。尽管在视觉任务中通过丢弃非物体区域是有效的,但在音频任务中应用此技术存在独特的挑战,因为在时频表示中区分相关和无关区域并不那么显而易见。在本研究中,我们首次将令牌裁剪应用于基于梅尔频谱图的音频分类模型,并分析了模型性能与计算成本之间的权衡:TopK 令牌裁剪可以将 AudioMAE 和 AST 的 MAC 操作减少 30-40%,而分类准确性下降不到 1%。我们的分析显示,高强度令牌对模型准确性有显著贡献,而低强度令牌仍然很重要。特别是,它们在一般音频分类任务中比在特定于语音的任务中扮演更重要的角色。
发布时间: 4/3/2025
查看原文
作者: Elija Perrier
arXiv:2504.01673v1 交叉公告类型 摘要:我们提出了一种使用全局Cartan $KAK$ 分解扩展K-P时间最优量子控制解的方法,针对基于测地线的解。扩展了最近的时间最优恒定-$\theta$ 控制结果,我们将Cartan方法整合到等变量子神经网络(EQNN)中,用于量子控制任务。我们展示了具有Cartan层的有限深度受限EQNN范式可以复制K-P问题的恒定-$\theta$ 子黎曼测地线。我们证明了,在满足简单正则性条件的情况下,适当的成本函数下的基于梯度的训练,对于黎曼对称空间上的某些类别的控制问题,可以收敛到某些全局时间最优解。这将先前的几何控制理论方法进行了推广,并澄清了如何在量子机器学习背景下执行最优测地线估计。
发布时间: 4/3/2025
查看原文
作者: Bo-Kai Ruan, Yi-Zeng Fang, Hong-Han Shuai, Juinn-Dar Huang
arXiv:2504.01671v1 交叉类型公告 摘要:检测蝴蝶杂交种需要了解亲本亚种的知识,当遇到新的亚种时,这一过程可能会很繁琐。本研究重点关注一个特定场景,在这种场景下,一个用于识别物种A杂交种的模型可以泛化到物种B,而物种B在生物学上模拟物种A。由于物种A和物种B具有相似的模式,我们利用BioCLIP作为特征提取器,基于它们的分类学特征捕获特征。因此,为物种A设计的算法可以转移到物种B,因为物种A和物种B的杂交和非杂交模式表现出相似的关系。为了确定蝴蝶是否为杂交种,我们采用了提议的概率筛选和颜色抖动方法来增强和模拟模拟现象。通过这些方法,我们在官方开发阶段获得第二名。我们的代码已公开发布在https://github.com/Justin900429/NSF-HDR-Challenge。
发布时间: 4/3/2025
查看原文
作者: Sara Ruiz-Moreno, Antonio J. Gallego, Antonio J. Gallego, Antonio J. Gallego
arXiv:2504.01652v1 宣言类型: cross 摘要:本文提出了一种优化抛物面槽型集热器(PTC)电站热平衡的新方法。该方法使用基于市场的系统来分配循环中的流体,并结合人工神经网络(ANN)来减少计算和数据需求。基于拍卖的方法平衡了循环温度,适应了不同热损失和集热器效率的变化。在不同热损失、光学效率和辐照条件(晴天、部分阴天和阴天)下,与无分配系统的系统相比,显示出更好的热功率输出和截距因子。该方法展示了大型太阳能热电站的可扩展性和实用性,提高了整体性能。该方法首先通过在现实的太阳能电站模型上进行仿真验证,然后在50 MW的太阳能槽型电站中进行调整和成功测试,展示了其优点。此外,这些算法已被实施、调试,并目前在13个商业太阳能槽型电站中运行。
发布时间: 4/3/2025
查看原文
作者: Zhixin Cheng, Jiacheng Deng, Xinjun Li, Baoqun Yin, Tianzhu Zhang
arXiv:2504.01641v1 注册类型: cross 摘要:典型的图像到点云注册方法通常使用粗到细的管道来确定刚性变换。然而,直接且均匀地匹配图像片元和点云片元可能会导致在匹配时关注错误的噪声片元,而忽略关键的片元。此外,由于图像和点云模态之间的显著差异,如果没有专门改进的设计,缩小领域差距可能具有挑战性。为了解决上述问题,我们创新地提出了不确定性感知层次匹配模块(UHMM)和对抗模态对齐模块(AMAM)。在UHMM中,我们建模了图像片元中关键信息的不确定性,并促进了图像和点云特征在多个层次上的融合交互。在AMAM中,我们设计了一种对抗方法来减少图像和点云之间的领域差距。在RGB-D Scene V2和7-Scenes基准上的广泛实验和消融研究证明了我们方法的优越性,使其成为图像到点云注册任务中的领先方法。
发布时间: 4/3/2025
查看原文
作者: Giulia Marchiori Pietrosanti, Giulio Rossolini, Alessandro Biondi, Giorgio Buttazzo
arXiv:2504.01632v1 Announce Type: cross 摘要:深度神经网络(DNNs)的健壮性在关键安全应用中是一个重要因素,特别是在复杂和动态环境中,这些环境中可能会出现局部污染。尽管之前的研究已经评估了语义分割(SS)模型在全局图像自然或 adversarial 污染下的健壮性,但在局部污染条件下密集视觉模型的空间健壮性进行全面研究仍然相对较少。本论文填补了这一空白,通过引入专门的度量标准来评估分割模型的空间健壮性,并提出了一个评估框架来评估局部污染的影响。此外,我们揭示了使用单一局部对抗扰动来表征最坏情况健壮性的固有复杂性。为了解决这个问题,我们提出了区域感知多攻击对抗分析方法,该方法能够更深入地理解模型在特定区域应用对抗扰动时的健壮性。提出的度量标准和分析在15个驾驶场景中的分割模型上进行了评估,揭示了局部污染在自然形式和对抗形式下对模型效果的关键影响。结果表明,这些两种类型的威胁对模型的影响是不同的;例如,基于变压器的分割模型对局部自然污染表现出显著的健壯性,但对抗污染非常脆弱,反之亦然对于基于CNN的模型。因此,我们还通过集成模型解决了同时抵御自然和对抗形式的局部污染的健壮性挑战,从而实现更广泛威胁覆盖和密集视觉任务的更好可靠性。
发布时间: 4/3/2025
查看原文
作者: Lena Schmidt, Oshin Sharma, Chris Marshall, Sonia Garcia Gonzalez Moral
arXiv:2504.01627v1 项目类型: cross 摘要: 引言:医疗保健领域的地平线扫描评估创新的早期信号,这对于及时采纳至关重要。当前的地平线扫描面临着有效信息检索和分析方面的挑战,尤其是在处理如新闻等非结构化来源时,这需要创新工具。方法:本研究引入了SCANAR和AIDOC,这两个开源的Python工具旨在提高地平线扫描的效率。SCANAR自动化了新闻文章的检索和处理,提供了诸如去重和无监督相关性排序等功能。AIDOC通过利用AI来协助筛选,根据相关性重排文本数据,使用神经网络进行语义相似性计算,并随后优先处理可能相关的内容供人工审核。结果:研究使用了十二个内部地平线扫描数据集和四个外部基准数据集。SCANAR通过自动化依赖手工劳动的过程提高了检索效率。AIDOC展示了节省人工审查工作的潜力,实现了约62%的手动审查工作量减少,同时保持95%的召回率。与基准数据的比较分析表明,AIDOC的性能与现有的系统审查自动化工具相似,但性能会根据数据集特征有所不同。一个小型案例研究显示,在活动学习过程中结合大型语言模型的潜力,可以加速新闻数据集中相关文章的检测。结论:验证表明,SCANAR和AIDOC有可能通过简化数据检索和优先处理来提高地平线扫描的效率。这些工具可以缓解方法论的限制,并允许更广泛、更快地进行地平线扫描。建议进一步研究以优化这些模型,并设计整合大型语言模型的新工作流和验证过程。
发布时间: 4/3/2025
查看原文
作者: Zhaochen Wang, Yujun Cai, Zi Huang, Bryan Hooi, Yiwei Wang, Ming-Hsuan Yang
arXiv:2504.01589v1 类型: cross 摘要:视觉语言模型(VLMs)在处理多模态信息方面取得了快速进展,但它们在处理不同模态之间的冲突信号方面的能力仍然没有得到充分探索。这项工作研究了VLMs如何处理ASCII艺术,这是一种独特的方式,其中文本元素共同形成视觉图案,可能会导致语义-视觉冲突。我们引入了一种新的评估框架,系统地挑战了五种最先进的模型(包括GPT-4o、Claude和Gemini),使用对抗性的ASCII艺术,其中字符级别的语义故意与全局视觉模式相矛盾。我们的实验揭示了强烈的文本优先偏差:VLMs始终优先处理文本信息而非视觉模式,随着语义复杂性的增加,视觉识别能力急剧下降。通过视觉参数调整和提示工程的各种缓解尝试仅取得了轻微的改善,这表明这一限制需要在架构层面进行解决。这些发现揭示了当前VLMs在整合多模态信息方面的根本问题,为未来的模型开发提供了重要的指导,同时突显了内容审核系统在对抗性示例面前的重要意义。
发布时间: 4/3/2025
查看原文