arXiv:2504.21559v1 提交类型: cross
摘要: 大型视觉语言模型(LVLMs)常常遭受物体幻觉的困扰,这削弱了它们的可靠性。令人惊讶的是,我们发现简单的目标导向的视觉提示——在图像上叠加视觉提示(例如,边界框,圆圈)——可以显著减轻这种幻觉;然而,不同的视觉提示(VPs)在有效性上有所不同。为此,我们提出了黑盒视觉提示工程(BBVPE),这是一种框架,用于在无需访问模型内部信息的情况下识别增强LVLM响应的最佳VPs。我们的方法使用候选VP池,并训练一个路由器模型,根据给定的输入图像动态选择最有效的VP。这种黑盒方法是模型无关的,因此适用于开源和专有LVLMs。在POPE和CHAIR等基准上的评估表明,BBVPE有效地减少了物体幻觉。
arXiv:2504.21545v1 公告类型:交叉学科
摘要:基于进化计算(EC)的神经架构搜索(NAS)在自动设计神经网络架构方面取得了显著的性能。然而,评估搜索到的架构相关的高计算成本构成了这些方法的一个挑战,而固定的学习率(LR)调度意味着在评估多样化的搜索架构时会有更大的信息丢失。本文通过一个创新的元学习框架引入了一种高效的基于进化计算的NAS方法来解决这些问题。具体来说,通过预训练使用元学习率(Meta-LR)方案来获得一个合适的LR调度,这在评估每个个体时以较低的信息丢失指导训练过程。设计了一个自适应阈值的自适应代理模型,在几轮内选择潜在的架构,然后使用完整的轮次评估潜在的架构。此外,提出了一种周期性突变操作,以增加种群的多样性,从而增强泛化能力和鲁棒性。在CIFAR-10、CIFAR-100和ImageNet1K数据集上的实验表明,所提出的方法在计算成本较低的情况下,与许多最先进技术相当,具有更高的鲁棒性。
arXiv:2504.21491v1 定类类型:交叉
摘要:我们提出了一种名为ClassWise-CRF的结果级类别特定融合架构。该架构采用两阶段过程:首先,使用贪婪算法从候选网络池中选择在特定类别上表现良好的专家网络;其次,通过根据每个类别中分割性能自适应加权这些网络的贡献来进行这些选择网络的分割预测集成。受到有条件随机场(CRF)的启发,ClassWise-CRF架构将多个网络的分割预测视为置信向量场。该架构利用验证集上的分割指标(如交并比)作为先验,并采用指数加权策略融合每个网络预测的类别特定置信分数。该融合方法动态调整每个网络在不同类别的权重,实现类别特定的优化。在此基础上,该架构进一步使用CRF中的单独项和对偶项势能来优化融合结果,以确保空间一致性并提高边界准确性。为了验证ClassWise-CRF的有效性,我们使用八个经典和高级语义分割网络在两个遥感数据集LoveDA和Vaihingen上进行了实验。结果显示,ClassWise-CRF架构显著提高了分割性能:在LoveDA数据集上,验证集的平均交并比(mIoU)指标提高了1.00%,测试集提高了0.68%;在Vaihingen数据集上,验证集的mIoU提高了0.87%,测试集提高了0.91%。这些结果充分证明了ClassWise-CRF架构在遥感图像语义分割中的有效性和通用性。完整的代码可在https://github.com/zhuqinfeng1999/ClassWise-CRF 获取。
arXiv:2504.21489v1 公布类型:交叉
摘要:生成式人工智能和欺骗性合成媒体的兴起威胁着全球信息生态系统,尤其是在全球大多数国家和地区。见证组织的这份报告指出现代的AI检测工具在实际应用场景中常常由于可解释性、公平性、可访问性以及情境相关性的挑战而表现不佳。针对这种情况,见证组织提出了真正创新和有效的AI检测(TRIED)基准,这是一种新的框架,用于根据其在现实世界中的影响和创新潜力评估检测工具。报告基于前线经验、欺骗性AI案例以及全球咨询,概述了检测工具必须通过满足多元的语言、文化和技术背景来真正实现创新和相关性。它为开发人员、政策制定者和标准机构提供了实用指南,以设计负责任、透明和用户中心的检测解决方案,并将社会技术考量纳入未来的AI标准、程序和评估框架中。通过采用TRIED基准,利益相关者可以推动创新,保护公众信任,增强AI素养,并为更强大的全球信息信誉做出贡献。
arXiv:2504.21480v1 宣传类型: 交叉
摘要:随着区块链技术的迅速发展,智能合约使实现越来越复杂的功能成为可能。然而,在开发、编译和执行阶段确保智能合约的安全性仍然是一个持续的挑战。智能合约中的漏洞不仅削弱了单个应用程序的安全性,还对更广泛的区块链生态系统构成了重大风险,自2016年以来,随着攻击频率的不断增长,造成了巨大的经济损失。本文对以Solidity编写并在以太坊虚拟机(EVM)上执行的以太坊智能合约的关键安全风险进行了全面分析。我们重点关注两种普遍且关键的漏洞类型(重入和整数溢出),通过分析其底层机制、复制攻击场景并评估有效的防范措施。
arXiv:2504.21476v1 宣告类型: cross
摘要: 服装缝制样板是将设计理念与实际制造连接起来的基本设计元素。缝制样板的生成建模对于创建多样化服装至关重要。然而,现有的方法要么依赖单一的输入模态,要么在生成效率上不尽如人意。在本文中,我们提出了 \textbf{\textit{GarmentDiffusion}},这是一种新型的生成模型,能够从多模态输入(文本、图像和不完整的缝制样板)中生成厘米级精确的矢量3D缝制样板。我们的方法有效地将3D缝制样板参数编码为紧凑的边缘标记表示,其序列长度比DressCode中的自回归SewingGPT短$\textbf{10}\times$。通过使用扩散变换器,我们同时在时间轴上去除所有边缘标记的噪声,同时确保去噪步骤数在特定数据集的边缘和面板统计数据上保持不变。通过我们的模型的所有设计组合,缝制样板的生成速度比SewingGPT快$\textbf{100}\times$。我们在DressCodeData和最大的缝制样板数据集GarmentCodeData上均达到了新的最佳结果。项目网站可在 https://shenfu-research.github.io/Garment-Diffusion/ 查看。
arXiv:2504.21475v1 通知类型:交叉
摘要:本研究通过开发一个有效的阿拉伯语逆词典(RD)系统解决了阿拉伯语自然语言处理中的关键差距,该系统使用户能够根据描述或含义查找单词。我们提出了一种新颖的基于转换器的方法,该方法采用了一种几何递减层的半编码神经网络架构,实现了阿拉伯语RD任务的最佳结果。我们的方法包括一个全面的数据集构建过程,并建立了阿拉伯语词典定义的形式质量标准。使用各种预训练模型的实验表明,专门针对阿拉伯语的模型显着优于通用多语言嵌入,ARBERTv2 获得最佳排名分数(0.0644)。此外,我们提供了一种增强逆词典任务理论理解的正式抽象,并开发了一个模块化且可扩展的 Python 库(RDTL),具有可配置的训练管道。我们对数据集质量的分析揭示了改善阿拉伯语定义构建的重要见解,从而提出了八项具体标准,用于构建高质量的逆词典资源。本工作在阿拉伯语计算语言学领域做出了重要贡献,并提供了有价值的工具,用于阿拉伯语学习、学术写作和专业沟通。
arXiv:2504.21474v1 宣布类型: cross
摘要:本文介绍了我们用于SemEval-2025 Task 5:主题标签任务的系统Homa,该任务专注于使用Gemeinsame Normdatei (GND) 分类法自动为来自TIBKAT的技术记录分配主题标签。我们利用OntoAligner,这是一种模块化的本体对齐工具包,通过整合检索增强生成(RAG)技术来解决这一任务。我们通过形成一种对齐任务,将记录与基于语义相似性的GND类别匹配来将主题标签问题公式化。我们评估了OntoAligner在主题索引方面的适应性,并分析了其在处理多语言记录方面的有效性。实验结果展示了该方法的优势和局限性,突显了对齐技术在改善数字图书馆主题标签方面潜在的应用价值。
arXiv:2504.21457v1 Announce Type: cross
摘要:本文介绍了xeeegnet,这是一种新颖、紧凑且具有解释性的神经网络,用于分析EEG数据。它完全可解释,并通过主要参数减少来减少过拟合。作为应用场景,我们专注于将阿尔茨海默病和额颞叶痴呆与对照组进行分类。xeeegnet在涉及频谱改变的其他神经学疾病中具有广泛的应用潜力。我们最初使用浅层网络(shallownet),这是一种来自EEGNet家族的简单且流行的模型。对该模型的结构进行了分析,并逐渐进行了修改,以从“黑盒”变为更透明的模型,而不牺牲性能。从临床角度来看,检查了学习到的核和权重以评估医学相关性。包括浅层网络和最终的xeeegnet的模型变体,通过稳健的嵌套的留下N个被试的交叉验证进行了评估,以获得无偏的性能估计。通过嵌入的EEG表示,按类别和组别分组,解释了数据分割间的差异性,并通过成对可分性量化群体差异。通过训练-验证损失相关性和训练速度评估了过拟合。xeeegnet仅使用168个参数,比浅层网络少200倍,但仍保持了解释性,防止了过拟合,实现了可比的中位性能(-1.5%),并且减少了分割间的变异性。这种变异性通过嵌入的EEG表示得到解释:更高的准确性与测试集对照组和阿尔茨海默病病例之间的分离程度增加相关,而训练数据的影响并不显着。xeegnet能够过滤特定的EEG频带、学习频带特异性拓扑结构并使用相关频谱特征,展示了其解释性。尽管大型深度学习模型在性能方面通常被优先考虑,但本研究表明,如 xeegnet 这样的较小架构在EEG病理分类中也可以同样有效。
arXiv:2504.21454v1 跨域类型:交叉学科
摘要:机器学习在物理信息系统中的应用引起了工业和学术界的兴趣。然而,尚未找到解决神经网络和强化学习代理不可预测行为的一般方案。尽管如此,逼真的仿真的改进为在不同虚拟场景中广泛测试复杂算法铺平了道路,而在现实世界中实施这些算法将非常昂贵且危险。
本文介绍了 SimPRIVE,这是一种物理机器人与虚拟环境交互的仿真框架,作为车辆在环平台运行,同时在现实世界中操作车辆,在虚拟世界中进行渲染。
使用 SimPRIVE,任何基于 ROS 2 的物理移动机器人可以轻松配置,使其数字双子在使用 Unreal Engine 5 图形引擎构建的虚拟世界中移动,虚拟世界可以包含具有可编程行为的对象、人员或其他车辆。
SimPRIVE 设计用于适应自定义或预构建的虚拟世界,同时保持轻量以减少执行时间并允许快速渲染。其主要优势在于可以在完整的软件和硬件堆栈上测试复杂算法,同时将测试活动的风险和成本降到最低。该框架通过在 AgileX Scout Mini 越野车上测试一个用于避障的强化学习代理来验证,该四驱车在包含日常物品和人员作为障碍的虚拟办公环境中导航,通过基于 LiDAR 的启发式方法使其在室内有限空间内移动时无碰撞。