arXiv:2504.00624v1 类别: cross
摘要:本文介绍了使用单调测度进行特征子集加权的距离基于监督学习。Choquet 积分被用于定义一个包含这些权重的距离度量。这种整合使得所提议的距离能够更有效地捕捉非线性关系,并考虑条件属性之间以及决策属性和条件属性之间的交互作用,从而提供一个更灵活的距离度量。特别地,我们展示了这种方法如何确保距离在添加重复和强烈相关特征时不受到影响。该方法的另一个关键点是,它使得特征子集加权在计算上是可行的,因为每次只需要计算$m$个特征子集权重,而不是计算所有特征子集权重($2^m$),其中$m$是特征的数量。接下来,我们还研究了使用Choquet积分测量相似性如何导致非等价的距离定义。通过双测度进一步探索了距离和相似性的关系。此外,我们提出了对称的Choquet距离和相似性,保持了相似性和距离的经典对称性。最后,我们引入了一个具体的特征子集加权距离,在$k$-最近邻(KNN)分类设置中评估了其性能,并将其与马氏距离和加权距离方法进行了比较。
arXiv:2504.00608v1 Announce Type: cross
摘要:多集合/列的唯一值个数(NDV)估计是许多数据管理任务的基础,尤其是在数据库中。尽管经过了几十年的研究,大多数现有方法要么需要通过均匀随机抽样获取大量样本,要么需要访问整个列以生成估计结果,这会导致大量的数据访问成本,并在数据访问受限的情况下可能导致不准确的估计。在本文中,我们提出利用语义信息,即模式,来解决这些挑战。模式包含丰富的语义信息,这些信息可以用于NDV估计。为此,我们提出了PLM4NDV,这是一种结合预训练语言模型(PLMs)来提取用于NDV估计的语义模式信息的学习方法。具体而言,PLM4NDV 利用目标列及其相应的表的语义来全面理解列的意义。通过使用语义信息,PLM4NDV 减少了数据访问成本,提供了准确的 NDV 估计,并且即使在没有任何数据访问的情况下也能有效地运行。在大规模实际数据集上的广泛实验表明,PLM4NDV 在基线方法中表现出优越性。我们的代码可在 https://github.com/bytedance/plm4ndv 获取。
arXiv:2504.00603v1 交叉类型公告
摘要:随着生成对抗网络(GANs)的应用扩展,开发一个能在各种生成任务中提高性能的统一方法变得越来越重要。一种适用于任何机器学习任务的有效策略是识别出有害实例,移除这些实例可以改善性能。尽管此前的研究在监督设置中成功估计了这些有害训练实例,但其方法不容易应用于GANs。挑战在于此前方法的两个要求不适用于GANs。首先,此前的方法要求训练实例的缺失直接影响参数。然而,在GANs的训练过程中,实例并不直接影响生成器的参数,因为它们只是被输入判别器。其次,此前的方法假设损失的变化直接量化了实例对模型性能的有害性,而常见的GAN损失并不总是反映出生成性能。为克服第一个挑战,我们提出了一种使用生成器梯度相对于判别器参数的雅可比矩阵(以及反之亦然)进行影响估计的方法。这种雅可比矩阵代表了两个模型之间的间接效果:移除判别器训练中的实例如何改变生成器的参数。第二,我们提出了一个实例评估方案,该方案根据移除实例后预期的GAN评估指标(例如,Inception得分)的变化来衡量每个训练实例的有害性。此外,我们证明了移除识别出的有害实例能显著提高各种GAN评估指标下的生成性能。
arXiv:2504.00597v1 宣告类型:交叉
摘要:通过利用从语料库中检索的相关段落,大型语言模型(LLMs)增强的检索生成(RAG)在多语言问答(QA)任务中展示了出色的表现。在多语言RAG(mRAG)中,检索到的段落可以使用与用户输入查询语言不同的语言书写,这给LLMs有效地利用提供的信息带来了挑战。最近的研究表明,从多语言语料库中检索段落可以改善RAG性能,特别是在低资源语言方面。然而,LLMs在不同类型的多语言上下文中生成准确答案的能力,*独立于检索质量*,仍需进一步研究。在本文中,我们对LLMs的能力进行了广泛的评估,包括:(i) 不论段落语言如何,一致地利用相关段落;(ii) 以预期的语言作答;(iii) 即使在提供多个‘分散’的其他语言段落的情况下,仍专注于相关段落。我们在涵盖共48种语言的三个QA数据集中对四种LLMs进行的实验揭示出,LLMs从非本语言段落中提取相关信息的能力令人惊讶,但它们以正确语言形成完整答案的能力则较弱。基于准确性和特征归因技术的分析进一步表明,无论段落语言如何,分散段落都会负面影响答案质量。然而,查询语言中的分散段落的影响稍微更强。综上所述,我们的研究结果加深了对LLMs在mRAG系统中利用上下文的理解,为未来改进提供了方向。
arXiv:2504.00584v1 类型: cross
摘要:否定在自然语言推理和情感分析等各类自然语言处理任务中扮演着重要角色。先前大量的研究发现,如 BERT、ELMO、RoBERTa 或 XLNet 等上下文文本嵌入模型在准确理解否定方面面临挑战。最近,通用文本嵌入在不同任务中的表现超过了上下文文本嵌入。然而,由于流行评价基准中的偏差,这些模型的否定感知能力仍不清楚。为了弥合现有文献的差距,本文深入分析了最新通用文本嵌入模型的否定感知能力。我们的研究发现这些模型在否定感知方面存在明显不足,通常将带有否定的文本对错误地解释为语义相似。为有效处理不同任务在主题信息、否定信息以及其他语义信息之间需要不同程度权衡的冲突,本文提出了一种既高效利用数据又高效利用计算资源的嵌入重新加权方法,而不修改文本嵌入模型的参数。所提出的方法在简单的否定理解任务和复杂的否定理解任务中都能够显著提高文本嵌入模型的否定感知能力。此外,该提出的方法还能显著提高基于大型语言模型的特定任务高维通用文本嵌入模型的否定感知能力。
arXiv:2504.00526v1 类型: cross
摘要:在云上生成高质量伪标签对于云-边缘物体检测至关重要,特别是在动态交通监控中,数据分布会发生变化。现有方法通常假定云模型可靠,忽视潜在错误或难以处理复杂的分布变化。本文提出了云适应高质量伪标签生成(CA-HQP),通过结合可学习的视觉提示生成器(VPG)和双特征对齐技术来解决这些限制。VPG 通过注入视觉提示,使参数效适应变得可行,同时增强灵活性而无需大量微调。CA-HQP 通过两种特征对齐技术来缓解领域差异:全局领域查询特征对齐(DQFA),捕获场景级别的变化;以及细粒度的时空实例感知特征嵌入对齐(TIAFA),处理实例变化。在贝尔维尤交通数据集上的实验表明,与现有方法相比,CA-HQP 显著提高了伪标签的质量,从而显著提升了边缘模型的性能,并展示了CA-HQP 的适应效果。消融研究验证了每个组件(DQFA、TIAFA、VPG)以及结合对齐策略的协同效应,突显了适应性云更新和领域适应对在不断变化场景中实现稳健物体检测的重要性。CA-HQP 提供了在实际应用中增强云-边缘物体检测系统的有前途的解决方案。
arXiv:2504.00521v1 公告类型: cross
摘要: 中断驱动程序中的原子性违规对关键系统中的软件安全性构成重大威胁。这些违规行为发生在共享资源的操作执行序列被异步中断打断时。由于程序状态空间庞大、应用程序级别的代码依赖关系以及复杂的领域特定知识,检测原子性违规具有挑战性。我们提出了一种名为Clover的混合框架,该框架结合了静态分析和大型语言模型(LLM)代理,以检测实际程序中的原子性违规。Clover首先进行静态分析以提取关键代码片段和操作信息。然后启动一个多代理过程,在此过程中,专家代理利用领域特定知识检测原子性违规,随后由裁判代理进行验证。在RaceBench 2.1、SV-COMP和RWIP上的评估表明,Clover的精确度/召回率分别为92.3%/86.6%,其在F1分数上的性能比现有方法高出27.4%-118.2%。
arXiv:2504.00515v1 公告类型:交叉学科
摘要:准确测量眼睑参数(如边缘反射距离(MRD1、MRD2)和提睑肌功能(LF))在眼裂整形诊断中至关重要,但目前仍受限于手动且不一致的方法。本研究评估了深度学习模型:SE-ResNet、EfficientNet 以及基于视觉变换器的 DINOv2,以自动利用智能手机获取的图像进行这些测量。我们通过使用均方误差(MSE)、平均绝对误差(MAE)和 R2 指标评估了不同设置下的性能。通过自我监督学习预训练的 DINOv2 在冷冻条件下表现出出色的可扩展性和鲁棒性,尤其是在便于移动部署的理想条件下。轻量级回归器,如多层感知机(MLP)和深度集成方法,提供了高精度且具有最小计算开销。为了应对类别不平衡并提高泛化能力,我们结合了焦损、正交正则化和二进制编码策略。我们的结果显示,DINOv2 结合这些增强功能能够在所有任务中提供一致且准确的预测,使其成为面向真实世界的移动友好型临床应用的有力候选者。本工作强调了基础模型在推动基于人工智能的眼科护理方面的发展潜力。
arXiv:2504.00510v1 公告类型:交叉
摘要:神经运算符由于其强大的能力,能够在复杂域上捕捉函数空间之间的精细映射,因此在解决偏微分方程(PDEs)方面变得越来越流行。然而,运算符学习的数据饥渴性不可避免地成为其广泛应用的瓶颈。挑战的核心在于神经运算符无法将已有知识转移到新的几何结构上。为了解决这一问题,我们提出了基于域分解的运算符学习,这是一种局部到全局框架,用于解决任意几何结构上的PDEs。在这一框架下,我们设计了一种迭代方案——Schwarz神经推断(SNI)。该方案允许将问题域划分为更小的子域,在这些子域上可以使用神经运算符解决局部问题,并将局部解决方案缝合起来构建全局解决方案。此外,我们还提供了收敛速率和误差界的相关理论分析。我们对各种具有不同边界条件的代表性PDEs进行了广泛实验,与替代方法相比,取得了显著的几何通用性。这些分析和实验证明了所提出的框架在应对几何通用性和数据效率相关挑战方面的潜力。
arXiv:2504.00485v1 Announce Type: cross
摘要:心脏病仍然是全球主要的死亡和发病率原因,需要开发准确可靠的预测模型以促进早期检测和干预。虽然最先进的研究工作集中在各种机器学习方法来预测心脏病,但它们无法实现显著的准确性。为应对这一需求,我们应用了九种机器学习算法:XGBoost、逻辑回归、决策树、随机森林、K近邻(KNN)、支持向量机(SVM)、高斯朴素贝叶斯(Gaussian NB)、自适应提升以及线性回归,基于一系列生理指标预测心脏病。我们的方法涉及特征选择技术,以识别最相关的预测因子,旨在完善模型以增强性能和可解释性。这些模型经过训练,并采用了如网格搜索超参数调整和交叉验证等过程,以降低过拟合。此外,我们还开发了一种新的投票系统,并通过特征选择技术促进心脏病分类。此外,我们使用准确率、精确率、召回率、F1分数以及受试者操作特征曲线下的面积(ROC AUC)等关键性能指标来评估这些模型。在这些模型中,XGBoost表现出色,分别实现了99%的准确率、精确率、F1分数,98%的召回率以及100%的ROC AUC。本研究提供了一种有前景的心脏病早期诊断和预防性医疗保健方法。