arXiv:2502.10768v1 类别: cross
摘要: 当前的研究突显了大型语言模型(LLMs)在构建学术知识图谱(SKGs)方面的巨大潜力。这个过程中的一个特别复杂的步骤是关系提取,旨在识别适合描述研究内容的属性。这项研究直接建立在之前关于三位开放研究知识图谱(ORKG)团队成员的研究基础上,他们评估了GPT-3.5、Llama 2和Mistral等LLM在科学文献中属性提取方面的准备情况。鉴于观察到的中等性能,之前的研究所得出的结论是需要进行微调以提高这些模型与科学任务的契合度以及模仿人类专业知识的能力。基于先前的实验,这项研究评估了高级提示工程技术的影响,并证明这些技术可以显著提高提取结果。此外,这项研究将属性提取过程扩展到包括与通过API检索到的ORKG属性进行匹配,从而进一步增强了所达到的匹配度。此外,这项研究为解决ORKG属性的一致性问题奠定了基础,这是之前研究中指出的一个问题。通过分配唯一的URI并使用标准化术语,这项工作提高了属性的一致性,满足了链接数据和FAIR原则的核心承诺——ORKG的核心承诺之一。这反过来显著增强了ORKG内容在后续任务如研究论文比较方面的适用性。最后,研究提出了对未来整体属性提取过程改进的建议。
arXiv:2502.10762v1 Announce Type: cross
摘要:用户的信息需求往往是高度多样化和多变的。当前研究中的一个关键挑战是如何在实现可控的多目标生成的同时,快速适应测试时的多样化用户需求。现有的解决方案,如Rewarded Soup,专注于合并单个目标调优的语言模型。尽管实现简单且广泛使用,但这些方法由于忽视了竞争目标对模型调优的影响,因此难以达到最优性能。为了解决这个问题,我们提出了一种名为Bone Soup的新型模型合并方法,首先通过考虑多个目标的影响来寻求一系列主干模型,然后将这些主干模型合并(即,合并主干模型)。具体而言,Bone Soup首先使用多目标强化学习训练多个针对不同目标的主干模型。每个主干模型都由一组主干奖励信号引导。为了确保这些模型对帕累托前沿的最优性,主干奖励通过将标准奖励函数组合成基向量来构建,这些基向量可以通过基于规则的方法进行修改。Bone Soup利用对称循环矩阵映射生成融合系数,根据用户偏好将主干模型合并。广泛的实验证明,Bone Soup在可控的多目标生成中表现出强大的可控性和帕累托最优性,提供了一种更有效和高效的解决方案,以在测试时满足多样的用户需求。
arXiv:2502.10750v1 社区检测类型: 横跨式
摘要:社区检测是社会网络分析(SNA)中的一个基石问题,旨在识别具有最少外部链接的紧密社区。然而,生成型AI和Metaverse的兴起增加了复杂性,通过创建混合的人类-AI社会网络(表示为HASNs),传统方法在这种情况下表现不佳,尤其是在以人为核心的环境中。本文介绍了HASNs中的新型社区检测问题(表示为MetaCD),旨在增强社区内的连接性同时减少AI节点的出现。有效处理MetaCD带来了挑战,特别是处理排除某些AI节点与维持社区结构之间的微妙权衡。为了解决这个问题,我们提出了CUSA,一个创新的框架,结合了AI感知的聚类技术,通过选择性地保留对社区结构有贡献的AI节点来解决这种权衡。此外,鉴于真实的HASNs数据稀缺,我们针对各种假设场景设计了四种策略来合成这些网络。在重新配置的真实社会网络上的实证评估表明,与传统的非深度学习方法和基于图神经网络(GNN)的方法相比,我们的方法更有效且更具有实际意义。
arXiv:2502.10749v1 宣告类型:交叉学科
摘要:尽管大多数当前方法依赖于进一步训练技术,如微调或强化学习,来增强模型能力,但模型合并因其能在不需额外训练的情况下提升模型的能力而脱颖而出。在本文中,我们提出了一种基于低秩估计任务向量的统一框架,无需访问基础模型,该框架名为 \textsc{LoRE-Merging}。我们的方法受到观察的启发,即微调模型的任务向量通常表现出有限数量的主导奇异值,使得低秩估计不太容易受到干扰。我们通过将合并问题形式化为一个优化问题来实现该方法。广泛的实验证明了该框架在减少干扰和保存任务特定信息方面的有效性,从而推动了模型合并技术的最新性能。
arXiv:2502.10732v1 类别: cross
摘要: 深度强化学习(RL)在医疗保健、公共政策和资源管理等领域解决序列资源分配问题方面表现出色。然而,深度 RL 策略通常缺乏透明度和适应性,这使它们难以与人类决策者并行部署。相比之下,受大型语言模型(LLMs)驱动的语言代理提供了可人类理解的推理,但在有效的决策制定方面可能存在挑战。为了解决这一差距,我们提出了一种新颖的方法——规则瓶颈强化学习(RBRL),该方法联合优化决策和解释。在每一步中,RBRL 使用 LLM 生成候选规则,使用基于注意力的 RL 策略在它们之间进行选择,并通过链式推理来决定环境动作和解释。RL 规则的选择通过环境奖励和由 LLM 判定的可解释性度量进行优化。在实际场景中的评估结果显示,RBRL 在与深度 RL 的竞争力方面表现出色,并且相对于 LLM 微调具有效率优势。进一步的调查还证实了其解释质量的提升。
arXiv:2502.10725v1 标题类型: cross
摘要:基于Transformer的嵌入方法近年来在句子表示领域占据主导地位。尽管它们在语义文本相似性(STS)等NLP任务中取得了显著的性能,但其黑盒性质和以大数据驱动的训练方式引发了关于偏差、信任和安全性的问题。许多努力旨在提高嵌入模型的可解释性,但这些问题并未从根本上解决。为了实现固有的可解释性,我们提出了一种纯白盒且类人的句子表示网络,PropNet。受到认知科学发现的启发,PropNet基于句子所含的命题构建了一个层次化的网络。实验表明,在STS任务中,PropNet与最先进的(SOTA)嵌入模型相比存在显著差距,但案例研究揭示了其改进的巨大潜力。此外,PropNet使我们能够分析和理解ST斯基准背后的人类认知过程。
arXiv:2502.10723v1 宣告类型: cross
摘要: 数据增强是训练深度神经网络的一项重要技术,因为它能够提高模型的泛化能力和鲁棒性。尽管数据增强常用于扩展样本量并作为一致性正则化项,但关于两者关系的研究却较少。为了解决这一缺口,本文引入了数据增强的更全面的数学框架。通过该框架,我们建立了迁移后的人口的期望风险是原始人口风险和一个差距项之和的关系,该差距项可以被解释为一致性正则化项。本文还对这个差距进行了理论上的理解,强调了其对训练早期阶段的负面影响,并提出了一种缓解这些影响的方法。为了验证我们的方法,我们在多种场景下——包括标准训练、分布外测试和不均衡分类——使用相同的增强技术以及相同的计算资源进行了实验。结果显示,我们的方法在所有场景下的泛化能力和收敛稳定性方面都超过了其他方法。我们还在以下链接中提供了我们的代码实现: https://github.com/ydlsfhll/ASPR。
arXiv:2502.10718v1 宣告类型: cross
摘要:管理大量传感器生成的数据日益增加的挑战,尤其是在音频应用中,需要创新的解决方案。当前系统在实时应用(如枪声检测系统(GSDS))中面临着重大的计算和存储需求,而边缘传感器的普及进一步加剧了这些问题。本文提出了一种开创性的方法,该方法为智能音频传感框架量身定制了近传感器模型。利用快速傅里叶变换(FFT)模块、卷积神经网络(CNN)层和超维计算(HDC),我们的模型在低功耗、快速推理和在线学习方面表现出色。它对于高效的专用集成电路(ASIC)设计实现具有高度适应性,其能效优于传统的嵌入式CPU或GPU,并且与缩小麦克风传感器尺寸的趋势兼容。全面的软硬件评估证明了该模型的有效性。通过详细的ROC曲线分析,软件评估揭示了能源节约与质量损失之间的微妙平衡,实现了高达82.1%的能源节省,同时仅损失1.39%的质量。硬件评估突显了ASIC设计实现下的模型出色的能效,尤其是在使用Google Edge TPU时,展示了其在嵌入式CPU和GPU方面的优越性。
arXiv:2502.10712v1 类型: cross
摘要:航空航天制造业是工业皇冠上的明珠,其中生成可控制和可编辑的高保真机翼翼型几何图形仍然是一个基本挑战。尽管现有的基于深度学习的方法依赖于预定义的参数函数族,例如贝塞尔曲线和离散点表示,它们在表达能力和分辨率灵活性之间存在固有的权衡。为了解决这一挑战,我们引入了FuncGenFoil,这是一种新颖的功能空间生成模型,可以直接学习功能翼型几何图形。我们的方法继承了任意分辨率采样和参数函数的平滑性以及离散点表示的强表达能力。Afbench数据集上的 empirical 评估显示,相比于最先进的方法,FuncGenFoil在AF-200K数据集上的机翼生成中实现了相对标签错误率降低74.4%和多样性提高23.2%。我们的结果突显了功能空间建模在气动形状优化方面的优势,为高保真机翼设计提供了强大而灵活的框架。我们的代码将被发布。
arXiv:2502.10709v1 通知类型: 交叉
摘要: 随着LLM-as-a-Judge作为一种新的评估大型语言模型(LLMs)的范式出现,关于LLM评估者的对齐、偏差和稳定性的担忧已经浮现。尽管已经进行了大量关于对齐和偏差的研究,但很少有研究关注LLM评估者的稳定性。在本文中,我们进行了广泛的实验,涉及两种不同的评估设置中使用的9种广泛使用的LLM评估者,以调查基于模型的LLM评估的不确定性。我们指出,LLM评估者在模型家族和规模的基础上表现出不同的不确定性。通过仔细的比较分析,我们发现,无论是推理期间还是训练后使用特殊的提示策略,都可以在一定程度上缓解评估不确定性。通过利用不确定性来增强LLM在离分布(OOD)数据中的可靠性和检测能力,我们进一步使用一个人类注释的微调集微调了一个具有不确定性感知能力的LLM评估者ConfiLM,并在手工设计的测试集上评估ConfiLM的OOD评估能力,该测试集源自2024年奥运会数据。实验结果表明,在微调阶段引入不确定性作为额外信息可以大大改善模型在OOD场景中的评估性能。代码和数据可以在以下网址获取:https://github.com/hasakiXie123/LLM-Evaluator-Uncertainty。