arXiv:2312.05276v2 宣告类型:替换
摘要:如今,移动经济的迅速发展促进了线上营销活动的蓬勃发展,这些营销活动的成功很大程度上依赖于用户偏好与所需营销活动之间的高效匹配,在这种情况下,一个成熟的面向营销的知识图谱(称为MoKG)可以作为偏好传播的关键“桥梁”。本文我们旨在利用具备领域知识的大型语言模型(LLM)作为一种更好的营销知识挖掘工具,用于构建面向营销的知识图谱,但这并非易事,在实际的营销场景中存在几个不可避免的问题,即LLM无法控制的关系生成、单个提示的不足提示能力以及部署LLM的高昂成本。为解决这些问题,我们提出了PAIR,一种新颖的渐进提示增强挖掘框架,用于利用LLM采集营销知识图谱。特别地,我们通过知识赋能的提示技术将纯粹的关系生成转化为基于LLM的关系过滤过程。接下来,我们利用渐进提示增强引导LLM进行实体扩展,并通过全面考虑自一致性与语义相关性进行可靠的聚合。在在线服务方面,我们专门设计了一个小型且白盒的PAIR(即LightPAIR),该模型使用强大的教师LLM提供的高质量语料库进行微调。广泛的实验和实际应用场景中的人群定向验证了所提出(Light)PAIR的有效性。
arXiv:2310.15288v2 通知类型: 修改
摘要:从人类反馈中进行强化学习(RLHF)使机器学习系统能够从人类反馈中学习目标。这些系统的核心局限在于,它们假定所有反馈都来自单一的人类教师,尽管实际上查询了多个不同的教师。我们提出了隐藏效用多臂-bandit(HUB)框架,以建模教师理性、专业知识和成本之间的差异,并正式化了从多名教师处学习的问题。我们开发了多种求解算法,并将它们应用于两个现实世界领域:论文推荐系统和COVID-19疫苗测试。我们发现,积极教师选择(ATS)算法在主动选择何时以及选择哪个教师进行查询方面优于基础算法。HUB框架和ATS算法表明,在学习准确的奖励模型时利用教师之间的差异的重要性,这将推动未来在稳健奖励建模中的积极教师选择研究。
arXiv:2504.01947v1 提交类型: cross
摘要: 在电信领域,自主网络(ANs)根据特定需求(例如,带宽)和可用资源自动调整配置。这些网络依赖于持续监测和智能化机制以便自我优化、自我修复和自我保护,目前通过神经网络(NNs)增强了预测建模和模式识别的能力。在这里,联邦学习(FL)允许多个AN细胞(每个细胞都配备了NNs)协同训练模型,同时保持数据隐私。然而,FL需要频繁传输大量神经数据,因此需要一种高效的标准压缩策略来确保可靠通信。为了解决这一问题,我们研究了NNCodec,这是Fraunhofer对ISO/IEC神经网络编码(NNC)标准的一种实现,应用于一种新型的FL框架中,该框架结合了小型语言模型(TLMs)以预测各种移动网络特征(例如,ping、SNR或带宽频率)。我们在柏林V2X数据集上的实验结果表明,NNCodec实现了透明压缩(即,几乎无性能损失)的同时将通信开销降低到低于1%,展示了NNC与FL结合在协作学习自主移动网络中的有效性。
arXiv:2504.01930v1 宣告类型:交叉
摘要:自动文本分类(ATC)在过去十年中经历了显著的进步,这在最近的小型和大型语言模型(SLMs 和 LLMs)以及基于 Transformer 架构的应用中得到了最佳体现。尽管最近在效果上有所改进,但文献中仍然缺乏一项全面的成本效益分析,以探讨这些最新方法的有效性提高是否能够弥补它们与传统文本分类方法如 SVMs 和 Logistic Regression 相比更高的成本。在此背景下,本文的主要贡献有两个方面:(i)我们对十二种传统的和最新的自动文本分类解决方案,包括五种开放的大型语言模型,进行了科学严谨的比较分析;(ii)一个大规模基准,包括22个数据集,涵盖情感分析和主题分类,这些数据集根据折叠交叉验证方法划分为训练、验证和测试集,附带有文档和代码。代码、数据和文档的发布使社区能够复制实验并以更科学的方法推进该领域。我们的比较实验结果表明,大型语言模型在效果方面优于传统方法(平均最高可达26%-7.1%)和小型语言模型(平均最高可达4.9%-1.9%)。然而,由于微调带来的显著更高的计算成本,大型语言模型比传统方法快590倍和小型语言模型快8.5倍。结果建议以下建议:(1)对于需要最佳效果并且可以承担成本的广泛应用,使用大型语言模型;(2)对于资源受限的应用或无法承担大规模语言模型调优成本的应用,使用传统的 Logistic Regression 和 SVM 方法;(3)对于接近最优效果-效率权衡的应用,使用如 Roberta 这样的小型语言模型。
arXiv:2504.01925v1 标题类型: cross
摘要:使用扩散磁共振成像(diffusion Magnetic Resonance Imaging, dMRI)早期和准确地评估新生儿的脑微观结构对于识别神经发育障碍至关重要,但由于信噪比低、运动伪影以及持续的髓鞘形成,这一任务仍然具有挑战性。为了解决这些问题,我们在新生儿dMRI中提出了一种旋转不变的球面卷积神经网络(spherical Convolutional Neural Network, sCNN)框架。我们从减少的梯度方向集(全协议的30%)中预测纤维 orient 转向分布(Fiber Orientation Distribution, FOD),从而实现了更快、更低成本的数据采集。我们使用Developing Human Connectome Project (dHCP) 提供的43个新生儿dMRI数据集对sCNN进行训练和评估。结果显示,与多层感知机(Multi-Layer Perceptron, MLP)基线相比,sCNN在均方误差(Mean Squared Error, MSE)和角度相关系数(Angular Correlation Coefficient, ACC)上表现出显著更低的误差和更高的一致性,表明在FOD估计上的准确性有所提高。此外,基于sCNN预测的FOD进行的追踪结果在解剖学上更为合理、覆盖面更广且连贯性更好,与MLP相比具有明显的优势。这些发现表明,sCNN,由于其内在的旋转不变性,为准确和临床高效的dMRI分析提供了一种有前景的方法,并为进一步提高诊断能力和早期脑部发育特征化奠定了基础。
arXiv:2504.01919v1 宣告类型: cross
摘要:大型语言模型(LLMs)的到来显著改变了机器翻译(MT)的格局,尤其是在低资源语言和缺乏足够平行语料库、语言工具和计算基础设施的领域。本文综述了利用LLMs进行MT的最近进展。我们分析了诸如少样本提示、跨语言转移和参数高效微调等技术,这些技术使LLMs能够有效地适应资源不足的环境。文章还探讨了使用LLMs生成合成数据的策略,包括反向翻译和词汇增广。此外,我们比较了基于LLMs的翻译与传统的编码器-解码器模型在多种语言对上的表现,突出了每种方法的优点和局限性。我们讨论了持续存在的挑战,如幻觉、评估不一致性和继承的偏见,同时评估了新兴的LLM驱动的翻译质量评价指标。本文提供了实用的见解,并概述了在大规模生成模型时代构建稳健、包容和可扩展的MT系统的未来方向。
arXiv:2504.01916v1 类型:交叉
摘要:作为前瞻性视觉-语言模型,CLIP(对比语言-图像预训练)已经在各个领域和广泛的下游视觉-语言任务中取得了显著的成功。然而,流行的CLIP模型中的文本编码器仅能处理最多77个文本令牌,这限制了它们有效地处理更长且细节丰富的配景的能力。此外,CLIP模型往往难以有效地捕捉详细的视觉和文本信息,这阻碍了它们在需要细粒度分析的任务中的表现。为了解决这些限制,我们提出了一种新的方法\textbf{FineLIP},该方法扩展了CLIP的功能。FineLIP通过引入\textbf{细粒度}对齐和\textbf{长}文本输入,增强了CL\textbf{IP}风格框架下的跨模态文本-图像映射能力。FineLIP首先扩展了位置嵌入以处理更长的文本,然后动态聚合局部图像和文本令牌。聚合结果用于强制执行细粒度令牌间的跨模态对齐。我们使用包含详细描述长配景的数据集在这两个任务上验证了我们的模型:零样本跨模态检索和文本到图像生成。定量和定性实验结果表明FineLIP的有效性,其性能优于现有最先进的方法。此外,全面的消融研究验证了FineLIP中关键设计元素的优势。
arXiv:2504.01908v1 交叉类型:
摘要:评估合成数据的质量仍然是确保数据驱动研究中隐私和效用的关键挑战。在这项工作中,我们提出了一种评估框架,该框架量度合成数据如何准确复制原始分布属性的同时确保隐私。提出的途径采用了一种基于保留样本的基准策略,通过低维和高维分布比较、基于嵌入的相似性度量以及最近邻距离度量,实现定量评估。该框架支持各种数据类型和结构,包括序列和上下文信息,并通过一组标准化指标使质量诊断具有可解释性。这些贡献旨在支持合成数据生成技术基准测试中的可重复性和方法论一致性。该框架的代码可在 https://github.com/mostly-ai/mostlyai-qa 获取。
arXiv:2504.01905v1 类型: cross
摘要:车辆网络(Internet of Vehicles, IoV)可能面临严峻的网络安全攻击,这可能需要复杂的入侵检测系统,从而需要一个快速的发展和响应系统。本研究探讨了GPU加速库(cuML)与传统基于CPU的实现(scikit-learn)相比在IoV威胁检测环境中机器学习模型的速度和效率方面的性能优势。全面的评估采用了四种机器学习方法(随机森林、KNN、逻辑回归、XGBoost),并在三个不同的IoV安全数据集(OTIDS、GIDS、CICIoV2024)上进行。研究发现,GPU加速实现了显著的计算效率提升,与传统CPU处理相比,训练时间最多减少了159倍,预测速度加快了95倍,同时保持了检测准确性。这一显著的性能突破使得研究人员和安全专家能够利用GPU加速来创建更快、更有效的威胁检测系统,以满足当今连接车辆网络的迫切实时安全需求。
arXiv:2504.01903v1 类别: cross
摘要: 本文介绍了STAR-1,这是一个高质量、规模仅为1K的安全数据集,特别设计用于大型推理模型(LRMs)如DeepSeek-R1。STAR-1基于三个核心原则——多样性、审慎推理和严格的筛选,旨在解决LRMs中的关键安全性对齐需求。具体来说,我们首先整合了来自多种来源的现有开源安全数据集。然后,我们策展安全政策以生成基于政策的审慎推理样本。最后,我们应用基于GPT-4o的安全评分系统来选择与最佳实践对齐的训练示例。实验结果显示,使用STAR-1微调LRMs在四个基准测试中的安全性性能平均提高了40%,而在五个推理任务中的推理能力仅略有下降(例如,平均1.1%)。广泛的消融研究进一步验证了我们在构建STAR-1中的设计原则的重要性,并分析了其在大型推理模型和传统LLMs中的有效性。我们的项目页面为https://ucsc-vlaa.github.io/STAR-1。