arXiv:2409.13774v1 公告类型: 交叉 摘要: 本研究提出了一种通过使用变分自编码器(VAE)架构来增强入侵检测系统(IDS)中异常检测置信度的新方法。通过从潜在空间表示中推导出的置信度度量,我们旨在提高IDS对网络攻击预测的可靠性。应用于NSL-KDD数据集,我们的方法专注于二分类任务,以有效区分正常和恶意网络活动。该方法在异常检测方面显示出显著的增强,重建误差与所提出的度量之间存在显著的0.45相关性。我们的研究结果突显了使用VAE在网络安全中实现更准确和可信的异常检测的潜力。
arXiv:2409.13773v1 公告类型: 交叉 摘要: 本文通过最新推理模型OpenAI的o1-preview和o1-mini与其他前沿模型进行对比,对编码任务进行了案例研究。o1模型在WebApp1K这一单任务基准测试中取得了SOTA结果。为此,我们引入了WebApp1K-Duo,这是一个更难的基准测试,任务和测试用例数量翻倍。新的基准测试导致o1模型的性能显著下降,落后于Claude 3.5。此外,面对非典型但正确的测试用例时,它们持续失败,而这种陷阱非推理模型偶尔能够避免。我们假设性能变异性源于指令理解。具体而言,推理机制在所有预期被捕捉时提升性能,而在关键预期被遗漏时加剧错误,可能受输入长度影响。因此,我们认为推理模型的编码成功依赖于顶尖的基础模型和SFT,以确保对指令的细致遵循。
内容类型检测任务——即识别任意字节序列中编码的数据——对于操作系统、开发、逆向工程环境和各种安全应用至关重要。本文介绍了一种名为Magika的新型AI驱动内容类型检测工具。Magika内部采用了一个深度学习模型,该模型可以在单个CPU上运行,仅需1MB内存来存储模型权重。我们展示了Magika在超过一百种内容类型和超过100万文件的测试集上实现了99%的平均F1分数,优于当前所有现有的内容类型检测工具。为了促进采用和改进,我们在GitHub上以Apache 2许可证开源了Magika,并公开了我们的模型和训练管道。我们的工具已被Gmail邮件服务提供商用于附件扫描,并已集成到VirusTotal中以协助恶意软件分析。我们注意到,本文讨论的是Magika的第一个版本,而更新的版本已经支持超过200种内容类型。感兴趣的读者可以在Magika的GitHub仓库中查看最新的开发进展,仓库地址为https://github.com/google/magika。
arXiv:2409.13764v1 公告类型: 交叉 摘要: 本文提出了一项新颖的任务,通过局部扰动和自我解释来评估大型语言模型(LLMs)的忠实度。许多LLMs在回答某些问题时通常需要额外的上下文。为此,我们提出了一种新的高效替代解释性技术,灵感来自于常用的留一法。通过这种方法,我们识别出LLM生成正确答案所需的充分和必要部分,作为解释。我们提出了一种评估忠实度的指标,该指标将这些关键部分与模型的自我解释进行比较。使用Natural Questions数据集,我们验证了我们的方法,展示了其在解释模型决策和评估忠实度方面的有效性。
arXiv:2409.13761v1 公告类型: 交叉 摘要: 随着大型语言模型(LLMs)的快速扩展,补充各种LLM查询所需的知识范围也在不断扩大。因此,在LLM推理中实现灵活且高效的新知识注入至关重要。存在三种高级选项:(i)将知识嵌入LLM的权重中(即微调),(ii)将知识作为LLM文本输入的一部分(即上下文学习),或(iii)在预填充阶段将新知识的KV缓存注入LLM。本文认为,尽管微调和上下文学习很流行,但使用KV缓存作为知识媒介可以同时实现更模块化的知识注入管理和更低成本、快速响应的LLM服务。为了实现这些优势,我们设想了一个知识交付网络(KDN),这是LLM服务中的一个新系统组件,它动态优化了KV缓存在LLM引擎和其他计算和存储资源之间的存储、传输和组合。我们相信,就像内容交付网络(CDNs)如Akamai通过高效的数据交付推动了互联网生态系统的成功一样,KDNs将通过其高效的知识交付成为LLM应用成功的关键。我们在https://github.com/LMCache/LMCache开源了一个KDN原型。
arXiv:2409.13758v1 公告类型: 交叉 摘要: 传统的歌曲创作过程相当复杂,这一点在创作符合特定风格和形式的歌词所需的时间上显而易见。我们的项目旨在通过深度学习技术简化这一过程,从而优化歌曲创作流程,使艺术家能够通过保持风格来吸引目标受众。我们使用从Spotify获取的18,000首歌曲的数据集,开发了一种独特的预处理格式,使用标记将歌词解析为单独的段落。这些结果用于训练一个基线预训练的seq2seq模型,以及根据歌曲风格定制的LSTM神经网络模型。我们发现,生成结果在基线模型中具有更高的召回率(ROUGE),但在两个模型中具有相似的精确度(BLEU)。从定性角度来看,我们发现原始模型生成的许多歌词短语仍然具有可理解性,并且能够区分适合哪种风格,尽管它们不一定与真实歌词完全相同。总体而言,我们的研究结果表明,歌词生成可以合理地加速,以生成基于风格的歌词,并有助于加快歌曲创作过程。
arXiv:2409.13755v1 公告类型: 交叉 摘要: 关系抽取作为一项重要的自然语言处理任务,旨在识别文本中命名实体之间的关系。近年来,基于依存树的图卷积网络被广泛用于捕捉句法特征,并取得了显著的性能。然而,大多数现有的基于依存关系的方法忽略了依存树之外的词语的积极影响,这些词语有时传达了丰富的、对关系抽取有用的信息。本文提出了一种新颖的模型,即实体感知自注意力上下文化图卷积网络(ESC-GCN),该模型有效地结合了输入句子的句法结构和序列的语义上下文。具体而言,相对位置自注意力机制获取了与词语位置相关的整体语义成对相关性,而上下文化图卷积网络通过充分的剪枝操作捕捉了词语之间的丰富句子内依赖关系。此外,实体感知注意力层动态选择哪些标记对最终的关系预测更为关键。通过这种方式,我们提出的模型不仅减少了依存树的噪声影响,还获得了容易被忽略的与实体相关的语义表示。在各种任务上的广泛实验表明,与现有的基于依存关系和基于序列的模型相比,我们的模型取得了令人鼓舞的性能。特别是,我们的模型在提取长句子中实体之间的关系方面表现出色。
arXiv:2409.13753v1 公告类型: 交叉 摘要: 大型语言模型 (LLMs) 越来越显示出促进多智能体系统发展的能力,这些系统能够解释每个个体产生的思想和行为。在基于 LLM 与现有世界的交互方面,特别是在与模拟环境的交互中,也取得了令人鼓舞的进展。本文旨在将上述两个主题(智能体与世界交互)整合到一个单一的模拟中,其中多个智能体可以协同工作以解决问题,模拟人类群体通常如何比个体更好地解决问题。通过展示 LLMs 是否表现出人类协作的协同效应,可能会推动 LLMs 应用的进步。我们实现了两个模拟:一个是有两个室友的物理工作室公寓,另一个是智能体协作完成编程任务的模拟。我们提供了一个多智能体框架,讨论了每个模拟中智能体的性能,并讨论了潜在的未来扩展。
arXiv:2409.13752v1 公告类型: 交叉 摘要: 角色扮演对于大型语言模型(LLMs)来说是一项简单的任务,因为它们擅长模拟人类行为。许多当前的研究已经通过微调模型或使用专门的提示,使LLMs能够以特定角色的语气生成回应。然而,通常很容易识别出角色是由LLMs扮演的。当面对角色不具备的知识,或需要角色特定经验或逻辑来回答的问题时,这些模型往往表现不佳。为了解决这个问题,使LLMs更像真实角色,我们在本文中提出了一个"先思考后说话"(TBS)模型。与其它研究不同,我们首先基于角色的真实生活场景和历史对话扩展数据,为每对对话补充角色的心态。然后我们添加少量包含角色知识之外元素的数据点,并微调LLMs。这种方法可以帮助LLMs采用角色的思维过程和逻辑,避免超出角色知识库的回应。我们还准备了一个数据集和评估指标来测试这些能力。实验结果表明,我们的TBS模型在语气、知识和心态方面能更好地模仿角色。
arXiv:2409.13749v1 公告类型: 交叉 摘要: 尽管功能强大,当前最先进的LLMs可能无法满足高度专业化领域的需求。我们推出了KodeXv0.1,这是一系列在金融问答方面超越GPT-4的大型语言模型。我们利用Llama 3.1 8B和70B的基础变体,并通过定制的训练机制将其适应于金融领域。为此,我们收集并处理了大量公开的金融文档,如财报电话会议和商业报告。这些文档用于生成高质量的合成数据集,包含与现实世界金融任务高度相似的上下文-问题-答案三元组。使用该数据集的训练部分,我们对Llama 3.1基础变体进行RAG感知的4bit LoRA指令微调,以生成KodeX-8Bv0.1和KodeX-70Bv0.1。随后,我们使用FinanceBench、FinQABench和我们数据集的保留测试部分进行了广泛的模型评估。结果显示,KodeX-8Bv0.1在金融情境中的可靠性优于同一参数范围内的最先进指令模型,最高超出9.24%。此外,它甚至能够超越GPT-4等最先进的专有模型,最高超出7.07%。KodeX-70Bv0.1在此基础上进一步改进,在所有测试基准上均超越了GPT-4的表现。