arXiv:2502.12777v1 宣告类型: cross
摘要:链接预测(LP)是网络科学和机器学习研究中的一个重要问题。当前最先进的LP方法通常在一个统一的设置中进行评估,忽略了与数据和应用特定需求相关的几个因素。我们确定了一些这样的因素,例如网络类型、问题类型、端节点之间的测地距离及其在类中的分布、LP方法的性质和适用性、类不平衡及其对早期检索的影响、评估指标等,并提出了一种实验证明设定,以便能够在严格的受控环境下评估LP方法。我们在受控设置中用多种LP方法对真实的网络数据集进行了广泛的实验,并通过一系列精心设计的假设收集了关于这些因素与LP性能之间的相互作用的宝贵见解。根据这些见解,我们提供了作为评估LP方法最佳实践的建议。
arXiv:2502.12776v1 Announce Type: cross
摘要:尽管通过微调可以将基础模型应用于各种专家任务,但由于其过时的知识或有限的能力,任何基础模型最终都将变得过时。因此,应该逐步用新的基础模型来替换,这会导致反复进行这些新模型的微调,产生额外的成本。现有工作通过推理时调整来解决这个问题,即通过修改新基础模型和旧基础模型及其微调模型的输出概率来解决,这在最后两个模型的推理中涉及额外的开销。在本文中,我们提出了一种新的微调原则——便携式奖励调整(PRT),该原则从本质上减少了推理开销,基于将微调重新定义为奖励最大化。具体来说,PRT 通过与微调相同的损失函数明确地训练奖励模型,而不是调整基础模型的参数。在推理时,通过奖励最大化的形式,奖励模型可以与任何基础模型(具有相同的词汇表或标签集)结合使用。实验结果涵盖了视觉和语言模型,表明PRT训练的模型在推理准确性方面可以与现有推理时调整的工作达到相当的水平,但具有更低的推理成本。
arXiv:2502.12769v1 交叉公告类型
摘要:在信息误导的时代,大型语言模型(LLMs)生成非事实性或不忠实响应的趋势——幻觉——代表了它们全球应用的主要风险。尽管LLMs正在变得越来越多种语言,但检测和量化LLM幻觉的研究主要集中在(a)以英语为中心和(b)集中在机器翻译(MT)和摘要任务上,而这些任务在野外不如开放信息检索常见。相比之下,我们旨在跨多种语言衡量知识密集型长格式问题回答中的LLM幻觉程度。为此,我们训练了一种多语言幻觉检测模型,并在30种语言和6种开源LLM家族中进行了大规模研究。我们从一种英语幻觉检测数据集开始,并依靠机器翻译生成其他语言的(嘈杂)训练数据。我们还为五种高资源语言手动标注黄金数据;然后,我们表明,对于这些语言,LLM生成的银色数据集和黄金测试集中的幻觉率估计相似,验证了使用银色数据估计其他语言的幻觉率的有效性。最后,在30种语言中构建了一个知识密集型QA数据集,LLM生成的提示和维基百科文章作为参考。我们发现,虽然LLMs对于高资源语言生成了更长且包含更多幻觉令牌的响应,但语言的数字表示与正常化幻觉率之间不存在相关性。此外,我们发现较小的LLMs的幻觉率高于较大的模型。
arXiv:2502.12767v1 宣布类型: cross
摘要:最近的研究将大语言模型(LLMs)与知识图谱(KGs)结合起来,以提高推理能力,在不需额外训练的情况下提高了推断准确性,同时减轻了幻觉现象。然而,现有的框架往往较为僵硬,难以适应KG或任务的变化。它们还严重依赖强大的LLM来进行可靠的(即可信的)推理。为了解决这个问题,我们引入了R2-KG,这是一种即插即用的双代理框架,将推理分为两个角色:一个操作员(一个低容量的LLM),负责收集证据,一个监督者(一个高容量的LLM),负责做出最终判断。该设计在保持强大推理准确性的同时,使LLM推理成本更加经济高效。此外,R2-KG 使用了弃权机制,在从KG收集到足够的证据后再生成答案,这极大地增强了可靠性。在多个基于KG的推理任务中的实验表明,R2-KG 在准确性和可靠性方面始终优于基线模型,无论作为操作员使用的LLM本身的能力如何。进一步的实验揭示,R2-KG 的单代理版本,配备了严格的自我一致性策略,实现了高于基线的可靠性,同时降低了推理成本。然而,这也导致在复杂的知识图谱中弃权率更高。我们的研究结果表明,R2-KG 是一种灵活且成本效益高的知识图谱推理解决方案。它减少了对高容量LLM的依赖,同时确保了可信的推理。
arXiv:2502.12755v1 Announce Type: 多领域交叉
摘要:本文介绍了一种先进的机器翻译(MT)语料库生成方法,结合了半自动化、有人参与的后编辑与大型语言模型(LLMs),旨在提高效率和翻译质量。在此前利用实时训练定制MT质量评估指标的研究基础上,该系统整合了增强翻译合成和辅助注解分析等新型LLM特性,分别改进了初始翻译假设和质量评估。此外,该系统采用了LLM驱动的伪标签标注和翻译推荐系统,以减少特定情境下的人工注释员工作量。这些改进不仅保留了原始的降低成本和提高后编辑质量的优势,还为利用最新LLM进展开辟了新的途径。该项目的源代码供社区使用,促进了该领域的协作开发。可以在这里访问演示视频。
arXiv:2502.12745v1 声称类型: cross
摘要:在 technological 进步飞速的时代,软件工具的代理人化作为一种关键创新已经出现,使系统能够自主和适应性地运行。本文以 MediaMind 为案例研究,展示了代理人化的过程,突出了如何将现有的软件转变为能够进行独立决策和动态交互的智能代理。MediaMind 由 aiXplain 开发,利用基于代理的架构,在实时监控、分析来自多语言媒体内容并提供见解。本文的重点是 MediaMind 代理人化背后的技术和设计原则,展示了代理人化如何提高适应性、效率和响应性。通过详细的案例研究和实际示例,我们说明了 MediaMind 的代理人化如何使组织简化工作流程、优化决策并应对不断变化的趋势。这项工作强调了代理人化在各个领域革新软件工具的更大潜力。
arXiv:2502.12743v1 交叉公告类型:cross
摘要:大规模语言模型(LLMs)在生成类人类文本方面展现了令人印象深刻的能力,但这种LLM生成文本的潜在滥用引发了区分人类生成内容和LLM生成内容的必要性。本文探讨了基于LLM的LLM生成文本检测和解释能力,特别是在二元分类任务(人类生成文本 vs LLM生成文本)和三元分类任务(人类生成文本、LLM生成文本和未决)的背景下。通过对六种不同规模的闭源/开源LLMs进行评估,我们的发现表明,虽然自我检测始终优于跨检测,即LLM能够更准确地检测自己生成的文本而非其他LLM生成的文本,但自我检测的表现仍然远未达到理想水平,这表明还需要进一步改进。我们还展示了将二元分类任务扩展到包含新类别“未决”的三元分类任务,可以提高检测准确性和解释质量,改进在所有LLMs中都是统计上显著且一致的。最后,我们对解释错误进行了全面的定性和定量分析,这些错误被归类为三种类型:依赖不准确特征(最频繁的错误)、幻觉和不正确的推理。带有我们的人工标注数据集的这些发现强调了进一步研究以提高自我检测和自我解释能力的必要性,特别是需要解决可能导致泛化问题的过拟合问题。
arXiv:2502.12737v1 交叉类型公告
摘要:知识库问答(KBQA)旨在利用大型知识库中存储的丰富人类知识来回答用户的问题。鉴于当前KBQA方法在测试时难以处理未见过的知识库元素,我们引入了SG-KBQA:一种新颖的模型,将模式上下文注入实体检索和逻辑形式生成中以应对这一问题。它利用模式上下文提供的更丰富的语义和对知识库结构的意识来增强泛化能力。我们展示,SG-KBQA在泛化能力方面表现出色,在各种测试设置下,针对两个常用基准数据集,性能超越了最先进的模型。论文发表后将发布代码。
arXiv:2502.12710v1 宣布类型: cross
摘要:大型语言模型(LLMs)近年来获得了显著的 popularity。识别由人类撰写的文本和由 LLM 生成的文本变得几乎不可能。信息隐藏技术,例如数字水印或隐写术,可以通过在无需注意的情况下嵌入信息来提供帮助。然而,现有的技术,如基于语言或基于格式的方法,会改变语义或不适用于纯文本或未格式化的文本。在本文中,我们介绍了一种名为 TREND 的新信息隐藏方法,它可以将任何字节编码序列隐藏在覆盖文本中。我们提出的方法使用 Kotlin 编程语言实现为一个多平台库,并附带了一个命令行工具和一个网页界面,作为使用示例。通过使用与视觉相似的 Unicode 空格字符替换传统的空格字符,我们提出的方案在不增加字符数的情况下保留了覆盖文本的语义。此外,我们提出了一个秘密消息的特定结构,这使得压缩、加密、散列和错误校正可以进行配置。我们在一个包含一百万篇维基百科文章的数据集上比较了来自文献和实践的十种算法的实验基准,证明了我们提出的方法在各种应用中的稳健性,同时对人类来说是不可见的。我们讨论了嵌入容量有限和进一步稳健性的限制,这指导了未来工作的意义。
arXiv:2502.12701v1 类型: cross
摘要:较大的模型通常比较小的模型表现更好,但计算成本也更高。级联提供了一种潜在的解决方案。默认情况下,它使用较小的模型,并只将某些实例委托给更大、更强大的模型。然而,设计有效的退让规则仍然是一个挑战。在这篇论文中,我们提出了一种简单而有效的方法,用于机器翻译,使用现有的质量估计(QE)指标作为退让规则。我们表明,基于QE的退让可以让级联系统在调用它仅为一小部分例子(30%到50%)的情况下达到与较大模型相当的性能,从而显著降低计算成本。我们通过自动评估和人工评估来验证这种方法。