arXiv:2502.08904v2 公告类型: 修改
摘要: 近来利用合成数据集的方法旨在解决大型语言模型(LLMs)中的不一致幻觉问题;然而,这些方法主要针对特定任务进行调整,限制了它们的普遍适用性。受编码训练模型在逻辑密集型领域中强大表现的启发,我们提出了一种新颖的框架,该框架利用事件驱动的文本生成相应的代码,并采用循环训练方法,有效地将代码的逻辑一致性传递给自然语言。我们的方法显著减少了对三个领先LLM和两类自然语言任务中不一致幻觉的产生,同时保持了整体性能。该框架有效地减轻了幻觉问题,而无需对下游任务进行调整,展示了其普遍适用性,并为解决不一致幻觉的挑战提供了新的视角。
arXiv:2502.08631v2 通告类型: 替换
摘要: 大型语言模型(LLMs)的输出是模型内部参数和输入到上下文窗口的数据的函数。这里提出的假设是在贪婪采样策略下,LLM的输出方差是模型参数化知识中嵌入的概念确定性以及输入的词汇方差的函数。通过微调模型,可以减少模型输出对输入词汇变化的敏感性。然后将这种方法应用于分类问题,并提出了一种概率方法来估计预测类别的确定性。
arXiv:2502.07503v2 宣布类型: 替换
摘要: 语言模型方面的近期研究表明,存在两种缩放效应:众所周知的训练计算增加带来的改进,以及较少为人所知的通过应用更复杂或计算密集型的推理方法带来的提升。受到语言分形几何结构的近期发现的启发,我们引入了递归推断缩放(RINS)作为一种补充的、可插入的缩放配方,用于缩放推理时间。对于给定的固定模型架构和训练计算预算,RINS 显著提高了语言模型性能。它还超越了纯粹的语言任务,为多模态系统带来了收益,包括在 SigLIP-B/16 上实现了 0 射弹 ImageNet 准确率 +2% 的改进。此外,通过推导数据缩放定律,我们展示了 RINS 不仅改善了渐进性能极限和缩放指数,即使与最先进的递归技术(如移动大语言模型中的“全部重复”策略 RAO)进行比较时,也能保持这些优势。最后,随机RINS不仅能够进一步提升性能,还提供了在测试时选择放弃增加推理计算的灵活性,同时对性能的下降影响 minimal。
arXiv:2412.17847v2 宣布类型:替换
摘要:人工智能的进步主要由训练数据的规模和质量推动。尽管如此,仍然缺乏关于除文本之外的广泛认可的数据集属性的实证分析。在本研究中,我们进行了迄今为止最大规模和首创的多模态纵向审计,从详细的数据来源趋势和使用限制到地理和语言的代表性。我们的手动分析涵盖了1990年至2024年间的近4000个公共数据集,涉及608种语言、798个来源、659个组织和67个国家。我们发现,多模态机器学习应用大多转向了网络爬取、合成以及社交媒体平台,如YouTube等地作为其训练集,自2019年以来,这些来源超过了其他所有来源。其次,在追溯数据集的衍生链时,我们发现虽然只有不到33%的数据集受限制,但广泛使用的文本、语音和视频数据集中超过80%的原始内容带有非商业限制。最后,尽管公共AI训练数据集代表的语言和地理数量在增加,但我们的审计显示,自2013年以来,相对地理和多语言代表性指标的覆盖率并未显著改善。我们相信,广泛审计的范围使我们能够在系统层面实证地考察数据来源、限制和西方中心主义的趋势,而这些问题的可见性对于负责任AI的进步至关重要。作为不断改进数据集透明度和负责任使用的贡献,我们公开了整个多模态审计,使从业者能够跨文本、语音和视频追踪数据的来源。
arXiv:2412.17052v3 宣告类型: 替换
摘要: 将大型语言模型(LLMs)和视觉语言模型(VLMs)结合起来,为多媒体内容分析开辟了新的途径,特别是在有偏见的新闻检测方面。本研究介绍了VLBias框架,该框架利用最先进的LLMs和VLMs来检测新闻内容中的语言和视觉偏见。我们提供了一个多媒体数据集,包括来自多样新闻来源的文本内容和相应的图像。我们提出了一种混合注释框架,结合利用LLMs进行注释与人工审核,以确保高质量的标记同时降低成本并提高可扩展性。我们的评估比较了最先进的SLMs和LLMs在两种模态(文本和图像)上的性能,结果表明,尽管SLMs在计算效率上占优势,但LLMs在识别细微的框架和文本-视觉不一致性方面表现更准确。此外,实证分析表明,结合视觉线索以与文本数据一起使用可以将偏见检测的准确性提高3%至5%。本研究表明,LLMs、SLMs和VLMs作为检测新闻内容中多媒体偏见的工具的全面探索,并突显了它们各自的优点、局限性和未来应用的潜力。
arXiv:2410.13321v3 通告类型: 更改
摘要: 大型视觉-语言模型(LVLMs)展示了从视觉输入生成详细且连贯响应的出色能力。然而,由于过度依赖语言先验,它们容易生成幻觉。为了解决这一问题,我们探讨了LVLM中的语言先验,并做出了两个关键观察:(1) 即使在预测与图像相关的词性(POS)相关的token时,随着token序列的增长,模型越来越依赖于语言先验,从而放大了幻觉。(2) 直接校正LVLM输出分布以缓解语言先验的方法可能会导致文本质量下降,甚至加剧幻觉。基于这些发现,我们提出了一种新颖的方法——Summary-Guided解码(SumGD)。该方法通过减少文本上下文的方式自然促使模型更多地关注图像信息,同时仅控制与图像相关的POS token以维持文本质量。通过实验,我们证明SumGD在对象幻觉基准测试中达到了最先进的性能。此外,就精确性和召回率之间的权衡而言,SumGD在现有方法中实现了帕累托最优。最后,我们观察到,尽管现有方法难以在减少对象幻觉与维持文本质量之间取得平衡,但SumGD在应对这一挑战时表现出较强的鲁棒性。
arXiv:2410.09403v2 通知类型: 更新
摘要:科学进步的快速步伐要求有创新工具来加速知识发现。虽然最近的人工智能方法,尤其是大型语言模型(LLMs),在假设生成和实验设计等方面显示出前景,但它们在复制现实世界科学研究中的协作性质方面仍存在不足,后者由多学科专家组成的团队共同解决复杂问题。为了解决这些局限性,我们提出了一种基于大型语言模型的多智能体系统,即虚拟科学家(VirSci),旨在模拟科学研究中固有的团队合作。VirSci 组织一个多智能体团队,共同生成、评估和改进研究想法。通过全面的实验,我们证明了这种多智能体方法在生成新颖科学研究想法方面优于最先进的方法。我们进一步调查了促进其产生更高新颖性想法的合作机制,为未来研究提供了宝贵见解,并照亮了构建一个强大的自主科学研究系统之路。该代码可在 https://github.com/open-sciencelab/Virtual-Scientists 获取。
arXiv:2406.19859v3 内容类型: 更新
摘要: MetaDesigner 引入了一种变革性的框架,用于由大型语言模型(LLMs)驱动的艺术字体合成,并基于用户中心的设计范式。其基础是一个多代理系统,包括管道代理、字符代理和纹理代理,这些代理共同协调创建可定制的WordArt,从语义增强到复杂的纹理元素。一个中央反馈机制结合了多模态模型和用户评估的见解,使设计参数能够在迭代过程中得到改进。通过这一迭代过程,MetaDesigner 动态调整超参数以与用户定义的样式和主题偏好保持一致,始终保持在视觉质量和上下文共鸣方面的出色效果。实证评估强调了该系统在多样化WordArt应用中的多样性和有效性,产出结果既具有视觉吸引力又具有上下文敏感性。
arXiv:2406.10268v2 通告类型: 替换
摘要:在数学证明教育中,仍需一些干预措施,帮助学生学习如何编写数学证明。研究表明,及时反馈对学习新技能的学生非常有帮助。虽然多年来自然语言处理模型在涉及数学文本的任务上表现不佳,但最近自然语言处理的发展创造了机会,使我们可以为学生提供他们数学证明的即时反馈。本文中,我们提出了一套利用现有大型语言模型和其他机器学习技术进行训练的方法和模型,可以自动批改自由形式的数学证明。模型是通过对来自四个不同归纳证明问题的数据进行训练而获得的。我们使用了四种不同的强大大型语言模型来比较它们的性能,所有模型在不同程度上都达到了令人满意的表现。此外,我们招募了人工评分者对与训练数据相同的证明进行评分,并发现最佳评分模型的准确性也高于大多数人工评分者。随着这些评分模型的发展,我们创建并部署了用于归纳证明问题的自动评分器,并对学生们进行了用户研究。研究结果表明,学生们能够利用自动评分器的反馈显著改进他们的证明,但学生仍然不太相信人工智能自动评分器,而更信任人工评分者。未来的研究可以改进自动评分器的反馈,并找出帮助学生信任人工智能自动评分器的方法。
arXiv:2405.13873v3 公告类型: 替换
摘要: 大型语言模型(LLMs)在生成错误或幻觉响应方面常常面临挑战,尤其是在复杂推理任务中。利用知识图谱(KGs)作为外部知识来源,已被证明是一种可行的解决方案。然而,现有的KG增强方法,无论是检索为基础的还是代理为基础的,在大规模准确检索知识和高效遍历知识图谱方面遇到了困难。在本文中,我们提出了一种统一框架FiDeLiS,其目的是通过将答案锚定到从KG中检索的可验证推理步骤来提高LLM响应的真实性。为了实现这一点,我们利用逐步束搜索和演绎评分函数,使LLM能够验证每一推理步骤,并在问题可推断时停止搜索。此外,我们的Path-rag模块在每一束搜索步骤中预先选择较小的候选集,通过缩小搜索空间来降低计算成本。广泛的实验证明,我们的无训练和高效方法在增强真实性和可解释性方面优于强基线。