arXiv:2502.08661v2 通知类型: 替换-交叉
摘要: 随着大规模语言模型(LLMs)的发展,它们进行上下文学习和少样本语言生成的能力得到了显著提升。这促使人们使用LLMs生成高质量的合成数据,以增强在线检索器或弱LLMs等较小模型的性能。然而,LLM生成的合成数据在关键语言属性(如风格、语气、内容比例等)上往往与真实数据不同。因此,直接将这些合成数据与真实数据混合可能会扭曲原始数据分布,从而可能妨碍性能提升。为了解决这一问题,我们引入了SynAlign:一种基于关键属性分布匹配的合成数据生成和过滤框架。在生成之前,SynAlign利用高斯过程模型代理的不确定性跟踪器,迭代地选择与已选数据集群不同的数据集群作为新数据合成的示例,从而促进真实数据多样性的高效探索。然后,采用潜在属性推理方法:LLM总结示例的语言属性,然后基于这些属性生成新的数据。这种方法可以促进生成具有在真实数据中出现的语言属性的多样化数据。生成之后,采用最大均值差异作为目标函数来学习每条合成数据的采样权重,确保与真实数据的分布匹配。我们在多项文本预测任务上的实验显示了显著的性能提升。我们还在在线检索器上进行了在线A/B测试,以证明SynAlign的有效性。
arXiv:2502.08279v2 宣告类型: replace-cross
摘要:将录制的视频转化为简洁且准确的文字摘要是多模态学习中的一个不断增长的挑战。本文介绍了VISTA,一个专门为科学领域视频到文本总结设计的数据集。VISTA包含18,599个录制的AI会议演示及其对应的论文摘要。我们基准测试了最先进的大型模型,并应用了一个计划驱动的框架以更好地捕捉摘要的结构化特性。人类和自动评估均证实了显式规划可以提高摘要的质量和事实一致性。然而,模型与人类的表现之间仍存在显著差距,这突显了科学视频总结的挑战性。
arXiv:2502.08045v2 宣告类型: replace-cross
摘要:许多研究依赖于封闭式多项选择调查来评估大型语言模型(LLMs)的文化一致性。在这项工作中,我们挑战了这种受限的评估范式,并探索了更加现实且不受限制的方法。通过将世界价值观调查(WVS)和霍夫斯泰德文化维度作为案例研究,我们证明了在不强制响应的较少受限环境中,LLMs表现出更强的文化一致性。此外,我们展示了即使是微小的变化,如重新排列调查选项,也会导致输出不一致,这揭示了封闭式评估的局限性。我们的研究结果倡导更稳健和灵活的评估框架,重点关注特定的文化指标,鼓励对LLMs的文化一致性进行更加细致和准确的评估。
arXiv:2502.07424v2 更新类型: 替换-交叉
摘要:尽管大型语言模型(LLMs)主要在以英语为中心的数据集上进行训练,它们在多语言泛化方面表现出惊人的能力。一个基本的问题出现了:LLMs 是如何实现这种稳健的多语言能力的?我们以非罗马字符语言为例,研究罗马化——使用罗马字符表示非罗马字符——作为多语言处理中的桥梁作用。通过使用机制可解释性技术,我们分析了下一个标记生成过程,并发现中间层经常以罗马化形式表示目标词汇,在转换为原生脚本之前,我们称这种现象为潜在罗马化。此外,通过激活补丁实验,我们证明LLMs 在原生脚本和罗马化脚本中以类似的方式编码语义概念,表明存在一个共享的底层表示。另外,对于翻译为非罗马字符语言的研究发现,当目标语言是以罗马化形式表示时,其表示在模型的层中比以原生脚本表示时出现得更早。这些见解加深了我们对LLMs 中多语言表示的理解,并突显了罗马化在促进语言转移中的潜在作用。
arXiv:2502.07340v2 通告类型: replace-cross
摘要:在指令调整阶段使用包含不熟悉知识的数据训练语言模型可能会导致幻觉。为了解决这一挑战,我们引入了NOVA,这是一个新颖的框架,旨在识别与语言模型学习的知识高度一致的高质量数据,以减少幻觉。NOVA 包括内部一致性探针 (ICP) 和语义等价识别 (SEI),用于衡量语言模型对指令数据的熟悉程度。具体而言,ICP 通过计算多个自动生成响应之间的定制一致性来评估语言模型对给定指令的理解。SEI 进一步通过将其与生成的响应进行比较,使用提出的语义聚类和精心设计的投票策略来评估语言模型对目标响应的熟悉程度。最后,为了确保所选样本的质量,我们引入了一个专家对齐的奖励模型,考虑到超越熟悉度的特性。通过考虑数据质量并避免使用不熟悉的数据,我们可以利用选定的数据有效对齐语言模型以遵循指令并减少幻觉。
arXiv:2502.07316v3 通知类型: 替换-交叉
摘要:推理是大型语言模型的基本能力。尽管先前的研究主要集中在增强诸如数学或代码生成之类的狭窄技能上,但由于训练数据稀疏且碎片化,提高其他许多推理任务的性能仍然具有挑战性。为了解决这一问题,我们提出了CodeI/O,这是一种新颖的方法,通过将原始代码转化为代码输入-输出预测格式,系统地浓缩了内在嵌入在上下文相关代码中的各种推理模式。通过训练模型以自然语言形式的思维过程(CoT)来预测给定代码和测试用例的输入/输出,我们将它们暴露于通用的推理原语——例如逻辑流程规划、状态空间搜索、决策树遍历以及模块化分解——同时分离结构化推理和代码特定的语法,保持过程的严谨性。实验结果表明,CodeI/O 在符号推理、科学推理、逻辑推理、数学与数值推理以及常识推理任务中均取得了一致的改进。通过匹配现有真实的输出或重新执行使用预测输入的代码,我们可以验证每个预测,并通过多轮修订进一步增强CoTs,从而形成CodeI/O++,实现更高的性能。我们的数据和模型可在 https://github.com/hkust-nlp/CodeIO 获取。
arXiv:2502.07046v2 通告类型: replace-cross
摘要:大规模语言模型(LLMs),如基于数十亿参数训练的变压器神经网络,在软件工程(SE)中变得越来越普遍。这些模型在包含了代码仓库的大规模数据集上训练,展示了在SE任务中出色的能力。然而,评估它们的效果面临着重大挑战,主要是因为用于训练和评估的数据集之间可能会存在重叠。为了解决这一问题,我们引入了SnipGen,这是一种全面的代码库挖掘框架,旨在利用提示工程来跨各种下游任务生成代码。SnipGen旨在通过生成稳健的测试平台并精心构建数据点来辅助研究人员和实践者评估LLMs在代码相关任务中的效果,从而减轻数据污染问题。在我们的探索性研究中,SnipGen从GitHub提交的338,000次最近代码更改中挖掘了约227,000个数据点,重点关注方法级别。SnipGen具有一个提示模板集合,可以结合生成类似于思考链的提示序列,从而对LLMs的代码生成质量进行细致的评估。通过提供挖掘工具、方法论和数据集,SnipGen赋能研究人员和实践者在软件工程上下文中严格评估和解读LLMs的表现。
arXiv:2502.06855v2 宣告类型: replace-cross
摘要:精心设计的提示对于增强大型语言模型(LLMs)的推理能力,并使其输出符合跨不同领域的任务需求至关重要。然而,手动设计的提示需要专业知识和迭代实验。虽然现有的提示优化方法旨在自动化这一过程,但它们严重依赖于外部参考,如真实标签或由人类提供,限制了它们在真实场景中的应用,因为在这些场景中,这样的数据不可用或获取成本高昂。为了解决这个问题,我们提出了自监督提示优化(SPO),这是一种成本效益高的框架,可以在无需外部参考的情况下发现封闭和开放式任务的有效提示。受观测到的提示质量直接反映在LLM输出中以及LLMs能够有效评估对任务需求的符合性的启发,我们仅从输出比较中推导出评估和优化信号。具体而言,SPO 通过LLM评估器对成对输出进行比较来选择更优的提示,随后使用LLM优化器将输出与任务要求对齐。广泛的实验表明,SPO 在性能上超过了最先进的提示优化方法,在显著降低成本(例如,现有方法的1.1%到5.6%)和样品数量(例如,三个样品)的情况下取得了可相比或更优的结果。代码可在 https://github.com/geekan/MetaGPT/blob/main/examples/spo 获得。
arXiv:2502.06851v2 通告类型: replace-cross
摘要:本文概述了Vision-Language-Action(VLA)模型的人工智能生成评论,总结了关键方法、发现和未来方向。内容使用大型语言模型(LLMs)生成,仅用于演示目的。此项工作不构成原创研究,而是展示了AI如何帮助自动化文献综述。随着AI生成内容的日益普遍,确保准确性和可靠性以及适当的综合仍是一项挑战。未来的研究将集中在开发结构化框架以辅助AI辅助文献综述上,探索提高引用准确性、来源可信度和上下文理解的技术。通过分析LLM在学术写作中潜在能力和限制,这项研究旨在为将AI整合到研究工作流程中开展更广泛的讨论做出贡献。此项工作标志着系统化利用AI进行文献综述生成方法论的一个初步步骤,旨在使学术知识综合更为高效和可扩展。
arXiv:2502.06600v2 宣告类型: replace-cross
摘要:图像字幕的评估,在语言流畅性和与视觉内容的语义对应性方面,已经见证了显著的努力。尽管如此,在CLIPScore等进展的基础上,多语言字幕评估仍然相对未被充分探索。本文提出了一系列策略,并进行了广泛的实验,与多语言环境中CLIPScore变体的评估相关。为了应对多语言测试数据的缺乏,我们考虑了两种不同的策略:(1)使用包含人类判断的质量感知机器翻译数据集,以及(2)重新利用针对语义推理和推理的多语言数据集。我们的结果突显了微调多语言模型跨语言应用以及处理复杂语言挑战的潜力。使用机器翻译数据的测试表明,多语言CLIPScore模型可以保持与不同语言之间人类判断的高相关性,而额外使用原生多语言和跨文化交流数据的测试进一步证明了这些评估的质量较高。