arXiv:2502.15243v1 类型: cross
摘要: 大型语言模型(LLMs)的出现 revolutionized 代码完成,将其转变为现代集成开发环境中的更具智能性和上下文意识的功能。这些进步大大提升了开发人员编写高效且无误代码的能力。本研究使用 Syntax-Aware Fill-in-the-Middle (SAFIM) 数据集评估了几种基于聊天的 LLMs 的性能,包括 Gemini 1.5 Flash、Gemini 1.5 Pro、GPT-4o、GPT-4o-mini 和 GPT-4 Turbo。这一基准测试特别设计用于评估模型在语法敏感代码生成方面的能力。通过使用余弦相似度与真实完成结果的比较以及延迟等性能指标,对准确性和效率进行了测量。研究结果揭示了这些模型在代码完成能力上的重大差异,提供了对其各自优势和弱点的宝贵见解。本文提供了比较分析,强调了准确性和速度之间的权衡关系,并为未来基于 LLMS 的代码完成技术的进步建立了基准。
arXiv:2502.15228v1 Announce Type: cross
摘要:本文介绍了一种针对多模态数据集设计的端到端自动运动识别(AutoMR)流水线。提出的框架无缝结合了数据预处理、模型训练、超参数调整和评估,使其在各种场景中表现出色。我们的方法解决了两个主要挑战:1)数据集之间传感器数据格式和参数的差异性,这传统上需要特定任务的机器学习实现,以及2)为最优模型性能调整超参数的复杂性和耗时性。我们的库特色在于包含QuartzNet作为核心模型、自动超参数调整和全面的指标跟踪的一站式解决方案。广泛实验表明,该方法在10个不同的数据集上具有有效性,并达到最先进的性能。这项工作为在各种实际应用中部署运动捕捉解决方案奠定了坚实的基础。
arXiv:2502.15226v1 宣告类型: cross
摘要:哪个大型语言模型(LLM)更好?每项评估都有自己的故事,但用户对当前LLM的真实看法是什么?本文介绍了CLUE,一种由LLM驱动的访谈者,它在用户与LLM交互后立即进行实时用户体验访谈,并自动收集来自大量访谈日志的用户意见见解。我们开展了一项研究,了解主流LLM的用户意见,招募用户首先与目标LLM进行聊天,然后由CLUE进行访谈。我们的实验表明,CLUE捕捉到了一些有趣的用户意见,例如对DeepSeek-R1显示的推理过程的两极看法以及对信息新鲜度和多模态的需求。我们收集的聊天和访谈日志将被发布。
arXiv:2502.15224v1 宣布类型:交叉
摘要:给定大型语言模型(LLMs)的出色表现,一个重要问题出现了:LLMs能否像人类一样进行科学研究,发现新知识,并充当AI科学家?科学研究是一个迭代过程,需要高效的知识更新和编码。它涉及理解环境、提出新的假设和推理关于行动;然而,没有专门设计用于科学研究的标准基准评估LLM代理。为应对这些局限性,我们引入了一个新的基准工具Auto-Bench,该工具涵盖了评估LLM在自然科学和社会科学研究中进行科学发现所需的所有方面。我们的基准基于因果图发现的原则。它挑战模型去发现隐藏的结构并做出最优决策,包括生成有效的理由。通过与Oracle进行互动,模型会迭代地完善他们对潜在交互的理解,包括化学和社交互动,通过战略性干预。我们评估了当前最先进的LLM,包括GPT-4、Gemini、Qwen、Claude和Llama,随着问题复杂性的增加,观察到显著的性能下降,这表明机器与人类智能之间存在一个重要差距,未来的LLM开发需要考虑这一点。
arXiv:2502.15217v1 类型: cross
摘要: FormalSpecCpp 是一个数据集,旨在填补用于验证 C++ 程序形式规范的标准化基准中的空白。据我们所知,这是第一个包含明确定义的前提条件和后置条件的 C++ 程序综合集合。它为评估规范推断工具和测试生成规范的准确性提供了一个结构化基准。研究人员和开发人员可以使用此数据集来基准测试规范推断工具,对大规模语言模型 (LLM) 进行微调以进行自动规范生成,并分析形式规范在提高程序验证和自动测试方面的作用。通过使此数据集公开可用,我们旨在推动程序验证、规范推断和 AI 辅助软件开发的研究。该数据集和代码可在 https://github.com/MadhuNimmo/FormalSpecCpp 获取。
arXiv:2502.15214v1 公告类型: cross
摘要:强化学习(RL)在序列决策任务中表现出令人印象深刻的成果。与此同时,大型语言模型(LLMs)和视觉-语言模型(VLMs)已经崛起,展现出在多模态理解和推理方面令人印象深刻的能力。这些进步导致了将LLMs和VLMs集成到RL中的研究激增。在本文综述中,我们回顾了使用LLMs和VLMs克服RL中关键挑战的相关工作,如缺乏先验知识、长时规划和奖励设计。我们提出了一种分类法,将这些LLM/VLM辅助的RL方法分为三个角色:代理、规划者和奖励。最后,我们探讨了开放问题,包括接地、偏差缓解、改进表示以及行动建议。通过汇总现有研究并确定未来方向,本文综述建立了一个框架,用于将LLMs和VLMs集成到RL中,推动将自然语言和视觉理解与序列决策相结合的方法的发展。
arXiv:2502.15210v1 评价类型: cross
摘要:随着大型视觉语言模型(VLMs)越来越多地被用作自动评估工具,理解它们在指示中有效比较数据对的能力变得至关重要。为了应对这一挑战,我们提出了PairBench,这是一个低成本框架,可以在各种模态和场景中系统地评估VLMs作为可定制的相似性工具。通过PairBench,我们引入了四个度量标准,代表了相似性评分的关键要求:与人类注释的一致性、数据对的一致性(不论其顺序如何)、相似性分布的平滑性以及通过提示的可控性。我们的分析表明,并没有哪种模型(无论是闭源还是开源)在这四个度量标准上都占优;最优选择取决于自动化评估器所期望的行为(例如,平滑型评判者 vs. 锋利型评判者),这突显了在广泛采用VLMs作为评估工具时进行全面评估的重要性。例如,大多数VLMs在保持顺序无关的对称相似性评分方面存在困难。此外,我们的结果还显示,VLMs在PairBench中的度量标准上的表现与流行的基准测试有着密切的相关性,展示了其在排序模型方面的预测能力。
arXiv:2502.15203v1 交叉公告类型:cross
摘要:最近,将多个个性化的概念整合到单张图像中的方法在文本到图像(T2I)生成领域引起了广泛关注。然而,现有的方法在包含多个对象的复杂场景中由于非个性化区域的失真而表现下降。为了解决这一问题,我们提出了FlipConcept,这是一种新型方法,能够在不需要额外调优的情况下无缝地将多个个性化的概念整合到单张图像中。我们引入了引导外观注意机制,以准确地模拟所期望的个性化概念的外观。此外,我们引入了掩码引导噪声混合,在编辑过程中保护非个性化区域。最后,我们应用背景稀释来最小化属性泄漏,即个性化概念属性与其他图像中的对象不希望的混合。在我们的实验中,我们证明了所提出的方法,即使不需要调优,也能在单个和多个个性化概念推断中优于现有模型。
arXiv:2502.15197v1 Announce Type: cross
摘要:我们提出了一种名为TETRIS的新方法,该方法在多请求环境中优化批量推测性解码的总吞吐量。与现有的方法不同,这些方法针对单个请求或一组请求整体优化,TETRIS会在并行验证时积极选择每个批量请求中最有可能被接受的草稿令牌,从而减少被拒绝的令牌数量,进而减少浪费的计算资源。这种有效的资源利用在实现大规模语言模型(LLMs)快速推理方面尤为重要,特别是对于那些计算推理能力有限的服务提供商。与基准推测性解码相比,TETRIS始终具有更高的接受率,并更有效地利用了有限的计算推理能力。我们从理论上和实验上证明,TETRIS优于基准推测性解码以及现有动态选择草稿令牌的方法,从而在LLMs的批量推理中表现更高效。
arXiv:2502.15189v1 交叉公告类型
摘要:图-语言模型(GLMs)在基于图的半监督学习中展示了巨大的潜力。典型的GLM包括两个关键阶段:图生成和文本嵌入,通常通过推断潜在图并微调语言模型(LM)来实现。然而,前者往往依赖于对潜在边分布的人为假设,后者则需要广泛的标注数据。为了应对这些挑战,本文提出了一种新的GLM,将图生成和文本嵌入整合到一个统一的框架中。具体而言,在图生成方面,我们利用现实边分布的内在特性——无标度特性——作为结构先验。我们意外地发现,这种自然属性可以通过一个简单的K近邻(KNN)图进行有效逼近。对于文本嵌入,我们开发了一种基于图的伪标签器,利用无标度图提供额外的监督,以提高LM的微调效果。代表性的数据集上的大量实验验证了我们对KNN图的无标度结构逼近的发现,并展示了将图生成和文本嵌入与实际结构先验相结合的有效性。我们的代码可在https://github.com/Jianglin954/SFGL获取。