arXiv:2203.10085v2 宣布类型: replace-cross
摘要:许多实际应用要求从测量观察中构建简洁的量化评分函数(也称为评分系统)。例如,需要根据一系列参与度指标为广告活动创建有效性评分。在缺乏标记数据的情况下,专家往往需要创建这样的评分函数,这些评分需要反映领域专家理解的商业洞察和规则。如果没有系统的方法来捕捉这些输入,这将是一个耗费时间的试错过程。在本文中,我们介绍了一种无标记的实际方法,从多维数值数据中学习评分函数。该方法通过易于观察和指定的约束形式整合领域专家的见解和商业规则,这些约束作为机器学习模型的弱监督使用。我们将这些约束转换为在学习评分函数时同时优化的损失函数。我们使用合成数据集以及四个实际数据集评估了该方法的有效性,并将其性能与监督学习模型进行了比较。
arXiv:2109.01123v3 公告类型: replace-cross
摘要:本文就实际图像损坏以及领域外图像集合(例如,与训练数据集不同设置捕获的图像)对实例分割模型进行全面评估。领域外图像评估展示了模型的泛化能力,这是实际应用中的一个重要方面,也是领域适应中广泛研究的主题。本文中提出的鲁棒性和泛化评估在设计实际应用中的实例分割模型以及选择现成的预训练模型直接用于手头的任务时非常重要。具体而言,这项基准研究包括最新的网络架构、网络骨干、规范化层、从头开始训练的模型与预训练网络模型,以及多任务训练对鲁棒性和泛化的影响。通过这项研究,我们获得了一些见解。例如,我们发现分组规范化增强了网络在不同损坏类型下的鲁棒性,其中图像内容保持不变但损坏被叠加在图像上。另一方面,批量规范化改善了模型在不同数据集上的泛化能力,其中图像特征的统计特性发生变化。我们还发现,单阶段检测器不适用于比其训练大小更大的图像分辨率。另一方面,多阶段检测器可以很容易地应用于不同尺寸的图像。我们希望,这项全面的研究能够激发开发更鲁棒和可靠的实例分割模型的动力。
arXiv:2503.22673v2 宣传类型: 替换
摘要:行为模型是使自主代理能够执行复杂任务的关键。然而,由于代理环境的多样性和代理数据的复杂性,训练大型行为模型仍然具有挑战性。尽管现有关心逐渐增长,现有基础设施为可扩展的、针对代理特定的微调提供了有限的支持。我们介绍了ActionStudio,一个为大型行为模型设计的轻量级和可扩展的数据和训练框架。ActionStudio 通过标准化格式统一了不同类型的代理轨迹,支持包括LoRA、全面微调和分布式设置在内的各种训练范式,并集成了 robust 的预处理和验证工具。我们在公共和现实工业基准测试上验证了其有效性,展示了其强大的性能和实用的可扩展性。我们已在 https://github.com/SalesforceAIResearch/xLAM 开放了代码和数据,以促进社区的研究。
arXiv:2503.22241v2 宣告类型:替换
摘要:个性化多重聚类旨在根据不同的用户特定方面生成多样性数据集分割,而不是单一聚类。它最近因其能够适应不同的用户偏好而引起了研究兴趣。最近的方法主要使用CLIP嵌入与代理学习相结合来提取有利于用户聚类偏好的表示。然而,CLIP主要专注于粗略的图像-文本对齐,缺乏对用户兴趣的深入语境理解。为了克服这些局限性,我们提出了一种以代理为中心的个性化聚类框架,该框架利用多模态大型语言模型(MLLMs)作为代理,全面遍历关系图以根据用户兴趣搜索聚类。由于MLLMs的高级推理机制,获得的聚类与用户定义的标准更紧密吻合,而不是CLIP基表示获得的聚类。为了减少计算开销,我们通过使用MLLMs提取的用户兴趣偏嵌入构建关系图来缩短代理的遍历路径。基于嵌入相似性可以过滤掉大量的弱连接边,从而促进代理的有效遍历搜索。实验结果表明,所提出的方法在Card Order和Card Suits基准测试中分别实现了0.9667和0.9481的NMI分数,大幅提高了SOTA模型约140%。
arXiv:2503.21620v2 公告类型: 替换
摘要:最近的 DeepSeek-R1 通过基于规则的强化学习(RL)展示了大语言模型(LLMs)中推理能力的出现。在此基础上,我们首次探索了基于规则的 RL 如何增强多模态大语言模型(MLLMs)在图形用户界面(GUI)动作预测任务中的推理能力。为此,我们精心策划了一个包含136个具有挑战性的任务的小型高质量数据集,涵盖移动设备上的五种常见动作类型。我们还引入了一个统一的基于规则的动作奖励,从而通过基于策略的算法(如组相对策略优化,GRPO)实现模型优化。实验结果表明,我们提出的数据效率模型 UI-R1-3B 在领域内(ID)和领域外(OOD)任务上均取得了显著改进。具体而言,在领域内基准 AndroidControl 中,动作类型准确性提高了15%,而定位准确性提高了10.3%,相比基准模型(即 Qwen2.5-VL-3B)。在领域外 GUI 定位基准 ScreenSpot-Pro 中,我们的模型超过了基准模型6.0%,并且与通过监督微调(SFT)训练的较大模型(如 OS-Atlas-7B)实现了竞争力相当的性能,后者在76,000个数据集上进行了训练。这些结果突显了基于规则的强化学习在增强 GUI 理解和控制方面的潜力,为该领域未来的研究铺平了道路。
arXiv:2503.14499v2 宣告类型: 修订
摘要:尽管在AI基准测试方面取得了快速进展,但基准测试性能的实际意义仍然不清楚。为了以人类能力为基准量化AI系统的能效,我们提出了一种新的度量标准:50%-任务完成时间阈值。这是一般情况下人类完成AI模型以50%的成功率可以完成的任务所需的时间。我们首先使用RE-Bench、HCAST以及66个新的较短任务组合对具有相关领域专业知识的人类进行了计时。在这些任务上,当前最前沿的AI模型(如Claude 3.7 Sonnet)的50%时间阈值约为50分钟。此外,自2019年以来,前沿AI的时间阈值大约每七个月翻一番,尽管2024年这一趋势可能有所加快。AI模型时间阈值的增加似乎是主要由更高的可靠性和适应错误的能力,以及更好的逻辑推理和工具使用能力驱动。我们讨论了这些结果的局限性——包括其外部效度的程度——以及增加自主性对危险能力的影响。如果这些结果适用于实际软件任务,那么这种趋势的外推表明,在未来五年内,AI系统将能够自动完成目前需要人类一个月才能完成的许多软件任务。
arXiv:2502.11164v4 宣告类型:替代
摘要:DeepSeek-R1 因其低训练成本和出色的推理能力,在各类基准测试中取得了最先进的性能。然而,从实际应用场景的角度对 DeepSeek 系列模型进行全面评估仍存在不足,使得用户难以为特定需求选择最合适的 DeepSeek 模型。为解决这一问题,我们使用增强的 A-Eval 标准(A-Eval-2.0)对 DeepSeek-V3、DeepSeek-R1、DeepSeek-R1-Distill-Qwen 系列、DeepSeek-R1-Distill-Llama 系列及其对应的 4 位量化模型,以及推理模型 QwQ-32B 进行了系统的评估。通过对原始指令调整模型及其精简版本的比较分析,我们研究了推理增强如何影响多样性实用任务的性能。为帮助用户选择模型,我们通过性能梯级分类量化了 DeepSeek 模型的能力边界,并基于量化结果制定了一个模型选择手册,该手册清晰地阐明了模型之间、其能力和实用应用之间的关系。该手册使用户可以轻松选择最经济实惠的模型,确保在实际应用中获得最优性能和资源效率。需要注意的是,尽管我们努力建立了全面、客观和权威的评估标准,但测试样本的选择、数据分布特性和评估标准的设定仍然不可避免地会在评估结果中引入某些偏见。我们将持续优化评估标准,并定期更新本文,以提供更全面和准确的评估结果。请参阅最新版本的论文以获取最新的结果和结论。
arXiv:2502.09054v2 通知类型: 重新投稿
摘要: LLM级联将小型LLM用于回答大多数查询,限制昂贵的大规模LLM仅用于难以回答的查询。这种方法可以在不牺牲性能的情况下显著降低成本。然而,在金融或医学等风险敏感领域,额外强调避免模型错误。由于即使是最昂贵的模型也会出现错误,这些领域中的应用程序可以从允许LLM系统完全避免回答难以回答的查询中受益。引入避免回答的决策提出了一个设计问题:LLM级联中仅应在最终模型中允许避免回答,还是也应该在早期模型中允许?由于小型和大型模型的错误模式相关,允许早期模型避免回答可能会通过预见到昂贵且缓慢的模型的避免回答决策来降低推理成本和延迟,从而避免运行这些模型。我们研究了“早期避免回答”在LLM级联中的好处,并发现它在六项基准测试(GSM8K、MedMCQA、MMLU、TriviaQA、TruthfulQA和XSum)中平均降低了2.2%的整体测试损失。这些收益来自于避免回答的更有效利用,通过平均增加整体避免回答率4.1%,降低13.0%的成本和5.0%的错误率来实现。我们的发现证明了利用不同语言模型错误模式之间的相关性来驱动具有避免回答的LLM系统性能改进的可能性。
arXiv:2502.01584v3 宣告类型: 替换
摘要:现有的领先模型基准经常测试专化的、"博士水平"的知识,这使得非专家难以理解。相比之下,我们基于《纽约客》周日趣味谜题挑战提出了一个包含594个问题的基准,仅需要一般知识。该基准对人类和模型都具有挑战性;然而,正确的解决方案很容易验证,模型的错误也很容易发现。随着大语言模型在社会中更广泛的部署,我们认为开发人类可以理解的基准是有用的,而无需深厚的专业知识。
我们的工作揭示了现有基准中未显现的能力差距:尽管在测试专门知识的基准中与其他模型相当,OpenAI o1 在我们的基准中显著优于其他推理模型。此外,我们对推理输出的分析发现了一些新的失败类型。例如,DeepSeek R1 通常在给出它知道是错误的答案之前就会放弃,并宣布“我放弃”。R1 在其输出中也可能非常“不确定”,而在极少数情况下,它甚至不会“完成思考”,这表明在到达上下文窗口限制之前需要使用技巧来“总结”。我们还量化了推理更长时间以确定在我们的基准中进一步推理很可能不会提高准确度的临界点。
arXiv:2412.17632v2 宣布类型: 替换
摘要: 在人工智慧行成内容(AIGC)中,区分由人工智能合成的图像和自然图像仍然是一个关键挑战。尽管生成模型取得了进展,但仍然存在显著差异。为了系统地研究并量化这些差异,我们引入了一个针对关键问题的AI-自然图像差异访问基准(\textit{D-Judge}):\textit{人工智能生成的图像(AIGIs)与真正现实的图像相差多远?}我们构建了\textit{D-ANI}数据集,包含了5,000张自然图像和超过440,000张由九个模型生成的人工智能生成的图像(AIGIs),使用了文本到图像(T2I)、图像到图像(I2I)和文本和图像到图像(TI2I)的提示。我们的框架在五个维度上评估这些差异:朴素的图像质量、语义对齐、审美吸引力、下游适用性和人工验证。结果揭示了明显的差距,突出了与人类判断相一致的度量标准的重要性。源代码和数据集可在 https://shorturl.at/l83W2 获取。