arXiv:2407.06423v3 宣告类型: 替换
摘要:数据挖掘对于从数据中提取有价值的信息至关重要,这些信息可以辅助组织做出有效的决策。我们介绍了InsightBench,这是一个包含三个关键特性的基准数据集。首先,它包含100个代表不同商业应用场景(如金融和事件管理)的数据集,每个数据集都附带了一组精心挑选并植入数据中的见解。其次,不同于现有的专注于回答单一查询的基准数据集,InsightBench 评估代理的能力,包括提出问题、解释答案以及生成一份关于见解和行动步骤的总结。第三,我们进行了全面的质量保证,确保基准数据集中的每个数据集都有明确的目标,并包含了相关且有意义的问题和分析。此外,我们使用有效的开源评估工具LLaMA-3 实施了一种双向评估机制来评估代理提取见解的能力。我们还提出了我们的基准数据分析代理AgentPoirot,它能够执行端到端的数据分析。我们在InsightBench上的评估显示,AgentPoirot 在提取见解的能力方面优于专注于解决单一查询的现有方法(如Pandas Agent)。我们还比较了开源和闭源LLM以及各种评估策略的性能。总体而言,该基准数据集为推动全面自动化数据分析的发展提供了测试平台,可在此处访问:https://github.com/ServiceNow/insight-bench。
arXiv:2406.08702v4 宣布类型: 替换
摘要: 大型多模态视觉-语言模型(LVLMs)在各种多模态任务中表现出色。然而,它们面临着一种称为语言先验的问题,即生成响应时仅基于文本模式,而忽略了图像信息。解决语言先验问题至关重要,因为当处理训练分布外的图像时,这可能导致不可取的偏见或幻觉。尽管语言先验对LVLMs的影响非常重要,但当前对于准确测量语言先验的方法研究却很少。虽然现有的基于事实相反或分布外图像的基准可以部分用于测量语言先验,但它们无法区分语言先验与其他混淆因素。为了解决这个问题,我们提出了一个新的基准叫做VLind-Bench,它是第一个专门设计用于测量LVLMs的语言先验或盲点的基准。它不仅包括对事实相反图像的测试以评估语言先验,还涉及一系列测试以评估更基本的能力,如常识知识、视觉感知和常识偏见。对于基准中的每个实例,我们都确保所有这些基本测试通过后才评估语言先验,从而最小化其他因素对评估的影响。在我们的基准上对最近的LVLMs进行评估和分析揭示,几乎所有模型都表现出对语言先验的显著依赖,给该领域带来了很大的挑战。
arXiv:2406.00252v5 更新类型: 替换
摘要:本文讨论了如何构建更加理性的语言和多模态代理,以及在智能系统中定义理性标准的准则。理性是指由理性引导的品质,其特征是决策与证据和逻辑原则相一致。它在确保可靠解决问题方面起着关键作用,因为它确保解决方案既坚实又一致。尽管取得了进展,但大型语言模型(LLMs)往往在理性方面存在不足,这是由于它们的知识范围有限以及输出不一致所致。作为回应,最近的努力转向开发多模态和多代理系统,并整合了外部工具模块、编程代码、符号推理器、效用函数和一致性风险控制等元素,而不是仅仅依赖单一的LLM进行决策。本文综述了语言和多模态代理的最新进展,评估了它们在增强理性方面的作用,并概述了开放挑战和未来的研究方向。我们维护了一个开放的存储库,网址为 https://github.com/bowen-upenn/Agent_Rationality。
arXiv:2403.17428v2 通知类型: 替换
摘要:背景:大型语言模型(LLMs)的进步为精神科面谈开辟了新的可能性,在这个尚未充分探索的领域中,LLMs可能会很有价值。本研究集中在通过分析来自经历过创伤和心理健康问题的朝鲜难民的咨询数据来增强精神科面谈。
目标:研究探讨LLMs能否(1)识别表明精神症状的部分对话,并识别这些症状,以及(2)根据面谈记录总结应激源和症状。
方法:要求LLMs(1)从记录中提取应激源,(2)识别症状及其对应的段落,并(3)使用提取的数据生成面谈摘要。记录由心理健康专家进行标注以供训练和评估。
结果:在使用GPT-4 Turbo的零样本推理设置中,102个片段中有73个片段在识别症状相关段落时显示中令牌距离d<20的召回率。在识别特定症状方面,微调优于零样本推理,准确度、精确度、召回率和F1分数分别为0.82。对于生成性摘要任务,使用症状和应激源信息的LLMs在G-Eval指标上的得分很高:连贯性(4.66)、一致性(4.73)、流畅性(2.16)和相关性(4.67)。检索增强生成未显示出显著的性能提升。
结论:通过微调或适当的提示,LLMs在症状界定方面表现出强精度(超过0.8),并在总结中达到了4.6+的连贯性。本研究凸显了它们在协助心理健康从业者分析精神病学面谈方面的潜力。
arXiv:2403.11807v5 通告类型: 替换
摘要:决策是一个复杂的过程,需要多种能力,因此它是一个评估大规模语言模型(LLMs)的理想框架。研究人员通过博弈论的视角来评估LLMs的决策能力。然而,现有的评估主要集中在两个玩家的场景中,其中LLM与其他模型竞争。此外,之前的基准测试由于其静态设计存在测试集泄漏的问题。我们引入了GAMA($\gamma$)-Bench,这是一种新的框架,用于评估LLMs在多代理环境中的游戏能力。它包含了八个经典的博弈论场景和一个动态评分方案,特别设计用于定量评估LLMs的性能。$\gamma$-Bench 允许灵活的游戏设置,并根据不同的游戏参数调整评分系统,从而使评估更加全面,包括鲁棒性、泛化能力和改进策略的评估。我们的结果表明,GPT-3.5展示了强烈的鲁棒性,但泛化能力有限,可以通过使用Chain-of-Thought等方法来增强。我们还评估了6个模型家族中的13个LLM,包括GPT-3.5、GPT-4、Gemini、LLaMA-3.1、Mixtral和Qwen-2。Gemini-1.5-Pro的表现优于其他模型,得分为69.8(满分为100),其次是LLaMA-3.1-70B(65.9)和Mixtral-8x22B(62.4)。我们的代码和实验结果可以在 https://github.com/CUHK-ARISE/GAMABench 公开获取。
arXiv:2401.15196v3 公告类型:替换
摘要:正则化马尔可夫决策过程是不确定性条件下的序贯决策模型,在这种情况下,决策者的信息处理能力有限,或者对模型模糊性有厌恶感。借助函数近似,正则化MDP(如软Q学习)的学习算法的收敛性质尚不清楚,因为正则化贝尔曼算子与基向量张量空间的投影的复合操作对任何范数都不是压缩的。在本文中,我们考虑具有线性函数近似的正则化Q学习的双层优化形式。低层次优化问题旨在识别满足贝尔曼递归最优性条件的价值函数近似,而高层次则旨在找到基向量张量空间的投影。这种形式促使我们设计出单一循环算法,并提供有限时间收敛保证。该算法在两个时间尺度上运行:状态-动作值的投影更新是“慢”的,因为它们使用的步长小于用于“更快”的贝尔曼递归最优性方程近似解更新所使用的步长。我们证明,在马尔可夫噪声存在下,所提出的算法收敛于一个平稳点。此外,我们还提供了由所提出算法派生的策略的性能保证。
arXiv:2310.08184v2 宣告类型: 替换
摘要:基础知识模型(Foundation Models, FM)在广泛的任务中展现了卓越的表现(尤其是在自然语言处理和计算机视觉领域),这主要归因于它们理解指令和访问大量高质量数据的能力。这不仅展示了当前模型的有效性,也为人工通用智能的发展奠定了前景。然而,由于多种限制,用于大型模型训练的模型数据往往不可访问,因此端到端模型在下游任务中的应用已成为新的研究趋势,我们在本文中称之为从模型学习(Learn From Model, LFM)。LFM 关注于基于模型界面对 FM 的研究、修改和设计,以便更好地理解模型结构和权重(在黑盒环境中),并使模型适用于下游任务。从 LFM 的视角,从基础知识模型(FM)出发,研究 LFM 技术的方法可以大致分为五个主要领域:模型调优、模型蒸馏、模型重用、元学习和模型编辑。每个领域涵盖了旨在增强 FM 能力和性能的一系列方法和策略。本文提供了当前基于基础知识模型(FM)的技术进行全面回顾,以帮助读者更好地理解当前的研究状况和理念。最后,我们总结了研究,并强调了未来探索的几个关键领域,并指出了需要研究社区进一步关注的开放问题。我们在本文中调查的相关论文可以访问 https://github.com/ruthless-man/Awesome-Learn-from-Model
arXiv:2306.08708v5 公告类型: 重写
摘要: 在过去几年中,泛在计算作为一种广泛应用于企业级系统、消费者应用和游戏系统等众多应用的主要方法而受到了关注。泛在计算是指将计算技术集成到日常物体和环境中,创建一个设备互联的网络,这些设备可以相互通信并可以与人类通信。通过使用泛在计算技术,社区可以变得更加互联和高效,成员可以更容易地进行沟通和协作。这种互联性和协作可以导致一个更成功和可持续的社区。然而,泛在计算的普及强调了自动化学习和智能应用的重要性。尽管人工智能和深度学习取得了显著进展,但大规模采用仍然犹豫不决,因为这增加了昂贵且高度复杂的云数值计算基础设施的压力。开发和采用实际的机器学习系统不仅在复杂基础设施方面会有高昂的成本,而且在数据科学和机器学习方面的坚实专业知识也会有很大成本。在本文中,我们提出了一种创新的方法,用于低代码开发和部署端到端的人工智能协作应用程序管道。我们通过基于代币化经济的完全去中心化全球协作社区解决基础设施分配、成本和安全任务分发的问题。
arXiv:2502.06788v1 类型: cross
摘要: 无需编码器的视觉-语言模型(VLMs)正在迅速缩小与基于编码器的同类模型之间的性能差距,突显了具有结构简洁性和高效部署的一体化多模态系统的潜在价值。我们系统性地阐明了使用预训练视觉编码器、离散分词器以及从头开始最小化的视觉层的VLMs之间的性能差距,深入挖掘了无需编码器的VLMs未被充分研究的特点。我们为无需编码器的VLMs开发了有效的策略,以与主流的基于编码器的模型竞争。经过深入研究后,我们推出了EVEv2.0,一种新的改进型的无需编码器的VLMs系列。我们展示了:(i) 适当分解并在统一模型中层级关联视觉和语言能够减少模态之间的干扰。(ii) 一个好的训练策略使无需编码器的VLMs的有效优化成为可能。通过广泛评估,我们的EVEv2.0代表了在多种模态下开发仅解码器架构的彻底研究,展示了卓越的数据效率和强大的视觉推理能力。代码可在以下地址公开获取:https://github.com/baaivision/EVE。
arXiv:2502.06786v1 量化类型: cross
摘要: 量化模型权重是降低大型模型通信和推理成本的关键。然而,量化模型——特别是低精度模型,如 int4 或 int2 ——需要在模型质量上做出妥协;尤其是 int2 已知会严重降低模型质量。因此,实践者经常被迫维护具有不同量化级别的多个模型,或者提供一个能满足质量-延迟折衷的单个模型。另一方面,如 int8 等整数数据类型本身具有嵌套 (马特罗什卡) 结构,其中较小的位宽整数,如 int4 或 int2,嵌套在最显著的位中。本文提出了一种新的多尺度量化技术马特罗什卡量化(MatQuant),这种技术解决了需要多个量化模型的挑战。它允许训练和维护一个单一的模型,然后可以在不同的精度级别上提供该模型。此外,由于 MatQuant 提供的协训练和协蒸馏正则化,通过 MatQuant 提取的 int2 精度模型比使用 QAT 或 OmniQuant 等技术的标准 int2 量化要准确约 10%。这在模型量化方面取得了显著进步,事实证明,同样配方下,经过 MatQuant 量化后的 Gemma-2 9B FFN 模型比经过 int8 量化后的 Gemma-2 2B 模型更准确。