arXiv:2502.11262v1 分类:交叉学科
摘要:准备各种数据驱动的人工智能和机器学习模型所需的高质量数据集已成为数据驱动分析的基础任务。传统的数据发现方法通常会将数据集整合到单一预定义的质量指标中,这可能会导致下游任务的偏差。本文介绍了一种名为MODis的框架,该框架通过优化多个用户定义的、模型性能指标来发现数据集。给定一组数据源和一个模型,MODis会选择并整合数据源成一个街区数据集,在该数据集上,模型在所有性能指标上的表现都应达到预期效果。我们将MODis形式化为一个多目标有限状态转换器,并推导出三种可行算法来生成街区数据集。我们首先的算法采用“逐步减少”的策略,从通用模式开始,迭代地去除不具前景的数据。我们的第二个算法进一步降低成本,采用双向策略交替进行数据增强和减少。我们还引入了一个多样化算法以减轻街区数据集中的偏差。我们实验验证了我们的街区数据发现算法的效率和有效性,并展示了它们在优化数据科学管道方面的应用。
arXiv:2502.11245v1 类型: cross
摘要: 基于概念的模型是能够学习一个概念提取器将输入映射到高层概念,并通过推理层将这些高层概念转化为预测结果的神经网络。确保这些模块生成可解释的概念并在分布外情况下行得通仍然是至关重要的,但实现这些目标的具体条件尚不明确。我们通过建立基于概念的模型与推理捷径(RSs)之间的新型联系,研究了这一问题。推理捷径是一种常见的情况,即模型通过学习低质量的概念获得高准确性,即使推理层是固定的并且提前提供的。具体而言,我们首先将RSs拓展到基于概念的模型这种更复杂的环境中,然后推导出识别概念和推理层的理论条件。我们的实验证据突显了推理捷径的影响,并表明现有方法,在即使结合多种自然缓解策略的情况下,也往往无法在实际中满足这些条件。
arXiv:2502.11244v1 安全策略类型:交叉
摘要:确保多语言环境下的安全一致性仍然是大型语言模型(LLMs)面临的重大挑战。我们介绍了Soteria,这是一个轻量级但强大的策略,它能够定位并最小化每个语言中最负责生成有害内容的“功能头”。通过仅调整参数的 fraction 部分,Soteria 使政策违规大幅减少,而不牺牲整体模型性能,即使在资源有限的环境中也是如此。为了严格评估我们的方法,我们还提出了XThreatBench,这是一个专门的多语言数据集,它捕捉了从实际政策指南中汲取的细化的有害行为。使用领先的开源LLMs(例如 Llama、Qwen、Mistral)的实验表明,Soteria 在高资源、中资源和低资源语言中一致地提高了安全指标。这些发现指出了朝着可扩展、语言适应性以及伦理对齐的LLMs全球发展路径的有希望的道路。
arXiv:2502.11239v1 平行计算类型:交叉
摘要:量子计算作为一种超越摩尔定律的非维纳范式,对于某些问题能够提供超多项式加速。然而,它在诸如机器学习等任务上的效率优势仍然有待调查,量子噪声也复杂化了资源估算和经典比较。我们详细估计了运行Harrow-Hassidim-Lloyd (HHL)算法的容错超导器件的空间、时间和能量资源,HHL算法是与线性代数和机器学习相关的量子线性系统求解器。在排除内存和数据传输的情况下,可能在 $N \approx 2^{33} \sim 2^{48}$ 或更低的情况下,量子优势可能超过经典的共轭梯度方法,这需要大约 $O(10^5)$ 个物理量子位,$O(10^{12} \sim 10^{13})$ 焦耳,以及 $O(10^6)$ 秒的表面代码容错,使用三种类型的魔术态蒸馏(15-1, 116-12, 225-1)。关键参数包括条件数、稀疏性和精度 $\kappa, s \approx O(10 \sim 100)$,$\epsilon \sim 0.01$,以及物理错误 $10^{-5}$。我们的资源估算法调整了 $N, \kappa, s, \epsilon$,提供了量子-经典边界图,并揭示了实际量子优势可能产生的地方。我们的工作定量地确定了一台容错量子计算机需要达到怎样的先进程度,才能在与现实世界相关的问题上获得可能的重要益处。
arXiv:2502.11228v1 类型: cross
摘要: 通过利用外部知识来源增强大型语言模型(LLMs)的领域特定问题回答(QA)任务的检索增强生成(RAG)方法正在得到提升。然而,传统的RAG系统主要侧重于相关性检索,往往在推理需要连接多个来源的信息时难以避免冗余。本文引入了Vendi-RAG,这是一种基于迭代过程的框架,联合优化检索多样性和答案质量。这种联合优化在多跳QA任务中显著提高了准确性。Vendi-RAG利用Vendi评分(VS),这是一种灵活的基于相似度的多样性度量,来促进文档检索中的语义多样性。它随后使用一个评估候选答案的LLM评估器,在推理步骤之后评估生成的答案,并输出一个评分,该评分供检索器在每次迭代中使用,以平衡获取文档的相关性和多样性。在HotpotQA、MuSiQue和2WikiMultiHopQA三个具有挑战性的数据集上的实验表明,Vendi-RAG在多跳推理任务中有效。与传统的单步和多步RAG方法相比,框架在准确率方面实现了显著提升,相比Adaptive-RAG,当前最佳基线,在HotpotQA上提高了+4.2%,在2WikiMultiHopQA上提高了+4.1%,在MuSiQue上提高了+1.3%。随着获取文档数量的增加,Vendi-RAG的优势更为明显。最后,我们对包括GPT-3.5、GPT-4和GPT-4o-mini在内的不同LLM骨干进行了Vendi-RAG的评估,并观察到一致的改进,这表明框架的优势是模型无关的。
arXiv:2502.11225v1 交叉公告类型: 综合
摘要:混合元启发式是一种强大的技术,用于解决困难的优化问题,它们在单一实现中充分利用了不同方法的优点。然而,对于算法设计者来说,由于文献中可选的设计选项众多,且它们往往依赖于设计者的知识和直觉来提出新的算法设计,因此创建混合元启发式实现变得日益具有挑战性。本文中,我们提出了一种模块化的元启发式软件框架,称为METAFOR,该框架可以与自动算法配置工具结合使用,以自动设计混合元启发式。METAFOR特别设计用于将粒子群优化、差分进化和协方差矩阵适应演化策略混合在一起,并包括一个局部搜索模块,允许这些算法与其下属的局部搜索交替执行。我们使用配置工具irace自动生成17种不同的元启发式实现,并在一系列不同的连续优化问题上评估它们的性能。我们的结果表明,在所有考虑的问题类别中,自动生成的混合实现能够优于配置的单一方法实现,而这些后者在特定函数类别上具有优势。我们提供了一些关于最适合特定问题类别的混合化类型、对算法性能做出贡献的算法组成部分以及两种众所周知的实例分离策略(固定百分比划分和留一类别法交叉验证)的优势和劣势的有用见解。
arXiv:2502.11213v1 通告类型: cross
摘要: 由于市场条件迅速变化、网络复杂性和相互依赖性增加以及供应、需求和其他因素的动态不确定性,当今的全球供应链正面临不断加剧的挑战。为应对这些挑战,组织使用物料需求计划(MRP)软件解决方案来设置原材料、在制品和成品的库存缓冲,以帮助满足客户的服务水平。然而,持有过多库存进一步复杂化了操作,并可能锁定数百万美元的资本,否则这些资本可以被重新部署。此外,大多数商业可用的MRP解决方案在考虑不确定性方面不到位,并未能为现代企业提供最优解决方案。
在C3 AI,我们将库存管理问题从根本上重新表述为受约束的随机优化问题。然后,我们提出了一种仿真-优化框架,该框架在保持所需服务水平的同时,最小化库存及相关成本。该框架的目标是在预定义的服务水平约束和其他所有实际操作约束条件下,找到能够最小化成本的最优重订参数。这些最优重订参数可以反馈到MRP系统中以驱动最优订单的下达,或者直接用来下达最优订单。这种做法在减少库存水平10-35%方面已得到证实,并在全球范围内为大中型企业的经济效益带来了数亿美元的益处。
arXiv:2502.11211v1 交叉类型:公告
摘要:大型语言模型(LLMs)通过开发基于LLM的代理,可以理解和处理医疗任务,正在变革医疗保健。本文综述了医疗领域的基于LLM的代理,对其架构、应用和挑战进行了全面审查。我们分析了医疗代理系统的关键组件,包括系统配置文件、临床规划机制、医学推理框架以及外部能力增强。综述涵盖了主要的应用场景,如临床决策支持、医学记录、培训模拟和医疗服务优化。我们讨论了用于评估这些代理在医疗保健环境中性能的评估框架和指标。虽然基于LLM的代理在提升医疗保健交付方面显示出潜力,但仍存在一些挑战,包括幻觉管理、多模态集成、实施障碍和伦理考虑。综述最后指出了未来的研究方向,包括受到LLM架构近期进展启发的医学推理进展、与物理系统的集成以及培训模拟的改进。本文为研究人员和从业人员提供了当前状态和未来前景的结构性概述,这些基于LLM的代理在医疗领域。
arXiv:2502.11201v1 类别: cross
摘要: 由于 NoSQL 数据库在处理大规模、非结构化和半结构化数据方面表现出色,它们越来越受欢迎,这突显了需要用户友好的界面来弥合非技术人员与复杂数据库查询之间的差距。在本文中,我们介绍了文本到 NoSQL 任务,旨在将自然语言查询转换为 NoSQL 查询,从而降低非专家用户的技术门槛。为了促进该领域的研究,我们开发了一种新颖的自动化数据集构建过程,并发布了该任务的大规模开源数据集,命名为 TEND(即 Text-to-NoSQL 数据集)。此外,我们设计了一种特定于文本到 NoSQL 转换的小语言模型辅助和检索增强生成辅助多步框架,称为 SMART。为了确保对模型进行全面评估,我们还引入了一套详细的度量标准,从查询本身及其执行结果两个方面评估模型的性能。我们的实验结果证明了我们方法的有效性,并为这一新兴领域的未来研究建立了一个基准。我们认为,我们的贡献将为 NoSQL 数据库的更易于使用的直观交互铺平道路。
arXiv:2502.11196v1 Announce Type: cross
摘要:尽管大型语言模型(LLMs)在知识密集型任务中表现出卓越的能力,但它们在理解如何内化新知识方面面临着一个关键的差距,尤其是在如何在神经计算中结构化嵌入获得的知识方面。我们通过知识电路进化的视角来解决这一问题,识别出有助于知识存储和处理的计算子图。我们对持续预训练过程中电路进化系统的分析揭示了几个关键发现:(1)新知识的获得受到与先存知识的相关性影响;(2)知识电路的进化表现出从形成到优化的明显阶段转变;(3)知识电路的进化遵循从深到浅的模式。这些洞察不仅推进了我们对LLMs中新知识获取机制的理论理解,还为提高持续预训练策略以增强模型性能提供了潜在的指导。代码和数据将在https://github.com/zjunlp/DynamicKnowledgeCircuits上提供。