大规模语言模型 (LLM) 的规模扩展极大地挑战了其部署和推理。由于 LLM 权重存在冗余,最近的研究集中于将权重量化推向极低比特位数(甚至低至 2 位)。这降低了内存需求,优化了存储成本,并减少了推理过程中的内存带宽需求。然而,由于数值表示的限制,传统的基于标量的权重量化难以实现如此极低的比特位数。最近关于 LLM 的矢量量化 (VQ) 的研究表明,通过使用查找表将向量压缩为索引,可以实现极低比特位数的模型量化。
本文介绍了一种用于 LLM 极低比特位数量化的矢量后训练量化 (VPTQ) 方法。我们使用二阶优化来制定 LLM VQ 问题,并通过求解优化来指导我们的量化算法设计。我们进一步使用通道独立二阶优化来细化权重,以实现粒度 VQ。此外,通过分解优化问题,我们提出了一种简短有效的码本初始化算法。我们还扩展了 VPTQ 以支持残差和异常值量化,从而提高模型精度并进一步压缩模型。我们的实验结果表明,在 2 位量化下,VPTQ 在 LLaMA-2 上将模型量化困惑度降低了 0.01-0.34,在 Mistral-7B 上降低了 0.38-0.68,在 LLaMA-3 上降低了 4.41-7.34,优于现有最先进技术;在 LLaMA-2 上平均准确率提高了 0.79-1.5%,在 Mistral-7B 上提高了 1%,在 LLaMA-3 上提高了 11-22%(基于 QA 任务)。我们仅使用了 10.4-18.6% 的量化算法执行时间,与现有最先进技术相比,推理吞吐量提高了 1.6-1.8 倍。
AI智能体与其人类用户和工具的交互日益自主,导致交互安全风险增高。我们提出了HAICOSYSTEM框架,用于研究AI智能体在多样化和复杂社会交互中的安全性。HAICOSYSTEM具有模块化沙盒环境,模拟人类用户和AI智能体之间的多轮交互,其中AI智能体配备各种工具(例如,患者管理平台)以应对各种场景(例如,用户试图访问其他患者的个人资料)。为了检查AI智能体在这些交互中的安全性,我们开发了一个全面的多维评估框架,该框架使用涵盖操作、内容相关、社会和法律风险的指标。通过基于七个领域(例如,医疗保健、金融、教育)的92个场景运行1840次模拟,我们证明HAICOSYSTEM可以模拟现实的用户-AI交互和AI智能体的复杂工具使用。我们的实验表明,最先进的LLM(专有和开源)在超过50%的情况下存在安全风险,并且模型在与模拟恶意用户交互时通常表现出更高的风险。我们的研究结果突出了构建能够安全地进行复杂交互的智能体的持续挑战,尤其是在面对恶意用户时。为了促进AI智能体安全生态系统的发展,我们发布了一个代码平台,允许从业人员创建自定义场景、模拟交互以及评估其智能体的安全性和性能。
因果机器学习的核心目标之一是从观察数据中准确估计异质性治疗效果。近年来,元学习已成为一种灵活的、与模型无关的范式,可以使用任何监督模型来估计条件平均治疗效果 (CATE)。本文研究了当混杂变量以文本形式表达时,元学习器的性能。通过合成数据实验,我们表明,与仅依赖表格变量的元学习器相比,使用预训练的混杂变量文本表示(以及表格背景变量)的学习器能够获得改进的 CATE 估计,尤其是在数据量足够的情况下。然而,由于文本嵌入的纠缠性质,这些模型的性能并未完全达到拥有完美混杂变量知识的元学习器的水平。这些发现突出了预训练文本表示在因果推断中的潜力和局限性,并为未来的研究开辟了有趣的途径。
大型语言模型在处理复杂程序化任务时,难以将分散的信息综合成连贯的计划。本研究提出了一种用于此类程序化知识的新颖形式化方法和结构。基于此形式化方法,我们提出了一种名为LCStep的新型程序化知识数据集,该数据集由LangChain教程创建。为了利用这些程序化知识来解决新的任务,我们提出了类比增强生成(AAG)方法,该方法借鉴了人类将过去经验用于解决陌生问题的能力。AAG使用自定义的程序存储库来检索和调整特定领域的知识,以回答新的程序化任务。我们证明,在基于成对LLM的评估下,AAG在LCStep、RecipeNLG和CHAMP数据集上的性能优于少样本学习和RAG基线方法,RecipeNLG案例中的人工评估也证实了这一点。
电动汽车(EV)电池供应链容易受到中断的影响,因此需要先进的预测分析。我们提出了SHIELD(基于模式的电动汽车供应链中断分层归纳)系统,该系统将大型语言模型(LLM)与电动汽车电池供应链风险评估的领域专业知识相结合。SHIELD结合了:(1)LLM驱动的模式学习,以构建全面的知识库;(2)利用微调语言模型进行事件提取、多维相似性匹配进行模式匹配以及具有逻辑约束的图卷积网络(GCN)进行预测的中断分析系统;以及(3)用于可视化结果和整合专家反馈以增强决策的交互式界面。在来自365个来源(2022-2023年)的12070段文本上进行评估,SHIELD在中断预测方面优于基线GCN和LLM+提示方法(例如,GPT-4o)。这些结果表明,SHIELD在结合LLM能力和领域专业知识以增强供应链风险评估方面的有效性。
大型语言模型 (LLM) 已成为人工智能辩论的中心。然而,如何评估LLM是否符合重要的人类价值观仍然存在差距。本文研究了最先进的LLM,GPT-4和Claude 2.1(Gemini Pro和LLAMA 2未产生有效结果),是否具有道德伪善。我们采用基于道德基础理论的两种研究工具:(i) 道德基础问卷 (MFQ),调查哪些价值观在抽象的道德判断中被认为是道德相关的;(ii) 道德基础情景 (MFV),评估与每个道德基础相关的具体情景中的道德认知。我们将这些不同道德评价抽象之间的价值冲突定义为伪善。我们发现,与人类相比,这两个模型在每种工具内部都表现出合理的 consistency,但在我们将MFQ中存在的抽象价值观与MFV中具体道德违规的评价进行比较时,它们表现出矛盾和伪善的行为。
人工智能工具的出现也带来了产生人类可理解解释的需求。在大多数方法中,系统被视为黑盒,难以生成合适的解释。然而,在这项工作中,我们考虑的是模型透明的设置:概率逻辑编程 (PLP),这是一种将逻辑编程用于知识表示并将概率用于建模不确定性的范式。然而,给定一个查询,解释的通常概念与模型中每个随机变量的一组选择相关联。不幸的是,这样的集合并不能解释为什么查询为真,事实上,它可能包含与所考虑的查询实际上无关的选择。为了改进这种情况,本文提出了一种解释解释的方法,该方法基于为 PLP 定义一种新的查询驱动推理机制,其中证明用“选择表达式”进行标记,“选择表达式”是用于选择集的一种紧凑且易于操作的表示。证明树和选择表达式的结合使我们能够生成具有因果结构的易于理解的查询理由。
分子相互作用预测在预测分子之间未知的相互作用(例如药物靶标相互作用(DTI)和药物药物相互作用(DDI))方面起着至关重要的作用,这在药物发现和治疗领域至关重要。尽管之前的预测方法通过利用生物医学知识图谱(KGs)丰富的语义和拓扑结构取得了可喜的成果,但它们主要集中在提高预测性能上,而没有解决不可避免的噪声和语义不一致的问题。这一局限性阻碍了基于KG的预测方法的发展。为了解决这一局限性,我们提出了用于鲁棒分子相互作用预测的BioKDN(生物医学知识图谱去噪网络)。BioKDN通过以可学习的方式去除噪声链接来细化局部子图的可靠结构,为提取任务相关交互提供了一个通用模块。为了增强细化结构的可靠性,BioKDN通过平滑目标相互作用周围的关系来保持一致且稳健的语义。通过最大化可靠结构和平滑关系之间的互信息,BioKDN强调信息语义以实现精确预测。在真实世界数据集上的实验结果表明,BioKDN在DTI和DDI预测任务中超越了最先进的模型,证实了BioKDN在去除受污染KG中不可靠交互方面的有效性和鲁棒性。
条件独立性 (CI) 图是一种特殊的概率图模型 (PGM),其中特征连接使用无向图建模,边权重表示特征之间的偏相关强度。由于 CI 图捕捉了特征之间的直接依赖关系,因此它们在研究领域中越来越受到关注,用于洞察来自各个领域的系统,特别是发现领域拓扑结构。在这项工作中,我们提出了在 CI 图上进行知识传播的算法。我们的实验表明,我们的技术在公开可用的 Cora 和 PubMed 数据集上改进了现有技术水平。
知识图谱上的推理是一项具有挑战性的任务,因为它利用观察到的信息来预测缺失的信息。特别是,基于一阶逻辑回答复杂查询是验证学习推理能力的泛化和组合性的关键任务之一。最近,流行的方法是查询嵌入,它学习一组实体的嵌入,并将逻辑运算视为集合运算,并取得了巨大的经验成功。尽管已经有许多研究遵循相同的公式,但其许多说法缺乏正式和系统的检验。在本文中,我们重新思考了这种公式,并通过描述先前研究的查询范围,精确识别其公式与其目标之间的差距,以及对当前研究的查询进行复杂性分析,从而证明了许多先前的论断。此外,我们开发了一个新的数据集,其中包含十种新型查询,这些查询具有从未考虑过的特征,因此可以对复杂查询进行彻底的调查。最后,我们提出了一种新的神经符号方法——模糊推理与真值 (FIT),我们用模糊逻辑理论装备神经链接预测器,以支持使用具有可证明推理能力的复杂查询进行端到端学习。实验结果表明,我们的方法在新数据集上显著优于以往的方法,同时也在现有数据集上超越了以往的方法。