arXiv 论文列表

单模型能掌握多轮对话和工具使用吗？CALM：一个统一的对话性代理语言模型

作者: Emre Can Acikgoz, Jeremiah Greer, Akul Datta, Ze Yang, William Zeng, Oussama Elachqar, Emmanouil Koukoumidis, Dilek Hakkani-T\"ur, Gokhan Tur

arXiv:2502.08820v1 宣告类型: 新摘要: 具有API调用能力的大语言模型（LLMs）构建了有效的语言代理（LA），同时也在传统的目标导向对话（TOD）范式上带来了革命。然而，当前的方法面临一个关键的困境：TOD系统通常仅在有限的目标API集合上进行训练，在与新服务进行接口交互时需要新的数据来维持质量，而LA并未被训练以在多轮对话中保持用户意图。由于稳健的多轮管理能力和高级功能调用对于有效的对话代理都是至关重要的，我们在三个流行的基准上评估了这些技能：MultiWOZ 2.4（TOD），BFCL V3（LA）和API-Bank（LA），我们的分析表明特化的方法在其中一个领域表现出色但在另一个领域则表现不佳。为了弥合这一差距，我们引入了CALM（对话代理语言模型），这是一种统一的方法，集成了对话能力和代理能力。我们构建了CALM-IT，这是一个精心设计的多任务数据集，将多轮ReAct推理与复杂的API使用交织在一起。使用CALM-IT，我们训练了CALM 8B、CALM 70B和CALM 405B三种模型，这三种模型在三个基准上均优于顶级的领域特定模型，包括GPT-4o。

发布时间: 2/14/2025

查看原文

基于熵的人类反馈上下文armbandit问题

作者: Raihan Seraj, Lili Meng, Tristan Sylvain

arXiv:2502.08759v1 宣告类型: 新摘要: 在 recent 年，基于偏好的人类反馈机制已经成为提高各种应用中模型性能的关键，包括对话型 AI 系统，如 ChatGPT。然而，现有的方法通常忽略了关键方面，例如模型的不确定性以及反馈质量的变异性。为了解决这些挑战，我们引入了一种基于熵的人类反馈框架，该框架通过在模型熵超过预定义阈值时仅请求专家反馈，动态平衡探索与利用。我们的方法是模型无拘束的，并且可以无缝集成到任何采用随机策略的上下文臂代理中。通过全面的实验，我们展示了我们的方法能够在要求最少人类反馈的情况下实现显著的性能提升，即使在反馈质量不佳的情况下也是如此。这项工作不仅提出了一种新的反馈请求策略，还强调了将人类指导纳入机器学习系统中的鲁棒性和有效性。我们的代码已公开：https://github.com/BorealisAI/CBHF

发布时间: 2/14/2025

查看原文

从PowerPoint UI草图到基于Web的应用程序：使用知识增强的大语言模型、上下文感知视觉提示和React框架的GIS仪表盘开发模式驱动代码生成

作者: Haowen Xu, Xiao-Ying Yu

arXiv:2502.08756v1 通知类型: 新摘要: 开发用于环境研究的地理信息系统(GIS)数据查询和可视化的基于网页的GIS应用程序，通常被称为CyberGIS仪表板，常常需要重复且耗费资源的努力。虽然生成式AI在代码生成方面提供了自动化潜力，但由于在集成领域知识、软件工程原则和UI设计最佳实践方面存在挑战，它在复杂的科学应用程序中遇到了困难。本文介绍了一种知识增强的代码生成框架，该框架从专门的知识库中检索软件工程最佳实践、领域专业知识和先进技术堆栈，以增强生成预训练转换器（GPT）在前端开发中的应用。该框架可以自动从用户在PowerPoint或Adobe Illustrator等工具中定义的用户界面线框草图中创建基于GIS的网页应用程序（例如，仪表板、界面）。实现了一种新颖的上下文感知视觉提示方法（Context-Aware Visual Prompting），该方法用Python编写，从这些线框草图中提取布局和界面特征，以指导代码生成。我们的方法利用大型语言模型（LLMs）通过综合结构化推理、软件工程原则和领域知识来生成前端代码，从而借鉴了思维链（CoT）提示和检索增强生成（RAG）的启发。案例研究展示了该框架生成一个模块化、可维护的基于网页的平台的能力，该平台可托管多个用于可视化环境和能源数据（例如，时间序列、矢量文件、栅格）的仪表板，这些是从用户绘制的线框草图中生成的。通过采用知识驱动的方法，该框架使用诸如Model-View-ViewModel（MVVM）之类的设计模式以及React之类的框架生成可扩展的、符合行业标准的前端代码。这种方法大大减少了设计和编码的繁琐工作，开创了一种自动化和高效的智能城市软件开发方法。

发布时间: 2/14/2025

查看原文

高吞吐量SAT采样

作者: Arash Ardakani, Minwoo Kang, Kevin He, Qijing Huang, John Wawrzynek

arXiv:2502.08673v1 GPU加速布尔可满足性（SAT）采样的新方法摘要: 在这项工作中，我们提出了一种新的技术，用于GPU加速的布尔可满足性（SAT）采样。与传统的直接在合取范式（CNF）上操作的采样算法不同，我们的方法通过将SAT问题的逻辑约束转化成简化后的多级、多输出布尔函数来分解其CNF表示形式。然后，该方法利用基于梯度的优化来引导对多种有效解的搜索。我们的方法直接作用于分解后的SAT实例的电路结构上，重新将SAT问题视为一个监督多输出回归任务。这种可微分的技术允许对每个张量元素进行独立的位操作，从而实现学习过程的并行执行。因此，我们实现了在最先进启发式采样器上显著的运行时加速，加速范围从$33.6\times$到$523.6\times$。我们通过在前人研究中使用的公共领域基准套件中的$60$个实例上进行广泛的评估，展示了我们采样方法的优越性能。

发布时间: 2/14/2025

查看原文

通过集成LLM的自适应LMS个性化教育

作者: Kyle Spriggs, Meng Cheng Lau, Kalpdrum Passi

arXiv:2502.08655v1 通告类型: 新摘要: 大型语言模型（LLMs）的广泛应用标志着技术的变革时代，尤其是在教育领域。本文探讨了在学习管理系统（LMSs）中整合LLMs的可能性，以开发出一种针对不同教育阶段个体学习者进行个性化调整的适应性学习管理系统（ALMS）。传统的LMSs虽然促进了教育材料的分发，但在解决多样化的学生群体所需的细微差异方面仍存在不足，尤其是在教师资源有限的环境中。我们提出的系统利用AI的灵活性，提供一个可定制的学习环境，能够根据每位用户不断变化的需求进行调整。通过整合一系列通用和专用领域的大语言模型，该系统旨在最小化通用LLMs如OpenAI的ChatGPT常见的问题，例如事实不准确和信息过时。本文详细介绍了开发的ALMS，不仅能够解决隐私问题和现有教育工具的局限性，还能通过提供个性化的教育资源来增强学习体验，保持学生的参与度。

发布时间: 2/14/2025

查看原文

CSR-Bench: 在计算机科学研究仓库部署中评估LLM代理的基准测试

作者: Yijia Xiao, Runhui Wang, Luyang Kong, Davor Golac, Wei Wang

arXiv:2502.06111v2 宣布类型: 替换交叉引用摘要：随着计算机科学研究项目的日益复杂，需要更加有效的工具来部署代码库。大型语言模型（LLMs），如Anthropic Claude和Meta Llama，在计算机科学研究的各种领域中已经显示出显著的进步，包括软件工程任务的自动化。为了评估LLMs在处理计算机科学研究项目的复杂代码开发任务方面的有效性，特别是对于NLP/CV/AI/ML/DM等主题，我们引入了CSR-Bench，一个针对计算机科学研究项目的基准测试。该基准测试从准确度、效率和部署脚本质量等多个方面评估LLMs，旨在探索它们在自主进行计算机科学研究方面的潜力。我们还引入了一种新的框架CSR-Agents，该框架利用多个LLM代理自动部署计算机科学研究项目的GitHub代码库。具体而言，通过检查Markdown文件中的指令并解释仓库结构，模型生成并迭代改进bash命令，用于设置实验环境并部署代码以执行研究任务。CSR-Bench的初步结果显示，LLM代理可以显著提高代码库部署的工作流程，从而提高开发者的生产力并改善开发工作流程的管理。

发布时间: 2/13/2025

查看原文

基于信息论正则化的机器卸载

作者: Shizhou Xu, Thomas Strohmer

arXiv:2502.05684v2 宣告类型: replace-cross 摘要：如何在最小化有用性和提供严格保证的前提下，有效地从学习成果中去除或“忘记”不必要的信息，例如特定特征或个别数据点？我们引入了一种基于信息论正则化的数学框架，以解决特征和数据点的遗忘问题。对于特征遗忘，我们推导出一个统一的解决方案，可以同时优化多种学习目标，包括熵、条件熵、KL散度和条件概率的能量。对于数据点遗忘，我们首先提出了一种新的定义，作为一种通过重新训练进行遗忘的实际条件，易于验证，并且在推理视角上与差分隐私原则相一致。然后，我们为我们的框架提供了关于数据点遗忘的可证明保证。通过学习目标的灵活性和正则化设计的简洁性相结合，我们的方法对于广泛的应用场景中的机器学习和AI具有高度的适应性和实用性。

发布时间: 2/13/2025

查看原文

关于个性化对话代理的内存构建与检索

作者: Zhuoshi Pan, Qianhui Wu, Huiqiang Jiang, Xufang Luo, Hao Cheng, Dongsheng Li, Yuqing Yang, Chin-Yew Lin, H. Vicky Zhao, Lili Qiu, Jianfeng Gao

arXiv:2502.05589v2 通告类型: replace-cross 摘要：为在长对话中提供连贯且个性化的体验，现有方法通常通过从对话历史中构建记忆库来进行回复生成，这可以在回合级别、会话级别或通过总结技术来实现。在本文中，我们提出了两个关键发现：(1) 记忆单元的粒度很重要：回合级别、会话级别和基于总结的方法在记忆检索准确性和检索内容的语义质量方面各自存在局限性。(2) 诸如 \textit{LLMLingua-2} 之类的提示压缩方法可以有效地作为去噪机制，在不同粒度级别上增强记忆检索准确性。基于这些洞察，我们提出了一种方法 SeCom，该方法通过引入对话分割模型来构建具有主题段落的记忆库，并根据压缩的记忆单元进行记忆检索。实验结果表明，SeCom 在 LOCOMO 和 Long-MT-Bench+ 等长对话基准测试中优于回合级别、会话级别以及几种基于总结的方法。此外，提出的对话分割方法在 DialSeg711、TIAGE 和 SuperDialSeg 等对话分割数据集中表现出色。

发布时间: 2/13/2025

查看原文

APE：通过自适应并行编码实现更快、更长上下文增强生成

作者: Xinyu Yang, Tianqi Chen, Beidi Chen

arXiv:2502.05431v2 宣言类型: replace-cross 摘要：上下文增强生成（CAG）技术，包括RAG和ICL，需要高效地结合多个上下文以生成用户查询的响应。直接将这些上下文作为序列输入会导致每次请求重新编码组合选择所引入的大量计算负担。为了解决这个问题，我们探索了并行编码的有前途的潜力，以独立地预计算和缓存每个上下文的KV状态。这种方法允许在推断过程中直接加载缓存状态，同时通过上下文之间的位置重用容纳更多的上下文。然而，由于注意力分布的对准不准确，直接应用并行编码会导致显著的性能下降。为了实现有效的高效CAG，我们提出了自适应并行编码（$\textbf{APE}$），它引入了共享前缀、注意力温度和缩放因子，以调整并行编码与顺序编码的注意力分布。在RAG和ICL任务上的结果表明，与相同的输入相比，APE 可以保持 98% 和 93% 的顺序编码性能，同时分别比并行编码高出 3.6% 和 7.9%。此外，APE 还能够扩展到多轮 CAG，有效地并行编码数百个上下文。效率评估表明，APE 可以通过将预填充时间减少 28 倍，实现端到端 4.5 倍的加速，适用于 128K 长度的上下文。

发布时间: 2/13/2025

查看原文

大规模安全：大型模型安全综述

作者: Xingjun Ma, Yifeng Gao, Yixu Wang, Ruofan Wang, Xin Wang, Ye Sun, Yifan Ding, Hengyuan Xu, Yunhao Chen, Yunhan Zhao, Hanxun Huang, Yige Li, Jiaming Zhang, Xiang Zheng, Yang Bai, Zuxuan Wu, Xipeng Qiu, Jingfeng Zhang, Yiming Li, Jun Sun, Cong Wang, Jindong Gu, Baoyuan Wu, Siheng Chen, Tianwei Zhang, Yang Liu, Mingming Gong, Tongliang Liu, Shirui Pan, Cihang Xie, Tianyu Pang, Yinpeng Dong, Ruoxi Jia, Yang Zhang, Shiqing Ma, Xiangyu Zhang, Neil Gong, Chaowei Xiao, Sarah Erfani, Bo Li, Masashi Sugiyama, Dacheng Tao, James Bailey, Yu-Gang Jiang

arXiv:2502.05206v2 安全类型：replace-cross 摘要：大型模型的迅速发展，得益于其通过大规模预训练学习和泛化能力的卓越表现，重塑了人工智能（AI）的格局。这些模型现在已成为广泛应用场景的基础，包括对话AI、推荐系统、自动驾驶、内容生成、医疗诊断和科学发现。然而，它们的广泛应用也使它们面临重大的安全风险，引发了对鲁棒性、可靠性和伦理影响的担忧。本文综述了当前对大型模型安全研究的系统性调查，涵盖了视觉基础模型（VFMs）、大型语言模型（LLMs）、视觉-语言预训练（VLP）模型、视觉-语言模型（VLMs）、扩散模型（DMs）以及基于大型模型的代理。我们的贡献总结如下：(1) 我们提出了一种综合的安全威胁分类，包括对抗攻击、数据污染、后门攻击、突破和提示注入攻击、能源-延迟攻击、数据和模型提取攻击以及新兴的代理特定威胁。(2) 如果有提出针对每种攻击的防御策略，我们进行了综述，并总结了常用的数据集和安全研究基准。(3) 在此基础上，我们识别并讨论了大型模型安全领域面临的开放挑战，强调需要进行全面的安全评估、可扩展且有效的防御机制以及可持续的数据实践。更重要的是，我们强调了研究界和国际协作的必要性。我们的工作可以为研究人员和从业人员提供有用的参考，促进全面防御系统和平台的发展，保护AI模型的安全。

发布时间: 2/13/2025

查看原文