多场景多任务学习已广泛应用于工业应用中的许多推荐系统,其中一种有效且实用的方法是在混合专家 (MoE) 架构的基础上进行多场景迁移学习。然而,基于 MoE 的方法旨在将所有信息投影到同一个特征空间,无法有效地处理各种场景和任务之间固有的复杂关系,导致性能不佳。为了解决这个问题,我们提出了一种用于多场景多任务推荐的分层信息提取网络 (HiNet),它基于从粗到细的知识迁移方案实现分层提取。层次网络的多个提取层使模型能够增强跨场景传输有价值信息的能力,同时保留场景和任务的特定特征。此外,还提出了一种新颖的场景感知注意力网络模块,以显式地对场景之间的相关性进行建模。在美团美食平台的真实工业数据集上进行的综合实验表明,HiNet 实现了最先进的性能,并且明显优于现有解决方案。HiNet 目前已在两个场景中全面部署,分别实现了 2.87% 和 1.75% 的订单量增长。
准确的黄斑定位对于分析视网膜疾病以预防不可逆的视力丧失至关重要。虽然当前基于深度学习的方法优于传统方法,但它们仍然面临着一些挑战,例如黄斑周围缺乏局部解剖学标志,无法鲁棒地处理患病视网膜图像以及图像条件的变化。在本文中,我们提出了一种新颖的基于Transformer的架构,称为双流黄斑网络(DSFN),用于多线索融合。该架构通过使用视网膜和血管分布显式地整合了远程连接和全局特征,以实现鲁棒的黄斑定位。我们在双流编码器中引入了空间注意力机制,以提取和融合自学习的解剖信息,更多地关注沿血管分布的特征,并通过减少标记数量来显著降低计算成本。我们广泛的实验表明,所提出的架构在两个公共数据集和一个大型私有数据集上实现了最先进的性能。此外,我们证明了DSFN在正常和患病视网膜图像上都更加鲁棒,并且在跨数据集实验中具有更好的泛化能力。
在这项工作中,我们将统计物理学中的反应扩散方程、量子力学中的薛定谔方程、近轴光学中的亥姆霍兹方程推广到神经偏微分方程 (NPDE),它可以被认为是人工智能研究领域的基石。我们采用有限差分法对 NPDE 进行离散化以求解数值解,并生成了深度神经网络架构的基本构建块,包括多层感知器、卷积神经网络和循环神经网络。还介绍了学习策略,例如自适应矩估计、L-BFGS、伪逆学习算法和偏微分方程约束优化。我们认为,呈现可解释的深度神经网络的清晰物理图像具有重要意义,这使得它可以应用于模拟计算设备设计,并为物理人工智能铺平道路。
本文提出了一种利用大型语言模型 (LLM) 和生成式智能体来增强时间序列预测的新方法,该方法能够跨文本和时间序列数据进行推理。通过语言作为媒介,我们的方法自适应地将社会事件整合到预测模型中,将新闻内容与时间序列波动相匹配,以提供更丰富的见解。具体来说,我们利用基于 LLMs 的智能体来迭代地过滤掉无关新闻,并运用类人推理来评估预测结果。这使得模型能够分析复杂事件,例如意外事件和社会行为的转变,并不断优化新闻的选择逻辑和智能体输出的稳健性。通过将选定的新闻事件与时间序列数据相结合,我们对预先训练的 LLM 进行微调,以预测时间序列中的数字序列。结果表明,预测精度显著提高,表明通过有效利用非结构化新闻数据,时间序列预测可能会发生范式转变。
标准操作流程 (SOP) 基于视频演示,为业务软件工作流定义了一个低级、逐步的书面指南。SOP 是实现端到端软件工作流自动化的关键步骤。手动创建 SOP 可能非常耗时。大型视频语言模型的最新进展为通过分析人类演示的录制内容来实现 SOP 生成自动化提供了可能。然而,当前的大型视频语言模型在零样本 SOP 生成方面面临挑战。我们探索了视频语言模型的上下文学习用于 SOP 生成。我们报告说,上下文学习有时有助于视频语言模型进行 SOP 生成。然后,我们提出了一种上下文集成学习方法,以进一步增强模型在 SOP 生成方面的能力。
在大型基础模型(LFM)的开发过程中,检查点保存训练状态至关重要,以便在发生各种故障或 GPU 资源和并行配置发生变化时恢复训练。此外,保存的检查点被分派到评估任务或在不同的训练阶段(例如,从预训练到后训练)之间转移。所有这些场景都需要将分布式检查点从一种并行性重新切片到另一种并行性。在生产中,不同的 LFM 使用不同的框架和存储后端进行训练,具体取决于模型的大小和训练规模。一个高性能的检查点系统是实现大规模高效检查点管理所必需的。本文介绍了 ByteCheckpoint,一个用于大规模 LFM 训练的工业级检查点系统。ByteCheckpoint 采用了一种与并行性无关的检查点表示,可以实现高效的加载时检查点重新切片。ByteCheckpoint 提倡一种通用的检查点保存/加载工作流程,以适应多个训练框架并支持不同的存储后端。为了确保高 I/O 效率,我们采用了一种全栈方法来优化保存/加载计划生成、检查点管道的重要阶段以及重新切片所需的非规则张量处理。为了保证 ByteCheckpoint 在大规模训练中的可扩展性,我们增强了存储系统,以高效地处理大量检查点 I/O 请求,设计了检查点工作流程内的通信优化,并引入了一套监控工具来分析性能和检测瓶颈。与现有的开源检查点系统 [40, 46] 相比,ByteCheckpoint 显着减少了运行时检查点停顿,平均减少了 54.20 倍。在保存和加载时间方面,ByteCheckpoint 分别实现了高达 9.96 倍和 8.80 倍的改进。
大型语言模型 (LLM) 通过利用从海量文本语料库中获得的丰富专业知识,在因果发现任务中展现出巨大潜力。然而,LLM 在因果发现中的多智能体能力尚未得到充分探索。本文提出了一种通用的框架来研究这种潜力。第一个是元智能体模型,它完全依赖于 LLM 智能体之间的推理和讨论来进行因果发现。第二个是编码智能体模型,它利用智能体规划、编写和执行代码的能力,利用高级统计库进行因果发现。第三个是混合模型,它整合了元智能体模型和编码智能体模型的方法,结合了多个智能体的统计分析和推理能力。我们提出的框架通过有效地利用 LLM 的专业知识、推理能力、多智能体合作和统计因果方法,展现出可喜的结果。通过探索 LLM 的多智能体潜力,我们旨在为利用 LLM 多智能体解决因果相关问题奠定基础。
数据分析对于从数据中提取有价值的见解至关重要,可以帮助组织做出有效的决策。我们引入了 InsightBench,这是一个具有三个关键特征的基准数据集。首先,它包含 100 个数据集,代表着金融和事件管理等各种商业用例,每个数据集都附带了一套精心策划的植入数据集的见解。其次,与专注于回答单个查询的现有基准不同,InsightBench 根据代理执行端到端数据分析的能力对其进行评估,包括制定问题、解释答案以及生成见解和可操作步骤的摘要。第三,我们进行了全面的质量保证,以确保基准中的每个数据集都具有明确的目标,并包含相关且有意义的问题和分析。此外,我们使用 LLaMA-3 作为一种有效的开源评估器,实施了一种双向评估机制,以评估代理提取见解的能力。我们还提出了 AgentPoirot,我们能够执行端到端数据分析的基线数据分析代理。我们在 InsightBench 上的评估表明,AgentPoirot 优于专注于解决单个查询的现有方法(例如 Pandas Agent)。我们还比较了开源和闭源 LLM 以及各种评估策略的性能。总的来说,这个基准可以作为测试平台,推动全面自动化数据分析的进一步发展。
大型语言模型 (LLMs) 在解决各种任务方面取得了显著成就。最近,LLMs 存储、检索和推断符号知识的能力引起了广泛关注,显示出其理解结构化信息的潜力。然而,目前尚不清楚 LLM 是否能够理解描述逻辑 (DL) 本体。在这项工作中,我们从句法和语义的角度对 LLM 理解 DL-Lite 本体的能力进行了实证分析,涵盖了 6 个代表性任务。通过大量的实验,我们证明了 LLM 在理解 DL-Lite 本体方面的有效性和局限性。我们发现,LLMs 可以理解概念和角色的形式语法和模型论语义。然而,LLMs 在理解 TBox NI 传递性和处理具有大型 ABox 的本体方面存在困难。我们希望我们的实验和分析能够为 LLM 提供更多见解,并激发构建更忠实的知识工程解决方案。
最近在检索增强生成方面的进展显著提升了问答系统的性能,特别是在事实性“5W”问题上。然而,这些系统在处理“1H”问题,尤其是“如何”问题时仍然面临重大挑战,而“如何”问题对于决策过程至关重要,需要动态的、逐步的答案。关键的限制在于流行的数据组织范式“块”,它将文档划分为固定大小的片段,破坏了上下文中的逻辑连贯性和联系。为了克服这一问题,本文提出了一种名为“线程”的新型数据组织范式,旨在使现有系统能够更有效地处理“如何”问题。具体而言,我们引入了一种新的知识粒度,称为“逻辑单元”,将文档转换为更结构化且松散互连的逻辑单元,并利用大型语言模型进行处理。在开放领域和工业环境中进行的大量实验表明,线程显著优于现有范式,将处理“如何”问题的成功率提高了 21% 到 33%。此外,线程在处理各种文档格式方面表现出高度适应性,大幅减少了知识库中的候选数量,并将所需信息量减少到块的四分之一,从而优化了效率和有效性。