arXiv 论文列表

任意DAG神经架构的生长策略

作者: Stella Douka (LISN,TAU), Manon Verbockhaven (LISN,TAU), Th\'eo Rudkiewicz (LISN,TAU), St\'ephane Rivaud (LISN,TAU), Fran\c{c}ois P. Landes (TAU,LISN), Sylvain Chevallier (TAU,LISN), Guillaume Charpiat (TAU,LISN)

arXiv:2501.12690v2 公告类型: replace-cross 摘要：深度学习在以训练庞大神经网络为代价的情况下取得了令人印象深刻的成果。然而，架构越大，在训练和推理过程中所需的计算、财务和环境成本就越高。我们的目标是减少训练和推理的时间。我们关注神经架构增长，这是一种在训练过程中直接根据反向传播信息增加小模型大小的方法。我们扩展了现有工作，并以任何形式的有向无环图(DAG)的形式自由地增长神经网络，通过减少架构中的表现性瓶颈来实现。我们探索减少过度计算并引导网络增长向更参数高效架构的策略。

发布时间: 2/17/2025

查看原文

长上下文是你所需要的一切吗？利用大语言模型扩展的上下文实现NL2SQL

作者: Yeounoh Chung, Gaurav T. Kakkar, Yu Gan, Brenton Milne, Fatma Ozcan

arXiv:2501.12372v3 宣布类型: 替换-交叉摘要：大规模语言模型（LLMs）在各种自然语言处理任务中展现了令人印象深刻的能力。特别是，推理能力的提升和上下文窗口的扩展为利用这些强大模型开辟了新的途径。将自然语言转换为SQL（NL2SQL）是一个具有挑战性的问题，因为自然语言问题本身是内在模糊的，而SQL生成则需要精确理解复杂的数据库结构和语义。解决这种语义模糊问题的一种方法是提供更多的上下文信息。在本工作中，我们探讨了由谷歌最新的大模型（\textit{gemini-1.5-pro}）提供的扩展上下文窗口的表现和延迟权衡。我们研究了各种上下文信息的影响，包括列示例值、问题和SQL查询对、用户提供的提示、SQL文档和模式。据我们所知，这是首次研究扩展上下文窗口和额外上下文信息如何在准确性和延迟成本方面帮助NL2SQL生成的工作。我们展示了长上下文LLMs是稳健的，不会在扩展的上下文信息中迷失方向。此外，基于谷歌的\textit{gemini-pro-1.5}的长上下文NL2SQL管道在各种基准数据集上取得了强大的性能，无需进行微调和昂贵的自一致性技术。

发布时间: 2/17/2025

查看原文

MAGNET：增强生成解码器的能力，加入表示学习和填补功能

作者: Savya Khosla, Aditi Tiwari, Kushal Kafle, Simon Jenni, Handong Zhao, John Collomosse, Jing Shi

arXiv:2501.08648v2 文本类型: replace-cross 摘要: 尽管最初是为了单向生成建模而设计的，但解码器仅大型语言模型（LLMs）越来越多地被调整为双向建模。然而，单向和双向模型通常是在不同的目标（生成和表示学习）下分别进行训练的。这种分离忽略了发展更具多功能的语言模型以及这些目标相互补充的机会。在本文中，我们提出了一种名为MAGNET的方法，用于调整解码器仅大型语言模型以生成稳健的表示并填补缺失的文本片段。MAGNET采用了三种自监督训练目标，并引入了一种结合双向和因果注意力的注意力机制，使得所有目标统一训练成为可能。我们的结果显示，使用MAGNET调整后的LLMs：（1）在词级和句级表示学习任务中优于强大的文本编码器；（2）通过利用过去和未来的上下文，生成上下文相关的文本填补；（3）在开放式文本生成中避免过度重复单词或短语；（4）保留了LLMs在预训练期间获得的知识和推理能力。

发布时间: 2/17/2025

查看原文

GroverGPT：一个用于量子搜索的80亿参数大型语言模型

作者: Haoran Wang, Pingzhi Li, Min Chen, Jinglei Cheng, Junyu Liu, Tianlong Chen

arXiv:2501.00135v4 量化类型: replace-cross 摘要：量子计算是一个令人兴奋的非冯·诺伊曼范式，对于特定问题提供了可证明的经典计算速度提升。然而，当前嘈杂的量子设备使得量子电路的经典模拟界限仍然不清楚。在这项工作中，我们探讨了利用大语言模型（LLMs）模拟量子图灵机输出的潜力，特别是使用Grover量子电路，后者在经典对应物上提供了平方级的速度提升。为此，我们开发了基于LLaMA 80亿参数架构的GroverGPT模型，并在超过15万亿个令牌上进行训练。与需要大量计算资源的暴力状态向量模拟不同，GroverGPT利用模式识别来近似量子搜索算法，而不显式表示量子状态。在分析了97,000个量子搜索实例后，GroverGPT在OpenAI的GPT-4o（45%准确率）的表现中始终表现出色，当针对4量子比特或更大规模的量子搜索数据集进行训练时，其在6-和10-量子比特数据集上达到了接近100%的准确率。它还展示了很强的泛化能力，在针对3-到6-量子比特数据集进行训练时，对于超过20个量子比特的系统，其准确率超过了95%。分析表明，GroverGPT捕捉到了Grover搜索的量子特征，而不是经典模式，得到了增强性能的新型提示策略的支持。虽然随着系统规模的增加，准确率有所下降，但这些发现为经典模拟的实用边界提供了见解。这项工作表明，针对特定任务的LLMs在量子算法学习中可以超越通用模型如GPT-4o，并作为推动量子研究的强大工具。

发布时间: 2/17/2025

查看原文

面向层次多-agent EV 充电控制的不确定性感知批评增强方法

作者: Lo Pang-Yun Ting, Ali \c{S}enol, Huan-Yang Wang, Hsu-Chao Lai, Kun-Ta Chuang, Huan Liu

arXiv:2412.18047v2 宣告类型: 更新-交叉摘要：旨在支持电网稳定性和应急操作的高级双向电动汽车充电和放电技术，促进了在工作场所应用的兴趣增长。它不仅降低了电费，还提高了在高峰功率限制、波动的能源价格和不可预测的电动汽车离场等实际问题中处理问题的能力。系统地考虑这些因素可以同时提高办公楼的能源效率和电动汽车用户的效率。为了用人工智能解决这些问题，我们提出了HUCA，这是一种新颖的实时充电控制方法，用于调节楼宇和电动汽车的能源需求。HUCA 使用分层次的演员-评论家网络，在动态定价场景中动态降低建筑物的电费，同时考虑到电动汽车充电的需求。为了应对电动汽车不确定的离场，我们引入了一种新的评论家增强方法，以在评估充电决策时考虑离场不确定性，同时保持充电控制的稳健性。实验证明，在模拟确定性和不确定的离场场景下使用真实世界电力数据集时，HUCA 在总电费上优于基准方法，同时在满足电动汽车充电需求方面保持竞争力。案例研究还表明，HUCA 根据实时信息有效平衡了楼宇和电动汽车之间的能源供应，展示了其作为车辆充电控制关键人工智能驱动解决方案的潜力。

发布时间: 2/17/2025

查看原文

ArchComplete：基于分层扩散上采样的自回归三维建筑设计生成

作者: S. Rasoulzadeh, M. Bank, I. Kovacic, K. Schinegger, S. Rutzinger, M. Wimmer

arXiv:2412.17957v2 生成类型：替换-交叉摘要：最近在3D生成模型方面的进展显示出有希望的结果，但在捕捉建筑几何形状和拓扑结构的复杂性以及高分辨率下的精细几何细节方面往往不尽如人意。为了解决这一问题，我们提出了ArchComplete，这是一种两阶段的基于体素的3D生成流水线，包括一个矢量量化模型，其组成使用自回归变换器生成粗略的形状，随后是分层上采样策略，进一步丰富微结构和细节。本流水线的关键在于：(i) 学习一个语境丰富的局部补丁嵌入代码本，优化同时包含一个2.5D感知损失，该损失捕捉沿三个轴对齐的正交平面投影的全局空间对应关系；(ii) 重新定义上采样为一系列从粗到细的局部体节补丁层级中学习的条件扩散模型。ArchComplete 使用我们介绍的带有完整建模的外部和内部的3D房屋模型数据集训练，在分辨率 $64^{3}$ 下自回归地生成模型，并逐步细化到 $512^{3}$，体素大小最小达到约 $9\text{cm}$。ArchComplete 解决了多种任务，包括基因插值和变化、无条件合成、形状和计划绘制完成以及几何细节化，同时在质量、多样性和计算效率方面达到了最先进的性能。

发布时间: 2/17/2025

查看原文

基于查询token的双混合注意力框架：多级特征分布在医学影像分割中的应用

作者: Phuong-Nam Tran, Nhat Truong Pham, Duc Ngoc Minh Dang, Eui-Nam Huh, Choong Seon Hong

arXiv:2412.17241v2 宣告类型: 替换-交叉摘要：医学图像分割在协助医疗专业人员进行准确诊断以及实现自动化诊断过程中发挥着关键作用。传统的卷积神经网络（CNN）通常难以捕捉长范围依赖关系，而基于变换器的架构虽然有效，但带来了计算复杂度的增加。最近的努力集中在结合CNN和变换器以平衡性能和效率，但现有方法仍面临着在保持低计算成本的同时实现高分割准确性的挑战。此外，许多方法未能充分利用CNN编码器获取局部空间信息的能力，主要集中在缓解长范围依赖关系问题上。为了解决这些局限性，我们提出了一种名为QTSeg的新架构，该架构有效整合了局部和全局信息。QTSeg特征包括一种用于提高分割性能的双混注意解码器，其通过以下方式增强分割性能：（1）交叉注意机制以改进特征对齐，（2）空间注意模块以捕捉长范围依赖关系，以及（3）通道注意模块以学习通道关系。此外，我们还引入了多级特征分布模块，该模块适应性地平衡编码器和解码器之间的特征传播，进一步提升了性能。在五个公开可用的数据集上的广泛实验，涵盖了包括病变、息肉、乳腺癌、细胞和视网膜血管分割在内的多种分割任务，证明了QTSeg在多个评估指标上优于最先进的方法，同时保持较低的计算成本。我们的实现可以在以下链接找到：https://github.com/tpnam0901/QTSeg (v1.0.0)

发布时间: 2/17/2025

查看原文

持续学习与战略选择及遗忘在网络入侵检测中的应用

作者: Xinchen Zhang, Running Zhao, Zhihan Jiang, Handi Chen, Yulong Ding, Edith C. H. Ngai, Shuang-Hua Yang

arXiv:2412.16264v3 宣告类型: replace-cross 摘要：入侵检测系统（IDS）对于保护数字基础设施至关重要。在动态网络环境中，威胁场景和正常运行行为不断变化，导致概念漂移。虽然持续学习可以缓解概念漂移的不利影响，但对漂移模式的关注不足以及对过时知识的过度保留仍然会影响IDS的适应性。本文提出了一种名为SSF（战略选择与遗忘）的新颖持续学习方法，可以提供不断更新的模型，并且具有不断刷新的记忆缓冲区。我们的方法包含一个战略性样本选择算法，用于选择具有代表性的新样本，以及一个战略性遗忘机制，用于丢弃过时的样本。提出的战略性样本选择算法优先选择导致“漂移”模式的新样本，使模型更好地理解不断变化的环境。此外，我们在检测到显著的漂移时引入了战略性遗忘，通过丢弃过时的样本来释放内存，从而允许纳入更多近期的数据。SSF能够有效地捕捉到变化中的模式，并确保模型与数据模式的变化保持一致，从而显著增强IDS对概念漂移的适应性。SSF在NSL-KDD和UNSW-NB15数据集上的先进性能展示了其在网络安全入侵检测中对概念漂移的优越适应性。代码已发布在 https://github.com/xinchen930/SSF-Strategic-Selection-and-Forgetting。

发布时间: 2/17/2025

查看原文

RoboMIND：多躯体智能规范数据基准——针对机器人操作

作者: Kun Wu, Chengkai Hou, Jiaming Liu, Zhengping Che, Xiaozhu Ju, Zhuqin Yang, Meng Li, Yinuo Zhao, Zhiyuan Xu, Guang Yang, Shichao Fan, Xinhua Wang, Fei Liao, Zhen Zhao, Guangyu Li, Zhao Jin, Lecheng Wang, Jilei Mao, Ning Liu, Pei Ren, Qiang Zhang, Yaoxu Lyu, Mengzhen Liu, Jingyang He, Yulin Luo, Zeyu Gao, Chenxuan Li, Chenyang Gu, Yankai Fu, Di Wu, Xingyu Wang, Sixiang Chen, Zhenyu Wang, Pengju An, Siyuan Qian, Shanghang Zhang, Jian Tang

arXiv:2412.13877v2 公布类型: replace-cross 摘要: 在本文中，我们介绍了RoboMIND（多体态智能规范数据集，用于机器人操作），这是一个包含107,000个演示轨迹的数据集，涉及479个多样化的任务和96个对象类别。RoboMIND通过人类遥控收集，涵盖了全面的机器人相关信息，包括多视角观察、本体感觉机器人状态信息以及语言任务描述。为了确保数据一致性与可靠性，以适合模拟学习，RoboMIND基于一个统一的数据收集平台和标准协议构建，涵盖四种不同的机器人体态：Franka Emika Panda、UR5e、AgileX双臂机器人以及一个具有双灵巧手的人形机器人。此外，我们的数据集还包括5,000个现实世界的故障演示，每个演示都配有详细的故障原因，这有助于在策略学习过程中进行故障反思与修正。我们还在Isaac Sim模拟器中创建了一个数字孪生环境，复制了现实世界的任务和资产，这有助于低成本收集额外的训练数据，并能高效评估。为了展示我们数据集的质量和多样性，我们使用各种模仿学习方法在单任务设置中进行了广泛实验，并使用最先进的视觉-语言-动作（VLA）模型在多任务场景中进行了实验。通过利用RoboMIND，VLA模型实现了高操作成功率，并展示了强大的泛化能力。据我们所知，RoboMIND是迄今为止在统一平台上收集的最大的多体态遥控操作数据集，提供了大规模和高质量的机器人训练数据。我们的项目网页为：https://x-humanoid-robomind.github.io/。

发布时间: 2/17/2025

查看原文

RareAgents：通过LLM赋能的多学科团队推进罕见病护理

作者: Xuanzhong Chen, Ye Jin, Xiaohao Mao, Lun Wang, Shuyang Zhang, Ting Chen

arXiv:2412.12475v2 宣告类型: replace-cross 摘要：尽管罕见疾病的个体发病率很低，但由于疾病数量庞大，它们总计影响着全世界约3亿人。涉及多个器官和系统以及缺乏相应经验的专业医生使得诊断和治疗罕见疾病比常见疾病更具挑战性。近年来，由大型语言模型（LLMs）驱动的代理在各个领域已经展示了显著的应用效果。在医疗领域，一些代理方法在医学检查问题回答任务上已经超过了直接提示。然而，当前的代理框架并不适应真实的临床场景，特别是在涉及罕见病的复杂需求方面。为了弥合这一差距，我们引入了RareAgents，这是专门为罕见病复杂的临床环境设计的第一个由LLM驱动的多学科团队框架。RareAgents结合了先进的多学科团队（MDT）协调、记忆机制和医疗工具的利用，使用Llama-3.1-8B/70B作为基础模型。实验结果显示，RareAgents在罕见疾病的诊断和用药建议方面明显优于最先进的领域特定模型GPT-4o以及现有的代理框架。此外，我们贡献了一个新的罕见疾病数据集MIMIC-IV-Ext-Rare，以支持这一领域的进一步发展。

发布时间: 2/17/2025

查看原文