arXiv:2502.05615v1 类别:交叉学科
摘要:核聚变是人类获得无限能量最有希望的方式之一。目前,随着人工智能的迅速发展,核聚变的任务也进入了其发展的关键时期。让更多的人了解核聚变并加入其研究是加速实施聚变的有效手段之一。本文提出了核聚变领域的第一个大型模型——XiHeFusion,该模型基于开源的大规模模型Qwen2.5-14B进行监督微调获得。我们收集了关于核聚变任务的多源知识,以支持该模型的训练,包括通用爬虫、电子书、arXiv、论文等。在模型掌握了核聚变领域的知识后,我们进一步使用思维链来增强其逻辑推理能力,使XiHeFusion能够提供更准确和逻辑性的答案。此外,我们还提出了一份包含180多个问题的测试问卷来评估此科学普及大型模型的对话能力。广泛的实验结果表明,我们的核聚变对话模型XiHeFusion在回答科学普及知识方面表现良好。预训练的XiHeFusion模型已发布在https://github.com/Event-AHU/XiHeFusion。
arXiv:2502.05589v1 Announce Type: cross
摘要:为了在长时间对话中提供连贯和个性化的体验,现有方法通常通过在会话历史的转录级、会话级或通过总结技术构建记忆库,实现检索增强的响应生成。在本文中,我们提出了两个关键发现:(1) 内存单元的粒度很重要:转录级、会话级和基于总结的方法在记忆检索准确性以及检索内容的语义质量方面各自存在局限性。(2) 诸如 \textit{LLMLingua-2} 等提示压缩方法可以有效地作为去噪机制,在不同粒度上提高记忆检索准确性。基于这些洞察,我们提出了一种名为 SeCom 的方法,该方法通过引入对话分割模型构建主题段落的记忆库,同时基于压缩的记忆单元进行记忆检索。实验结果表明,在如 LOCOMO 和 Long-MT-Bench+ 这样的长时间对话基准测试中,SeCom 比转录级、会话级以及一些基于总结的方法表现更优。此外,提出的对话分割方法在 DialSeg711、TIAGE 和 SuperDialSeg 等对话分割数据集上表现出卓越性能。
arXiv:2502.05574v1 类型: cross
摘要: 然后,我们引入了一种新颖的分层知识蒸馏策略,该策略结合了相似矩阵、特征表示和基于响应图的蒸馏来指导学生Transformer网络的学习。我们还通过应用时间傅里叶变换来建立视频帧之间的时间关系,以增强模型捕捉时间依赖性的能力。在测试时,通过提出的新测试时调整策略将网络模型适应特定的目标对象,从而实现目标跟踪的高性能和灵活性。鉴于现有基于事件的目标跟踪数据集主要分辨率较低,我们提出了EventVOT,这是第一个大规模高分辨率的基于事件的目标跟踪数据集。它包含1141个视频,涵盖了行人、车辆、无人机、乒乓球等多个类别。在低分辨率(FE240Hz、VisEvent、FELT)数据集和我们新提出的高分辨率EventVOT数据集上的广泛实验证明了我们提出方法的有效性。基准数据集和源代码已发布在https://github.com/Event-AHU/EventVOT_Benchmark
arXiv:2502.05573v1 交叉公告类型:cross
摘要:多智能体强化学习(MARL)通常依赖于参数共享(PS)以高效扩展。然而,完全共享的策略会限制每个智能体的独特专业化,从而在异构环境中降低整体性能。我们提出了**低秩智能体特定适应(LoRASA)**,这是一种新颖的方法,将每个智能体的策略视为从共享骨干微调的专业化“任务”。受参数高效迁移方法的启发,LoRASA 在共享策略的每一层后面附加了小的低秩适应矩阵,自然地引入了参数空间稀疏性,促进了专业化和可扩展性。我们在包括星际争霸多智能体挑战(SMAC)和多智能体MuJoCo(MAMuJoCo)等具有挑战性的基准上评估了LoRASA,将其实现于广泛使用的算法如MAPPO和A2PO之上。在多种任务中,LoRASA 在降低内存和计算开销的同时与现有baseline匹配或超越baseline。通过对适配器秩、位置和时间的研究验证了该方法的灵活性和效率。我们的结果表明LoRASA 有可能确立MARL策略参数化的新规范:共享的协调基础与低秩智能体特定改进相结合。
arXiv:2502.05568v1 通告类型: 交叉
摘要: 在这篇综述中,我们系统分析了用于适应低资源(LR)语言的大规模多模态模型(LMMs)的技术,涵盖了从视觉增强和数据创建到跨模态转移和融合策略的各种方法。通过对75种LR语言的106项研究进行综合分析,我们识别出研究人员在处理有限数据和计算资源挑战时的关键模式。我们发现视觉信息往往在提高LR设置下模型性能中起到关键作用,但在幻觉缓解和计算效率等方面仍面临重大挑战。我们旨在为研究人员提供当前方法及其在使LMMs更易为LR(研究较少)语言使用者使用方面所面临挑战的清晰理解。我们还提供了一个开源库:https://github.com/marianlupascu/LMM4LRL-Survey。
arXiv:2502.05567v1 Announce Type: cross
摘要:自动形式化,即将自然语言数学自动转换为可机器验证的形式语言的过程,在大型语言模型(LLMs)的进步中已经展示了进展。然而,进一步进展的一个关键障碍是缺乏将自然语言与形式语言对齐的配对数据集。为了应对这一挑战,我们引入了ATLAS(自动形式化定理通过提升、增强和数据合成),这是一种迭代数据生成框架,用于生成大规模、高质量的并列定理陈述。通过运行提出的ATLAS 10次迭代,我们构建了一个包含30万个定理陈述的本科生级别数据集,并开发了ATLAS翻译器,在ProofNet上的准确率为80.59%(pass@8)和92.99%(pass@128),显著优于基模型(23.99%和47.17%)和InternLM2-Math-Plus-7B(50.94%和80.32%)。此外,ATLAS翻译器还在本工作中引入的高中级别miniF2F数据集和研究生级别的MathQual数据集上达到了最先进的性能。这些数据集、模型和代码即将对公众发布。
arXiv:2502.05564v1 宣布类型: cross
摘要:长期以来,梯度提升决策树在表格数据上的主导地位目前正被使用上下文学习(ICL)的表格基础模型所挑战:将训练数据作为测试数据的上下文,并在单次前向传递中进行预测而不更新参数。虽然最近的TabPFNv2基础模型(2025年)在具有多达10,000个样本的表格上表现出色,但其交替的列级和行级注意力机制使得处理大规模训练集在计算上变得不可行。因此,ICL是否可以有效地扩展并在更大的表格上提供收益?我们引入了TabICL,这是一种用于分类的表格基础模型,它在最多包含60,000个样本的合成数据集上进行了预训练,并且能够在经济实惠的资源上处理多达500,000个样本。这得益于一种新颖的两阶段架构:先进行列级然后进行行级注意力机制以构建固定维度的行嵌入,之后是用于高效的ICL的变压器。在TALENT基准测试的200个分类数据集中,TabICL与TabPFNv2表现相当,但在系统上更快(最多快10倍),并且显著优于所有其他方法。在56个包含超过10,000个样本的数据集中,TabICL超过了TabPFNv2和CatBoost,展示了ICL在大数据中的潜力。
arXiv:2502.05547v1 通知类型: cross
摘要:联邦学习(FL)天生容易受到隐私泄露和中毒攻击的影响。为了应对这些挑战,研究人员分别设计了安全聚合机制以保护数据隐私和抗中毒攻击的稳健聚合方法。然而,同时解决这两个问题极具挑战性;安全聚合会促进中毒攻击,因为大多数异常检测技术需要访问未加密的本地模型更新,这些更新在安全聚合中被遮蔽。最近一些同时解决这两种挑战的努力往往依赖于不可行的非协作双服务器设置假设,这会破坏FL的拓扑结构,或者依赖于三方计算,这引入了可扩展性问题,使得部署和应用复杂化。为了解决这个困境,本文引入了一种双防御联邦学习(DDFed)框架。DDFed同时增强了隐私保护并缓解了中毒攻击,无需引入新的参与者角色或破坏现有的FL拓扑结构。DDFed最初利用最新的完全同态加密(FHE)技术安全聚合模型更新,无需依赖于不可行的非协作双服务器设置,并确保了强隐私保护。此外,我们提出了一个独特的两阶段异常检测机制,用于加密模型更新,该机制包括安全相似度计算和反馈驱动的协作选择,并在检测过程中整合了防止拜占庭客户端潜在隐私泄露的措施。我们对各种模型中毒攻击和FL场景进行了广泛实验,包括跨设备和跨孤岛FL。公开数据集上的实验结果表明,DDFed成功保护了模型隐私并有效地抵御了模型中毒威胁。
arXiv:2502.05526v1 动态轨迹类型: 双语交叉
摘要: 在快速变化的环境中,多智能体系统的动态运动规划,尤其是在存在障碍物的情况下,是一个普遍存在且未解决的问题。无论是从障碍物周围路径规划到机器人手臂的运动,还是在如Robosoccer这样的团队机器人导航场景中计划导航,动态运动规划都需要避免碰撞的同时到达目标目的地,当多个智能体占据同一区域时。在世界变化迅速的连续领域中,现有的经典运动规划算法如RRT*和A*在每一步重新运行时变得计算成本高昂。为了解决这一普遍问题,已经提出了很多经典的和非学习的方法变体,但由于它们在速度、平滑度、最优化等方面的局限性而无法完全解决问题。基于过去的经验适应不同环境的能力,深度学习模型克服了这些挑战。然而,当前的学习运动规划模型使用离散环境,不考虑异质智能体或重新规划,并试图提高经典运动规划器的效率,这导致了可扩展性问题。为了在达到目标位置的同时避免异质团队成员之间的碰撞和与障碍物的碰撞,我们提出了一种基于学习的动态导航模型,并在简单地Robosoccer游戏的概念上展示了该模型在简单环境中的应用。
arXiv:2502.05512v1 介绍类型: cross
摘要: 近年来,基于大规模语言模型(LLM)的文本到语音(TTS)系统逐渐成为行业主流,得益于其高度自然的声音和强大的零样本语音克隆能力。在这里,我们介绍了IndexTTS系统,该系统主要基于XTTS和Tortoise模型,并加入了一些新颖的改进。具体而言,在中文场景中,我们采用了将字符和拼音结合起来的混合建模方法,使多音字和长尾字的发音可控制。我们还对比了向量量化(VQ)和有限标量化(FSQ)在声学语音令牌编码本方面的应用。为了进一步提高语音克隆的效果和稳定性,我们引入了基于Conformer的语音条件编码器,并用BigVGAN2替换语音编码器。与XTTS相比,它在自然度、内容一致性以及零样本语音克隆方面取得了显著改进。对于开源中流行的一些TTS系统,如Fish-Speech、CosyVoice2、FireRedTTS和F5-TTS,IndexTTS具有较为简单的训练过程、更可控的使用方式和更快的推断速度,同时其性能也超过了这些系统。我们的演示可在https://index-tts.github.io查阅。