LLM2D

arXiv 论文列表

作者: Yun-Wei Chu, Dong-Jun Han, Christopher G. Brinton
arXiv:2401.07456v2 宣告类型: 替换-交叉 摘要:联邦学习(FL)是一种有前景的分布式机器学习范式,使得多个客户端能够协作训练全局模型。在本文中,我们重点关注一种实际的多语言联邦学习设置,其中拥有自己语言特定数据的客户端旨在共同构建高质量的神经机器翻译(NMT)模型。然而,实用网络系统中的通信约束为在FL各方之间交换大规模NMT引擎带来了挑战。我们提出了一种基于元学习的自适应参数选择方法MetaSend,该方法在基于联邦学习的多语言NMT训练过程中提高了模型传输的通信效率。我们的方法在不同FL轮次之间学习一个动态阈值,用于在传输前过滤参数,同时不降低NMT模型的质量,基于客户端张量偏差。通过在包含不同语言分布的两个NMT数据集上的实验,我们证明,在有限的通信预算下,MetaSend在翻译质量上相对于基准方法取得了显著的改进。
发布时间: 4/21/2025
查看原文
作者: Xiao Wang, Yao Rong, Shiao Wang, Yuan Chen, Zhe Wu, Bo Jiang, Yonghong Tian, Jin Tang
arXiv:2312.11128v2 通知类型:替换-交叉 摘要:基于RGB-事件数据的模式识别是一个新兴的研究课题,之前的 works 通常使用 CNN 或 Transformer 来学习其特征。我们知道,CNN 能很好地捕捉局部特征,而级联的自注意力机制则擅长提取长范围的全局关系。因此,结合它们来进行高性能的基于 RGB-事件数据的视频识别是直观的。然而,现有的工作未能在准确性和模型参数之间取得良好的平衡,如图 \ref{firstimage} 所示。在本工作中,我们提出了一个名为 TSCFormer 的新颖的基于 RGB-事件数据的识别框架,这是一个相对轻量级的 CNN-Transformer 模型。具体来说,我们主要采用 CNN 作为骨干网络来首先编码 RGB 和事件数据。同时,我们初始化全局令牌作为输入,并使用 BridgeFormer 模块将它们与 RGB 和事件特征融合。它很好地捕获了两者之间的全局长范围关系,并且在同一时间保持了整个模型架构的简洁性。增强后的特征将以交互方式被投影并分别融合到 RGB 和事件 CNN 模块中,使用 F2E 和 F2V 模块。类似的操作也应用于其他 CNN 模块,以在不同分辨率下实现自适应融合和局部-全局特征增强。最后,我们将这三种特征串联起来并将其输入到分类头中进行模式识别。在两个大规模的 RGB-事件基准数据集(PokerEvent 和 HARDVS)上进行了广泛的实验,充分验证了我们提出的 TSCFormer 的有效性。源代码和预训练模型将在 https://github.com/Event-AHU/TSCFormer 释放。
发布时间: 4/21/2025
查看原文
作者: Ahsan Adeel, Junaid Muzaffar, Fahad Zia, Khubaib Ahmed, Mohsin Raza, Eamin Chaudary, Talha Bin Riaz, Ahmed Saeed
arXiv:2305.10449v3 宣告类型: 替换-交叉 摘要: 超越“树突民主”,我们引入了一种称为Cooperator的“本地处理器民主”。在这里,我们将它们在置换不变神经网络中的强化学习(RL)能力与基于Transformer的机器学习算法进行了比较,如ChatGPT。Transformer基于长期以来的积分-放电“点”神经元概念,而Cooperator则是受到最近神经生物学突破的启发,这些突破表明,大脑生活的细胞基础依赖于新皮层中的上下文敏感的锥形神经元,这些神经元有两个功能上不同的点。我们显示,在用于RL时,基于Cooperator的算法比基于Transformer的算法学习得更快,即使参数数量相同也是如此。
发布时间: 4/21/2025
查看原文
作者: Han-Dong Lim, Donghwan Lee
arXiv:2302.09875v3 宣告类型: replace-cross 摘要:离策学习能力是 reinforcement learning (RL) 在实际应用中的一个重要特征。然而,即使是其中最基本的 RL 算法——时序差分(TD)学习,在使用线性函数近似时与离策方案结合使用时,也会遭受发散问题。为了克服这种发散行为,至今已经开发出了多种离策 TD 学习算法,包括梯度时序差分学习(GTD)和修正时序差分学习(TDC)。在本文中,我们从纯粹的控制理论视角出发,提供了一种这些算法的统一视图,并提出了一种新的收敛算法。我们的方法依赖于回步法技术,这是一种在非线性控制理论中广泛使用的技术。最后,在标准 TD 学习已知不稳定的环境中,通过实验验证了所提出算法的收敛性。
发布时间: 4/21/2025
查看原文
作者: Hubert Leterme, K\'evin Polisano, Val\'erie Perrier, Karteek Alahari
arXiv:2209.11740v3 宣告类型: replace-cross 摘要:本文专注于提高卷积神经网络(CNN)在图像分类中的数学可解释性。具体而言,我们解决了它们第一层中存在的不稳定性问题,当在像ImageNet这样的数据集上训练时,这种层倾向于学习与定向带通滤波器相似的参数。使用这种Gabor-like滤波器的下采样卷积容易产生混叠,导致对输入移动的敏感性。在此背景下,我们建立了最大池化操作近似于复模数的条件,复模数几乎对移动不敏感。然后,我们推导了下采样卷积后最大池化的操作的移不变性度量。特别地,我们强调了滤波器的频率和方向在实现稳定性方面发挥的关键作用。我们通过考虑基于双树复小波变换的确定性特征提取器来验证我们的理论,这是一个离散Gabor-like分解的特殊情形。
发布时间: 4/21/2025
查看原文
作者: Chenlu Ding, Jiancan Wu, Yancheng Yuan, Jinda Lu, Kai Zhang, Alex Su, Xiang Wang, Xiangnan He
arXiv:2412.00383v2 宣告类型: 替换 摘要:大型语言模型(LLMs)的出现已经彻底改变了自然语言处理,使其在各种任务中具备先进的理解和推理能力。通过Parameter-Efficient Fine-Tuning(PEFT)策略,如LoRA,对这些模型进行特定领域的调整已成为一种普遍做法,因其高效性。然而,这引发了重大的隐私和安全问题,因为模型可能会无意中保留和传播敏感或不 desirable 的信息。为了解决这些问题,我们提出了一种新颖的实例级遗忘框架——LLMEraser,该框架系统地分类遗忘任务并使用影响函数进行精确的参数调整。与传统的遗忘技术相比,后者通常范围有限且需要大量重新训练,LLMEraser 设计用于处理广泛的遗忘任务,同时不牺牲模型性能。基准数据集上的广泛实验表明,LLMEraser 在高效管理各种遗忘场景的同时,能够保持模型的整体完整性和有效性。
发布时间: 4/21/2025
查看原文
作者: Santhosh Kumar Ramakrishnan, Erik Wijmans, Philipp Kraehenbuehl, Vladlen Koltun
arXiv:2410.06468v2 通告类型: 替换 摘要: 尚未完成。我们介绍了SPACE基准,用于系统性评估前沿模型的空间认知能力。该基准建立在认知科学几十年的研究基础上。它评估了当有机体穿越物理环境时所运用的大规模映射能力、关于物体形状和布局的小规模推理能力,以及如空间注意力和记忆等认知基础设施。对于许多任务,我们通过文本和图像的并行呈现实例化,从而可以评估大型语言模型和大型多模态模型。结果表明,当前的前沿模型在空间智能方面落后于动物,多项经典动物认知测试的表现接近随机水平。代码和数据可在以下链接获取:https://github.com/apple/ml-space-benchmark
发布时间: 4/21/2025
查看原文
作者: Yijia Xiao, Edward Sun, Yiqiao Jin, Qifan Wang, Wei Wang
arXiv:2408.11363v2 通告类型: 修改 摘要:理解生物过程、药物开发和生物技术进步需要对蛋白质结构和功能进行详细的分析,这是一个在传统蛋白质研究中本就复杂且耗时的任务。为简化这一过程,我们引入了ProteinGPT,这是一个最先进的多模态大型语言模型,用于蛋白质分析,使用户能够上传蛋白质序列和/或结构以进行全面分析和响应查询。ProteinGPT通过将蛋白质序列和结构编码器与线性投影层集成,确保精确的表示适应性,并利用大型语言模型(LLM)生成准确且上下文相关的响应。为了训练ProteinGPT,我们构建了一个包含132,092种蛋白质的大规模数据集,每种蛋白质都标记有20-30个属性标签和每种蛋白质5-10对问答对,并使用GPT-4o优化了指令调优过程。实验表明,ProteinGPT能够有效地对蛋白质相关问题生成信息性回答,在语义和词汇指标上取得了高表现,并且在理解和回应蛋白质相关查询方面显著优于基线模型和通用LLM。我们的代码和数据可在https://github.com/ProteinGPT/ProteinGPT获取。
发布时间: 4/21/2025
查看原文
作者: Shizhan Lu, Zeshui Xu, Zhu Fu, Longsheng Cheng, Tongbin Yang
arXiv:2311.04256v4 宣布类型: 修改 摘要: 犹豫模糊集在涉及不确定性和犹豫的具体场景中有着广泛的应用。在集合论的背景下,包含关系的概念被视为一个基本定义,因此,作为一种类型的集合,犹豫模糊集需要一个清晰且明确的包含关系定义。基于犹豫模糊隶属度的离散形式,本文提出了多种类型的犹豫模糊集的包含关系。随后,本文介绍了与犹豫模糊集相关的基础命题,以及与犹豫模糊集族相关的命题。
发布时间: 4/21/2025
查看原文
作者: M. Strada, K. Ku{\l}akowski
arXiv:2211.01809v2 公告类型: 替换 摘要:决策方法非常经常使用成对比较的方法。在这个方法中,专家被要求对不同的选项进行比较,然后根据所得结果创建一个定量排名。普遍认为专家(决策者)在他们的判断中是诚实的。在我们的工作中,我们考虑了一种专家容易受到贿赂影响的场景。为此,我们定义了一个框架,允许我们确定意图操纵,并提出三种实现意图目标的算法。分析这些算法可能有助于提供线索,以帮助防御此类攻击。
发布时间: 4/21/2025
查看原文