LLM2D

arXiv 论文列表

作者: Minsu Kim, Seong-Hyeon Hwang, Steven Euijong Whang
arXiv:2505.08528v1 宣告类型: cross 摘要: 在持续学习的背景下,同时获取新的知识并保持之前的知识是一项重大挑战。现有方法通常使用经验回放技术,通过存储少量的先前任务数据来进行训练。在经验回放方法中,数据增强被认为是一种有希望的策略,通过将有限的先前任务数据与充足的当前任务数据混合来进一步提高模型性能。然而,我们从理论上和实验上分析得出,使用随机样本对的混合样本进行训练可能会损害先前任务的知识,并导致更大的灾难性遗忘。我们随后提出了一种GradMix,这是一种针对类增量学习中缓解灾难性遗忘的鲁棒数据增强方法。GradMix 使用基于类别的标准进行基于梯度的选择性 mixup 操作,仅混合有助于减少灾难性遗忘的类别对样本,而不是有害的类别对样本。在各种真实数据集上的实验结果显示,GradMix 在准确度方面优于数据增强基线,通过最小化先前知识的遗忘来实现这一目标。
发布时间: 5/14/2025
查看原文
作者: Hyowon Wi, Jeongwhan Choi, Noseong Park
arXiv:2505.08516v1 表型类型: cross 摘要:变换器在不同领域中表现出色。变换器的关键组件是自注意力,它学习输入序列中任意两个标记之间的关系。最近的研究表明,自注意力可以被理解为图的归一化邻接矩阵。值得注意的是,从图信号处理(GSP)的角度来看,自注意力可以等效定义为一个简单的图滤波器,使用值向量作为信号进行GSP。然而,自注意力是一个仅以多项式矩阵的一次阶定义的图滤波器,充当低通滤波器,阻止有效地利用各种频率信息。因此,现有的自注意力机制是以相当简化的形式设计的。因此,我们提出了一种名为 \underline{\textbf{A}}ttentive \underline{\textbf{G}}raph \underline{\textbf{F}}ilter (AGF) 的新方法,从图信号处理的角度,解释自注意力为有向图中的单值域学习图滤波器,具有与输入长度 \(n\) 的线性复杂度,即 \(\mathcal{O}(nd^2)\)。在我们的实验中,我们展示了AGF在各种任务上(包括长距离竞技场基准测试和时间序列分类)实现了最先进性能。
发布时间: 5/14/2025
查看原文
arXiv:2505.08498v1 交叉公告类型:跨领域 摘要:大型语言模型(LLMs)的最新进展使零-shot自动作文评分(AES)成为可能,为相比人工评分降低成本和努力提供了有前景的方法。然而,现有大多数零-shot方法依赖于LLMs直接生成绝对分数,这往往由于模型偏见和评分不一致而与人工评估产生分歧。为解决这些问题,我们提出了基于LLM的比较式作文评分(LCES)方法,该方法将AES形式化为成对比较任务。具体而言,我们指导LLMs判断两篇作文中哪一篇更好,并收集大量这样的比较,将其转化为连续分数。考虑到可能的比较数量随着作文数量的增加而呈平方增长,我们通过使用RankNet有效地将LLM的偏好转化为标量分数来提高可扩展性。使用AES基准数据集的实验显示,LCES在准确性上优于传统零-shot方法,同时保持计算效率。此外,LCES在不同的LLM基础模型上表现出鲁棒性,突显了其在实际零-shot AES中的适用性。
发布时间: 5/14/2025
查看原文
作者: Chetra Mang, Axel TahmasebiMoradi, David Danan, Mouadh Yagoubi
arXiv:2505.08487v1 类型: cross 摘要: 物理模型经典上涉及偏微分方程(PDE),根据其基本复杂性和所需的精度水平,这些模型在数值求解时通常极其耗费计算资源。因此,一个想法是创建一个依赖于此类求解器生成的数据的代理模型。然而,如已证明的,用不平衡的数据训练此类模型是一项非常困难的任务。实际上,如果输入数据分布导致对反应流形的不良表示,模型可能无法很好地学习,进而可能无法用可接受的精度预测结果。在本文中,我们提出了一个涉及物理模型的自适应采样算法用于数据生成(ASADG)。由于初始输入数据可能不能在高维空间准确表示反应流形,该算法在每次迭代中逐步添加输入数据。在每一步中,如果满足某个阈值条件,将流形离散化成的每个单纯形的重心作为新的输入数据添加进去。我们通过与LHS方法进行比较,证明了该数据采样算法在生成更具代表性的输入数据方面的效率。为此,我们专注于通过经典求解器生成数据来构建一个谐波传输问题的元模型。通过使用该算法,可以在与LHS相同的数据量情况下,提供更好的反应流形表示。
发布时间: 5/14/2025
查看原文
作者: Kuan-Cheng Chen, Chen-Yu Liu, Yu Shang, Felix Burt, Kin K. Leung
arXiv:2505.08474v1 类型:交叉 摘要:我们介绍了一种分布式量子-经典框架,该框架将光子量子神经网络(QNNs)与矩阵积态(MPS)映射相结合,以实现经典神经网络参数高效训练。通过利用$M$模式干涉仪的通用线性光分解和光子计数测量统计,我们的架构通过混合量子-经典工作流程生成神经参数:具有$M(M+1)/2$可训练参数的光子QNN生成高维概率分布,并通过具有维数$\chi$的MPS模型映射到经典网络权重。在MNIST分类的实验验证中,使用3,292个参数($\chi = 10$),光子QT达到了95.50%±0.84%的准确率,而经典的基线模型使用6,690个参数达到了96.89%±0.31%的准确率。此外,当$\chi = 4$时,实现了十倍的压缩比,相对准确率损失低于3%。该框架在通过经典部署压缩参数消除了推理时对量子硬件的需求的同时,比经典压缩技术(权重共享/剪枝)在绝对准确率上高出6-12%。模拟包含现实光子噪声表明,该框架对近期硬件缺陷具有鲁棒性。消融研究证实了量子的必要性:用随机输入替换光子QNN将准确率崩溃到随机猜测水平(10.0%±0.5%)。光子量子计算在室温下的操作能力、通过空间模式复用固有的可扩展性以及与HPC集成的架构,为分布式量子机器学习提供了一条实际可行的道路,结合了光子希尔伯特空间的表达能力和经典神经网络的可部署性。
发布时间: 5/14/2025
查看原文
arXiv:2505.08463v1 类型: cross 摘要:微调预训练语言模型(PLMs)已成为将PLMs应用于下游任务的主要范式。然而,即使进行了有限的微调,PLMs仍然难以解决由PLMs编码器获得的表示与PLMs解码器的最佳输入之间的差异。本文通过在隐空间中学习校准PLMs的表示来应对这一挑战。在提出的方法RepCali中,我们在编码器之后的隐空间中整合了一个特定的校准块,并将校准后的输出作为解码器的输入。RepCali的优点包括其适用于所有具有编码器-解码器架构的PLMs的通用性、插件性质和易实现性。在8个任务(包括英文和中文数据集)上的25个基于PLM的模型的广泛实验表明,提出的方法RepCali为PLMs(包括LLMs)提供了可喜的增强,并显著改善了下游任务的性能。在4个基准任务的比较实验中,RepCali优于代表性的微调基线。
发布时间: 5/14/2025
查看原文
作者: Adel Ammar, Anis Koubaa, Omer Nacar, Wadii Boulila
arXiv:2505.08445v1 宣告类型: cross 摘要: 大型语言模型在任务性能上表现优异,但往往会产生妄言或依赖过时的知识。检索增强生成(RAG)通过将生成与外部搜索结合起来,弥补了这些方面的不足。我们分析了超参数如何影响RAG系统的速度和质量,涵盖了Chroma和Faiss向量存储、分块策略、交叉编码器再排序以及温度,并评估了六项指标:忠实性、答案准确性、答案相关性、上下文精确度、上下文召回率和答案相似性。Chroma将查询处理速度提高了13%,而Faiss在检索精确度上表现更好,揭示了一个明显的速度-准确性权衡。简单地使用固定长度的分块方法,窗口较小且重叠最少,优于语义分割,并且仍然是最快速的选项。再排序在检索质量上提供了适度的提升,但增加了大约5倍的运行时间,因此其实用性取决于延迟约束。这些结果帮助实践者在调整RAG系统以实现透明且及时响应时平衡计算成本和准确性。最后,我们使用修正的RAG工作流程重新评估了顶级配置,并展示了当模型能够迭代请求额外的证据时,它们的优势仍然存在。我们获得了近乎完美的上下文精确度(99%),这证明了在恰当的超参数组合下,RAG系统可以实现极其高的检索准确性,在涉及检索质量直接影响下游任务性能的应用场景中,这种高精度具有重大意义,例如医疗保健中的临床决策支持。
发布时间: 5/14/2025
查看原文
作者: Chuanzhi Xu, Haoxian Zhou, Langyi Chen, Haodong Chen, Ying Zhou, Vera Chung, Qiang Qu
arXiv:2505.08438v1 事件摄像机类型:横跨 摘要:由于能够异步捕捉每个像素的亮度变化,事件摄像机已成为3D重建的有前途的传感器。与传统的基于帧的相机不同,它们产生稀疏但时间丰富的数据流,从而使3D重建更准确,并开启了在极端环境中进行重建的可能性,如高速运动、低光照或高动态范围场景。在这篇综述中,我们首次全面地专注于使用事件摄像机进行3D重建的研究。综述根据输入模式将现有工作分类为三类:立体、单目和多模态系统,并根据重建方法进一步分类,包括基于几何学的方法、基于深度学习的方法,以及最近的神经渲染技术,如神经辐射场和3D高斯点阵。具有相似研究重点的方法按时间顺序组织成最细分的类别。我们还总结了与事件驱动3D重建相关的公共数据集。最后,我们强调了当前数据可用性、评估、表示和动态场景处理的研究限制,并概述了有前途的未来研究方向。这篇综述旨在成为全面的参考和未来事件驱动3D重建发展的路线图。
发布时间: 5/14/2025
查看原文
作者: Mehran Sarmadi, Morteza Alikhani, Erfan Zinvandi, Zahra Pourbahman
arXiv:2505.08435v1 Announce Type: cross 摘要:最近在文本嵌入方面的进展显著提高了多种语言的自然语言理解能力,然而,波斯语在大规模嵌入研究中仍然明显被忽视。在这篇论文中,我们介绍了Hakim,这是一种新型的最先进的波斯文本嵌入模型,在FaMTEB基准测试中,其性能比现有方法提高了8.5%,并且超过了以往开发的所有波斯语言模型。作为这项工作的部分,我们引入了三个新的数据集——Corpesia、Pairsia-sup和Pairsia-unsup,以支持监督和无监督的训练场景。此外,Hakim 旨在应用于聊天机器人和检索增强生成(RAG)系统,特别针对需要在这些系统中结合消息历史记录的检索任务。我们还提出了一个基于BERT架构的新基准模型。我们的语言模型在各种波斯NLP任务中的一致性表现较高,而基于RetroMAE的模型在文本信息检索应用中尤其有效。这些贡献共同建立了一个新的基础,以促进波斯语言理解的进步。
发布时间: 5/14/2025
查看原文
作者: Mayank Nautiyal, Andreas Hellander, Prashant Singh
arXiv:2505.08403v1 交叉公告类型:cross 摘要:我们提出了一种条件扩散模型——ConDiSim,用于复杂系统的基于模拟的推理,其中极大似然函数难以处理。ConDiSim 利用去噪扩散概率模型来近似后验分布,该模型由一个前向过程组成,该过程向参数中添加高斯噪声,以及一个反向过程,该过程在观测数据的条件下学习去噪。这种方法有效地捕捉到了后验分布内的复杂依赖关系和多模态。ConDiSim 在十个基准问题和两个真实世界测试问题上进行了评估,结果显示其后验分布近似准确性有效,同时保持了计算效率和模型训练的稳定性。ConDiSim 提供了一种稳健且可扩展的基于模拟的推理框架,特别适用于需要快速推理方法的参数推理工作流程。
发布时间: 5/14/2025
查看原文