LLM2D

arXiv 论文列表

作者: Zhixian Wang, Linxiao Yang, Liang Sun, Qingsong Wen, Yi Wang
时间序列分析广泛应用于电力能源、经济学和交通运输等多个领域,包括预测、异常检测、分类等不同任务。这些任务中普遍存在缺失值,经常导致现有方法出现不可预测的负面影响,阻碍其进一步应用。针对这种情况,现有的时间序列插补方法主要集中于基于数据特征恢复序列,而忽略了恢复序列在后续任务中的性能。考虑到后续任务的不同需求(例如,预测),本文提出了一种高效的以后续任务为导向的时间序列插补评估方法。通过将时间序列插补与用于后续任务的神经网络模型相结合,无需重新训练即可估计不同插补策略对后续任务的增益,并根据估计的增益结合不同的插补策略,给出对后续任务最有利的插补值。
发布时间: 10/10/2024
查看原文
作者: Jiaxi Hu, Bowen Zhang, Qingsong Wen, Fugee Tsung, Yuxuan Liang
在各种科学和工程领域,主要的研究领域围绕着基于物理的动力学系统建模和数据驱动的时序分析展开。根据嵌入理论,动力学系统和时间序列可以使用观测函数和物理重构技术相互转换。基于此,我们提出了嵌入对偶理论,其中参数化的嵌入层本质上提供了非线性时间序列动力学的线性估计。该理论使我们能够绕过参数化的嵌入层,直接使用物理重构技术来获取数据嵌入表示。利用物理先验知识,参数减少了 10 倍,速度提高了 3 倍,专家任务的性能提升了 18%,少样本任务的性能提升了 22%,零样本任务的性能提升了 53%,而且无需任何超参数调整。所有方法都被封装为一个即插即用的模块。
发布时间: 10/10/2024
查看原文
作者: Kaishuai Xu, Tiezheng Yu, Wenjun Hou, Yi Cheng, Chak Tou Leong, Liangyou Li, Xin Jiang, Lifeng Shang, Qun Liu, Wenjie Li
大型语言模型 (LLMs) 在众多自然语言处理任务中表现出强大的数学推理和计算能力,能够解决从基本算术到高级竞赛级别的各种问题。然而,模型中经常出现细微的错误,例如计算错误或错误替换,限制了模型的全部数学潜力。现有的提高数学能力的研究通常涉及从更强大的 LLMs 中提取推理技能或将偏好学习应用于逐步响应对。虽然这些方法利用不同粒度的样本减轻推理错误,但它们忽视了经常出现的细微错误。一个主要原因是采样的偏好对包含与错误无关的差异,这可能会分散模型对细微错误的关注。在这项工作中,我们提出了一种新的偏好学习框架,称为错误注入自编辑 (RISE),它将预定义的细微错误注入到正确解决方案的部分标记中,以构建用于错误缓解的困难对。具体来说,RISE 使用模型本身来编辑解决方案中的少量标记,注入设计的细微错误。然后,将由自编辑解决方案及其对应的正确解决方案组成的对,以及通过采样获得的正确和不正确解决方案的对一起用于细微错误感知 DPO 训练。与其他偏好学习方法相比,RISE 进一步细化了训练目标,专注于预定义的错误及其标记,而无需细粒度采样或偏好标注。大量的实验验证了 RISE 的有效性,在 Qwen2-7B-Instruct 上进行偏好学习,在 GSM8K 上取得了 3.0% 的显著改进,在 MATH 上取得了 7.9% 的显著改进。
发布时间: 10/10/2024
查看原文
作者: Xianghua Zeng, Hao Peng, Angsheng Li
传统的 信息论 为强化学习提供了宝贵的基石,特别是在表示学习和最大化代理探索的熵方面。然而,现有的方法主要集中在对强化学习随机变量相关的不确定性的建模,而忽略了状态和动作空间中的固有结构。在本文中,我们提出了一种基于结构信息原理的有效探索框架,即 SI2E。为了解决结构信息中单变量的局限性,定义了两个变量之间的结构互信息,并提出了一种创新的嵌入原理来捕捉与动态相关的状态-动作表示。SI2E 分析了状态-动作对之间代理策略中的价值差异,并最小化结构熵以推导出层次化的状态-动作结构,称为编码树。在这种树结构下,定义了价值条件下的结构熵,并将其最大化以设计一种内在奖励机制,避免冗余转换,并在状态-动作空间中促进更强的覆盖。在 SI2E 和经典的信息论方法之间建立了理论联系,突出了我们框架的合理性和优势。在 MiniGrid、MetaWorld 和 DeepMind Control Suite 基准上的综合评估表明,SI2E 在最终性能和样本效率方面显著优于最先进的探索基线,最大改进分别为 37.63% 和 60.25%。
发布时间: 10/10/2024
查看原文
作者: Guoxin Chen, Zhong Zhang, Xin Cong, Fangda Guo, Yesai Wu, Yankai Lin, Wenzheng Feng, Yasheng Wang
工具学习使大型语言模型 (LLM) 能够与外部工具和 API 交互,极大地扩展了 LLM 的应用范围。然而,由于外部环境的动态性,这些工具和 API 可能会随着时间的推移而过时,阻止 LLM 正确调用工具。现有的研究主要集中在静态环境,忽视了这个问题,限制了 LLM 在现实世界应用中的适应性。本文提出了一种名为 ToolEVO 的新框架,旨在增强 LLM 对工具变化的适应性和反思能力。通过利用蒙特卡洛树搜索,ToolEVO 促进了 LLM 在动态环境中的主动探索和交互,允许根据环境反馈自主地自我反思和自我更新工具使用。此外,我们还引入了 ToolQA-D,这是一个专门为评估工具变化影响而设计的基准。大量实验表明了我们方法的有效性和稳定性,突出了适应工具变化对于有效工具学习的重要性。
发布时间: 10/10/2024
查看原文
在这项工作中,我们提出了一种新颖的视觉位置识别(VPR)联合训练方法,该方法同时学习全局描述符和用于重新排序的配对分类器。配对分类器可以预测给定的一对图像是否来自同一个地方。该网络仅包含用于编码器和配对分类器的 Vision Transformer 组件,这两个组件都使用各自的类别标记进行训练。在现有的 VPR 方法中,网络通常使用来自通用图像数据集(如 ImageNet)的预训练权重进行初始化。在这项工作中,我们提出了一种替代的预训练策略,使用 Siamese Masked Image Modelling 作为预训练任务。我们提出了一种从大型 VPR 数据集集合中进行 Place-aware 图像采样程序,以预训练我们的模型,从而学习专门针对 VPR 调整的视觉特征。通过在训练的第二阶段重新使用 Mask Image Modelling 编码器和解码器权重,Pair-VPR 可以使用 ViT-B 编码器在五个基准数据集上实现最先进的 VPR 性能,并使用更大的编码器进一步提高定位召回率。Pair-VPR 网站地址:https://csiro-robotics.github.io/Pair-VPR.
发布时间: 10/10/2024
查看原文
本研究提出一个全面的印尼语文本转语音 (TTS) 数据集和一个新的 TTS 模型 EnGen-TTS,旨在提高印尼语合成语音的质量和多功能性。该数据集包含约 55.0 小时和 52,000 个音频记录,整合了多种文本来源,确保语言丰富性。细致的录音设置利用专业设备捕捉印尼语语音的细微差别,确保高保真音频样本。统计分析揭示了数据集的规模和多样性,为模型训练和评估奠定了基础。提出的 EnGen-TTS 模型的表现优于已有的基线,平均意见得分 (MOS) 达到了 4.45 ± 0.13。此外,我们对实时因素和模型规模的调查表明,EnGen-TTS 是一个引人注目的选择,具有高效的性能。本研究标志着印尼语 TTS 技术的重大进步,对各种语言应用具有重要意义。生成样本链接:\url{https://bahasa-harmony-comp.vercel.app/}
发布时间: 10/10/2024
查看原文
作者: Wenqi Niu, Yingchao Wang, Guohui Cai, Hanpo Hou
知识蒸馏(KD)已成为神经网络压缩和性能提升的关键技术。大多数 KD 方法旨在基于 Kullback-Leibler (KL) 散度损失,将庞大的教师模型中的暗知识转移到轻量级的学生模型。然而,通过 KD 实现的学生性能提升表现出边际收益递减,即更强大的教师模型并不一定能带来比例上更强大的学生模型。为了解决这个问题,我们通过实验证明,基于 KL 的 KD 方法可能会隐式地改变学生模型学习的类间关系,导致更复杂和模糊的决策边界,进而降低模型的准确性和泛化能力。因此,本研究认为学生模型不仅应该学习教师输出的概率值,还应该学习类的相对排名,并提出了一种新颖的相关性匹配知识蒸馏 (CMKD) 方法,该方法结合了基于 Pearson 和 Spearman 相关系数的 KD 损失,以从更强大的教师模型实现更有效和鲁棒的蒸馏。此外,考虑到样本难度不同,CMKD 动态调整基于 Pearson 的损失和基于 Spearman 的损失的权重。CMKD 简洁实用,大量实验表明它可以在 CIRAR-100 和 ImageNet 上始终如一地取得最先进的性能,并且能够很好地适应各种教师架构、大小和其他 KD 方法。
发布时间: 10/10/2024
查看原文
在天气预报领域,传统模型往往受到离散化误差和时间依赖源差异的影响,限制了其预测性能。本文提出了一种名为 WeatherODE 的新型单阶段、物理驱动的常微分方程 (ODE) 模型,旨在提高天气预报精度。通过利用波动方程理论并整合时间依赖源模型,WeatherODE 有效地解决了与时间离散化误差和动态大气过程相关的挑战。此外,我们设计了一种 CNN-ViT-CNN 三明治结构,促进了针对不同但相互关联的任务的有效学习动态,这些任务在平流方程估计中具有不同的优化偏差。通过严格的实验,WeatherODE 在全球和区域天气预报任务中都表现出优越的性能,在均方根误差 (RMSE) 方面分别比最新的最先进方法高出 40.0% 和 31.8%。源代码可在 \url{https://github.com/DAMO-DI-ML/WeatherODE} 获得。
发布时间: 10/10/2024
查看原文
从人类反馈中进行强化学习显著地提升了自然语言处理,通过将语言模型与人类预期相一致。训练过程中使用的奖励模型的强度是这种一致性的关键因素。这项研究探讨了更强的奖励模型是否总是会导致更好的语言模型。本文通过使用 QA-FEEDBACK 数据集和基于 Longformer 的奖励模型在相关性、真实性和完整性任务上的实验,揭示了一个令人惊讶的悖论:使用中等准确度的奖励模型训练的语言模型优于那些由高准确度奖励模型引导的语言模型。这挑战了普遍认为更强的奖励模型总是会导致更好的语言模型的观点,并为未来研究模型性能的关键驱动因素以及如何选择最合适的奖励模型开辟了新途径。代码和更多细节可在 [https://github.com/EIT-NLP/AccuracyParadox-RLHF](https://github.com/EIT-NLP/AccuracyParadox-RLHF) 获取。
发布时间: 10/10/2024
查看原文