arXiv 论文列表

作者: Hyeonwoo Kim, Dahyun Kim, Jihoo Kim, Sukyung Lee, Yungi Kim, Chanjun Park

arXiv:2410.12445v2 宣告类型: replace-cross 摘要：Open Ko-LLM 领导板在基准测试韩语大规模语言模型（LLMs）方面发挥了重要作用，但仍然存在一些限制。尤其是，排行榜上过于学术的基准测试中定量改进与模型的质量影响之间的脱节需要解决。此外，基准测试套件大多由其英语版本的翻译版本组成，这可能无法充分捕捉韩语的细微之处。为了解决这些问题，我们提出了 Open Ko-LLM 领导板2，这是之前 Open Ko-LLM 领导板的改进版本。原始基准测试完全被新的任务所取代，这些任务与现实世界的能力更为接近。此外，我们还引入了四个新的原生韩语基准测试，以更好地反映韩语的独特特征。通过这些改进，Open Ko-LLM 领导板2旨在为推进韩语 LLM 提供更有意义的评估。

发布时间: 2/18/2025

查看原文

面向时间序列基础模型的神经扩展定律探究

作者: Qingren Yao, Chao-Han Huck Yang, Renhe Jiang, Yuxuan Liang, Ming Jin, Shirui Pan

arXiv:2410.12360v2 宣布类型: 交叉替换摘要：标度定律为时间序列基础模型（TSFM）的设计提供了宝贵的见解。然而，以往的研究主要集中于TSFM在分布内（ID）数据上的标度定律，而关于分布外（OOD）数据的标度行为及其对模型架构的影响则探索较少。在本文中，我们研究了两种常见的TSFM架构——仅编码器和仅解码器的Transformer，并在ID和OOD数据上探讨了它们的标度行为。这些模型在不同参数数量、计算预算和数据集大小下进行训练和评估。我们的实验揭示了TSFM的对数似然损失在ID和OOD设置中表现出相似的标度行为。我们进一步探讨了不同架构之间的标度特性，结合两个最先进的TSFM作为案例研究，表明模型架构在标度中起着重要作用。仅编码器的Transformer在标度性方面优于仅解码器的Transformer，而两个高级TSFM的架构改进主要提高了ID性能，但减少了OOD标度性。尽管TSFM的扩展有望推动性能突破，但由于对TSFM标度定律缺乏全面理解，这阻碍了开发出一个稳健的框架来指导模型标度。本文通过综合我们的发现并提供设计和扩展具有增强模型能力的更大TSFM的实际指导，填补了这一空白。

发布时间: 2/18/2025

查看原文

反转思维：通过偏好引导的反向推理预热增强大型语言模型

作者: Jiahao Yuan, Dehui Du, Hao Zhang, Zixiang Di, Usman Naseem

arXiv:2410.12323v2 通知类型: 替换-交叉摘要：大型语言模型（LLMs）在推理任务中表现出色，但在数学和复杂逻辑推理方面存在局限性。提高LLMs逻辑能力的现有方法要么通过可追踪或可验证的逻辑序列生成更可靠的回答，这些序列通过构建逻辑结构来提高可靠性，但增加了计算成本，要么引入了严格的逻辑模板规则，降低了灵活性。在本文中，我们提出了一种称为思维反转（RoT）的即插即用且成本效益高的推理框架，旨在增强LLMs在批量推理前的暖启动阶段的逻辑推理能力。RoT 利用了一种基于偏好导向的逆向推理预热策略，该策略通过元认知机制整合了逻辑符号进行伪代码规划，并通过成对偏好自我评估生成针对特定任务的提示，这些提示仅通过演示生成，符合由RLHF塑造的LLMs的认知偏好。通过逆向推理，我们利用认知偏好管理器评估知识边界，并进一步通过聚合已知任务的解决方案逻辑和未知任务的风格模板来扩展LLMs的推理能力。在各种任务上的实验表明，RoT 在逻辑推理准确性和效率方面均优于现有基线。

发布时间: 2/18/2025

查看原文

三模态融合：使用大型语言模型对齐视觉、文本和图数据以进行多行为推荐

作者: Luyi Ma, Xiaohan Li, Zezhong Fan, Kai Zhao, Jianpeng Xu, Jason Cho, Praveen Kanumala, Kaushiki Nag, Sushant Kumar, Kannan Achan

arXiv:2410.12228v2 宣告类型: replace-cross 摘要: 将多种数据模态集成对于提高个性化推荐系统的性能至关重要。传统的模型通常依赖单一的数据源，缺乏足够的深度来准确捕捉项目特性和用户行为的多维本质。本文介绍了一种新的多行为推荐框架，利用三模态融合（视觉、文本和图数据），并通过大型语言模型（LLM）进行对齐。通过引入视觉信息，我们能够捕捉到项目的上下文和美感特性；文本数据提供了用户兴趣和项目特性的详细见解；图数据则阐明了项目行为异构图内的关系。我们提出的模型称为三模态融合（TMF），利用LLM的力量对齐和整合这三种模态，实现对用户行为的全面表示。LLM模型用户与项目特征的自然语言交互。最初，LLM仅使用基于自然语言的提示进行预热。然后，我们基于交叉注意力和自我注意力机制设计了模态融合模块，将来自其他模型的不同模态整合到同一嵌入空间中，并将其整合到LLM中。大量的实验表明，我们的方法在提高推荐准确性方面非常有效。进一步的消融研究验证了我们模型设计的有效性以及TMF的益处。

发布时间: 2/18/2025

查看原文

通过潜在特征引导探索大语言模型的人格特质

作者: Shu Yang, Shenzhe Zhu, Liang Liu, Lijie Hu, Mengdi Li, Di Wang

arXiv:2410.10863v2 声明类型: replace-cross 摘要：大规模语言模型（LLMs）通过其生成人类语言文本的能力显著推进了对话系统和角色扮演代理的发展。虽然前期研究已经表明LLMs能够展现出独特的且一致的性格特征，但这些模型是如何编码和表达特定的性格特质的机制仍然知之甚少。为了解决这个问题，我们研究了文化规范和环境压力等因素如何被编码在LLMs中，进而影响其性格特质，这些因素是由社会决定论的理论框架指导的。受到LLM可解释性相关工作的启发，我们提出了一种无需训练的方法来通过提取和引导与模型中因素相对应的潜在特征来修改模型的行为，从而消除重新训练的需要。此外，我们从性格的角度分析了这些因素对模型安全性的影响。

发布时间: 2/18/2025

查看原文

FB-Bench：一项针对LLM响应人类反馈能力的细粒度多任务基准测试

作者: Youquan Li, Miao Zheng, Fan Yang, Guosheng Dong, Bin Cui, Weipeng Chen, Zenan Zhou, Wentao Zhang

arXiv:2410.09412v2 宣告类型: replace-cross 摘要：人类反馈在人类与大型语言模型（LLMs）之间互动中至关重要。然而，现有研究主要集中在单轮对话中对LLMs的基准测试。即使在旨在进行多轮对话的基准测试中，用户输入往往也是独立的，忽视了在真实使用场景中人类反馈的微妙和复杂性。为了填补这一研究空白，我们介绍了一种名为FB-Bench的精细粒度、多任务基准，旨在评估LLMs在中文真实使用场景中对人类反馈的响应能力。FB-Bench从两种主要的交互场景汲取灵感，包括591个精心策划的样本，涵盖了八种任务类型、五种回应缺陷类型和九种反馈类型。我们广泛评估了多种流行的LLMs，揭示了它们在不同交互场景中的表现存在显著差异。进一步分析表明，任务类型、人类反馈以及先前回应的缺陷也会显著影响LLMs的响应能力。我们的发现既突显了当前模型的优点，也指出了其局限性，为未来的研究提供了宝贵的见解和方向。代码和数据集可在 https://github.com/PKU-Baichuan-MLSystemLab/FB-Bench 获取。

发布时间: 2/18/2025

查看原文

更好的语言模型表现出更高的视觉对齐度

作者: Jona Ruthardt, Gertjan J. Burghouts, Serge Belongie, Yuki M. Asano

arXiv:2410.07173v2 宣告类型: replace-cross 摘要：文本-only 大型语言模型（LLMs）天然地与视觉世界对齐到什么程度？我们首次通过在辨别性视觉语言模型框架中使用冻结的文本表示，并在未见类上测量零样本泛化来直接分析这一问题。我们发现基于解码器的 LLMs 具有高度内在的视觉对齐。特别是，更强大的 LLMs 可靠地展示了更强的泛化能力。此外，在跨语言设置中，利用冻结的 LLMs 可以实现显著的性能提升，我们的方法在中文上超过了 CLIP 的准确率 1.4%，准确率达到 38.7%。我们提出的方法不仅提高了稳健性和泛化能力，还大大减少了配对数据和计算的需求，使视觉语言模型更加易用和适应性强。

发布时间: 2/18/2025

查看原文

通过不可约表示的视角重新审视多排列等变性

作者: Yonatan Sverdlov, Ido Springer, Nadav Dym

arXiv:2410.06665v2 公告类型: 替换交叉摘要：本文探讨了置换及相关群的表示的等变线性层的表征。与传统的使用参数共享的方法不同，我们采用了一种基于不可约表示和舒尔引理的替代方法。使用这种方法，我们为现有的模型如DeepSets、2-IGN图的等变网络和Deep Weight Space (DWS)网络提供了另一种推导。对于DWS网络的推导比以前的结果简单得多。接下来，我们将我们的方法扩展到未对齐的对称集，要求这些集对应于群的嵌入积的等变性。之前的工作在相当局限的条件下处理了这个问题，其中几乎所有的嵌入积等变层都是Siamese层。相反，我们在这个情况下完全表征了这些层，并表明在某些情况下存在大量的额外非Siamese层。我们还通过实验表明，在图异常检测、权重空间对齐和学习Wasserstein距离等任务中，这些额外的非Siamese层可以提高性能。我们的代码可在 \href{https://github.com/yonatansverdlov/Irreducible-Representations-of-Deep-Weight-Spaces}{GitHub} 获取。

发布时间: 2/18/2025

查看原文

SFTMix：利用Mixup配方提升语言模型指令调优效果

作者: Yuxin Xiao, Shujian Zhang, Wenxuan Zhou, Marzyeh Ghassemi, Sanqiang Zhao

arXiv:2410.05248v2 通知类型: replace-cross 摘要: 为了获得指令跟随能力，大型语言模型（LLMs）会经历指令微调，即使用下一个标记预测（NTP）在指令-响应对上进行训练。提高指令微调的努力通常集中在更高质量的监督微调（SFT）数据集上，通常需要使用专有LLM或人工标注的数据筛选。在本文中，我们采取了一种不同的方法，提出了SFTMix，这是一种新颖的Mixup基方法，可以将LLM指令微调提升到传统的NTP范式之上，而不依赖于精心筛选的数据集。鉴于LLM在语义表示空间中表现出不均匀的信心，我们认为不同信心水平的例子在指令微调中的作用应有所不同——信心高数据容易过拟合，而信心不足的数据难以泛化。基于这一见解，SFTMix 利用训练动态来识别不同信心水平的例子，将它们插值以弥合信心差距，并应用基于Mixup的正则化以支持在这些额外的插值例子上的学习。通过在不同信心区域传播监督信号并鼓励它们之间的线性行为，SFTMix 在信心高例子上缓解了过拟合，在信心不足的例子上增强了泛化。无论是在指令跟随还是特定于医疗保健的SFT任务中，我们都在不同的LLM家族和不同程度和质量的数据集上展示了SFTMix 的有效性，显示出一致的改进。通过对六个方向的广泛分析，突出了SFTMix 对数据筛选的兼容性、在计算受限场景中的适应性以及在更广泛应用中的可扩展性。

发布时间: 2/18/2025

查看原文

后验采样用于高效零样本图像编辑

作者: Feng Tian, Yixuan Li, Yichao Yan, Shanyan Guan, Yanhao Ge, Xiaokang Yang

arXiv:2410.04844v3 通告类型: replace-cross 摘要：在图像编辑领域，存在三个核心挑战：可控性、背景保留和效率。基于反演的方法依赖于耗时的优化过程来保留初始图像的特征，这导致效率较低，因为需要进行大量的网络推理。相反，非反演方法缺乏在背景相似性方面的理论支持，因为他们通过避免保持初始特征来实现高效性。因此，这些方法无法同时实现高效率和背景一致性。为了应对这些挑战和上述缺点，我们引入了PostEdit方法，该方法结合了后验方案来控制扩散采样过程。具体而言，引入了一个与初始特征和朗格万动力学相关的对应度量项，以优化给定目标提示生成的估算图像。大量实验结果表明，提出的PostEdit实现了最先进的编辑性能，同时准确地保留了未编辑区域。此外，该方法既不需要反演，也不需要训练，仅需大约1.5秒和18GB的GPU内存即可生成高质量的结果。

发布时间: 2/18/2025

查看原文