arXiv 论文列表

作者: Nishanth Nakshatri, Shamik Roy, Rajarshi Das, Suthee Chaidaroon, Leonid Boytsov, Rashmi Gangadharaiah

arXiv:2412.10418v2 公告类型: replace-cross 摘要：具有前瞻启发式的受约束解码(CDLH)是一种非常有效的方法，用于将LLM生成的内容与人类偏好对齐。然而，每次生成的令牌需要进行广泛的前瞻展开操作，使得CDLH在实践中成本极高，导致低采用率。相反，常用的解码策略如贪婪解码极其高效，但对约束的满足率很低。我们提出了一种具有推测性前瞻的受约束解码(CDSL)，该技术显著提高了CDLH的推理效率，且没有经历贪婪解码所看到的剧烈性能下降。CDSL受到了最近提出的推测性解码思想的启发，该思想使用较小的草稿LLM进行生成，较大的目标LLM进行验证。在CDSL中，草稿模型用于生成前瞻，然后通过目标LLM和任务特定的奖励函数进行验证。这一过程通过减少计算负担来加速解码，同时保持强大的性能。我们在两个约束解码任务中使用三种LLM家族评估了CDSL，在不显著降低性能的情况下，实现了2.2倍到12.15倍的加速。

发布时间: 2/12/2025

查看原文

跨接对话性和协作性信号以进行对话推荐

作者: Ahmad Bin Rabiah, Nafis Sadeq, Julian McAuley

arXiv:2412.06949v2 公告类型: replace-cross 摘要：对话推荐系统（CRS）利用对话中的上下文信息来生成推荐，但由于缺乏捕捉准确推荐所必需的用户-项目交互模式的协同过滤（CF）信号，往往会遇到困难。我们引入了Reddit-ML32M数据集，将Reddit对话与MovieLens 32M的交互链接起来，通过利用协同知识来丰富项目表示，并解决对话数据集中交互稀疏性的问题。我们提出了一种基于大语言模型（LLM）的框架，利用Reddit-ML32M将LLM生成的推荐与CF嵌入对齐，以优化排名以提高性能。我们将我们的框架与三种基线进行评估：仅使用CRS任务交互的基于CF的推荐器、传统的CRS模型以及依赖于对话上下文但不包含项目表示的大语言模型方法。我们的方法实现了一致的改进，包括命中率（Hit Rate）的12.32%的提升以及NDCG的9.9%的改进，超过了依赖于对话上下文但缺乏协同项目表示的最优基线。

发布时间: 2/12/2025

查看原文

适应性通信支持对基于大语言模型的人机协作的影响

作者: Shipeng Liu, FNU Shrutika, Boshen Zhang, Zhehui Huang, Gaurav Sukhatme, Feifei Qian

arXiv:2412.06808v2 通告类型: 替换-交叉摘要：有效的机器人和人类协作需要机器人根据人类的需求、任务要求和复杂性来调整其角色和支持水平。传统的机器人与人类团队合作通常依赖于预设的机器人通信方案，这限制了在复杂任务中的团队合作适应性。利用大型语言模型的强大通信能力，我们提出了一种基于多模态语言反馈的人机团队框架（HRT-ML），该框架旨在通过调整基于语言的反馈的频率和内容来增强人机互动。HRT-ML框架包括两个核心模块：一个协调器，用于提供高层次和低频率的战略指导，以及一个管理器，用于提供特定子任务的高频率指令，使机器人能与人类队友进行被动和主动互动。为了评估语言反馈在协作场景中的影响，我们在一个改进的 Overcooked 环境中进行了实验，该环境的任务复杂性（简单、中等、困难）和反馈频率（非活跃、被动、主动、超活跃）各不相同。我们的结果显示，当任务复杂相对超过人类能力时，人类队友更倾向于能够提供频繁主动支持的机器人代理。然而，当任务复杂性超过大型语言模型（LLM）的能力时，超活跃机器人代理产生的杂乱和不准确的反馈可能会反而阻碍团队表现，因为人类队友需要增加努力来解释和回应大量通信，而效果有限。我们的结果为机器人代理动态调整其通信频率和水平，与人类无缝协作并实现改进的团队合作性能提供了通用原则。

发布时间: 2/12/2025

查看原文

大型语言模型的道德之心（或）道德之心的大型语言模型

作者: Avner Seror

arXiv:2412.04476v2 通知类型: 替换交叉摘要：随着大语言模型（LLMs）在各个行业的决策中发挥作用，出现了一些关键问题：它们是否表现出一种“道德思维”——即一套引导其道德判断的一致性道德原则——以及这种推理是否一致或多样？为探讨这一问题，我们向主要提供者提供了结构化的道德场景集，创建了此类最大的数据集之一。我们的理性测试结果显示，每个提供者至少有一个模型的行为与大约稳定的一致性道德原则一致，几乎就像在优化一个编码道德推理的效用函数。我们估计了这些效用函数并发现，模型倾向于聚集在中立的道德立场上。为进一步表征道德多样性，我们采用了非参数排列方法，基于偏好模式构建了一个概率相似性网络。这种分析显示，虽然大致理性的模型拥有核心的道德结构，但差异依然存在：大约一半的模型表现出更大的道德适应性，跨越了不同的视角，而余下的则坚守更为僵化的道德结构。

发布时间: 2/12/2025

查看原文

适应性梯度下降优化中初始步骤的重新审视

作者: Abulikemu Abuduweili, Changliu Liu

arXiv:2412.02153v2 适配类型: replace-cross 摘要: 自适应梯度优化方法（如 Adam）因其能够实现更快的收敛而在各种机器学习任务中训练深度神经网络方面非常普遍。然而，这些方法在泛化能力上往往不如随机梯度下降（SGD），特别是在训练 Transformer 模型时表现出不稳定性。在这项工作中，我们表明标准的第二阶矩估计初始化（$v_0 = 0$）是导致这些限制性因素的一个重要原因。我们引入了一种简单而有效的解决方案：使用非零值初始化第二阶矩估计，可以采用数据驱动或随机初始化策略。实验证明，我们的方法不仅稳定了收敛，而且还增强了自适应梯度优化器的最终性能。此外，通过采用所提出的初始化策略，Adam 达到了与许多最近提出的自适应梯度优化方法变体相当的性能。我们的代码可在 https://github.com/Walleclipse/Adam_Initialization 获取。

发布时间: 2/12/2025

查看原文

OBI-Bench: LMMs能在研究甲骨文古文字上发挥作用吗？

作者: Zijian Chen, Tingzhu Chen, Wenjun Zhang, Guangtao Zhai

arXiv:2412.01175v2 宣告类型: 替换交叉摘要：我们引入了OBI-Bench，这是一个全面的基准测试，旨在系统地评估大型多模态模型（LMMs）在需要专家级领域知识和深思熟虑认知的整个过程甲骨文处理任务。OBI-Bench 包括5,523张精心收集的多来源图像，涵盖了五个关键领域的难题：识别、重新组合、分类、检索和破译。这些图像涵盖了考古发现和一线研究学者多年来的工作范围，包括从发掘到合成的多个阶段的字体外观，如原始甲骨文、墨书拓片、甲骨文碎片、提取的单字以及手写字符。与现有的基准测试不同，OBI-Bench关注于甲骨文特定的高级视觉感知和推理，挑战LMMs在任务上表现得像专家一样。对6种专有LMMs以及17种开源LMMs的评估揭示了OBI-Bench带来的重大挑战和要求。即使是GPT-4o、Gemini 1.5 Pro和Qwen-VL-Max的最新版本，在某些细微的感知任务中仍然远远落后于公众级别的普通人类。然而，它们在破译任务上的表现与未经训练的人类相当，表明它们在提供新的解释视角和生成创造性猜测方面具有显著的能力。我们希望OBI-Bench能够促进社区开发针对古代语言研究的多模态领域模型，并进一步深入发掘和增强这些尚未充分利用的LMM潜力。

发布时间: 2/12/2025

查看原文

不可知的预测极限

作者: Jiani Yan, Charles Rahal

arXiv:2411.19223v5 通知类型: 交叉替换摘要: 我们提出了一种严格的预测误差分解，强调并非所有的“不可约化”误差都是真正无法改变的。许多领域可以从测量、构建效度和建模的逐步改进中受益。我们的方法展示了如何通过改进数据（包括目标和特征）以及精炼的算法，使看似“不可预测”的结果变得更为处理。通过区分随机误差和先验误差，我们阐明了准确性可能如何随着数据的改进和算法的精炼而渐近地提高——尽管固有的随机性可能仍然存在——并提供了一个坚实的框架，以推进计算研究。

发布时间: 2/12/2025

查看原文

大型语言模型在定性研究中的应用——一项系统映射研究

作者: Cau\~a Ferreira Barros, Bruna Borges Azevedo, Valdemar Vicente Graciano Neto, Mohamad Kassab, Marcos Kalinowski, Hugo Alexandre D. do Nascimento, Michelle C. G. S. P. Bandeira

arXiv:2411.14473v3 宣告类型: replace-cross 摘要：医学、教育和社会科学等领域中基于文本的数据呈指数增长，已经超越了传统定性分析方法的能力，这些方法耗时且容易受到主观性的影响。凭借先进生成AI的强大支持，大型语言模型（LLMs）已作为变革性的工具出现，能够自动化和提升定性分析。本研究系统性地梳理了LLMs在定性研究中的应用文献，探讨了其应用背景、配置、方法论和评估指标。研究发现，LLMs被广泛应用于各个领域，显示出自动化的潜力，可以取代需要大量人力投入的传统流程。然而，依赖提示工程、偶尔的不准确性以及上下文限制等挑战仍然是重要的障碍。本研究强调了将LLMs与人类专业知识结合、提高模型的稳健性以及改进评估方法论的机会。通过综合趋势并识别研究缺口，本研究旨在指导未来在定性分析中应用LLMs的创新。

发布时间: 2/12/2025

查看原文

Transformer 神经过程 - 核回归

作者: Daniel Jenson, Jhonathan Navott, Mengyan Zhang, Makkunda Sharma, Elizaveta Semenova, Seth Flaxman

arXiv:2411.12502v3 Announce Type: replace-cross 摘要：神经过程(NP)是一类快速发展的模型，旨在直接建模随机过程的后验预测分布。最初作为高斯过程(GP)的一种可扩展替代方案开发，而GP由于其$O(n^3)$的运行时间复杂度受限，最现代的NP通常可以与GP匹敌，但仍然由于其注意力机制存在$O(n^2)$的瓶颈。我们引入了变换器神经过程-核回归(TNP-KR)，这是一种可扩展的NP，其中包括：(1) 一个核回归块(KRBlock)，这是一个简单、可扩展、参数高效的变换器块，其复杂度为$O(n_c^2 + n_c n_t)$，其中$n_c$和$n_t$分别是上下文点和测试点的数量；(2) 基于核的注意力偏差；以及(3) 两种新的注意力机制：扫描注意力(SA)，一种记忆高效的基于扫描的注意力机制，当与基于核的偏差结合使用时，可以使TNP-KR具有平移不变性，以及深度核注意力(DKA)，一种类似于Performers的注意力机制，隐式地引入了距离偏差，并进一步将复杂度降低到$O(n_c)$。这些增强功能使两种TNP-KR变种能够在单个24GB GPU上的一分钟内进行超过100万测试点和超过10万上下文点的推理。在涵盖了元回归、贝叶斯优化、图像完成和流行病学等多个基准测试中，使用DKA的TNP-KR几乎在所有基准测试中都优于其Performers对应版本，而使用SA的TNP-KR则达到最佳效果。

发布时间: 2/12/2025

查看原文

RS-MoE：一种用于遥感图像描述和视觉问答的混合专家视觉-语言模型

作者: Hui Lin, Danfeng Hong, Shuhang Ge, Chuyao Luo, Kai Jiang, Hao Jin, Congcong Wen

arXiv:2411.01595v2 宣传类型: 交叉替换摘要：远程 sensing 图像字幕 (RSIC) 面临独特的挑战，并在应用中发挥着关键作用。传统的 RSIC 方法往往难以生成丰富多样的描述。近年来，随着视觉语言模型 (VLMs) 的发展，人们开始将这些模型集成到 remote sensing 领域，并引入专门设计的数据集以增强 VLM 的训练。本文提出 RS-MoE，这是一种专门为 remote sensing 领域定制的第一代混合专家视觉语言模型。与传统的 MoE 模型不同，RS-MoE 的核心是 MoE 块，它结合了新颖的指令路由器 (Instruction Router) 和多个轻量级大语言模型 (LLMs) 作为专家模型。指令路由器旨在为每个相应的 LLM 生成特定的提示，从而引导它们关注 RSIC 任务的不同方面。这一设计不仅使每个专家 LLM 能够专注于任务的一个特定子集，从而增强生成字幕的特异性和准确性，还通过促进子任务的并行处理提高了模型的可扩展性。此外，我们提出了一种两阶段训练策略来调整我们的 RS-MoE 模型，以防止由于稀疏性导致的性能下降。我们使用提出的训练策略在 RSICap 数据集上微调了我们的模型。在 RSICap 数据集上的实验结果，以及在没有额外微调的其他传统数据集上的评估表明，我们的模型在生成精确且上下文相关描述方面达到了最新的技术水平。值得注意的是，我们的 RS-MoE-1B 变体的性能与 13B 的 VLM 相当，显示出我们模型设计的高效性。此外，我们的模型在 Remote Sensing Visual Question Answering (RSVQA) 任务上的一致性性能表明了其强大的泛化能力。

发布时间: 2/12/2025

查看原文