arXiv:2502.12149v1 展示类型: cross
摘要: 我们研究了大型语言模型代理在竞争多代理环境中成功的影响因素,使用拍卖作为测试平台,其中代理通过出价来最大化利润。这些代理配备了竞拍领域的知识、反映物品偏好的不同人格,以及拍卖历史的记录。我们的研究将经典的拍卖场景扩展到一个实际环境中,多个代理在拍卖房屋时需权衡大小、位置和预算等因素,以在最低价格下获得最理想的房屋。特别地,我们探讨了三个关键问题:(a)人格如何影响代理在竞争环境中的行为?(b)代理是否能在拍卖过程中有效地了解竞争对手的行为?(c)人格分析如何被利用来通过理论心智等策略创建优势?通过一系列实验,我们分析了大型语言模型代理的行为,并揭示了新的发现。我们的测试平台称为HARBOR,为深入了解竞争环境中多代理工作流提供了宝贵平台。
arXiv:2502.12145v1 宣传类型:交叉
摘要:检索增强生成(RAG)作为一种通过融入外部知识检索来缓解大型语言模型(LLM)幻觉的强大方法已经出现。然而,现有的RAG框架往往不分青红皂白地应用检索,导致不必要的过度检索或在需要进行复杂推理时无法迭代检索。尽管最近的自适应检索策略能够自适应地导航这些检索策略,但它们仅基于查询复杂性进行预测,缺乏用户驱动的灵活性,因此无法满足多样化的用户应用需求。在本文中,我们提出了一种新颖的用户可控的RAG框架,使得能够动态调整准确性和成本之间的权衡。我们的方法利用了两个分类器:一个用于优先考虑准确性,另一个用于优先考虑检索效率。通过可解释的控制参数 $\alpha$,用户可以根据其特定需求在最小成本检索和高准确度检索之间无缝切换。我们实证演示了我们的方法有效地平衡了准确率、检索成本和用户可控性,使其成为面向实际应用场景的实用且可适应的解决方案。
arXiv:2502.12128v1 类型: cross
摘要:生成模型在最近的深度学习进展中占据了主导地位,显示出在动力系统中进行轨迹采样的强大潜力。然而,虽然潜在空间建模范式已经改变了图像和视频生成,但对于大多数动力系统来说,类似的方法更具挑战性。这些系统——从化学分子结构到集体人类行为——是由实体之间的相互作用描述的,因此它们本质上与连接模式和实体随时间的可追溯性相关。我们的方法 LaM-SLidE(基于链接实体的空间动力系统潜在空间建模)结合了图神经网络的优点,即跨时间步的实体可追溯性,以及图像和视频生成领域近期进展的效率和可扩展性,其中预训练的编码器和解码器被冻结,以在潜在空间中进行生成建模。LaM-SLidE 的核心思想是引入标识符表示(IDs),以便从潜在系统表示中检索实体属性,如实体坐标,从而实现可追溯性。实验结果显示,LaM-SLidE 在不同领域的速度、准确性和泛化能力方面表现优异。(代码可在 https://github.com/ml-jku/LaM-SLidE 获取)
arXiv:2502.12120v1 类型: cross
摘要: 标度定律指导大型语言模型(LLMs)的发展,通过提供模型大小、令牌和计算之间的最佳平衡估计。最近,跨预训练数据集和下游任务的损失到损失标度定律成为了理解并改进LLM性能的强大工具。在本文中,我们探究了哪些因素对损失到损失标度影响最大。我们的实验揭示了预训练数据和分词器决定了标度趋势。相比之下,模型大小、优化超参数,甚至如Llama这类基于变压器的模型和Mamba这类状态空间模型之间的重要架构差异,其影响是有限的。因此,实践者应该精心选择适合的预训练数据集以获得最佳的下游性能,而架构和其他设置可以自由优化以提高训练效率。
arXiv:2502.12119v1 交叉类型:公告
摘要:视觉指令调优通过细化预训练的多模态大型语言模型(MLLMs)来提升其在实际任务中的性能。然而,视觉指令数据集的快速扩展引入了大量数据冗余,导致计算成本过高。现有的数据选择方法主要依赖代理模型或基于损失的指标,这两种方法都由于需要进行模型推理和反向传播而带来了显著的计算开销。为了解决这一挑战,我们提出了一种名为PRISM的新颖无训练方法,以实现高效的数据选择。与现有方法不同,PRISM消除了对代理模型、预训练热身和梯度优化的依赖。相反,它利用皮尔逊相关分析来量化MLLMs的内在视觉编码特性,计算任务特定的相关性分数以识别具有高价值的实例。这不仅实现了数据高效的选取,还保持了原始性能。在多种MLLM上的经验评估表明,PRISM将视觉指令调优和数据选择所需的整体时间降低到传统方法的30%,同时在八个跨模态和三个语言理解基准上超过了完全微调的模型,最终性能相对改进幅度达到了101.7%。
arXiv:2502.12109v1 Announce Type: cross
摘要:尽管心理测量学研究人员最近开始探索将大型语言模型(LLMs)作为人类参与者的替代品,但LLMs常常无法生成具有人类多样性的异质数据,这削弱了它们在推进社会科学研究方面的价值。为了解决这些问题,我们探讨了理论指导下的个性结构化访谈(PSI)作为模拟个性研究中人类反应的工具的可能性。在该方法中,模拟基于具体的现实人类访谈转录,旨在针对感兴趣的个性构建。我们提供了一个不断增长的数据集,包含357份结构化访谈转录,来自一个代表性样本,每份文档包含一个个体对32个精心设计的开放性问题的回答,旨在收集基于理论的个性证据。此外,基于心理测量学研究,我们总结了一套评估框架,用于系统地验证LLM生成的心理测量数据。从三项实验的结果来看,精心设计的结构化访谈可以提高LLM模拟的个性数据中的人类多样性,并预测与个性相关的行为结果(即组织公民行为和反生产性工作行为)。我们进一步讨论了理论指导下的结构化访谈在LLM基础模拟中的作用,并概述了一种设计结构化访谈以模拟符合人类行为的心理测量研究的数据的一般框架。
arXiv:2502.12108v1 交叉公告类型:cross
摘要:集成梯度(IG),一种广泛使用的基于路径的归因方法,通过沿从基线到输入的直线路径整合模型梯度来为输入特征分配重要性评分。虽然在某些情况下效果良好,但我们展示了直线路径会导致不正确的归因。在本文中,我们确定了这些错误归因的原因,并提出了一种替代方法,将输入空间视为黎曼流形,并通过沿测地线整合梯度来计算归因。我们称这种方法为测地线集成梯度(GIG)。为了近似测地线路径,我们介绍了两种技术:对于较小的模型,采用基于k-最近邻的方法;对于较大的模型,采用基于随机变分推理的方法。此外,我们提出了一种新的公理,即强完备性,扩展了IG所满足的公理。我们展示了这种性质对于归因方法是可取的,并且GIG是唯一满足这种性质的方法。通过在合成数据和真实世界数据上的实验,我们证明了GIG优于现有的可解释性方法,包括IG。
arXiv:2502.12088v1 Announce Type: cross
摘要:本文展示了推动大规模语言模型(LLMs)成功的工具和原则可以重新利用来应对分布级任务,这些任务的目标是预测数据生成分布的属性,而不是个体数据点的标签。这些任务涵盖了统计推断问题,如参数估计、假设检验或互信息估计。在传统的机器学习管道中重新界定这些任务具有挑战性,因为监督通常与个体数据点相关联。我们提出了元统计学习这一框架,该框架受到多实例学习的启发,将统计推断任务重新表述为监督学习问题。在此方法中,整个数据集被当作神经网络的单一输入,以预测分布级别的参数。不采用位置编码的变压器架构由于其置换不变性性质,自然适用于此方法。通过在大规模合成数据集上进行训练,元统计模型可以利用基于变压器的大规模语言模型的可扩展性和优化基础设施。我们使用假设检验和互信息估计的应用展示了该框架的通用性,并在小型数据集上显示出了强大的性能,特别是在传统神经方法难以应对的情况下。
arXiv:2502.12067v1 交叉类型: cross
摘要: 链式思维(CoT)已被证明可以增强大型语言模型(LLMs)的推理能力。最近的进展,如OpenAI的o1和DeepSeek-R1表明,在推理过程中扩大CoT序列的长度可以进一步提高LLM的推理性能。然而,由于LLM解码的自回归性质,较长的CoT输出会导致推理延迟线性增加,从而影响用户体验,尤其是在CoT超过10,000个标记时。为了解决这一限制,我们分析了CoT输出中标记的语义重要性,并揭示了它们对推理的贡献各不相同。基于这一洞见,我们提出了TokenSkip,这是一种简单而有效的方法,使LLMs能够选择性地跳过不重要的标记,从而实现可控的CoT压缩。广泛的任务和模型实验表明,TokenSkip在减少CoT标记使用量的同时,能保持强大的推理性能。值得注意的是,当应用于Qwen2.5-14B-Instruct时,在GSM8K上,TokenSkip将推理标记减少了40%(从313减少到181),性能下降不到0.4%。
arXiv:2502.12064v1 类别:跨领域
摘要:大规模语言模型(LLMs)的兴起促进了先进自然语言处理(NLP)应用程序的性能提高和开发。然而,这些模型在恶意使用时也可能带来风险,例如传播假新闻、传播有害内容、冒充个人或帮助学术抄袭等。这是因为LLMs能够生成高质量的文本,这些文本难以与人类撰写的文本区分开来。GLTR,即大型语言模型测试间,是由MIT-IBM Watson AI Lab和HarvardNLP共同开发的一种视觉工具,旨在基于GPT-2检测机器生成的文本,并根据文本中词语被机器生成的概率来突出显示这些词语。GLTR的一个局限性是,它返回的结果有时会模糊不清,导致混淆。这项研究旨在探索在IberLef-AuTexTification 2023共享任务中改进GLTR检测AI生成文本有效性的各种方法,涵盖英语和西班牙语。实验结果表明,基于GLTR的GPT-2模型在英语数据集上的宏观F1分数为80.19%,仅落后于排名第一的模型(80.91%)。然而,在西班牙语数据集上,我们获得了66.20%的宏观F1分数,与表现最好的模型相差4.57%。