arXiv 论文列表

作者: Bowen Jiang, Yuan Yuan, Xinyi Bai, Zhuoqun Hao, Alyson Yin, Yaojie Hu, Wenyu Liao, Lyle Ungar, Camillo J. Taylor

arXiv:2502.10999v1 交叉公告类型: cross 摘要: 本文展示了扩散模型可以在不需要字体标签标注的情况下，仅通过原始图像实现可控多语言文本渲染。视觉文本渲染仍然是一个重大的挑战。尽管最近的方法将扩散过程条件化于字符上，但在大规模、真实世界的数据集中难以从其中检索出准确的字体标注，这阻碍了用户指定的字体控制。为了解决这一问题，我们提出了一种数据驱动的解决方案，将条件扩散模型与文本分割模型相结合，利用分割掩码在像素空间中以自监督的方式捕获和表示字体，从而消除对任何真实标签的需求，并使用户提供任意所需多语言字体的自定义文本渲染成为可能。实验提供了一个算法在零样本多字体和多语言文本编辑方面的概念证明，为社区和行业提供了实现通用视觉文本渲染的宝贵见解。

发布时间: 2/18/2025

查看原文

Elo评分可靠吗？在模型错定情况下的研究

作者: Shange Tang, Yuanhao Wang, Chi Jin

arXiv:2502.10985v1 交叉公告类型：交叉摘要：广泛应用于从竞技游戏到大型语言模型等多个领域的Elo评分，通常被认为是一个递增更新算法，用于估算一个稳态Bradley-Terry (BT) 模型。然而，我们对实际匹配数据集的经验分析揭示了两个令人惊讶的发现：（1）大多数游戏严重偏离BT模型和稳态的假设，这引发了对Elo可靠性的质疑。（2）尽管存在这些偏差，Elo仍然经常优于更复杂的评分系统，如mElo和对偶模型，这些系统专门设计用于考虑数据中的非BT组成部分，特别是在胜率预测方面。本文通过三个关键视角解释了这种意想不到的现象：（a）我们将Elo重新解释为在线梯度下降的一个实例，在错定和非稳态设置下也能提供无悔保证。（b）通过在来自传递但非BT模型（如强或弱递传递模型）的数据生成的广泛合成实验中展示，我们表明“实际匹配数据的稀疏性”是Elo在预测中优于更复杂评分系统的关键因素。（c）我们发现Elo的预测准确性和其排名性能之间存在强烈相关性，进一步支持了其在排名方面的有效性。

发布时间: 2/18/2025

查看原文

面向问题的文本嵌入

作者: Andrew Neeser, Kaylen Latimer, Aadyant Khatri, Chris Latimer, Naren Ramakrishnan

arXiv:2502.10976v1 声明类型: cross 摘要: 我们介绍了QuOTE（面向问题的文本嵌入），这是一种对检索增强生成（RAG）系统的新型增强，旨在通过改进文档表示以提高准确且细腻的检索效果。与传统的RAG管道依赖嵌入原始文本片段不同，QuOTE通过将文档片段与假设性问题进行增强，丰富了表示空间。这更好地对齐了文档嵌入与用户查询语义，并有助于解决诸如歧义和上下文相关性等问题。通过在多样化的基准测试中进行广泛的实验，我们证明QuOTE显著提高了检索准确性，包括多跳问答任务。我们的研究结果突显了问题生成作为基本索引策略的通用性，为将问题生成集成到基于检索的AI管道中开辟了新的途径。

发布时间: 2/18/2025

查看原文

神经网络记忆力更强：参数隔离与组合的力量

作者: Biqing Zeng, Zehan Li, Aladdin Ayesh

arXiv:2502.10966v1 宣布类型: cross 摘要: 在连续学习过程中，灾难性遗忘是预训练语言模型（PLMs）中的普遍问题，当模型依次在一系列任务上进行训练时，模型会失去之前获得的知识。模型保留旧任务的能力称为稳定性，而适应新任务的能力称为可塑性。因此，解决这个问题的关键在于找到模型可塑性和稳定性的trade-off。为了应对这一问题，本文提出了一种新的方法，以在模型的可塑性和稳定性之间取得平衡，从而减轻灾难性遗忘。具体来说，我们提出的解决方案利用了参数隔离和后续组合策略。在训练阶段，通过参数隔离方法使模型适应每个下游任务，以防止不同任务之间的潜在干扰。然后，我们使用任务算术方法将所有训练后的参数（包含所获得的知识）组合起来，并最终应用于骨干模型。在连续语言学习基准上的实证评估证实了我们方法的有效性，表明其在现有的先进方法上取得了显著的提升。

发布时间: 2/18/2025

查看原文

评分者应该作弊：特权信息 enables 专家级自动化评估

作者: Jin Peng Zhou, S\'ebastien M. R. Arnold, Nan Ding, Kilian Q. Weinberger, Nan Hua, Fei Sha

arXiv:2502.10961v1 宣告类型: cross 摘要：自动评估语言模型（LMs），即使用一个评分LM来评估候选LM，是一种加速评估过程及其相关成本的方法。但这种方法带来了一个悖论：我们如何能信任一个据说比候选LM弱的评分LM来评估超出两个模型能力范围的问题？例如，今天的LM在研究生级物理和奥林匹克级数学方面挣扎，使其在这些领域不可靠的评分者。我们证明，提供特权信息——如正确答案或问题特定的指南——可以改进对这些前沿问题的自动化评估。这种方法提供了两个关键优势。首先，它扩展了LMs评分器适用的问题范围。具体来说，较弱的模型现在可以评估较强模型的预测。其次，特权信息可以用来设计更具挑战性问题的更简单的变体，从而在任务表现普遍较低的情况下改善不同LMs的区分度。通过这种方法，通用的LM评分器在RewardBench上的性能达到了最先进的水平，超越了几乎所有专门调优的模型。LM评分器在Vibe-Eval上也优于个体的人类评分者，并在奥林匹克级数学问题上接近人类专家评分者。

发布时间: 2/18/2025

查看原文

一个循环视觉变换器展示了灵长类视觉注意的特征

作者: Jonathan Morgan, Badr Albanna, James P. Herman

arXiv:2502.10955v1 类型: 交叉学科摘要: 注意力在生物学和人工智能中都是基础性的，然而关于动物注意力和AI自注意力的研究仍然 largely disconnected。我们提出了一种递归视觉变换器（Recurrent Vision Transformer，Recurrent ViT），它将自注意力与递归记忆结合起来，使得当前输入和存储的信息都能指导注意力分配。仅通过在空间线索指示的方向改变检测任务中使用稀疏奖励反馈进行训练，我们的模型在被指示刺激上的准确性和响应速度方面表现出类似灵长类动物的特点，且这些性能随线索有效性增加而提高。自我注意力图的分析揭示了动态的空间优先级分配，在预期变化之前会重新激活，且有针对性的干扰产生了与灵长类前额眼区和上丘观察到的性能变化相似的结果。这些发现表明，在自注意力中整合递归反馈可以捕捉灵长类视觉注意力的关键方面。

发布时间: 2/18/2025

查看原文

在测试时学会停止过度思考

作者: Hieu Tran Bao, Nguyen Cong Dat, Nguyen Duc Anh, Hoang Thanh Tung

arXiv:2502.10954v1 宣告类型: cross 摘要: 测试时间缩放目前是继训练时间缩放达到极限后最有前景的研究领域之一。深度思考（DT）模型是一类递归模型，可以通过为更难的测试样本分配更多的计算量来实现从易到难的一般化。然而，由于无法确定测试样本的复杂性，DT模型在处理易和难的测试样本时都需要大量的计算。过多的测试时间计算是浪费的，并可能导致“过度思考”问题，即更多的测试时间计算会导致更差的结果。在这篇论文中，我们介绍了一种测试时间训练方法，用于确定在测试时间每个样本所需的最优计算量。我们还提出了Conv-LiGRU，一种高效且稳健的视觉推理新型递归架构。广泛的实验表明，Conv-LiGRU 比 DT 更稳定，有效缓解了“过度思考”现象，并且具有更高的准确率。

发布时间: 2/18/2025

查看原文

智能家居系统中配置错误修复预测的LLMs实证评估

作者: Sheikh Moonwara Anjum Monisha, Atul Bharadwaj

arXiv:2502.10953v1 交叉类型: cross 摘要：本实证研究评估了大型语言模型（LLMs）在预测智能家居系统配置错误修复方面的有效性。研究分析了三种主要的LLM——GPT-4、GPT-4o（GPT-4 Turbo）和Claude 3.5 Sonnet，使用四种不同的提示设计来评估它们识别适当修复策略和生成正确解决方案的能力。研究利用了从Home Assistant Community获取的129个调试问题数据集，重点分析了21个随机选定的案例。结果显示，在提供错误描述和原始脚本的情况下，GPT-4和Claude 3.5 Sonnet在策略预测方面的准确率达到了80%。GPT-4在不同类型的提示下表现出一致的性能，而GPT-4o虽在准确性上稍低，但在速度和成本效益方面具有优势。研究发现，提示设计显著影响模型性能，包含描述和原始脚本的综合提示效果最佳。本研究为提高智能家居系统配置的自动化错误修复提供了宝贵的见解，并展示了LLM在解决配置相关挑战方面的潜力。

发布时间: 2/18/2025

查看原文

CoLA：通过低秩激活实现的LLM高效预训练

作者: Ziyue Liu, Ruijie Zhang, Zhengyang Wang, Zi Yang, Paul Hovland, Bogdan Nicolae, Franck Cappello, Zheng Zhang

arXiv:2502.10940v1 宣告类型: cross 摘要: 大型语言模型（LLMs）正在革新许多科学和工程领域。然而，它们庞大的模型规模在预训练阶段对计算资源提出了极为苛刻的需求。虽然低秩分解可以减少模型参数，但其直接应用于LLM预训练往往会带来不可忽视的性能损失。为应对这一根本挑战，我们提出了CoLA及其内存高效实现CoLA-M。我们利用在模型激活中广泛观察到的低秩结构，在因子化的权重矩阵之间施加非线性变换以减少模型大小、提升模型容量和训练效率。在参数量从6000万到7亿的LLaMA模型上进行的实验表明，CoLA将计算成本降低至$\bf 2\pmb{\times}$，同时将训练吞吐量提高至$\bf 1.86\pmb{\times}$，同时保持全秩水平的性能。进一步地，CoLA-M在不牺牲吞吐量的情况下降低了内存成本，提供了一种在参数、计算和内存效率方面都具有综合优势的预训练方法。生成的LLMs也减小至$\bf 2\pmb{\times}$，这使得在资源受限的平台上具有更快的推理速度和更低的内存成本。

发布时间: 2/18/2025

查看原文

在大规模下MoE中的语义 specialization显现：DeepSeek R1 专家 specialization 研究

作者: Matthew Lyle Olson, Neale Ratzlaff, Musashi Hinck, Man Luo, Sungduk Yu, Chendi Xue, Vasudev Lal

arXiv:2502.10928v1 Announce Type: cross 摘要：DeepSeek-R1，最大的开源混合专家（MoE）模型，已经展示了与专有前沿模型相媲美的推理能力。先前的研究已经探索了MoE模型中的专家路由问题，但发现专家选择往往是依赖于令牌而不是语义驱动的。鉴于DeepSeek-R1增强了推理能力，我们研究其路由机制是否比以往的MoE模型展现出更大的语义专业化。为探索这一问题，我们进行了两项关键实验：（1）词汇多义性消歧任务，我们检验具有不同语义的词的专家激活模式；（2）认知推理分析，我们评估DeepSeek-R1在DiscoveryWorld的交互任务设置中的结构化思维过程。我们得出结论，DeepSeek-R1的路由机制更加意识到了语义，并且参与了结构化的认知过程。

发布时间: 2/18/2025

查看原文