arXiv 论文列表

局部文化知识在大型语言模型中得以保存并可控

作者: Veniamin Veselovsky, Berke Argin, Benedikt Stroebl, Chris Wendler, Robert West, James Evans, Thomas L. Griffiths, Arvind Narayanan

arXiv:2504.10191v1 交叉公告类型摘要: 就像人类在说新语言时会受到母语的影响，LLMs 在生成其他语言的内容时往往默认使用以英语为中心的回应。尽管如此，我们观察到本地文化信息仍然存在于模型中，并且可以很容易地激活以进行文化定制。我们首先证明，明确提供文化背景在提示中可以显著提高模型生成文化本地化回应的能力。我们将模型在有与没有明确文化背景之间的性能差异称为显式-隐式本地化差距，这表明虽然文化知识存在于LLMs中，但如果未提供明确的文化背景，文化知识可能不会自然地在多语言交互中浮现。尽管存在明确提示的好处，但是回答在多样性和减少刻板印象方面有所减少。其次，我们发现一种适用于我们探索的所有非英语语言的明确文化定制向量，可以使LLMs从合成的英语文化世界模型引导到每个非英语文化的世界。引导后的回应保留了隐式提示的多样性，并减少了刻板印象，以极大地提高定制的可能性。我们讨论了明确文化定制在理解LLMs中保留的替代文化世界模型的保守性及其在翻译、文化定制方面的可控实用性，并讨论了通过柔和控制扩展LLMs功能和吸引力的可能性。

发布时间: 4/15/2025

查看原文

通过嵌入表示预热实现高效的生成模型训练

作者: Deyuan Liu, Peng Sun, Xufeng Li, Tao Lin

arXiv:2504.10188v1 宣布类型: cross 摘要: 扩散模型在生成高维数据方面表现出色，但在训练效率和表示质量上远逊于自监督方法。我们发现一个关键瓶颈：训练过程中高质量、语义丰富的表示被未充分利用，显著减缓了收敛速度。我们的系统分析揭示了一个关键的表示处理区域——主要在早期层中，在生成之前，模型在此处学习语义和结构模式。为了解决这个问题，我们提出了嵌入表示预热（Embedded Representation Warmup，ERW）框架，在第一阶段中，ERW模块作为预热，用预训练的高质量表示初始化扩散模型的早期层。这种预热减轻了从零开始学习表示的负担，从而加速了收敛并提升了性能。我们的理论分析表明，ERW的效果取决于其精确集成到特定的神经网络层——称为表示处理区域——在此区域，模型主要处理和转换特征表示，为后续生成做准备。进一步的研究表明，ERW不仅能加速训练收敛，还能提升表示质量：实验结果表明，与当前最先进的方法REPA相比，我们的方法在训练速度上实现了40倍的加速。代码可以参见 https://github.com/LINs-lab/ERW。

发布时间: 4/15/2025

查看原文

深度推理翻译 via 强化学习

作者: Jiaan Wang, Fandong Meng, Jie Zhou

arXiv:2504.10187v1 交叉通知类型摘要：近期，深度推理大语言模型（例如OpenAI的o1/o3和DeepSeek-R1）在各种复杂任务中展现出了令人鼓舞的性能。自由翻译是多语言世界中一个重要且有趣的任务，需要超出逐词翻译并考虑到文化差异。这一任务在深度推理大语言模型中仍然未被充分探索。本文介绍了DeepTrans，这是一种通过强化学习学习自由翻译的深度推理翻译模型。具体而言，我们精心构建了一个奖励模型，该模型在翻译结果和思维过程上都设有预定义的评分标准。给定源句子，奖励模型在强化学习过程中教会深度翻译模型如何进行思考和自由翻译。这样，训练DeepTrans不需要任何标注的翻译，避免了大量人力或资源密集型的数据合成。实验结果表明了DeepTrans的有效性。以Qwen2.5-7B作为骨干模型，DeepTrans在文献翻译中的性能提高了16.3%，并优于优秀的深度推理基线模型以及使用合成数据微调的基线模型。此外，我们在RL探索过程中总结了失败和有趣的研究发现。我们希望这项工作能够启发其他研究人员从事自由翻译的研究。

发布时间: 4/15/2025

查看原文

LLM去学习揭示了当前基准中强于预期的核心集效应

作者: Soumyadeep Pal, Changsheng Wang, James Diffenderfer, Bhavya Kailkhura, Sijia Liu

arXiv:2504.10185v1 宣告类型: 横跨领域摘要: 大型语言模型遗忘已成为确保通过从预训练模型中移除不良数据-模型影响来保证安全性和受控模型行为的同时保留一般实用性的一个关键挑战。最近，大量的努力已被投入开发LLM遗忘基准测试，例如WMDP（大规模破坏性代理）和MUSE（机器遗忘六面评估），这些基准测试促进了标准化遗忘性能评估和方法比较。尽管它们很有用，但在这些基准测试中，我们首次发现了新型的coreset效应。具体来说，我们发现使用原始（全员）遗忘集进行的LLM遗忘可以通过一个显著更小的子集（充当“coreset”）有效地维持，例如遗忘集的5%，即使随机选择也是如此。这表明，在这些基准测试中，即使在极其低数据量的环境下，LLM遗忘也能够出奇地容易完成。我们证明，无论使用哪种LLM遗忘方法（例如NPO（负偏好优化）和RMU（表征误导遗忘），这些方法在这些基准测试中很流行），这种coreset效应仍然很强。这一令人惊讶的coreset效应在各种数据选择方法（从随机选择到更复杂的启发式方法）下也具有鲁棒性。我们从关键词的角度解释了在LLM遗忘中发生的coreset效应，表明从遗忘集中提取的关键词本身对遗忘效果有显著贡献，表明当前的遗忘主要由一组高影响的令牌驱动，而不是整个数据集。我们进一步从其他维度，例如模式连通性和抵御牢笼攻击的鲁棒性，验证了coreset遗忘模型的忠实度。相关代码可在 https://github.com/OPTML-Group/MU-Coreset 获取。

发布时间: 4/15/2025

查看原文

HalluSearch 在 SemEval-2025 任务 3 中：一种增强搜索的 RAG 管道用于幻觉检测

作者: Mohamed A. Abdallah, Samhaa R. El-Beltagy

arXiv:2504.10168v1 放号类型: 横跨摘要：在本文中，我们提出了HalluSearch，这是一个多语言管道，旨在检测大型语言模型（LLM）输出中的伪造文本片段。作为Mu-SHROOM（多语言共享任务中的幻觉及相关过度生成错误）的一部分开发，HalluSearch 结合了检索增强验证与细粒度事实分割，以在十四种不同的语言中识别和定位幻觉。实证评估表明，HalluSearch 表现良好，在英语（前十名以内）和捷克语中分别排名第四个。虽然系统基于检索的方法在一般情况下证明是稳健的，但在在线覆盖有限的语言中却面临挑战，这突显了进一步研究的必要性，以确保在不同语言背景下的一致性幻觉检测。

发布时间: 4/15/2025

查看原文

C-FAITH：中文细粒度自动幻觉评估基准

作者: Xu Zhang, Zhifei Liu, Jiahao Wang, Huixuan Zhang, Fan Xu, Junzhe Zhang, Xiaojun Wan

arXiv:2504.10167v1 类别：交叉学科摘要：尽管大型语言模型取得了快速进展，它们仍然高度容易生成幻觉，这极大地阻碍了它们的广泛应用。幻觉研究需要动态且精细的评估。然而，大多数现有的幻觉基准（尤其是中文语言领域）依赖于人工标注，这使得自动且成本效益高的幻觉评估变得颇具挑战性。为了解决这一问题，我们引入了HaluAgent，这是一种基于某些知识文档自动构建精细问答数据集的代理框架。我们的实验表明，手动设计的规则和提示优化可以提高生成数据的质量。使用HaluAgent，我们构建了从网络爬取获得的1,399份知识文档中构造而成的C-FAITH，共有60,702个项目。我们使用我们提出的C-FAITH全面评估了16种主流LLM，提供了详细的实验结果和分析。

发布时间: 4/15/2025

查看原文

WildLive：UAV上近乎实时的野生动植物追踪

作者: Nguyen Ngoc Dat, Tom Richardson, Matthew Watson, Kilian Meier, Jenna Kline, Sid Reid, Guy Maalouf, Duncan Hine, Majid Mirmehdi, Tilo Burghardt

arXiv:2504.10165v1 交叉类型: cross 摘要：通过高分辨率视频处理直接在无人机上进行野生动物的实时追踪在现有文献中尚未得到广泛探索，大多数现有的解决方案依赖于将视频流传输到地面站以支持导航。然而，超视距自主动物响应飞行控制以及/或特定任务的个体和行为识别任务在一定程度上依赖于这种能力。为应对这一问题，我们介绍了WildLive——一种适用于无人航空车辆（UAV）上的实时动物检测与追踪框架，该框架可运行高分辨率图像并在17fps+精度下处理高清视频，在4K视频流上的精度为7fps+，适合在高空飞行期间运行，以最小化对动物的干扰。我们的系统针对Jetson Orin AGX嵌入式硬件进行了优化。该系统结合了稀疏光流追踪的高效性和任务特定的采样与设备优化的、已证明有效的YOLO驱动的对象检测和分割技术。本质上，计算资源集中于高不确定性的时间空间区域，从而显著提高无人机的处理速度，同时在无需特定领域精度损失的情况下保持高准确性。此外，我们还介绍了我们的WildLive数据集，该数据集包含来自肯尼亚奥尔佩杰塔保护区内采集的4K无人机视频的200,000多个注释动物实例，共计19,000多帧。所有帧包含ground truth边界框、分割掩码，以及个体追踪片段和轨迹。我们与当前对象跟踪方法（包括OC-SORT、ByteTrack和SORT）进行了比较。使用嵌入式硬件进行的多动物跟踪实验证实，可以在无人机上实现实时高分辨率野生动物追踪，同时保持所需的高度准确性，以满足未来导航和任务特定的动物中心自主操作需求。

发布时间: 4/15/2025

查看原文

基于R1-Zero-like强化学习推进LLM驱动的机器翻译：MT-R1-Zero

作者: Zhaopeng Feng, Shaosheng Cao, Jiahan Ren, Jiayuan Su, Ruizhe Chen, Yan Zhang, Zhe Xu, Yao Hu, Jian Wu, Zuozhu Liu

arXiv:2504.10160v1 Cross 类型摘要：大规模强化学习（RL）方法在提高大型语言模型（LLMs）的推理能力方面已经 proven 高效，特别是在具有可验证解决方案的任务中，如数学和编程。然而，将这一理念应用于机器翻译（MT），其中输出的格式是灵活的，并且很难通过显式的规则自动评估，这一领域仍然缺乏探索。在本文中，我们介绍了 MT-R1-Zero，这是第一个无需监督微调或冷启动的 R1-Zero RL 框架在 MT 方面的开源适应。我们提出了一种规则度量混合奖励机制，通过新兴的推理来引导 LLMs 提高翻译质量。在 WMT 24 英语-汉语基准测试上，我们的 MT-R1-Zero-3B-Mix 达到了竞争性的性能，平均优于 TowerInstruct-7B-v0.2 1.26 分。同时，我们的 MT-R1-Zero-7B-Mix 在所有度量标准上的平均得分为 62.25，与先进的专有模型（如 GPT-4o 和 Claude-3.5-Sonnet）持平，而 MT-R1-Zero-7B-Sem 变体在语义度量上达到了最先进的分数。此外，我们的工作在离分布机器翻译任务上展示了强大的泛化能力，牢固支持多语言和低资源设置。通过对不同初始化和奖励机制下模型行为的广泛分析，我们提供了有关奖励设计、LLM 可适应性、训练动力学和 R1-Zero 框架内新兴推理模式在机器翻译中的关键作用的先驱性见解。我们的代码可在 https://github.com/fzp0424/MT-R1-Zero 获取。

发布时间: 4/15/2025

查看原文

COUNTS: 在分布偏移条件下对物体检测器和多模态大型语言模型进行基准测试

作者: Jiansheng Li, Xingxuan Zhang, Hao Zou, Yige Guo, Renzhe Xu, Yilong Liu, Chuzhao Zhu, Yue He, Peng Cui

arXiv:2504.10158v1 宣布类型：交叉摘要：当前的目标检测器在遇到分布偏移时，在实际应用中常常表现出显著的性能下降。因此，目标检测器的离分布外（OOD）泛化能力受到了研究人员的越来越多的关注。尽管对该领域的兴趣在增长，但仍缺乏一个大规模的、全面的、针对更复杂的物体检测和语义分割任务进行离分布外泛化评估的细粒度注解数据集和评估基准。为了解决这一问题，我们引入了COUNTS，这是一个包含对象级别注解的大规模离分布外数据集。COUNTS涵括了14种自然分布偏移，超过222,000个样本，以及超过1,196,000个标注边界框。利用COUNTS，我们引入了两个新的基准：O(OD)2和OODG。O(OD)2旨在通过训练数据和测试数据之间的受控分布偏移来全面评估目标检测器的离分布外泛化能力。另一方面，OODG旨在评估大规模多模态语言模型（MLLMs）在语义分割能力上的离分布外泛化。我们的研究发现，虽然大型模型和庞大的预训练数据在内部分布（IID）场景中极大地提升了性能，但在外部分布（OOD）环境中，无论是目标检测器还是MLLMs都存在显著的局限性和改进空间。在视觉语义分割任务中，即使是先进的GPT-4o和Gemini-1.5也只能分别达到56.7%和28.0%的准确率。我们希望COUNTS能促进稳健的目标检测器和MLLMs的研发与评估，使其在分布偏移的情况下仍能保持高性能。

发布时间: 4/15/2025

查看原文

BoTTA: 在设备上测试时适应的基准测试

作者: Michal Danilowski, Soumyajit Chatterjee, Abhirup Ghosh

arXiv:2504.10149v1 宣告类型: cross 摘要：深度学习模型的性能在运行时严重依赖测试样本，且从训练数据分布到测试数据分布的变化会显著降低准确性。测试时适应(TTA)通过在不需要标记的测试数据或访问原始训练集的情况下调整模型来解决这一问题。尽管从算法复杂性、数据和类别分布变化、模型架构以及离线学习与连续学习等方面对TTA进行了研究，但针对移动和边缘设备的具体约束仍然未被充分探索。我们提出了BoTTA，一个旨在评估在移动和边缘设备上的实际约束条件下TTA方法的基准。我们的评估针对四个由有限资源和使用条件引起的挑战：(i) 有限的测试样本，(ii) 有限的类别暴露范围，(iii) 多样化的分布变化，以及(iv) 样本内部的重叠变化。我们使用基准数据集评估最新的TTA方法，并在实际测试平台上报告系统级指标。此外，与以往研究不同，我们通过提倡周期性适应而非连续的推理时适应，与设备上的要求保持一致。实验揭示了关键洞察：许多最近的TTA算法在小数据集上表现不佳，无法泛化到未见过的类别，并且依赖于分布变化的多样性和复杂性。BoTTA还报告了设备特定的资源使用情况。例如，仅在512个适应样本的情况下，SHOT可以将准确性提高2.25倍，然而在Raspberry Pi上的峰值内存使用量仅有基准模型的1.08倍。BoTTA为实际受限资源部署中的TTA提供了实用的指导。

发布时间: 4/15/2025

查看原文