arXiv 论文列表

作者: Maximilian B\"other, Xiaozhe Yao, Tolga Kerimoglu, Dan Graur, Viktor Gsteiger, Ana Klimovic

arXiv:2502.19790v2 宣告类型: replace-cross 摘要：当前最先进的大型语言和视觉模型是通过汇总来自大量不同来源的数万亿标记进行训练的。随着训练数据集合的增长，手动管理样本变得耗时、繁琐且容易出错。然而，最近的研究表明，在训练过程中访问样本的顺序和数据混合方式对模型准确性有显著影响。我们构建并展示了Mixtera，一个基础模型训练的数据平面，允许用户声明性地表达在训练过程中应使用哪些数据样本以及使用这些样本的比例和顺序。Mixtera是一个中央的只读层，部署在现有的训练数据集合之上，并且可以通过声明性查询访问。它独立于文件系统结构，并支持任意属性（例如，语言、源数据集）的数据混合，以及基于模型反馈动态调整混合比例。我们实验性地评估了Mixtera，并展示了我们的实现没有成为训练瓶颈，并能扩展到256个GH200超级芯片。我们演示了Mixtera如何支持混合策略的最新进展，通过在系统中实现并评估提议的自适应数据优化(ADO)算法来影响性能。我们还探讨了数据混合对于视觉语言模型的作用。

发布时间: 4/4/2025

查看原文

自动提示优化技术的系统性综述

作者: Kiran Ramnath, Kang Zhou, Sheng Guan, Soumya Smruti Mishra, Xuan Qi, Zhengyuan Shen, Shuai Wang, Sangmin Woo, Sullam Jeoung, Yawei Wang, Haozhu Wang, Han Ding, Yuzhe Lu, Zhichao Xu, Yun Zhou, Balasubramaniam Srinivasan, Qiaojing Yan, Yueyan Chen, Haibo Ding, Panpan Xu, Lin Lee Cheong

arXiv:2502.16923v2 宣告类型: replace-cross 摘要：自大型语言模型（LLMs）问世以来，提示工程一直是各类自然语言处理（NLP）任务中获得所需响应的关键步骤。然而，由于模型、任务及其相关最佳实践的快速进步，提示工程仍是对最终用户的一大障碍。为了缓解这一问题，最近出现了一些自动提示优化（APO）技术，这些技术使用各种自动化方法来帮助提高LLMs在各类任务上的性能。本文中，我们综述了该领域当前的进步和剩余挑战。我们提供了一个形式化的APO定义、一个统一的五部分框架，并根据其中的突出特征对所有相关工作进行了彻底分类。我们希望基于我们的框架激发进一步的研究。

发布时间: 4/4/2025

查看原文

面向推测执行漏洞探索的强化学习方法

作者: Evan Lai, Wenjie Xiong, Edward Suh, Mohit Tiwari, Mulong Luo

arXiv:2502.16756v2 宣告类型: replace-cross 摘要：类似于Spectre的猜测性攻击可以在操作系统未发现的情况下泄露秘密信息。猜测性执行漏洞是复杂且深层次的，因为要利用它们，需要进行密集的手工劳动并深入了解硬件。在本文中，我们介绍了一种名为SpecRL的框架，利用强化学习在后硅（黑盒）微处理器中发现猜测性执行泄漏。

发布时间: 4/4/2025

查看原文

用反事实解释3D计算机断层分类器

作者: Joseph Paul Cohen, Louis Blankemeier, Akshay Chaudhari

arXiv:2502.07156v2 Announce Type: replace-cross 摘要：反事实解释在医学影像中增强了深度学习模型的可解释性，但将其适应3D CT扫描因其体素复杂性和资源需求而面临挑战。我们从2D应用扩展了Latent Shift反事实生成方法，以解释3D计算机断层扫描(CT)扫描分类器。我们通过实现基于切片的自动编码器和除特定切片 chunk 外的梯度阻塞来应对3D分类器相关的挑战，如有限的训练样本和高内存需求。该方法利用在CT切片上训练的2D编码器，随后将这些切片组合以保持3D上下文。我们在两个临床表型预测模型和肺部分割模型上展示了这一技术。我们的方法在高分辨率3D医学影像中生成可解释的反事实方面既高效又有效。

发布时间: 4/4/2025

查看原文

基于卷积的变换器：一种基于条件密度估计的弱先验方法用于建模随机过程

作者: Chaoran Pang, Lin Wang, Shuangrong Liu, Shikun Tian, WenHao Yue, Xingshen Zhang, Bo Yang

arXiv:2502.06829v2 通告类型: replace-cross 摘要：在本文中，提出了一种卷积基转换器(CBC)来开发一种方法，用于在基于观测值估计随机过程中目标的概率分布时去除强或固定先验。传统的方法，例如基于马尔可夫和基于高斯过程的方法，通常利用观测值基于强或固定先验（如马尔可夫性质或高斯先验）来估计目标。然而，这些方法的有效性取决于它们的先验假设与问题特征的匹配程度。当假设的先验不满足时，这些方法可能会表现不佳甚至无法使用。为克服上述限制，我们引入了卷积基转换器(CBC)，它隐式地估计目标的条件概率分布而不依赖于强或固定先验，并直接输出满足观测约束的随机过程的期望轨迹。这种方法减少了对先验的依赖，增强了在解决不同问题时建模随机过程的灵活性和适应性。实验结果表明，我们的方法在多个指标上优于现有的基线方法。

发布时间: 4/4/2025

查看原文

差异中的解耦：通过最大化因子差异直接学习语义解耦表示

作者: Xingshen Zhang, Lin Wang, Shuangrong Liu, Xintao Lu, Chaoran Pang, Bo Yang

arXiv:2502.03123v2 Announce Type: replace-cross 摘要：在本研究中，提出了差异去耦（DiD）方法，以解决潜在变量统计独立试验与语义去耦目标之间固有的不一致性问题，该问题出现在去耦表示学习中。传统去耦方法通过提高潜在变量之间的统计独立性来实现去耦表示。然而，潜在变量之间的统计独立性并不一定意味着它们在语义上是无关的，因此，提高统计独立性并不总是能够提升去耦性能。为了解决上述问题，DiD 提出直接学习语义差异，而不是潜在变量的统计独立性。在 DiD 中，设计了一个差异编码器来度量语义差异；建立了一个对比损失函数以促进跨维度的比较。两者都使得模型能够直接区分和去耦不同的语义因素，从而解决了统计独立性和语义去耦之间的不一致性。在 dSprites 和 3DShapes 数据集上的实验结果表明，提出的 DiD 在各种去耦评价指标上均优于现有的主流方法。

发布时间: 4/4/2025

查看原文

专家化_caption自动增强用于视频-文本检索

作者: Baoyao Yang, Junxiang Chen, Wanyun Li, Wenbin Yao, Yang Zhou

arXiv:2502.02885v2 通知类型: 替换-跨领域摘要：由于视频的个性化和不充分的文本描述造成的信息不匹配，视频-文本检索一直停滞不前。这两种模态之间巨大的信息差距阻碍了有效的跨模态表示对齐，导致检索结果含糊不清。尽管已经提出了文本重写方法以扩展文本表达，但在文本表示空间几乎无法因缺乏语义丰富性而扩大时，模态差距依然显著。相反，本文转向增强视觉呈现，通过字幕生成将视频表达拉近文本表示，从而促进视频-文本匹配。虽然多模态大型语言模型（mLLM）展示了将视频内容转换为文本的强大能力，但精心设计的提示对于确保生成字幕的合理性和完整性至关重要。因此，本文提出了一种自动字幕增强方法，通过自我学习提升表达质量并减轻增强字幕中的经验主义。此外，还设计并引入了一种专业化的字幕选择机制，以根据每个视频定制增强字幕，进一步探索字幕增强的利用潜力。我们的方法完全是数据驱动的，不仅省去了沉重的数据收集和计算工作量，还通过规避词汇依赖性和引入个性化匹配来提高自我适应性。我们的方法在各种基准的性能指标上得到了验证，具体来说，在MSR-VTT上的Top-1召回准确率为68.5%，在MSVD上的Top-1召回准确率为68.1%，在DiDeMo上的Top-1召回准确率为62.0%。我们的代码可在https://github.com/CaryXiang/ECA4VTR上公开获取。

发布时间: 4/4/2025

查看原文

AI能解决同行评审危机吗？一个大型跨模型实验，评估LLM在评价超过1000篇经济学论文中的性能与偏见

作者: Pat Pataranutaporn, Nattavudh Powdthavee, Chayapatr Achiwaranguprok, Pattie Maes

arXiv:2502.00070v2 宣告类型：替换交叉摘要：这项研究探讨了大型语言模型（LLMs）通过可靠地评估经济学研究的质量来增强学术同行评审过程的潜力，而不引入系统性偏差。我们进行了迄今为止最大的实验性评估，涉及四种LLM（GPT-4o、Claude 3.5、Gemma 3和LLaMA 3.3），这包括两个互补实验。在第一个实验中，我们使用非参数的 binscatter 和线性回归技术，分析了来自 110 本经济学期刊（这些期刊的论文未包含在当前 LLM 的训练数据中）的 1,220 篇匿名论文以及一系列由 AI 生成的投稿，共超过 29,000 次评估。结果表明，LLMs 基于文本内容一致地区分了高质量和低质量的研究，生成的质量梯度与现有的期刊声誉度量高度一致。Claude 和 Gemma 在捕捉这些梯度方面表现尤为出色，而 GPT 在检测由 AI 生成的内容方面表现出色。第二个实验涉及 8,910 次评估，旨在评估 LLMS 是否在单盲评审中重现人类偏见。通过系统地改变作者性别、机构隶属关系和学术地位，我们在 330 篇论文上进行测试，发现 GPT、Gemma 和 LLaMA 相对于匿名提交，对顶级男性作者和顶级机构的投稿给予了显著更高的评分。这些结果强调，在编辑筛选中部署 LLMS 时排除作者标识信息的重要性。总体而言，我们的研究结果提供了有力的证据和实用指导，建议将 LLMS 集成到同行评审中以提高效率、提高准确性并促进经济学研究出版过程中的公平性。

发布时间: 4/4/2025

查看原文

wormhole记忆：跨对话检索的魔方

作者: Libo Wang

arXiv:2501.14846v4 通告类型：替换交叉摘要：鉴于当前大型语言模型在对话间共享记忆方面存在差距，本研究提出了一种wormhole记忆模块（WMM），旨在实现记忆如同魔方一样，可以在不同对话之间任意检索。通过模拟实验，研究者基于Python环境构建了一个实验框架，并通过设置记忆障碍来模拟当前难以在大型语言模型（LLM）之间共享记忆的情况。CoQA开发数据集被导入实验中，并验证了WMM在非线性索引和动态检索方面的跨对话记忆检索功能，同时与Titans和MemGPT记忆模块的功能进行了比较分析。实验结果显示，WMM在八次实验中展示了跨对话检索记忆的能力，并且在量化指标方面的稳定性得到了验证。WMM为LLM的记忆管理优化提供了新的技术思路，并为未来的实际应用提供了经验。

发布时间: 4/4/2025

查看原文

TSPE：面向任务的提示ensemble以提高零样本音频分类

作者: Nishit Anand, Ashish Seth, Ramani Duraiswami, Dinesh Manocha

arXiv:2501.00398v2 宣布类型: 替换交叉摘要：音频-语言模型（ALMs）在零样本音频分类任务中表现出色，该任务中，模型通过利用描述性的自然语言提示在测试时对未见过的音频片段进行分类。我们引入了TSPE（任务特定提示集），这是一种简单且无需训练的硬提示方法，通过为多种音频分类任务量身定制提示来提升ALMs的零样本性能。不同于使用通用模板提示，如“汽车的声音”，我们生成了信息丰富的提示，如“汽车从隧道传来的声音”。具体而言，我们利用标签信息识别合适的声学属性，如“响亮”和“微弱”，以及适当的声音来源，如“隧道”和“街道”，并将这些信息整合到用于音频分类的音频-语言模型（ALMs）所使用的提示中。此外，为了增强音频-文本对齐，我们在TSPE生成的任务特定提示之间进行提示集。当在12个不同的音频分类数据集上进行评估时，TSPE通过在基础的零样本评估中表现出绝对改进1.23-16.36%来提高ALMs的性能。

发布时间: 4/4/2025

查看原文