arXiv 论文列表

作者: Thao Nguyen, Krishna Kumar Singh, Jing Shi, Trung Bui, Yong Jae Lee, Yuheng Li

arXiv:2504.20998v1 交叉类型公告摘要：大型多模式模型（例如，GPT-4、Gemini、Chameleon）已经成为具有数百万用户的强大工具。然而，它们仍然是通用模型，缺乏对特定用户概念的个性化知识。之前的文献已经探索了对文本生成进行个性化的方法，但尚不清楚这些方法如何可以适应新的模态，例如图像生成。在本文中，我们介绍了Yo'Chameleon，这是首次尝试研究大型多模式模型的个性化方法。给定某个特定概念的3-5张图片，Yo'Chameleon利用软提示调优来嵌入主题特定的信息，(i) 回答关于该主题的问题以及 (ii) 重建像素级别的细节以在新情境下生成该主题的图片。Yo'Chameleon通过 (i) 自我提示优化机制来平衡多模态性能，以及 (ii) “软正样本”图像生成方法在少数示例设置中增强图像质量来进行训练。

发布时间: 4/30/2025

查看原文

大型语言模型代理向高效探索的方向努力

作者: Dilip Arumugam, Thomas L. Griffiths

arXiv:2504.20997v1 通知类型: 横向交叉摘要: 在强化学习（RL）领域中，以大规模语言模型（LLMs）为中心的序列决策代理的设计是一个不断发展的领域。虽然由现代LLMs驱动的自主决策代理可以促进众多实际应用，但这些成功需要具备数据高效强化学习能力的代理。在强化学习中实现数据效率的一个关键障碍是探索，许多近期提出的LLM代理设计提案都难以应对这一挑战。与此同时，强化学习文献中的一些经典算法能够优雅地处理探索问题，但在纯粹自然语言环境中实施这些技术可能颇具挑战性。在本研究中，我们不是依赖于微调或上下文学习来促使LLMs隐含模仿RL算法，而是展示了如何使用LLMs显式实现一个已有的RL算法（强化学习的后验采样），该算法的统计高效的探索能力已经被充分研究。我们提供了实验证据，证明我们基于LLMs实现的已知数据高效RL算法在要求谨慎探索的自然语言任务中可以更为有效。

发布时间: 4/30/2025

查看原文

中心和辐条学习：高效可扩展的协作机器学习

作者: Atul Sharma, Kavindu Herath, Saurabh Bagchi, Chaoyue Liu, Somali Chaterji

arXiv:2504.20988v1 宣告类型: cross 摘要: 我们介绍了枢纽与辐条学习 (Hubs and Spokes Learning, HSL) 框架，这是一种结合联邦学习 (Federated Learning, FL) 和对等学习 (Decentralized Learning, P2PL) 优点的新范式。HSL 采用了一种双层通信结构，避免了 FL 存在的单点故障问题，并在对等学习框架 Epidemic Learning Local (ELL) 上实现了更高的性能。在同等通信预算（总边数）的情况下，HSL 达到了比 ELL 更高的性能；而在显著较低的通信预算下，它可以与 ELL 的性能相当。例如，在只有 400 条边的情况下，HSL 达到了与 ELL 在 1000 条边时同等的测试精度，这在 CIFAR-10 数据集上对 100 个学习节点（辐条）进行了实验，展示了其在资源受限系统中的适用性。HSL 在混合后节点之间实现更强的一致性，从而在较少的训练轮次中提高了性能。通过严格的理论分析和广泛的实验结果，我们验证了这些观点，展示了 HSL 在大规模协作学习中的实用性。

发布时间: 4/30/2025

查看原文

基于SVD最小二乘法的深度特征X射线肺炎分类

作者: Mete Erdogan, Sebnem Demirtas

arXiv:2504.20970v1 交叉公告类型摘要：通过X射线成像准确且早期诊断肺炎对于有效治疗和改善患者预后至关重要。近年来，机器学习的进步使得能够利用自动化诊断工具，协助放射科医生做出更可靠和高效的决策。在本文中，我们提出了一种基于奇异值分解的最小二乘（SVD-LS）框架，用于多类肺炎分类，利用最先进的自我监督和迁移学习模型的强大特征表示。我们没有依赖于计算代价高昂的基于梯度的微调，而是采用了非迭代的闭式分类方法，确保了效率而不牺牲准确性。实验结果表明，SVD-LS在保持竞争力的同时，显著降低了计算成本，使其成为实时医疗成像应用的可行替代方案。

发布时间: 4/30/2025

查看原文

OSVBench：对操作系统验证规范生成任务进行LLM评估

作者: Shangyu Li, Juyong Jiang, Tiancheng Zhao, Jiasi Shen

arXiv:2504.20964v1 评估类型：交叉摘要：我们介绍了一种新的基准测试OSVBench，用于评估大型语言模型（LLMs）生成与操作系统内核验证任务相关的完整规范代码的能力。该基准测试首先通过提供编程模型将规范生成问题定义为在语法和语义受限范围内的程序合成问题。模型需要理解提供的验证假设以及搜索的潜在语法和语义空间，然后在操作系统高层次功能描述的指导下生成潜在有缺陷的操作系统代码实现的完整规范。该基准测试基于现实世界的操作系统内核Hyperkernel构建，包含总共245个复杂的规范生成任务，每个任务都是大约20k-30k个标记的长上下文任务。我们对12个LLM的全面评估表明，现有LLM在操作系统验证的规范生成任务上表现有限。基准测试中它们在任务上的显著性能差异突显了它们处理长上下文代码生成任务的能力差异。评估工具包和基准测试可在https://github.com/lishangyu-hkust/OSVBench获取。

发布时间: 4/30/2025

查看原文

思维痕迹：通过从大语言模型向小语言模型提炼推理过程以增强算术问题求解

作者: Tyler McDonald, Ali Emami

arXiv:2504.20946v1 Announce Type: cross 摘要：随着大型语言模型（LLMs）在日常任务中的不断应用，提示工程仍然是计算语言学领域的一个活跃贡献领域，尤其是在需要专门知识的领域中，如算术推理。虽然这些LLMs在多种任务上进行了优化，但它们的全面应用可能对小型团队来说在计算或财务上变得冗长。此外，完全依赖于专有、封闭源代码的模型往往限制了定制和适应性，给研究和应用的大规模扩展带来了重大挑战。相反，通过利用参数量在7亿或以下的开源模型，我们可以优化资源使用，同时仍能观察到与标准提示方法相比显著的改进。为了培养这一理念，我们引入了思维轨迹提示，这是一种简单的零样本提示工程方法，指示LLMs使用关键问题解决技巧创建可观察的子问题，特别设计以增强算术推理能力。当与GPT-4结合应用于开源模型时，我们观察到思维轨迹不仅允许对问题解决过程产生新的见解，还在参数量在7亿或以下的语言模型中引入了高达125%的性能增益。这种方法强调了开源项目的潜在价值，即通过这些项目来普及人工智能研究，提高高质量计算语言学应用的可获得性。

发布时间: 4/30/2025

查看原文

DYNAMAX：基于 Transformers 和 Mamba 的动态计算架构

作者: Miguel Nogales, Matteo Gambella, Manuel Roveri

arXiv:2504.20922v1 早退出类型: cross 摘要：早退出（EEs）提供了一种通过在达到数据样本满意的预测置信度后动态终止推理来减少计算成本和延迟的有前途的方法。尽管许多工作将EEs集成到仅编码器的Transformer中，但它们在仅解码器架构以及更重要的是LLM领域中的新家族——Mamba模型中的应用仍然缺乏探索。这项工作引入了DYNAMAX，这是第一个利用Mamba架构的独特性质来实现早退出机制的框架。我们不仅将EEs集成到Mamba中，还将Mamba重新利用为一种高效的EE分类器，适用于基于Mamba和基于Transformer的LLM，展示了其灵活性。我们的实验使用了与Codestral 7B Mamba模型相比的Mistral 7B Transformer模型，并使用TruthfulQA、CoQA和TriviaQA等数据集来评估计算节省、准确性和一致性。结果突显了Mamba作为强大EE分类器的高度可适应性，并展示了其在不同NLP任务中平衡计算成本和性能质量方面的效率。通过利用Mamba固有的动态处理设计，我们为嵌入式应用和资源受限环境中的可扩展和高效推理开辟了途径。此研究强调了Mamba在重新定义LLM中的动态计算范式方面的变革潜力。

发布时间: 4/30/2025

查看原文

当AI测试我们时：数字前线的 Mental Health 保障

作者: Sachin R. Pendse, Darren Gergle, Rachel Kornfield, Jonah Meyerhoff, David Mohr, Jina Suh, Annie Wescott, Casey Williams, Jessica Schleider

arXiv:2504.20910v1 信安类型：跨平台摘要：红队行动是确保AI模型不会产生有害内容的核心基础设施组成部分。与以前的技术不同，生成性AI系统的黑盒性质需要一种独特的交互测试模式，其中红队成员积极与系统互动，利用自然语言模拟恶意行为者并请求产生有害输出。红队成员进行的这种交互劳动可能会带来与有效进行红队行动所必需的对抗性互动策略紧密相关的心理健康伤害。人们普遍认为，确保生成性AI模型不传播社会或个人危害至关重要——这也是一个不太显眼的最终端到端AI安全基础，即保护那些致力于保持模型输出安全的人的心理健康和福祉。在本文中，我们argument认为，AI红队成员未满足的心理健康需求是一个关键的工作场所安全问题。通过对红队成员所从事的特殊心理健康影响进行分析，我们提出了可能的个人和组织策略，以便满足这些需求，并保护红队成员的心理健康。我们通过将常见的红队实践与其它职业的常见交互劳动（包括演员、心理健康专业人士、冲突摄影师和内容审核员）进行类比，描述了在类似的心理学压力下，这些职业领域的个人和组织如何保护自己的心理健康。基于这些保护措施，我们描述了如何适应红队组织在缓解新兴技术风险方面所面临的不同心理健康挑战，以确保他们在新的数字前线的安全。

发布时间: 4/30/2025

查看原文

将AI-人类协作建模为多代理适应

作者: Prothit Sen, Sai Mihir Jakkaraju

arXiv:2504.20903v1 宣告类型: 跨领域摘要: 我们开发了一个基于代理的模拟来形式化AI与人类的合作，这取决于任务结构，从而推进了一种策略决策的一般性框架。区分基于启发式的人类适应和基于规则的AI搜索，我们使用NK模型模拟了模块化（并行）和序贯化（相互依赖）任务之间的交互。我们的结果显示，在模块化任务中，除非人类的专业知识非常高，或者AI的搜索空间要么狭窄，要么极其广泛，否则AI通常会替代人类——带来更高的收益。在序贯任务中，有趣的互补性出现了。当专家人类启动搜索，而AI随后对其进行完善时，整体表现最大化。相反，当AI处于领先地位时，人类过度的启发式细化可能会降低收益。我们还展示了即使是缺乏记忆或结构的“幻觉”AI，在增强低能力人类时，也能通过帮助人类脱离局部最优解来改善结果。这些结果表明了一条稳健的结论：AI与人类合作的有效性取决于任务结构，而非具体的情境或行业。通过将任务分解视为分析的核心单位，我们的模型提供了一种适用于不同组织环境中涉及人类和有代理能力AI的战略决策的可移植视角。

发布时间: 4/30/2025

查看原文

分类器到偏差：朝向视觉分类器无监督自动偏差检测

作者: Quentin Guimard, Moreno D'Inc\`a, Massimiliano Mancini, Elisa Ricci

arXiv:2504.20902v1 宣告类型: cross 摘要：下载预训练模型的人员应该意识到其存在的偏见。现有的偏见识别方法依赖于包含所关心任务标签的数据集，这可能非专家无法访问，或者无法收集足够的资源：这极大地限制了可以识别模型偏见的任务数量。在本文中，我们提出了Classifier-to-Bias (C2B)，这是一种无需访问任何带标签数据的新偏见发现框架：它仅依靠分类任务的文本描述来识别目标分类模型中的偏见。该描述被输入到大型语言模型中，以生成偏见提案以及描绘偏见的相应标题，这些标题包括特定任务的目标标签。检索模型收集这些标题对应的文章，然后使用这些文章评估模型相对于给定偏见的准确性。C2B 是无需训练的，不需要任何标注，对偏见列表没有任何限制，并可以应用于任何预训练模型的任务。在两个公开可用的数据集上的实验表明，C2B 发现了原始数据集以外的偏见，并超越了依赖特定任务标注的最新偏见检测基准，这是朝着解决任务无关的无监督偏见检测迈出的有前景的第一步。

发布时间: 4/30/2025

查看原文