arXiv:2505.07615v1 类型:交叉
摘要:文本转音频模型最近作为一种从文本描述生成声音的强大技术而出现。然而,它们的高计算需求引发了对能源消耗和环境影响的担忧。在本文中,我们对7个最先进的基于扩散的生成性文本转音频模型的能源使用进行了分析,评估生成参数的变化在推断时如何影响能源消耗。我们还旨在通过考虑所有选择模型的帕累托最优解来识别音频质量和能源消耗之间的最佳平衡。我们的发现为性能与环境影响之间的权衡提供了见解,有助于推动更高效的生成音频模型的发展。
arXiv:2505.07610v1 安全类型: 横跨领域
摘要: 随着大规模语言模型(LLMs)的广泛应用,对其安全性和对齐的担忧也随之增加。一种引导LLM行为的方法,例如减轻偏见或防御模型突破,是识别提示中哪些部分影响模型输出的具体方面。在文本生成中,基于词元的归因方法提供了有希望的解决方案,但它们仍然难以单独解释输出中每个词元的存在,而不是整个LLM响应的底层语义。我们提出了ConceptX,这是一种模型无关的概念级可解释方法,它识别出提示中的概念,即具有语义丰富性的词元,并根据输出的语义相似性对其分配重要性。与现有的基于词元的方法不同,ConceptX 还可以通过就地词元替换来保持上下文完整性,并支持灵活的解释目标,例如性别偏见。ConceptX 使审计成为可能,通过揭示偏见的来源,以及通过修改提示以改变情感或降低LLM响应的危害性,而无需重新训练。在三个LLM上,ConceptX 在忠实性和人类对齐方面均优于基于词元的方法如TokenSHAP。导航任务通过0.252的提升实现了情感转移,而随机编辑仅为0.131,并将攻击成功率从0.463降低到0.242,优于归因和改写基准。尽管提示工程和自解释方法有时会生成更安全的响应,但ConceptX 提供了透明且忠实的替代方案,以提高LLM的安全性和对齐,证明了基于归因的解释在引导LLM行为方面的实用价值。
arXiv:2505.07608v1 类型: cross
摘要: 我们介绍了一个专为推理任务设计的大语言模型 MiMo-7B,该模型在预训练和后训练阶段都进行了优化。在预训练阶段,我们增强了数据预处理管道,并采用三阶段数据混合策略,以增强基础模型的推理潜力。MiMo-7B-Base 在 2.5 万亿令牌上进行预训练,并额外添加了多令牌预测目标,以提高性能和加速推理速度。在后训练阶段,我们精选了一个包含 13 万个可验证的数学和编程问题的数据集,用于强化学习,结合了基于测试难度的代码奖励方案,以缓解稀疏奖励问题,并采用战略性数据重采样以稳定训练。广泛的评估表明,MiMo-7B-Base 具有非凡的推理潜力,甚至超越了更大的 32B 模型。最终的 RL 调优模型 MiMo-7B-RL 在数学、代码和一般推理任务上表现出色,超越了 OpenAI 的 o1-mini 模型。模型检查点可在 https://github.com/xiaomimimo/MiMo 获取。
arXiv:2505.07601v1 交叉类型: cross
摘要: 悬疑小说,这一以其复杂的叙事结构和以人物为导向的叙事方式定义的文学流派,为计算叙事学——一个致力于将文学理论融入自动化叙事生成的研究领域——带来了独特的挑战。传统文学研究虽然提供了关于虚构侦探的方法和原型的深刻见解,但这些分析往往侧重于有限数量的角色,缺乏广泛提取独特特质所需的能力,这些特质可以用于指导叙事生成方法。在本文中,我们提出了一种基于AI的方法来系统地表征虚构侦探的调查方法。我们的多阶段工作流程探索了15个大型语言模型(LLMs)提取、合成和验证虚构侦探独特调查特质的能力。该方法在七位具有代表性的侦探——赫尔克里·波洛、夏洛克·福尔摩斯、威廉·墨尔丘、科尔姆、福雷斯特·布朗、玛贝尔小姐、奥古斯特·杜宾——的背景下进行了测试,捕捉了定义每个角色的独特的调查风格。确定的特质被现有文学分析验证,并进一步在反向识别阶段进行了测试,总体准确率为91.43%,证明了该方法在捕获每个侦探独特的调查方法方面的有效性。这项工作为计算叙事学领域提供了可扩展的分析框架,具有在基于AI的互动叙事和自动化叙事生成方面的潜在应用价值。
arXiv:2505.07596v1 Announce Type: cross
摘要:检索增强生成(RAG)是减少大型语言模型(LLMs)幻觉的一种常用策略。虽然强化学习(RL)可以使LLMs成为搜索代理,通过激活检索能力,但现有的RL方法往往未能充分利用其内部知识。这可能导致重复检索、潜在的知识冲突以及推断延迟的增加。为了克服这些限制,一个能够辨别最佳检索时机,并且能够同步整合参数(内部)和检索(外部)知识的高效和适应性搜索代理是迫切需要的。本文介绍了强化内部-外部知识协同推理代理(IKEA),该代理能够识别其自身的知识边界,并优先利用内部知识,仅在内部知识被认为不足时才求助于外部搜索。这些目标是通过一种新型的知识边界感知奖励函数和知识边界感知训练数据集实现的。这些功能是为内部-外部知识协同导向的RL设计的,旨在激励模型提供准确的答案,减少不必要的检索,并在自身知识不足时鼓励适当的外部搜索。在多个知识推理任务上的评估表明,IKEA显著优于基线方法,大幅减少了检索频率,并展现出强大的泛化能力。
arXiv:2505.07591v1 跨类别公告类型
摘要:指令跟随 evaluates 大型语言模型(LLMs)在生成符合用户定义约束的输出方面的能力。然而,现有的基准测试往往依赖于模板化约束提示,这些模板缺乏真实使用中的多样性,并且限制了细微性能评估。为了解决这一问题,我们提出了一种多维度约束框架,涵盖了三种约束模式、四种约束类别以及四种难度级别。基于此框架,我们开发了一种自动指令生成管道,实现了约束扩展、冲突检测和指令重写,生成了1,200个可代码验证的指令跟随测试样本。我们在七个模型家族中评估了19个LLM,并发现不同形式约束下的性能存在显著差异。例如,从第一级的77.67%下降到第四级的32.96%。此外,我们通过使用我们的方法生成强化学习数据,展示了其实用性,这在不降低一般性能的情况下显著提高了指令跟随效果。深入分析表明,这些改进主要来源于模型注意力模块参数的修改,这些修改增强了约束识别和遵守。代码和数据可在 https://github.com/Junjie-Ye/MulDimIF 上获取。
arXiv:2505.07576v1 声明类型: cross
摘要: 半导体制造是一个复杂且多阶段的过程。扫描电子显微镜(SEM)图像的自动视觉检测对于减少设备停机时间和控制成本至关重要。大多数之前的研究所考虑的是监督方法,假设有足够的异常标记样本。相反,视觉异常检测(VAD)作为一个新兴的研究领域,侧重于无监督学习,避免了昂贵的缺陷收集阶段,同时还提供了预测的解释。我们通过利用MIIC数据集引入了一个半导体领域的VAD基准。我们的结果表明,现代VAD方法在这种领域中的有效性。
arXiv:2505.07573v1 类别: cross
摘要: 肾脏异常分割有潜在的重要价值,能够提升临床工作流程,特别是在需要定量评估的情况下。肾脏体积可以作为肾疾病的重要生物标志物,体积的变化直接关联着肾脏功能。目前,临床实践中常常依赖主观的视觉评估来评估肾脏大小和异常,包括肿瘤和囊肿,这些通常基于直径、体积和解剖位置进行分期。为了支持更为客观和可重复的方法,这项研究旨在开发一个稳健且完全验证的肾脏异常分割算法,并向临床和研究界公开。我们利用公开可用的训练数据集,并利用最先进的医学图像分割框架 nnU-Net。使用私有和公开的数据集进行验证,分割性能通过_dice系数_和_95_百分位霍夫特距离量化。此外,我们根据患者的性别、年龄、CT对比剂阶段以及肿瘤组织亚型,分析了分割算法的稳健性。我们的发现表明,该分割算法仅在公开数据集上进行训练后,能够有效推广到外部测试集,并在所有测试数据集中优于现有的顶级模型。分组分析揭示了一贯的高性能,表明有很强的稳健性和可靠性。所开发的算法及其相关代码在 https://github.com/DIAGNijmegen/oncology-kidney-abnormality-segmentation 公开可用。
arXiv:2505.07553v1 类别: cross
摘要:这篇简短的文章探讨了一家海运公司在开发和集成大语言模型(LLM)方面的进展。通过具体研究专家环境中的检索增强生成(RAG)系统的软件工程需求,展示了数据科学家在满足用户对AI完美性的期望与生成输出的正确性之间面临的基本张力。通过一项海运服务提供商的案例研究,我们的发现揭示了数据科学家必须通过与用户的迭代实验来识别特定于上下文的“检索需求”,因为他们有能力确定正确性。我们提出了一个实证过程模型,描述了数据科学家如何实际引出这些“检索需求”并在管理系统限制的同时处理它们。这项工作通过提供有关在复杂领域特定应用程序中实施RAG系统的特殊软件工程需求工程过程的见解,推动了软件工程知识的发展。
arXiv:2505.07552v1 宣传类型: cross
摘要:教师在教室中的视觉注意力及其在学生之间的分布对于学生参与、成就以及专业教师培训具有重要意义。尽管如此,推断教师关注的学生的具体位置和对象并不简单。移动眼动追踪可以提供重要的帮助来解决这一问题;然而,单独使用移动眼动追踪需要大量的手动标注。为了弥补这一限制,我们提出了一种自动处理管道的概念,只需少量手动标注的数据即可识别教师关注的学生。为此,我们利用最新的面部检测模型和面部识别特征嵌入来训练面部识别模型,并在教室环境中使用迁移学习,将这些模型与移动眼动追踪器的教师注视结合起来。我们利用四个不同教室收集的数据对我们的方法进行了评估,结果显示,在所有教室布局中,尽管可以以合理的性能估算视觉关注的学生,但U形教室和小教室的准确率分别达到了约0.7和0.9。虽然我们没有评估我们的方法对学生-教师互动的影响,而且我们专注于技术方法的有效性,由于我们的方法不需要大量的手动标注数据,并提供了处理教师视觉注意力的一种不具侵入性的方式,因此它可以帮助改进教学策略、优化教室管理,并为专业教师的发展提供建设性反馈。