arXiv:2504.13217v2 宣布类型: replace-cross
摘要:大规模语言模型(LLMs)在组织工作流程中的应用越来越广泛。这引发了对其能源消耗、财务成本和数据主权的担忧。尽管性能基准测试经常庆祝前沿模型,但实际部署决策需要更广泛的视角:在什么情况下一个较小的、本地可部署的模型“足够好”?本文通过评估包括文本总结、生成日程、起草邮件和提案在内的十个日常职业任务中的十一款专有和开源的语言模型,提供了实证答案。使用基于双LLM的评估框架,我们自动化了任务执行,并在与输出质量、事实准确性以及伦理责任相关的十个标准下实现了标准化评估。结果表明,GPT-4o 一贯表现出色,但代价显著更高且环境足迹更大。值得注意的是,较小的模型如Gemma-3和Phi-4在大多数任务中取得了强劲且可靠的成果,这表明其在需要成本效益、本地部署或隐私保护的背景下具有可行性。聚类分析揭示了三种模型组——顶级全才、能干的一般者和有限但安全的表现者,突显了质量、控制和可持续性之间的权衡。此外,任务类型影响模型效果:概念性任务对大多数模型构成了挑战,而聚合和转换任务则表现更好。我们主张从追求性能最大化基准转向关注任务和情境适应性的充分性评估,这更能反映组织的优先级。我们的方法提供了一种基于可持续性视角评估人工智能模型的可扩展方法,并为负责任的语言模型部署提供可操作的指导。
arXiv:2504.12609v2 通知类型: replace-cross
摘要:教会机器人灵巧操作技能通常需要使用可穿戴设备或远程操作收集数百个示范,这一过程难以扩展。人类与物体交互的视频更容易收集和扩展,但由于视频中缺乏明确的动作标签以及机器人和人类手部之间的形态差异,直接利用这些视频进行机器人学习是困难的。我们提出了一种名为Human2Sim2Robot的新颖框架,该框架仅使用一个人类演示任务的RGB-D视频来训练灵巧操作策略。我们的方法利用仿真中的强化学习(RL)跨越了人类与机器人身体能力之间的差距,而不依赖于可穿戴设备、远程操作或通常为模仿学习方法所必需的大量数据收集。从演示中,我们提取了两个任务特定的组成部分:(1)物体质态轨迹,用于定义一个以物体为中心、不依赖身体能力的奖励函数;(2)预操作手姿,用于仿真中的初始化和指导探索。我们发现这两个组成部分对于学习所需的任务非常有效,从而消除了任务特定奖励塑造和调整的需要。我们展示了Human2Sim2Robot在抓取、非抓握操作以及多步骤任务中分别比无感知开环轨迹回放高出55%,比数据增强下的模仿学习高出68%。项目站点:https://human2sim2robot.github.io
arXiv:2504.12557v2 安全公告类型: replace-cross
摘要:在安全强化学习(RL)中,辅助安全成本被用来使智能体遵循安全的决策。在实践中,安全约束,包括成本函数和预算,往往是未知的或难以指定的,因为这需要预见所有可能的不安全行为。因此,我们处理了一种通用的情况,其中真正的安全定义是未知的,并且必须从稀疏标注的数据中学习。我们的主要贡献是:首先,我们设计了一个安全模型,该模型能够使用多样化的轨迹及其相应的二元安全标签(即,对应的轨迹是否安全/不安全)来对每个决策步骤的影响进行责任分配,以估计其对整体安全的影响。其次,我们展示了我们安全模型的架构,以说明其能够为每个时间步学习一个独立的安全评分的能力。第三,我们使用提出的安全模型重新定义了安全 RL 问题,并推导出一种有效的算法来优化一个安全且具有奖励性的策略。最后,我们的实证结果验证了我们的发现,并表明这种方法在满足未知安全定义以及在各种连续控制任务中可扩展方面是有效的。
arXiv:2504.11008v2 任务类型: replace-cross
摘要: 尽管在像素级医疗图像感知方面取得了显著进展,现有的方法要么局限于特定任务,要么高度依赖准确的边界框或文本标签作为输入提示。然而,作为输入所需的高度专业化的医疗知识对于普通公众来说是一个巨大的障碍,极大地限制了这些方法的通用性。与这些专业化的辅助信息相比,普通用户更倾向于依赖需要逻辑推理的口头查询。在本文中,我们引入了一个新的医疗视觉任务:医学推理分割与检测(MedSD),旨在理解关于医学图像的隐含查询,并生成相应的分割掩码和目标对象的边界框。为了完成这一任务,我们首先引入了一个多视角、逻辑驱动的医学推理分割与检测(MLMR-SD)数据集,该数据集包括了大量的医学实体目标及其相应的推理。此外,我们提出了一种名为MediSee的有效基线模型,专门用于医学推理分割与检测。实验结果表明,所提出的方法能够有效处理MedSD中的隐含口语查询,并在传统医学引用分割方法上表现出色。
arXiv:2504.10982v4 Announce Type: replace-cross
摘要:大型语言模型(LLMs)在医疗问答方面表现出色,但由于隐私限制,这使得在临床环境中使用如GPT-4等商业模型受到限制,从而限制了LLMs在日语环境中的有效性。因此,近期的努力集中在对开源LLMs进行指令调优,尽管将它们与检索增强生成(RAG)相结合的潜力尚未得到充分探索。为了解决这一问题,我们首次探索了基于知识图谱(KG)的RAG框架,用于日语医疗问答的小规模开源LLMs。实验结果显示,在使用小规模开源LLMs的日语医疗问答中,基于知识图谱的RAG的影响有限。进一步的案例研究揭示,RAG的有效性对检索到的外部内容的质量和相关性极为敏感。这些发现为应用RAG在日语医疗问答中的挑战和潜在应用提供了宝贵的见解,并可为其他资源匮乏的语言提供参考。
arXiv:2504.08169v3 宣告类型: replace-cross
摘要:点击率(CTR)和转化率(CVR)的预测在广告推荐系统的成功中起着至关重要的作用。提出了一种深度分层集成网络(DHEN),通过整合多个特征交叉模块,已经在CTR预测方面取得了巨大成功。然而,在转化广告设置中,DHEN的CVR预测性能尚不清楚,转化广告通常是指广告主为用户在第三方网站或应用上的离站行为(如购买、加入购物车、注册等)出价。DHEN存在以下几个挑战:1)DHEN中应包含哪些特征交叉模块(如MLP、DCN、Transformer等)?2)DHEN应有多深和多宽才能在效率和效果之间实现最佳权衡?3)每个特征交叉模块应选择哪些超参数?输入个性化特征在模型性能上也具有较高的自由度,极大地影响了模型的表现。本文解决了这一问题,并从应用数据科学的角度提出我们的贡献,包括:首先,我们提出了一种多任务学习框架,以DHEN作为单一骨干模型架构来预测所有CVR任务,并详细研究了如何使DHEN在实践中有效工作;其次,我们建立了用于CVR预测的现场实时用户行为序列和离场转化事件序列,并进行了相关性分析以评估其重要性;最后但同样重要的是,我们提出了一个自监督辅助损失来预测输入序列中的未来行为,以帮助解决CVR预测中的标签稀疏问题。我们的方法在与预先训练的用户个性化特征的单个特征交叉模块相比时,取得了最先进的性能。
arXiv:2504.07540v2 宣告类型: replace-cross
摘要: 我们提出了一种称为梯度优化证明 (PoGO) 的设计,用于区块链共识,矿工生成可验证的大规模机器学习模型训练证据。在此基础上,我们将量化的梯度(4 位精度)纳入其中,以减少存储和计算需求,同时仍然保持验证者能够检查模型损失是否真正降低的能力。此外,我们还利用完整的 32 位模型上的默克尔证明来处理大规模参数集,并通过最少的链上数据启用随机叶节点检查。我们使用 GPT-3(1750 亿参数)作为参考示例,并提到了较小但高性能的模型(例如,Gemma~3,具有 270 亿参数)。我们提供了一项经验成本分析,显示验证比训练便宜得多,部分原因是量化和采样。我们还讨论了在引入有意义的训练步骤时需要更长的区块时间(可能为数小时)、使用专用 GPU 硬件时的权衡以及二进制差异如何逐步优化更新。最后,我们注意到微调可以通过类似方式进行处理,只需更改数据集和采样的方式,但保留总体验证流程。我们的协议允许验证者发出正面或负面的证实;这些在最终确定时会被聚合,以确认更新或制裁矿工。
arXiv:2504.02894v3 更新类型: replace-cross
摘要:大规模语言模型(LLMs)已被广泛用于各种任务和应用。然而,LLMs和微调仅限于预训练数据。例如,ChatGPT在其2021年之前的世界知识可能过时或不准确。为了增强LLMs的能力,提出了检索增强生成(RAG),它通过提供额外的新鲜和最新的细节与信息来增强LLMs。虽然RAG可以提供正确的信息,但它可能无法最佳地呈现这些信息,尤其是在面向不同具有个性化需求的人群群体时。强化学习从人类反馈(RLHF)通过反馈循环使模型响应与人类偏好对齐,以适应用户需求。在实际应用中,例如心理健康问题,由于日常环境中复杂因素的变化,一个动态且反馈驱动的系统会持续适应新信息并提供个性化的帮助。因此,我们提出了一个基于在线强化学习的检索增强生成(OnRL-RAG)系统,用于检测和个性化应对心理健康问题(如压力、焦虑和抑郁)的响应系统。我们使用一个收集自2028年大学生的数据集,其中每位学生有28个调查问题,来展示我们所提出系统的性能与现有系统的对比。与标准RAG和简单的基于GPT-4o、GPT-4o-mini、Gemini-1.5和GPT-3.5的LLMs相比,我们的系统实现了更优越的性能。这项工作将为LLMs在日常生活环境中提供个性化服务的实际应用铺平道路。结果还将帮助社会学、心理学和神经科学领域的研究人员更贴近实际的人类日常环境,使其理论更加符合实际。
arXiv:2504.00513v2 宣告类型: replace-cross
摘要:AI系统在各行各业中得到了广泛应用。为AI系统创建高质量的需求是将AI系统与商业目标和消费者价值以及社会责任相一致的关键。然而,由于AI系统的不确定性以及对敏感数据的高度依赖,需要更多研究来解决AI系统需求的提取和分析问题。鉴于许多AI系统具有专有性质,缺乏开放源代码的需求文档和技术要求文件,限制了更广泛的研究所需和调查。随着大型语言模型(LLMs)成为人类生成文本的有前途的替代选择,本文探讨了利用LLMs根据学术论文摘要生成AI系统用户故事的潜在用途。我们使用了三种LLMs进行了实证评估,并从26个领域中的42篇摘要中生成了1260个用户故事。我们使用Quality User Story (QUS)框架评估其质量。此外,我们还确定了相关的需求属性(NFRs)和伦理原则。我们的分析表明,所研究的LLMs能够生成受到各种利益相关者需求启发的用户故事,为AI系统生成用户故事以及在AI系统早期需求提取阶段提供了一种有前途的方法。我们已经整理并策展了由各种LLMs生成的故事集合,并创建了一个数据集(UStAI),该数据集现在可供公众使用。
arXiv:2504.00060v2 通知类型: 交叉替换
摘要:随着深度学习的不断进步,神经网络决策的透明性仍然是一个关键挑战,限制了其在高风险领域中的信任度和适用性。类激活映射(CAM)技术已经 emergence 了作为一种关键方法,用于可视化模型决策,但现有方法存在固有的权衡。基于梯度的 CAM 变体由于梯度噪声导致梯度敏感性,从而产生不稳定和不可靠的解释。相反,无梯度方法减轻了梯度不稳定性,但会产生显著的计算成本并增加推理延迟。为了解决这些限制,我们提出了一种 Cluster Filter Class Activation Map(CF-CAM)技术,这是一种新颖的框架,重新引入了基于梯度的加权,同时增强了对梯度噪声的鲁棒性。CF-CAM 使用分层的重要性加权策略来平衡特征区分性和噪声消除。通过基于密度的空间聚类方法(DBSCAN)实现感知语义的相关特征通道的集群,并丢弃容易产生噪声的激活。此外,集群条件下的梯度过滤利用高斯滤波器细化梯度信号,同时保留边缘感知的位置信息并抑制噪声的影响。实验结果表明,CF-CAM 在可解释性性能上表现优越,同时提高了计算效率,其忠实度和鲁棒性超过最先进的 CAM 方法。通过有效地缓解梯度不稳定性而不增加过多的计算成本,CF-CAM 提供了一种在自动驾驶和医疗诊断等关键应用中增强深层神经网络可解释性的竞争性解决方案。