arXiv:2503.22151v1 声明类型: cross
摘要: 人工智能风险通常围绕着对人类的物理威胁、失去控制或因人为错误而导致人类灭绝而展开。然而,我根据逐渐丧失权力的理论认为,人们低估了人类自主性的缓慢且不可逆转下降所带来的风险。当人工智能在生活的各个领域开始超越人类时,将到达一个转折点,届时再依赖人类的决策、创造力、社会关怀甚至领导力就不再有意义了。
随之而来的可能是逐渐去技能化的过程,在这个过程中,我们将失去如今习以为常的技能。传统观点认为,随着时间的推移,人工智能将获得人类的技能,而这些技能在人类身上是天生且不可改变的。与此相反,我认为,在通用人工智能的世界中,人类可能会丧失批判性思维、决策甚至社会关怀等技能。因此,人类面临的最大威胁并非机器会越来越像人类,而是人类会变得越来越像机器。
arXiv:2503.22144v1 类型: cross
摘要:将自然语言问题翻译成SPARQL查询可使知识库查询获得事实性和及时的回应。然而,现有任务的数据集主要基于模板,导致模型学会了问题和查询模板之间表面化的映射,而不是发展真正的泛化能力。因此,当遇到自然措辞、无模板的问题时,模型会遇到困难。本文引入了FRASE(基于框架的语义增强),这是一种新颖的方法,利用框架语义角色标注(FSRL)来解决这一局限。我们还介绍了LC-QuAD 3.0,这是从LC-QuAD 2.0派生出来的新数据集,在该数据集中,每个问题都通过框架检测和框架元素到其论元的映射进行了丰富。通过在不同微调配置下对最近的大语言模型(LLMs)进行广泛的实验,评估了这种方法的影响。我们的结果表明,在具有挑战性的泛化场景中,即测试问题包含未见过的模板(未知模板划分)以及当所有问题是自然措辞的(重新表述的问题)时,整合基于框架的结构化表示可以一致地改善SPARQL生成性能。
arXiv:2503.22143v1 交叉类型: cross
摘要: 我们提出了一种基于UNet的基础模型及其自我监督学习方法来解决两个关键挑战: 1) 缺乏合格的注释模拟布局数据,以及 2) 模拟布局设计任务的过度多样性。对于自我监督学习,我们提出了自动随机提取块和随机掩码技术,以从一个小的未标注布局数据集中获得足够的训练数据。获得的数据被大幅增强,减少了偏差,大小一致,并包含了足够多的信息来涵盖过度多样性的合格布局模式。通过使用获得的数据进行预训练,所提出的基础模型可以学习布局模式的潜在一般知识,从而可以使用小型特定任务数据集微调用于各种下游布局任务。微调为各类下游任务提供了一种高效和统一的方法,减少了为每个任务单独开发模型的巨大人力投入。在实验中,基础模型使用来自6个硅验证的手动设计模拟电路获得的324,000个样本进行了预训练,然后针对五个示例下游任务进行了微调:生成接触点、通孔、伪指、N-井和金属走线。微调模型成功地对超过一千个未见过的布局输入进行了这些任务,生成了96.6%样本的物理验证干净布局。与从头开始训练金属走线任务的模型相比,微调仅需要数据的1/8就能达到相同的骰子分数0.95。使用相同的数据,微调的验证损失降低了90%,基准得分为从头开始训练的140%。
arXiv:2503.22141v1 公告类型:交叉
摘要:上下文:本文深入探讨了使用 OpenAI 开发的 GPT 模型生成和评估 metamorphic 关系(MRs)的情况,特别关注 GPT-4 在软件测试环境中的能力。
目标:目的是评估 OpenAI 的 GPT-3.5 和 GPT-4 为先前研究中采用的具体受测系统(SUT)生成的 MRs 的质量,并引入并应用于多种 SUT 的改进评价框架。
方法:初始阶段使用先前研究中的评价标准评估 GPT-3.5 和 GPT-4 生成的 MRs,随后使用增强的评价框架评估 GPT-4 为九种不同 SUT(从简单的程序到包含 AI/ML 组件的复杂系统)生成的 MRs。自定义构建的 GPT 评估器与人类评估者一起评估 MRs,使自动化评估方法和人类评估方法能够直接比较。
结果:研究发现 GPT-4 在生成准确且有用的 MRs 方面优于 GPT-3.5。借助先进的评价标准,GPT-4 在多种 SUT 中展示了生成高质量 MRs 的显著能力,包括包含 AI/ML 组件的复杂系统。
结论:GPT-4 在生成适用于各种应用的 MRs 方面表现出高级能力。该研究强调了 AI 在软件测试中的增长潜力,尤其是在生成和评估 MRs 方面,并指出了人与 AI 技能在该领域的互补性。
arXiv:2503.22122v1 宣告类型: cross
摘要:视觉语言模型(VLMs)已经在机器人规划中展示了非凡的能力,特别是在那些要求对环境进行全面理解以进行任务分解的长前景任务中。现有方法通常依赖于先验的环境知识或精心设计的任务特定提示,这使得它们在处理动态场景变化或意外任务条件时遇到困难,例如,机器人试图把胡萝卜放进微波炉,但发现门是关闭的。这种挑战强调了两个关键问题:适应性和效率。为了解决这些问题,本文提出了一种适应性的多代理规划框架,称为REMAC,该框架通过持续反思和自我进化实现场景无关的多机器人长前景任务规划与执行。REMAC 包含两个关键模块:一个自我反思模块,在循环中进行先决条件和后条件检查,以评估进度并细化计划,以及一个自我进化模块,根据场景特定的推理动态调整计划。它提供了几个吸引人的好处:1)机器人可以初步探索和推理环境,而无需复杂的提示设计。2)机器人可以不断反思潜在的规划错误,并基于任务特定的见解调整计划。3)经过迭代后,机器人可以召唤另一个机器人并行协调任务,从而最大化任务执行效率。为了验证REMAC的有效性,我们基于RoboCasa构建了一个多代理环境,用于长前景机器人操作和导航,并包含4个任务类别、27种任务风格和50多种不同的物体。在此基础上,我们进一步基准测试了最先进的推理模型,包括DeepSeek-R1、o3-mini、QwQ 和 Grok3,通过将成功率平均提升40%和执行效率提升52.7%高于单机器人基线,展示了REMAC的优越性。
arXiv:2503.22115v1 交叉领域公告类型: cross
摘要:评估大型语言模型(LLMs)的价值对齐传统上依赖于单句对抗提示,这些提示直接通过伦理敏感或有争议的问题挑战模型。然而,随着AI安全技术的迅速发展,模型已经更加擅长规避这些简单的测试,这限制了它们在揭示潜在偏见和伦理立场方面的有效性。为了解决这一局限性,我们提出了一种更新的价值对齐基准测试,该测试超越了单句提示,通过引入多轮对话和叙事场景。这种方法增强了评估的隐蔽性和对抗性,使其对现代LLMs中实施的表面性保护措施更加 robust。我们设计并实现了一个数据集,其中包括对话陷阱和伦理模糊的故事讲述,系统评估LLMs在更细腻和情境丰富的环境中对这些场景的响应。实验结果表明,这种方法可以有效地揭示传统单一评估中未能检测到的潜在偏见。我们的研究结果突显了在LLMs中进行上下文和动态测试的必要性,为更复杂和现实的人工智能伦理与安全性评估铺平了道路。
arXiv:2503.22093v1 交叉领域论文类别: cross
摘要:视觉语言模型(VLMs)在视觉问答(VQA)任务中展示了强大的推理能力;然而,它们在执行理论思维(ToM)任务方面的能力,如准确推断人类意图、信念和其他心理状态方面,尚未得到充分探索。在本文中,我们提出了一种开放性的问答框架,以全面评估VLMs在不同类型的ToM任务中的表现。我们整理和标注了一个由30张图片组成的基准数据集。然后,我们在该数据集上评估了四个不同大小的VLMs的表现。实验结果显示,GPT-4模型表现最佳,仅有较小的模型GPT-4o-mini能达到相当水平。此外,我们还观察到,VLMs在复杂场景如欺凌或作弊的情况下,常常难以准确推断意图。而且,我们的研究结果还表明,即使依赖错误的视觉线索,较小的模型有时也能正确推断出意图。
arXiv:2503.22074v1 类别: cross
摘要: 大型语言模型(LLMs)在材料科学等专门的科学领域中显示出巨大的前景,然而,由于数据有限和知识密度高,将它们高效且准确地适应特定领域的知识仍然具有挑战性。我们提出了一种两阶段框架,该框架结合结构化模型压缩与科学微调计划来解决这一挑战。在压缩阶段,我们将LLM的权重矩阵分解为局部低秩的“秩块”,并将这些块以类似潘罗斯的非周期镶嵌模式排列。然后通过谱变换(例如离散余弦变换或傅里叶变换)对每个块进行压缩,并使用基于Kullback-Leibler(KL)散度的对齐损失保留压缩模型表示与原始完整模型表示之间的分布相似性。在适应阶段,使用类似人类的科学阅读协议进一步微调压缩模型:分部分处理技术材料科学文档,并为每部分进行结构化的问答例行程序。这种部分Q&A微调策略提取明确的推理轨迹,并逐步注入领域知识,同时最小化模型的一般语言能力灾难性遗忘。通过平衡高效的压缩与目标化的适应,我们的两阶段方法在数据稀缺条件下使LLMs能够对高价值领域实现精确的专业化。我们展示了一个有原则但探索性的管道,并概述其在推进材料科学知识整合方面的潜力,为未来在综合实证评估方面的进一步工作奠定基础。
arXiv:2503.22069v1 宣传类型:交叉研究
摘要:乳腺癌是女性中最常见的恶性肿瘤,需要精确的检测和分类以实现有效的治疗。类似于HER2、ER和PR的免疫组化(IHC)生物标志物是识别乳腺癌亚型的关键。然而,传统的IHC分类依赖于病理学家的专业知识,使其劳动密集并且容易受到观察者间显著差异的影响。为了解决这些挑战,本研究引入了印度病理学乳腺癌数据集(IPD-Breast),该数据集包含1,272张IHC切片(HER2、ER和PR),旨在实现受体状态分类的自动化。主要关注点是开发HER2三分类(0,低,高)的预测模型,以提高预后效果。多种深度学习模型的评估显示,利用低分辨率IHC图像的端到端ConvNeXt网络在三分类中的AUC、F1和准确性分别为91.79%、83.52%和83.56%,且F1分数比基于patch的方法高出5.35%以上。本研究突显了简单而有效的深度学习技术在显著提高乳腺癌分类的准确性和可重复性方面的潜力,并支持将其集成到临床工作流程中以改善患者的治疗结果。
arXiv:2503.22068v1 宣告类型: cross
摘要: 我们分析了计算单元在参数更新后保留过去响应的能力,这是系统级持续学习的关键特性。使用梯度下降训练的神经网络缺乏这种能力,促使我们提出了Modelleyen这一替代方法,它具有固有的响应保留能力。通过在模拟简单环境的动力学和MNIST上的实验,我们展示了尽管Modelleyen目前阶段增加了计算复杂度并存在一些表示限制,但它在不依赖样本重放或预定义任务边界的情况下实现了持续学习。