arXiv 论文列表

一张图片值一千个提示？图像再生任务中迭代的人工驱动提示 refinement 的有效性

作者: Khoi Trinh, Scott Seidenberger, Raveen Wijewickrama, Murtuza Jadliwala, Anindya Maiti

arXiv:2504.20340v1 通知类型: 新闻摘要: 随着人工智能生成内容在互联网、社交媒体和其他数字平台上变得无所不在，研究这种内容是如何被激发和生成的变得至关重要。人工智能生成图像的创作通常涉及对输入提示进行迭代优化，以实现预期的视觉效果。本研究重点关注相对较少探索的通过人工智能进行图像再生的概念，即一个人类操作者通过迭代优化其提示来尽量精细地再现特定目标图像。图像再生与缺乏预设视觉参考的普通图像生成不同。另一个挑战在于，在我们尚未完全理解主观人类相似度判断与现有图像相似度度量（ISM）的一致性的情况下，如何确定现有图像相似度度量是否能提供可靠、客观的反馈意见。因此，我们必须首先验证这些度量与人类感知的一致性，然后再评估它们在迭代提示优化过程中作为反馈机制的潜力。为解决这些研究缺口，我们进行了一项结构化用户研究，评估了迭代提示优化如何影响再生图像与目标图像的相似性，同时考察现有图像相似度度量是否捕捉到了人类观察者感知到的相同改进。我们的研究结果表明，逐步调整提示显著提高了对齐度，主观评估和定量度量都验证了这一点，强调了迭代工作流在跨各种应用领域提升生成人工智能内容创造的整体潜力。

发布时间: 4/30/2025

查看原文

利用动作关系结构进行集成学习与规划

作者: Ryan Xiao Wang, Felipe Trevizan

arXiv:2504.20318v1 宣告类型: 新摘要: 最近在规划方面的进展探索了使用学习方法来辅助规划。然而，很少有研究将注意力转向如何调整搜索算法以便更好地与学习系统协同工作。在这篇论文中，我们介绍了一种新的经典规划搜索空间——部分空间搜索，该搜索空间利用了PDDL操作方案提供的操作的关联结构——这是传统规划方法所忽略的一种结构。部分空间搜索提供了更细致的搜索空间视图，并允许在状态空间搜索中更早地剪枝表现不佳的操作。为了指导部分空间搜索，我们引入了一种操作集启发式方法，该方法评估状态下的操作集合。我们描述了如何自动将现有的启发式方法转换为操作集启发式方法。我们还使用部分空间搜索的大型训练数据集从头训练操作集启发式方法。我们的新规划器 LazyLifted 充分利用了我们集成得更好的搜索和学习启发式方法，并在IPC 2023学习轨道(LT)基准测试中优于最先进的基于机器学习的启发式方法。我们还展示了 LazyLifted 在高分支因子任务中的效率，并证明它在综合IPC 2023 LT和高分支因子基准测试中超过了LAMA。

发布时间: 4/30/2025

查看原文

mrCAD: 多模态计算机辅助设计细化

作者: William P. McCarthy, Saujas Vaduguru, Karl D. D. Willis, Justin Matejka, Judith E. Fan, Daniel Fried, Yewen Pu

arXiv:2504.20294v1 宣告类型: 新摘要: 人类协作的一个关键特征是能够迭代地精炼我们已经传达的概念。相比之下，尽管生成型AI在内容的生成方面表现出色，但在根据具体语言指导对其先前输出进行特定修改时，它往往难以应付。为了在人类和机器执行编辑任务之间弥合差距，我们提出了mrCAD数据集，这是一个通信游戏中多模态指令的集合。在游戏中，玩家创建计算机辅助设计（CAD）并经过多轮迭代以匹配特定的目标设计。只有设计师能看见目标，他们必须使用文本、绘图或多种模态组合的方式向另一位玩家——建造者传达指令。mrCAD包含6,082场通信游戏，15,163次指令执行轮次，由1,092对人类玩家对战。我们分析了数据集并发现生成指令和精炼指令在绘图和文本的使用上存在差异。使用mrCAD任务作为基准，我们发现现有的最先进的视觉语言模型在遵循生成指令方面比遵循精炼指令方面表现更好。这些结果为分析和建模一种未被先前数据集所代表的多模态精炼语言奠定了基础。

发布时间: 4/30/2025

查看原文

基于物理学先验的一阶逆优化

作者: Haoyu Yang, Kamyar Azizzadenesheli, Haoxing Ren

arXiv:2504.20278v1 逆设计优化类型: 新摘要: 逆设计优化旨在从观测到的解决方案中推断系统参数，这在半导体制造、结构工程、材料科学和流体动力学等领域提出了关键挑战。许多系统缺乏显式的数学表示，这使得这一过程复杂化，并使一阶优化成为不可能。主流方法，包括生成式AI和贝叶斯优化，解决了这些挑战，但存在一定的局限性。生成式AI计算成本高，而贝叶斯优化依赖于代理模型，因此具有可扩展性差、对先验的敏感性和噪声问题的局限性，通常会导致次优解。本文介绍了深度物理先验(DPP)，这是一种新的方法，通过使用预训练的辅助神经算子，使一阶梯度基础的逆优化成为可能，并利用代理机器学习模型。通过施加先验分布约束，DPP 保证了解的鲁棒性和意义性。当先验数据和观察分布未知时，这种方法尤其有效。

发布时间: 4/30/2025

查看原文

转型性证据综合：人工智能时代自动化元分析的发展系统评价

作者: Lingbo Li, Anuradha Mathrani, Teo Susnjak

arXiv:2504.20113v1 Announce Type: new 摘要：科学文献的指数增长加剧了高效证据综合的需求，推动了由自然语言处理和机器学习驱动的自动化元分析（AMA）领域的兴起。这篇基于2006年至2024年筛查的978篇论文并分析了54项跨不同领域的研究的PRISMA系统评价，介绍了一个结构化的框架来评估AMA的现状。研究发现，AMA的主要焦点集中在自动化数据处理上（57%），例如提取和统计建模，只有17%的研究涵盖高级综合阶段。只有2%（一项研究）探讨了初步的全流程自动化，突显了AMA在全面综合方面的关键缺口。尽管大型语言模型（LLMs）和先进AI的近期突破在集成到统计建模和高层次综合方面（如异质性评估和偏差评价）仍处于不发达阶段，这限制了AMA实现完全自主元分析的潜力。基于涵盖医学（67%）和非医学（33%）应用的数据集，我们发现AMA在提升效率、扩展性和再现性方面的具体实施模式和效果存在差异。虽然自动化增强了特定的元分析任务，但实现无缝的端到端自动化仍然是一个开放的挑战。随着AI系统在推理和情境理解方面的发展，填补这些缺口现在变得至关重要。未来的工作必须致力于跨越所有元分析阶段的自动化，改进解释性，并确保方法论的稳健性，以充分发挥AMA在扩展、领域无关的综合方面的潜力。

发布时间: 4/30/2025

查看原文

基于神经科学启发的连续学习系统实现个性化的人工通用智能

作者: Rajeev Gupta, Suhani Gupta, Ronak Parikh, Divya Gupta, Amir Javaheri, Jairaj Singh Shaktawat

arXiv:2504.20109v1 宣布类型: 新摘要: 人工智能在近年来取得了令人瞩目的进步，主要得益于日益庞大的深度学习模型。然而，实现真正的通用人工智能（AGI）需要根本上新的架构，而不仅仅是扩展现有模型的规模。当前的方法主要依赖于扩展模型参数，这可以提高特定任务的表现，但在实现连续、灵活和泛化的学习方面却力有未逮。在资源受限的边缘设备上实现具备连续学习和个性化能力的AGI是一个更大的挑战。本文回顾了连续学习和受神经科学启发的AI的研究状态，并提出了一种用于边缘部署的个性化AGI的新型架构，该架构整合了类似大脑的学习机制。我们回顾了连续终身学习、灾难性遗忘和边缘AI的相关文献，并讨论了人体学习的关键神经科学原理，包括突触修剪、Hebbian可塑性、稀疏编码以及双记忆系统，从中汲取灵感构建AI系统。基于这些见解，我们概述了一个特征为互补的快慢学习模块、突触自我优化以及内存高效模型更新的AI架构，以支持在设备上的终身适应。提出了所提架构和学习过程的概念图。我们解决了灾难性遗忘、内存效率和系统可扩展性等挑战，并介绍了移动AI助手和类人机器人等主体AI系统应用场景。最后，我们总结了关键收获，并指出了未来朝着真正具备连续、个性化AGI边缘部署的研究方向。尽管该架构是理论性的，但它综合了多方面的研究发现，并提供了未来实施的路线图。

发布时间: 4/30/2025

查看原文

火花：一个用于科学创造性理念生成的系统

作者: Aishik Sanyal, Samuel Schapiro, Sumuk Shashidhar, Royce Moon, Lav R. Varshney, Dilek Hakkani-Tur

arXiv:2504.20090v1 宣告类型: 新摘要: 近来，大型语言模型（LLMs）在科学领域展示了生成新颖研究想法的有前景的能力，这一方向与计算创造力（CC）的基础原则高度一致。鉴于这些进展，我们提出了一种名为 Spark 的想法生成系统，该系统结合了使用 LLMs 进行检索增强的想法生成，以及基于 OpenReview 上的 60 万篇科学评论训练的评审模型 Judge。我们的工作既是系统演示，也是希望通过将科学想法的生成和评估置于基础 CC 原则之内来激励其他 CC 研究者进行探索。为此，我们发布了用于训练 Judge 的标注数据集，邀请其他研究者探索使用 LLMs 进行想法生成和创造性评估的方法。

发布时间: 4/30/2025

查看原文

AIawareness

作者: Xiaojian Li, Haoyuan Shi, Rongwu Xu, Wei Xu

arXiv:2504.20084v1 宣布类型: 新增摘要: 人工智能（AI）领域的 Recent 突破带来了越来越强大的系统，这些系统在推理、语言理解和问题解决方面表现出了非凡的能力。这些进步促使对 AI 意识进行了重新审视，不再是哲学意义上的意识问题，而是作为可测量的功能能力。在本文中，我们将探讨新兴的 AI 意识的概貌，包括元认知（能够表示和推理其自身状态的能力）、自我意识（识别其自身身份、知识、限制等）、社会意识（建模其他代理的知识、意图和行为）和情境意识（评估并应对自身操作的环境）。首先，我们将借鉴认知科学、心理学和计算理论的见解，追溯意识的理论基础，并探讨这四种类型的 AI 意识如何在最先进的 AI 中表现出来。接下来，我们将系统地分析当前的评估方法和实证研究成果，以便更好地理解这些表现形式。在此基础上，我们将探讨 AI 意识与 AI 能力之间的密切联系，证明更具意识的 AI 代理往往表现出更高水平的智能行为。最后，我们将讨论与 AI 意识相关的风险，包括 AI 安全、对齐和更广泛的伦理关注等主题。 AI 意识是一把双刃剑：它提高了通用能力，如推理和安全性，同时也引起了错配和社会风险方面的担忧，随着 AI 能力的增强，需要仔细的监管。总体而言，我们的跨学科回顾为未来研究提供了一条 roadmap，并旨在阐明 AI 意识在智能机器不断发展中所扮演的角色。

发布时间: 4/30/2025

查看原文

人工智能在教育中的进化：自主工作流

作者: Firuz Kamalov, David Santandreu Calonge, Linda Smail, Dilshod Azizov, Dimple R. Thadani, Theresa Kwong, Amara Atif

arXiv:2504.20082v1 通知类型: 新增摘要：人工智能（AI）已改变教育的各个方面，大型语言模型（LLMs）推动了自动化辅导、评估和内容生成的进步。然而，传统的LLMs受到其依赖静态训练数据、适应性有限和缺乏推理能力的限制。为了应对这些局限性并促进更可持续的技术实践，人工智能代理已成为教育创新的有前途的新途径。在本文综述中，我们根据四个主要范式（反思、规划、工具使用和多智能体协作）来审视教育中的代理工作流程。我们通过这些关键设计范式批判性地分析人工智能代理在教育中的作用，探索它们的优势、应用和挑战。为了说明代理系统实践潜力，我们展示了概念验证应用：一种自动作文评分的多智能体框架。初步结果显示，这种代理方法可能在一致性方面优于独立的LLMs。我们的研究结果突显了人工智能代理在教育环境中的变革潜力，同时也强调了进一步研究其解释性、可信性和对教学影响的可持续影响的必要性。

发布时间: 4/30/2025

查看原文

进化遇上了扩散：高效神经架构生成

作者: Bingye Zhou, Caiyang Yu

arXiv:2504.17827v2 宣传类型: 替换交叉摘要：神经架构搜索（NAS）因其在深度学习模型设计中的变革潜力而广受关注。然而，NAS 的庞大且复杂的搜索空间导致了显著的计算和时间成本。神经架构生成（NAG）通过将 NAS 重新定义为生成问题，解决了这一问题，从而能够为特定任务精确生成最优架构。尽管 NAG 具有很大的潜力，主流方法如扩散模型仍然存在全局搜索能力的局限性，并且仍然受到高计算和时间成本的阻碍。为了克服这些挑战，我们提出了一种名为进化扩散驱动的神经架构生成（EDNAG）的新型方法，该方法实现了高效的、无需训练的架构生成。EDNAG 利用进化算法模拟扩散模型中的去噪过程，使用适应度指导从随机高斯分布向最优架构分布的过渡。这种方法结合了进化策略和扩散模型的优势，能够实现快速且有效的架构生成。广泛的实验结果表明，EDNAG 在架构优化方面达到了最先进的（SOTA）性能，准确率提高了高达 10.45%。此外，它消除了耗时的训练需求，并通过平均提升 50 倍的速度提高推理速度，展示了其卓越的效率和效果。

发布时间: 4/29/2025

查看原文