arXiv:2504.08525v2 宣告类型: 替换
摘要:大规模语言模型(LLMs)越来越多地被用作执行多步任务的自主代理。然而,现有的大多数框架无法维持任务状态的结构化理解,通常依赖于线性提示串联或浅层的记忆缓冲。这导致了脆弱的性能、频繁的幻想和不良的长距离一致性和连贯性。在本文中,我们提出了任务记忆引擎(TME),这是一种轻量级且结构化的记忆模块,通过层次化任务记忆树(TMT)跟踪任务执行。树中的每个节点对应一个任务步骤,存储相关的输入、输出、状态和子任务关系。我们引入了一种提示合成方法,根据活动节点路径动态生成LLM提示,显著提高了执行一致性并增强了上下文关联。通过对多步代理任务的案例研究和比较实验,我们证明了TME能够实现更高的任务完成准确性和更具解释性的行为,且实施开销极小。核心TME组件的基本实现可在 https://github.com/biubiutomato/TME-Agent 查看,包括基本示例和结构化记忆的集成。尽管当前实现使用了基于树的结构,TME被设计为图意识的,支持可复用的子步骤、收敛的任务路径和共享依赖性。这为进一步基于DAG的记忆架构奠定了基础。
arXiv:2504.05108v3 公告类型: 替换
摘要:发现解决复杂问题的有效算法一直是数学和计算机科学领域的重大挑战,多年来需要大量的专业知识。近期在大型语言模型(LLMs)辅助下的进化搜索方面取得的进步,在加速各种领域的算法发现方面显示出了潜力,特别是在数学和优化领域。然而,现有的方法将LLM视为静态生成器,未能利用进化探索过程中获得的信号来更新模型。在本文中,我们提出通过强化学习(RL)微调连续改进搜索操作符——LLM,来增强基于LLM的进化搜索。我们的方法利用进化搜索作为探索策略,以发现改进的算法,而RL则根据这些发现优化LLM策略。我们对三个组合优化任务——装箱问题、旅行商问题和平面打包问题——的实验表明,结合RL和进化搜索可以提高改进算法发现的效率,展示了强化学习增强进化策略在辅助计算机科学家和数学家进行更高效算法设计方面的发展潜力。
arXiv:2504.04430v2 宣告类型:替换
摘要:尽管在机器学习方面取得了显著进展,但当前的人工智能系统仍然无法达到真正的人类智能水平。虽然大型语言模型(LLMs)在模式识别和响应生成方面表现出色,但它们缺乏真正的理解——这是人工智能通用智能(AGI)的一个重要特征。现有的AGI评估方法未能提供一个实用、渐进和信息丰富的度量标准。本文引入了人工智能通用智能测试床(AGITB),包含十二项严格的测试,形成了认知能力潜在出现的信号处理级基础。AGITB 通过模型在时间上预测二元信号的能力来评估智能,而不依赖于象征性表示或预训练。与基于语言或感知的高层次测试不同,AGITB 专注于生物智能的核心计算不变量,如确定性、敏感性和概括性。测试床假定无先偏见,独立于语义意义,并通过穷举或记忆确保不可解。虽然人类设计上通过了AGITB,但目前没有人工智能系统能够满足其标准,使AGITB 成为指导和识别通向AGI 进步的有力基准。
arXiv:2503.23668v3 说明类型: 替换
概述: 当前的分子理解方法主要侧重于人类感知的描述性方面,提供了广泛的主题级见解。然而,参照方面——将分子概念与特定的结构成分联系起来——仍然被广泛忽视。为解决这一差距,我们提出了一个分子定位基准,旨在评估模型的参照能力。我们将分子定位与NLP、化学信息学和分子科学中的现有规范相结合,展示了NLP技术在科学发展领域推进分子理解中的潜力。此外,我们构建了迄今为止最大的分子理解基准,包含117k QA对,并开发了一个多代理定位原型作为概念验证。该系统在现有的模型,包括GPT-4o,中表现更佳,并且其定位输出已被集成以增强传统任务,如分子描述和ATC(解剖学、治疗学、化学)分类。
arXiv:2503.23633v5 宣告类型: 替换
摘要:生成式AI以大型语言模型(LLMs)为代表的发展为地理信息的表示和计算开辟了新的途径,并超越了地理知识生产的流程,推动地理信息系统(GIS)朝着自主GIS的方向发展。利用LLMs作为决策核心,自主GIS可以独立生成并执行地理处理工作流,以进行空间分析。在这篇愿景论文中,我们进一步阐明了自主GIS的概念,并提出了一种概念框架,定义了其五个自主目标、五个自主级别、五个核心功能和三个操作尺度。我们通过四个概念GIS代理展示了自主GIS如何执行地理空间数据检索、空间分析和制图。我们最后总结了关键挑战和未来的研究方向,包括微调和自我增长的决策核心、自主建模以及探讨自主GIS的社会和实际影响。通过为GIScience领域奠定范式转变的基础,本文展望了一个未来,在这个未来中,GIS将超越传统的流程,自主推理、推导、创新并推进解决全球紧迫挑战的地理空间解决方案。与此同时,在我们设计和部署越来越智能的地理空间系统时,我们有责任确保这些系统以社会负责的方式开发,服务于公共利益,并支持在AI增强的未来中人类地理见解的持续价值。
arXiv:2503.18865v3 通知类型: 更新
摘要:大型语言模型的出现为结构化探索科学知识提供了新的可能性。我们不将科学发现视为孤立的想法或内容,而是建议一种强调方法组合在形成颠覆性洞察方面作用的结构化方法。具体而言,我们研究了知识单元——尤其是与方法论设计相关的知识单元——如何被建模和重组以产生科研突破。我们提出的方法解决两个关键挑战。首先,我们引入了一种对比学习机制,以识别在问题驱动背景下历史上具有颠覆性的方法组合的特征差异。其次,我们提出了一种基于推理的蒙特卡洛搜索算法,利用大型语言模型的链式思维能力,识别出针对新问题陈述有望产生有前景的知识重组方式。跨多个领域的实证研究表明,该框架能够建模创新的结构动态,并成功突显出具有高颠覆潜力的组合。这项研究为基于结构化推理和历史数据建模的计算引导科学创造提供了一条新的路径。
arXiv:2503.12721v2 宣告类型: 替换
摘要: 最近的大规模语言模型(LLMs),如 OpenAI o3-mini 和 DeepSeek-R1,通过链式思考(CoT)增强了推理能力。它们在依赖专家驱动的迭代优化的硬件设计中的潜在作用尚未被探索。本文探讨了推理语言模型是否可以解决高层次综合(HLS)设计空间探索和优化中的挑战。在HLS过程中,工程师手动定义pragma/指令来平衡性能和资源约束。我们提出了一种基于LLM的优化代理框架,该框架可以自动重构代码、插入pragma,并通过从HLS工具获取反馈以及访问整数线性规划(ILP)求解器来识别最佳设计点。实验通过成功率、效率和设计质量(面积/延迟)指标将推理模型与传统LLMs在基准测试上的性能进行比较,并提供了有史以来首次对强开源推理模型DeepSeek-R1所产生的链式思考(CoT)的瞥见。
arXiv:2503.07928v2 宣告类型:替换
摘要:大规模语言模型(LLMs),如ChatGPT的普遍可用性,对教育产生了重大影响,既带来了机遇也带来了挑战。学生们可以频繁地与LLM驱动的交互式学习工具进行互动,但这些工具的使用模式需要进行分析以确保其伦理使用的合规性。为更好地了解学生在学术环境中如何与LLMs互动,我们引入了\textbf{StudyChat},这是一个公开可用的数据集,捕捉了一个学期的大学水平人工智能(AI)课程中学生与LLM驱动的辅导聊天机器人的互动。我们部署了一个Web应用程序,实现了ChatGPT的核心功能,并使用该应用程序记录学生在完成编程作业时与LLM的互动。我们收集了1,197次对话,并使用借鉴观察到的互动模式和先前研究的对话行为标注方案对其进行注释。此外,我们分析了这些互动,突出了行为趋势,并分析了特定使用模式与课程成果之间的关系。\textbf{StudyChat}为学习科学和教育中的AI社区提供了丰富的资源,使人们能够进一步研究LLMs在教育中的不断演变的作用。
arXiv:2503.02268v2 宣传类型: 替换
摘要:大型语言模型(LLMs)的最新进展促使开发出了能够与图形用户界面(GUIs)交互的智能LLM代理。这些代理表现出强大的推理和适应能力,能够执行传统上需要预定义规则的复杂任务。然而,LLM代理依赖于逐步推理,这在处理常规任务时往往会导致效率低下。相比之下,传统的基于规则的系统在效率上表现出色,但在适应新场景方面缺乏智能和灵活性。为了解决这一挑战,我们提出了一种新的演化框架,该框架在保持智能和灵活性的同时提高了操作效率。我们的方法采用了一种记忆机制,记录代理的任务执行历史。通过分析这些历史,代理识别重复的操作序列,并进化出高层操作作为快捷方式,替换这些低层操作并提高效率。这使得代理能够专注于需要更复杂推理的任务,同时简化常规操作。在多个基准任务上的实验结果表明,我们的方法在效率和准确性上显著优于现有方法。代码将开源以支持进一步的研究。
arXiv:2412.02091v2 宣告类型: 替换
摘要:人工智能安全文献中充满了这样的例子:这些强大的AI代理在盲目追求特定且通常是狭隘的目标时,最终对他人造成了无法接受甚至灾难性的附带损害。在这篇文章中,我们考虑了学习和效用最大化代理在多代理环境中采取的行为可能导致的社会危害问题。衡量在这样复杂的多代理环境下社会危害或影响的问题,尤其是在这些代理是通用人工智能(AGI)代理的情况下,这个问题被列为在Everitt等人,2018年提出的开放问题。我们尝试通过基于市场的机制来量化和控制这类社会危害,部分回答这一开放问题。提出的设置涵盖了众多已研究的特殊情况,并且在两个方面比现有的多代理强化学习的机制设计公式更加通用:(i)底层环境是一个基于历史的通用强化学习环境,类似于AIXI;(ii)参与环境的强化学习代理可以有不同的学习策略和规划范围。为了证明提出的设置的实用性,我们对一些关键的学习算法类别进行了概述,并介绍了几个应用实例,包括对纸夹问题和污染控制(采用配额与交易制度)的讨论。