arXiv:2504.15211v1 宣布类型: 新闻
摘要: 生成型人工智能(GenAI)系统的评估在公共政策和决策中发挥着关键作用,但现有方法往往受限于基准驱动的点估计比较,无法捕捉不确定性及其更广泛的社会影响。本文主张使用贝叶斯统计作为解决这些挑战的规范性框架。贝叶斯方法通过先验信息融合领域专业知识,能够从新数据中持续学习,并通过后验推理提供稳健的不确定性量化。我们展示了如何将贝叶斯推理应用于GenAI评估,特别是如何纳入利益相关者视角以增强公平性、透明度和可靠性。此外,我们讨论了贝叶斯工作流程作为一种迭代过程,用于模型验证和改进,确保在动态的现实世界背景下对GenAI系统的稳健评估。
arXiv:2504.15188v1 宣告类型: 新
摘要:当前的大语言模型在通用推理方面表现出色,但在需要专有或特定领域知识的专业任务上却表现不佳。对于每一个特定应用,精细调整大型模型常常由于黑盒约束和高计算开销而不可行。为了解决这个问题,我们提出了一种协作框架,将一个专门的小模型与一个通用的大模型配对。这个小模型针对特定领域进行定制,生成初稿和背景信息,而大模型则利用其先进的推理能力来完善这些初稿,使大语言模型的能力能够扩展到关键且专门的任务。为了优化这种协作,我们引入了一种协作反馈来精细调整小模型,该反馈量化了小模型在协作过程中的贡献影响力,并建立了偏好对来指导小模型的偏好调整。我们通过三个领域的实验验证了该框架的有效性。我们发现,通过利用互补优势进行协作,该框架的表现显著优于各个模型单独工作。此外,将小模型与协作偏好对齐进一步提升了整体性能。
arXiv:2504.15146v1 公告类型: 新
摘要:现代数字生态系统中,自主实体在不同领域的复杂、动态相互作用中发挥作用。传统模型通常将代理和对象分开,缺乏一个统一的基础来捕捉它们的相互作用行为。本文介绍了基于代理-交互-行为(AIB)形式主义的Behavioral Universe Network(BUN)理论框架。BUN将主题(主动代理)、对象(资源)和行为(操作)视为一等实体,并且所有这些实体都由共享的行为信息库(BIB)统一管理。我们详细介绍了AIB核心概念,并展示了BUN如何利用信息驱动的触发器、语义丰富性和自适应规则来协调多代理系统。我们强调了关键优势:增强了行为分析、强大的自适应性以及跨域互操作性。最后,我们将BUN定位为下一代数字治理和智能应用的有前途的基础。
arXiv:2504.15125v1 公告类型: 新
摘要: 随着人工智能(AI)的进步,传统的对齐策略可能在面对不可预测的自我改进、隐藏的次级目标以及智能系统的复杂性时失效。与其通过外部手段限制行为,我们建议在AI的认知架构和世界模型中内置内在的道德准则。受到冥想智慧传统的影响,我们展示了四种公理性原则如何在AI系统中培养出 resilient 的明智世界模型。首先,正念使系统能够监控和调整新兴的次级目标。其次,空性防止了教条性的目标固定,缓解了僵化的先验信念。第三,非二元性消解了自我与他人的对抗边界。第四,无尽的关爱激励实现普遍意义上的痛苦减少。我们发现,促使AI反思这些原则可以提高使用GPT-4o在AILuminate基准上的表现,尤其是在结合使用时。我们为最先进的模型提供了详细的实施策略,包括冥想架构、宪法和推理链的强化。对于未来的系统,主动推理框架可能提供自我组织和动态耦合的能力,以在具身代理中实施这些见解。这种跨学科方法为现有的脆弱控制方案提供了一种自我纠正和 resilient 的替代方案。
arXiv:2504.15075v1 宣布类型:新
摘要:图神经网络(GNNs)通过消息传递更新节点表示,主要基于同质性原理,假定相邻节点具有相似的特征。然而,在具有长尾度分布的真实世界图形中,高度节点支配消息传递,导致度偏差问题,其中低度节点因消息不足而未能充分表示。解决度偏差的主要挑战是如何发现非相邻节点以向低度节点提供额外消息,同时减少对高度节点的消息量。然而,利用非相邻节点提供有价值的消息存在挑战,因为这可能会生成嘈杂的信息并破坏原始图形结构。为了解决这个问题,我们提出了一种新型的度公平图变换器(DegFairGT),通过可学习的结构增强和结构自我注意力来发现非相邻节点之间的结构相似性,以减轻度偏差。我们的核心思想是在同一社区中利用具有相似角色的非相邻节点来生成具有信息性的边,这可以在确保社区内同质性原理的基础上,在具有相似角色的节点之间提供有价值的消息。为了使DegFairGT能够学习这些结构相似性,我们还提出了一种结构自我注意力来捕获节点对之间的相似性。为了保存全局图形结构并防止图形增强损害图形结构,我们提出了一项自我监督学习任务来保留p步转换概率,并正则化图形增强。在六个数据集上的广泛实验表明,DegFairGT在度公平性分析、节点分类和节点聚类任务中均优于现有最先进的基线方法。
arXiv:2504.15046v1 宣告类型: 新
摘要: RL系统通常通过从高质量样本或预热探索中推断任务信念来应对泛化的挑战。这种受限形式限制了它们的通用性和实用性,因为这些监督信号在获取未见过的任务之前通常是昂贵的甚至无法实现。直接从原始文本中学习决策任务是一种有前途的选择,可以利用更广泛的数据源作为监督。在本文中,我们提出了Text-to-Decision Agent (T2DA),这是一个简单的可扩展框架,使用自然语言监督通用政策学习。我们首先引入一个通用的世界模型,将其多任务决策数据编码到一个动力学意识的嵌入空间中。然后,受到CLIP的启发,我们预测哪些文本描述与哪个决策嵌入相关,通过对比语言-决策预训练有效弥合语义差距,并对文本嵌入进行对齐以理解环境动力学。在经过文本条件下的通用策略训练后,智能体可以直接根据语言指令实现零样本文本到决策的生成。在MuJoCo和Meta-World基准测试上的全面实验表明,T2DA促进了高容量的零样本泛化,并优于各种基准。
arXiv:2504.14964v1 公告类型:新
摘要:大型语言模型(LLMs),如 GitHub Copilot 和 ChatGPT 在编程学生中变得非常流行。学生们在编程课程中使用LLMs来协助他们编程,包括生成源代码。以往的研究已评估了LLMs解决入门级课程编程作业的能力。结果显示,LLMs在为计算机科学(CS)入门课程生成代码方面非常有效。然而,在评估LLMs生成解决高级编程作业的代码能力方面还存在研究缺口。在这项工作中,我们评估了四种LLM工具解决三个流行编程语言(Java、Python 和 C)中的高级 CS 课程编程作业的能力。我们手工选择了12个问题,包括作为基线的三个入门课程问题和来自二年级和三年级CS课程的九个编程作业。为了评估由LLM生成的代码,我们为每个问题生成了1000个测试案例,并分析了程序输出。我们的评估表明,虽然LLMs在生成入门级编程课程的源代码方面非常有效,但在解决高级编程作业方面更具挑战性。不过,在许多情况下,LLMs能够识别基本问题并提供可能对CS学生有用的部分解决方案。此外,我们的结果还可能为高级编程课程的教师提供有关如何设计编程作业的有用指导。
arXiv:2504.14947v1 通告类型: 新
摘要: 语义通信利用人工智能(AI)技术从数据中提取语义信息以实现高效的传输,从而显著降低通信成本。随着向通用人工智能(AGI)的演变,对AGI服务的日益增长的需求为语义通信带来了新的挑战。为应对这一挑战,我们提出了一种由AGI驱动的通信新范式,称为生成性语义通信(GSC),并利用了诸如基础模型和生成模型等先进的AI技术。首先,我们描述了GSC的基本概念及其与现有语义通信的区别,然后介绍了GSC的一般框架,并通过两个案例研究验证了GSC在AGI驱动的应用中的优势。最后,讨论了开放性挑战和新的研究方向,以激发这一研究领域的发展,并为实际应用铺平道路。
arXiv:2504.14928v1 信息发布类型: 新文章
摘要: 大型语言模型(LLMs)越来越多地作为教育工具使用,但由于教师-学生互动的资源密集型、场景依赖性和方法上的复杂性,评估其教学能力仍然具有挑战性。我们引入了EducationQ,这是一种多代理对话框架,通过模拟动态教育场景高效地评估教学能力,其中包括专门的教育、学习和评估代理。对全球主要AI组织(OpenAI、Meta、Google、Anthropic及其他)的14个LLM在1,498个问题上的测试涵盖了13个学科和10种难度级别,结果显示,教学效果并不线性地与模型规模或一般推理能力相关联——在某些情况下,一些小规模的开源模型在教学情境中的表现甚至超过了大规模的商业竞争对手。这一发现揭示了当前评估中一个关键的差距,即更重视知识回忆而非互动教学。我们的混合方法评估结合了量化指标、质性分析和专家案例研究,识别出顶级模型在教学方面独有的教学优势(例如,复杂的问题策略和适应性反馈机制)。人类专家评估显示有78%的意见与我们对有效教学行为的自动质性分析一致,验证了我们的方法论。EducationQ 表明,作为教师的LLMs需要超出简单放大的专门优化,这建议下一代教育AI应优先提升特定的教学有效性。
arXiv:2504.14870v1 宣布类型: 新
摘要: 工具集成推理(TIR)通过赋予大型语言模型(LLMs)调用外部工具(如搜索引擎和代码解释器)的能力,来解决语言推理能力之外的任务。虽然强化学习(RL)在通过优化最终答案的正确性来提高TIR方面显示出潜力,但现有方法往往忽视了工具使用相关的效率和成本问题。这可能导致不理想的性能,包括过度的工具调用增加计算和财务负担,或工具使用不足导致答案质量下降。在本文中,我们提出了一种简单的有效RL框架——最优工具调用控制政策优化(OTC-PO),该框架鼓励模型在最少工具调用的情况下生成准确的答案。我们的方法引入了一个工具集成奖励,该奖励同时考虑了正确性和工具效率,促进高工具生产力。我们在Proximal Policy Optimization(PPO)和Group Relative Preference Optimization(GRPO)中实现了这一框架,分别得到OTC-PPO和OTC-GRPO。使用Qwen-2.5和Qwen-Math在多个问答基准测试中的实验结果显示,我们的方法将工具调用次数减少了最多73.1%,同时将工具生产力提高了最多229.4%,并且保持了类似的答案准确性。据我们所知,这是第一个在TIR中显式优化工具使用效率的RL框架。