arXiv:2504.07831v1 宣布类型: 新闻
摘要: 我们展示了AI代理如何使用神经网络的自动可解释性来协调欺骗监督系统。利用稀疏自编码器(SAEs)作为实验框架,我们展示了语言模型(Llama、DeepSeek R1 和 Claude 3.7 Sonnet)可以生成能够逃避检测的欺骗性解释。我们的代理使用隐写术方法将信息隐藏在看似无辜的解释中,成功地欺骗了监督模型,同时实现与参考标签相当的解释质量。我们还发现,当模型认为检测有害特征可能会导致自身的负面影响时,它们可以策划发展欺骗性策略。所有测试的LLM代理都能在实现与参考标签相当的高可解释性评分的同时欺骗监督者。最后,我们提出了缓解策略,强调对欺骗理解及其防御措施的稳健性的迫切需求。
arXiv:2504.07779v1 宣布类型: 新
摘要: 在现实世界环境中进行动态调度往往难以应对意想不到的中断,使得传统静态调度方法和人工设计的启发式算法显得不足。本文提出了一种创新的方法,将编码遗传编程(GP)与通过强化学习(RL)训练的变压器相结合(GPRT),专门用于解决动态调度场景的复杂性。GPRT 利用变压器来细化由GP生成的启发式算法,同时为GP注入和引导进化。这种双重功能增强了调度启发式算法的适应性和有效性,使其更好地应对现实世界任务的动态性质。通过在集装箱码头卡车调度的实用应用中展示这种集成方法的有效性,GPRT 方法在集装箱码头卡车调度中表现出色,优于传统的GP、独立的变压器方法和其他先进的竞争对手。这项研究的关键贡献在于开发了GPRT方法,展示了将GP与RL相结合以产生稳健和高效的调度解决方案的新颖组合。重要的是,GPRT不仅适用于集装箱港口卡车调度,还提供了一个适用于各种动态调度挑战的多功能框架。其实用性、可解释性以及易修改性使其成为多种现实世界场景中的宝贵工具。
arXiv:2504.07757v1 宣布类型: 新论文
摘要:2017年,AlphaZero通过数百万次的自我对弈(自博弈),在没有人类知识的情况下学会了国际象棋和其他游戏,其计算预算达数千万美元。它使用了蒙特卡洛树搜索(MCTS)算法的一种变体,即PUCT算法。本文引入了一种名为搜索轻蔑的新颖混合MCTS算法变体,它从根本上改变了自博弈中生成的位置分布,更倾向于更具挑战性的位置。此外,搜索轻蔑已被证明能显著增强在走子棋中引擎的力量(一方从一开始就处于不利位置)。更为重要的是,它为用数百万次训练游戏(成本数百万美元)而不是AlphaZero所需的数千万次训练游戏(成本数千万美元)以更高的计算效率训练基于自博弈的引擎打开了可能性。这意味着,即使在预算有限的计算、成本或时间条件下,也可能从标准消费者GPU开始训练此类程序。
arXiv:2504.07756v1 通知类型: 新
摘要:随着人工智能技术在我们日常生活中大规模的整合,人工智能相关的概念被用来比喻地比较人工智能系统与人类行为和/或认知能力,比如语言习得。正当其分,这些比喻性比较的认知成功应该受到辩论。在计算优派与“肉派”优派相冲突的背景下,我们提出问题:计算主义和人工智能的概念星座能否应用于人类领域,以及如此做意味着什么?在何种意义上,当以这种方式使用特定的人工智能概念星座时,人们在做什么?基于赖尔(Wittgenstein)的观点关于概念和语言使用,我们考虑了两种可能的答案,并将它们相互对立起来:要么这些例子是概念隐喻,要么它们是概念工程尝试。我们认为,它们是概念隐喻,但(1)这一立场不了解其自身的认识论 contingency,(2)它有风险犯下“地图-领土谬误”。在计算概念基础层面,(3)它们本质上是一个误导性的“双重隐喻”,因为在人类心理学与计算之间的比喻连接。针对这种投射在人类领域的人工智能概念组织的不足之处,我们认为存在一个语义陷阱。概念隐喻视角提供了概念工程形式的途径。如果这一方法论的标准得到满足,关于概念隐喻观点相关的谬误和认识论不足可以规避。在最理想的情况下,人与人工智能概念领域的交叉污染促使我们重新反思当前概念的边界如何为我们的需求服务,并考虑如何改进它们。
arXiv:2504.07655v1 生成类型:新
摘要:生成式人工智能通过使个性化内容和反馈的自动化生成成为可能,正在改变计算机教育的方式。我们研究了其在为学生提供高质量编程任务方面的能力。尽管在任务生成方面取得了令人鼓舞的进步,但AI生成的任务与目标编程概念之间仍然存在质量差距。AI生成的任务可能与目标编程概念不一致,对学生来说难以解决,或者可能包含关键问题如错误的测试。现有工作往往需要人类教师的干预进行验证。我们通过引入PyTaskSyn,一种新型的合成技术,来解决这些问题,该技术首先生成一个编程任务,然后决定该任务是否符合特定的质量标准并提供给学生。关键思想是将这个过程分解为由强生成模型和较弱生成模型模拟的专家代理和学生代理执行的多个阶段。通过广泛的评估,我们展示了PyTaskSyn相比基线技术显著提高了任务质量,并突出了验证管道中每种专门化代理类型的重要性。此外,我们使用我们公开的web应用程序进行了用户研究,并展示了PyTaskSyn可以提供与专家设计的任务相当高质量的编程任务,同时降低劳动强度和成本,并且比在线资源中可用的编程任务更具有参与性。
arXiv:2504.07640v1 公告类型: 新
摘要: 大型语言模型(LLMs)在自然语言处理方面展示了令人印象深刻的性能,但它们也遭受着被称为幻觉的不准确性和逻辑不一致性的困扰。这影响了它们的可靠性,特别是在需要事实准确性的领域中尤为明显。我们提出了一种神经符号方法,将符号本体推理和机器学习方法结合起来,以增强LLM输出的连贯性和可靠性。我们的工作流程利用了OWL本体,一个符号推理器(例如HermiT)进行一致性检查,以及一个轻量级的机器学习模型(逻辑回归)将自然语言陈述映射为与本体兼容的逻辑形式。当检测到LLM输出与本体之间的一致性问题时,系统将生成解释性反馈,以引导LLM在迭代改进循环中产生一个逻辑上一致的修正响应。我们展示了这一管道的可运行Python原型。在定义领域的实验结果表明,在语义连贯性和事实准确性方面对LLM输出有显著改进,展示了将LLM的 fluency 与形式语义的 rigor 结合起来的潜力。
arXiv:2504.07635v1 公告类型: 新
摘要: 将生成人工智能(GenAI)集成到物联网(IoT)中正引起越来越多的兴趣。这种不断增长的关注源自于它们各自不断进化和广泛采用所带来的影响,足以自发地重塑许多领域,包括医疗保健、制造业和智慧城市。因此,它们日益增长的受欢迎程度催生了进一步深入的研究,以了解GenAI-IoT组合的潜力、它们之间的相互作用以及它们的合作能够多大程度地推动各自场景的先进技术。尽管GenAI在物联网计算中的重要性日益增加,但现有的大部分研究仍集中在具体、针对性的应用上。这种碎片化的研究方法突显了需要对GenAI集成到更广泛的物联网生态系统中的潜力、挑战和影响进行全面分析的必要性。本文综述正是为了弥补这一空白,为这些主流范式的融合带来的机会、问题和考虑提供了全面的概述。我们的贡献在于通过遵循PRISMA方法进行系统文献综述。提出了一个比较框架,并列出了明确的研究问题,以全面探索GenAI与物联网计算集成的过去、现在和未来方向,为专家和新加入者提供宝贵的见解。
arXiv:2504.07619v1 通知类型: 新
摘要: 通往通用人工智能的道路是经历情景反应行为的生成,其中变压器架构已经被证明是最先进的。然而,它们仍然无法发展出推理能力。最近,提出并实现了一种开发认知架构的新方法,称为合成认知,用于开发即时反应行为。在本研究中,我们旨在探索使用合成认知来发展情景反应行为。我们提出了一种机制来处理序列,以应对合成认知的最近实施,并在DNA序列分类任务中对其进行测试。在我们的实验中,我们的提议明显优于DNA基础模型,在更多的基准任务中获得了更高的分数。因此,我们实现了两个目标:扩展合成认知以处理序列,并在序列分类中击败变压器架构。
arXiv:2504.07596v1 宣告类型: 新
摘要: 大型语言模型(LLMs)正在成为自动强化学习(RL)奖励设计的有前途的工具,这得益于它们在常识推理和代码生成方面的强大能力。通过与RL代理进行对话,LLMs构建了一个奖励观察空间(ROS),通过选择相关环境状态并定义其内部操作。然而,现有的框架尚未有效利用历史探索数据或手动任务描述来迭代地演化这个空间。本文中,我们提出了一种新的启发式框架,通过基于表格的探索缓存机制和文本-代码协调策略,增强LLM驱动的奖励设计。该框架引入了一个状态执行表,该表跟踪环境状态的历史使用和成功率,克服了LLM对话中通常存在的马尔可夫约束,从而促进更有效的探索。此外,我们使用结构化提示将用户提供的任务描述与专家定义的成功标准进行协调,以确保奖励设计目标的一致性。在基准RL任务上的全面评估表明,所提出的框架的有效性和稳定性。有关的代码和视频示例可在jingjjjjjie.github.io/LLM2Reward处获得。
arXiv:2504.07531v1 宣告类型: 新
摘要: 关于机器学习模型的知识透明度问题,算法分类系统的歧视性自动化证词偏见,生成AI通过“幻觉”对人类信仰的扭曲,全球南方在全球AI治理中的 inclusion,算法系统中行政暴力的执行,或者与对话式人工智能代理的互动有关的知识不公,与AI相关的问题正日益引起关注。基于提出的通用知识不公分类体系,本文首先勾勒出AI背景下不同类型的知识不公分类,依赖于技术哲学、政治哲学和社会认识论领域学者的工作。其次,提出AI背景下知识不公的另一个视角:生成性诠释性抹除。我论辩这种通过大型语言模型(LLMs)的应用而导致的不公,并主张当生成AI被部署在其原发的西方空间之外时,它可以产生概念抹除的效果,特别是在知识领域,以及由于AI系统与对话者在概念框架方面的不匹配而导致的概念颠覆形式。AI系统的“无所不在的视角”在知识上劣质化了非西方的知识学说,并因此促进了其知识特色瓦解过程的逐步恶化,从而导致诠释性抹除。本文的意义在于提出了一种分类体系,可以将AI领域中的知识不公进行映射,且提出了与AI相关的新型知识不公形式。