本文介绍了一种新颖的通用人工智能系统架构,该架构提供了通用的灵活性和解决了该领域当前存在的可扩展性问题。该架构,即 OGI(开放式通用智能),利用动态处理系统来控制和委派各个专业人工智能模块。它旨在用作智能系统的参考设计,为各种现实世界应用中的通用人工智能提供类人的认知灵活性。
大型语言模型(LLM)已取代众多自然语言处理任务中的传统方法。然而,在产业园区规划和运营中,现有方法常常面临工业需求与城市服务之间不平衡的挑战。本文介绍了IndustryScopeKG,这是一个开创性的多模态、多层次大型产业园区知识图谱,它整合了街景、企业、社会经济和地理空间等多种城市数据,捕捉了产业园区内部复杂的关系和语义。同时,我们提出了IndustryScopeGPT框架,该框架利用大型语言模型(LLM)和蒙特卡洛树搜索来增强工业园区规划和运营(IPPO)中的工具增强推理和决策能力。我们的工作显著改进了选址推荐和功能规划,展示了将LLM与结构化数据集相结合以推进产业园区管理的潜力。这种方法为智能IPPO研究设定了新的基准,并为推动城市工业发展奠定了坚实的基础。数据集和相关代码可在https://github.com/Tongji-KGLLM/IndustryScope获取。
大型语言模型 (LLM) 在多元时间序列分类 (MTSC) 中展现了其有效性。将 LLM 有效地应用于 MTSC 需要信息丰富的數據表示。现有的基于 LLM 的方法直接从零开始对时间序列嵌入编码到 LLM 的潜在空间中,以与 LLM 的语义空间对齐。尽管这些方法有效,但我们揭示了它们隐藏的三个固有瓶颈:(1) 它们难以无损地编码时间和通道特异性信息,而这两者都是多元时间序列的关键组成部分;(2) 将学习到的表示空间与 LLM 的语义空间对齐非常困难;(3) 它们需要特定任务的重新训练,这既计算成本高昂又费力。为了弥合这些差距,我们提出了 TableTime,它将 MTSC 重构为表格理解任务。具体来说,TableTime 引入了以下策略:(1) 将多元时间序列转换为表格形式,从而最大限度地减少信息损失;(2) 以文本格式表示表格时间序列,以实现与 LLM 语义空间的自然对齐;(3) 设计一个推理框架,该框架整合上下文文本信息、邻域辅助、多路径推理和问题分解,以增强 LLM 的推理能力并实现零样本分类。在来自 UEA 档案馆的 10 个公开代表性数据集上进行的大量实验验证了 TableTime 的优越性。
近年来人工智能的进步——包括生成式方法——催生了能够支持人类进行科学发现和决策支持的技术,但也可能扰乱民主制度并成为针对个人的工具。负责任地使用人工智能日益凸显了人机协作的必要性,需要人类与机器之间进行有效的互动。这些互动中一个至关重要但常常被忽视的方面是人类和机器泛化的不同方式。在认知科学中,人类泛化通常涉及抽象和概念学习。相比之下,人工智能泛化包括机器学习中的域外泛化、符号人工智能中的基于规则的推理以及神经符号人工智能中的抽象。在这篇观点论文中,我们结合人工智能和认知科学的见解,从三个维度识别关键的共性和差异:泛化的概念、泛化的方法以及泛化的评估。我们沿着这三个维度绘制了人工智能和认知科学中泛化的不同概念化,并考虑了它们在人机协作中的作用。这导致了人工智能和认知科学领域需要解决的跨学科挑战,这些挑战必须得到解决,才能为在人机协作场景中实现有效且认知支持的对齐奠定基础。
本文研究了大型语言模型 (LLM) 在评估另类用途测试 (AUT) 响应中的创造力方面是否一致。虽然 LLM 越来越多地用于评估创意内容,但之前的研究主要集中于单个模型评估相同模型或人类生成的响应。本文探讨了 LLM 是否能够公平且准确地评估自身和其他模型生成的输出的创造力。我们使用一组由创造力水平(普通、创造性和高度创造性)分类的 AUT 响应作为预言基准集,并使用四个最先进的 LLM 来评估这些输出。我们测试了评分和排名方法,并采用了两种评估设置(全面和分段)来检查 LLM 是否在另类用途的创造力评估上达成一致。结果显示模型间高度一致,模型间的 Spearman 相关系数平均高于 0.7,相对于预言基准集则超过 0.77,这表明 LLM 在另类用途创造力评估方面具有高度一致性和可靠性。值得注意的是,模型并不偏袒自身的响应,而是对其他模型生成的另类用途提供相似的创造力评估分数或排名。这些发现表明,LLM 在创造力评估中表现出公正性和高度一致性,为其在自动化创造力评估中的应用提供了令人鼓舞的意义。
这项工作研究了针对道德推理微调的大型语言模型 (LLM) 与执行相同任务的人类行为数据和/或脑部数据的匹配程度 (BrainScore)。我们还探讨了使用人类执行道德推理的 fMRI 数据对多个 LLM 进行微调是否可以提高 BrainScore。我们使用 ETHICS 基准测试 [Hendrycks 等人,2020] 中的道德推理行为数据、Koster-Hale 等人 [2013] 的道德推理 fMRI 数据或两者数据,对多个 LLM(BERT、RoBERTa、DeBERTa)进行微调。我们研究了 ETHICS 基准测试的准确性和模型激活与 fMRI 数据之间的 BrainScore。虽然更大的模型在两个指标上的表现普遍更好,但微调后 BrainScore 没有显著提高。
在单元制造系统 (CMS) 的设计中,在设计和运营阶段都必须做出许多技术和管理决策。CMS 设计的第一步涉及零件和机器的分组。本文针对广义分组问题提出了四种整数规划模型,用于在设计和运营层面对 CMS 中的零件和机器进行分组,其中每个零件都具有多个工艺计划,并且工艺计划的每个工序都可以在多台机器上执行。通过将零件类型的尽可能多的连续工序分别分配到同一单元和同一台机器上,实现单元间和单元内移动的最小化。讨论了将单元间和单元内移动最小化作为目标的适用性,与其他目标(如最小化机器投资成本、运营成本等)进行了比较。文中包含数值例子来说明这些模型的工作原理。
大型语言模型(LLM)的兴起为医疗器械制造商带来了严峻挑战,全球监管机构不断更新的复杂法规使得维持合规性和市场准入变得异常困难。与此同时,监管机构也必须有效监控制造商的应对措施并制定战略性监管计划。本研究采用强化型大型语言模型(LLM)的多主体建模方法,模拟监管动态,并检验关键参与者(包括监管机构、制造商和竞争对手)的适应性行为。这些主体在一个受监管流程理论支配的模拟环境中运作,该理论捕捉了法规变化对合规决策、市场适应和创新战略的影响。我们的研究结果阐明了监管变化对行业行为的影响,并确定了改进监管实践、优化合规性和促进创新的战略机遇。通过利用多主体系统和LLM的集成,本研究提供了一种新的视角,并为在医疗器械行业不断变化的监管环境中运作的利益相关者提供了可行的见解。
本文介绍了OminiControl,一个高度通用且参数高效的框架,它将图像条件集成到预训练的扩散Transformer (DiT) 模型中。OminiControl的核心利用参数复用机制,使DiT能够利用自身强大的骨干网络对图像条件进行编码,并利用其灵活的多模态注意力处理器进行处理。与依赖于具有复杂架构的额外编码器模块的现有方法不同,OminiControl (1)有效且高效地结合了注入的图像条件,额外参数仅约占0.1%;(2)以统一的方式处理各种图像条件任务,包括主题驱动生成和空间对齐条件(如边缘、深度等)。值得注意的是,这些能力是通过在DiT自身生成的图像上进行训练实现的,这对于主题驱动生成尤其有利。大量的评估表明,OminiControl在主题驱动和空间对齐条件生成方面均优于现有的基于UNet和DiT改编的模型。此外,我们还发布了我们的训练数据集Subjects200K,这是一个包含超过20万张身份一致图像的多样化集合,以及一个高效的数据合成管道,以推动主题一致生成的研究。
针对在不断变化和不可预测的环境中(尤其是在当今5G无线通信世界快速发展的自动驾驶领域)确保安全这一挑战,我们提出了Navigation Secure (NavSecure) 系统。这个基于视觉的导航框架融合了世界模型的优势和关键的安全导向决策能力,使自动驾驶车辆能够安全地应对现实世界的复杂情况。我们的方法利用世界模型的预测能力来预测潜在威胁并制定更安全的路线,从而显著减少了对大量现实世界试错学习的需求。此外,我们的方法使车辆能够通过持续实践自主学习和发展,确保系统不断发展并适应新的挑战。NavSecure结合射频技术,利用5G网络增强实时数据交换,从而提高通信和响应速度。通过在仿真到真实驾驶条件下的严格实验验证,NavSecure在安全关键场景(例如突然避障)中表现出卓越的性能。结果表明,NavSecure在关键安全指标(包括防碰撞和风险降低)方面优于其他端到端方法。该框架不仅推动了自动驾驶安全的发展,也展示了世界模型如何增强关键应用中的决策能力。NavSecure为开发更强大、更可靠的自动驾驶系统设定了新的标准,能够处理现实世界环境中固有的动态性和不确定性。