深度强化学习 (RL) 策略虽然在任务奖励方面最优,但可能与人类用户的个人偏好不一致。为了确保这种一致性,一个简单的解决方案是使用一个编码了用户特定偏好的奖励函数来重新训练代理。然而,这样的奖励函数通常不容易获得,因此从头开始重新训练代理可能非常昂贵。我们提出了一种更实用的方法——借助人类反馈,将已经训练好的策略适应用户的特定需求。为此,我们通过轨迹级反馈推断用户的意图,并将其与经过训练的任务策略结合,使用一种理论上有根据的动态策略融合方法。由于我们的方法在用于学习任务策略的相同轨迹上收集人类反馈,因此它不需要与环境进行任何额外的交互,使其成为一种零样本方法。我们在多个环境中通过实验证明,我们提出的动态策略融合方法始终能够实现预期的任务,同时满足用户的特定需求。
本文提出了一种基于知识图的新方法,旨在提供及时获取结构化信息,实现可操作的技术情报,并改进网络物理系统规划。我们的框架包含一个文本挖掘过程,包括信息检索、关键词提取、语义网络创建和主题地图可视化。在完成数据探索过程后,我们采用了一种选择性知识图构建 (KGC) 方法,该方法由一个支持电子和创新本体的管道提供支持,用于多目标决策,重点关注网络物理系统。我们将我们的方法应用于汽车电气系统领域来演示这种可扩展的方法。我们的结果表明,在类识别、关系构建和正确的“子类”分类方面,我们的构建过程在性能上优于 GraphGPT 以及我们的双向 LSTM 和 transformer REBEL,其使用了一个预定义的数据集。此外,我们概述了推理应用,并与 Wikidata 进行比较,以展示该方法的差异和优势。
大型语言模型(LLM)的开发和评估主要集中在单个能力上。然而,这忽视了现实世界任务中经常需要的跨不同类型专业知识的多种能力的交集,我们称之为跨能力。为了系统地探索这一概念,我们首先定义了七项核心个人能力,然后将它们配对形成七项常见跨能力,每项都由人工构建的分类法支持。基于这些定义,我们引入了 CrossEval,这是一个包含 1,400 个人工标注提示的基准,每个个人和跨能力有 100 个提示。为了确保可靠的评估,我们让专家标注者评估 4,200 个模型响应,收集了 8,400 个带有详细解释的人工评级,作为参考示例。我们的发现表明,在静态评估和增强特定能力的尝试中,当前的 LLM 一直表现出“最弱环节定律”,其中跨能力性能受到最弱组成部分的严重限制。具体而言,在来自 17 个模型的 58 个跨能力分数中,38 个分数低于所有个人能力,而 20 个分数介于强和弱之间,但更接近较弱的能力。这些结果突出了 LLM 在跨能力任务中的表现不佳,因此,识别和改进最弱能力对于未来的研究来说至关重要,以优化复杂的多维场景中的性能。
大型语言模型 (LLM) 在众多自然语言处理任务中已取代传统方法。然而,在命名实体识别 (NER) 中,现有的基于 LLM 的方法...
本文提出了一种分析黎曼猜想[27]的新框架,该框架包含三个关键组成部分:a) 采用交叉熵优化和推理的概率建模;b) 大数定律的应用;c) 数学归纳法的应用。该分析主要通过交叉熵优化和推理的概率建模以及罕见事件模拟技术进行。大数定律[2, 3, 6]的应用和数学归纳法的应用使得对黎曼猜想的分析自成一体且完整,以确保覆盖整个复平面,正如黎曼猜想所推测的那样。我们还讨论了使用大型语言模型 (LLM) 进行推理的增强 top-p 采样方法,其中下一个词元的预测不仅基于当前轮次中每个可能词元的估计概率,还基于多个 top-k 思维链 (CoT) 路径的累积路径概率。交叉熵优化和推理的概率建模可能非常适合分析黎曼猜想,因为黎曼 Zeta 函数本质上处理的是复数级数无限个分量的求和。
我们希望本文的分析能够为黎曼猜想提供一些见解。本文提出的框架和技术,加上大型语言模型 (LLM) 中思维链 (CoT) 或思维图 (DoT) 推理与强化学习 (RL) [1, 7, 18, 21, 24, 34, 39-41] 的最新进展,可能为最终证明黎曼猜想[27]铺平道路。
整数二次规划 (IQP) 是运筹学中的一个重要问题。局部搜索是解决难题的一种有效方法,但针对 IQP 求解的局部搜索算法的研究仍处于起步阶段。本文开发了一种高效的局部搜索求解器 LS-IQCQP 用于解决一般 IQP 问题。我们针对 IQP 提出了四种新的局部搜索算子,可以处理目标函数、约束或两者中的二次项。此外,本文还引入了双模式局部搜索算法,利用新设计的评分函数来增强搜索过程。实验在标准 IQP 基准库 QPLIB 和 MINLPLIB 上进行,将 LS-IQCQP 与几种最先进的 IQP 求解器进行比较。实验结果表明,LS-IQCQP 与最强大的商业求解器 Gurobi 具有竞争力,并且优于其他最先进的求解器。此外,LS-IQCQP 为 QPLIB 和 MINLPLIB 的开放实例创造了 6 项新纪录。
抽象论证框架是一种常用的形式化方法,用于提供对话的静态表示。然而,论证对话中论证的陈述顺序非常重要,它会影响对话的结果。本文提出了一种新的抽象论证图建模框架,该模型包含论证的陈述顺序。通过考虑此顺序,我们可以为每个对话推导出一个唯一的结论,称为扩展。我们还建立了一些属性,例如终止和正确性,并讨论了两种完整性概念。特别是,我们提出了一种基于“最后陈述最后更新”策略的先前转换的修改,该策略验证了第二种完整性形式。
城市建筑外立面在城市分析中日益重要,这得益于街景图像技术的进步及其与城市研究的整合。多模态大型语言模型 (LLM) 为城市标注提供了强大的工具,使人们能够更深入地了解城市环境。然而,在创建准确且详细的城市建筑外立面数据库、识别能源效率、环境可持续性和以人为本的设计的关键指标以及系统地组织这些指标方面仍然存在挑战。为了应对这些挑战,我们提出了 BuildingView,这是一种新方法,它通过 Overpass API 将来自 Google 街景的高分辨率视觉数据与来自 OpenStreetMap 的空间信息相结合。这项研究提高了城市建筑外立面数据的准确性,识别了关键的可持续性和设计指标,并开发了用于提取和分类这些指标的框架。我们的方法包括系统性文献综述、建筑和街景采样以及使用 ChatGPT-4O API 进行标注。由此产生的数据库通过纽约市、阿姆斯特丹和新加坡的数据验证,为城市研究提供了全面的工具,支持城市规划、建筑设计和环境政策方面的明智决策。BuildingView 的代码可在 https://github.com/Jasper0122/BuildingView 获取。
我们介绍了 BRIDGET,一个新颖的人机协同决策系统,旨在帮助用户对未标记数据集中的记录进行标注,试图“弥合”两种最流行的混合决策范式之间的差距:一种以人为中心,另一种以机器为主导。BRIDGET 能够理解何时应该由机器或人类用户负责,并在两种状态之间动态切换。在不同的状态下,BRIDGET 仍然促进人机交互,要么让机器学习模型对用户持怀疑态度并向用户提供建议,要么对自身持怀疑态度并呼叫用户。我们相信我们的提案为未来涉及人类和机器决策者的协同系统奠定了基础。
我们认为,以 Shapley-Owen 效应衡量相对重要性和其公平分配是合适的,并且如果我们接受公平分配的一些合理要求,这是衡量公平的唯一方法。另一方面,计算 Shapley-Owen 效应可能非常耗费资源。我们的主要技术成果是对 Shapley-Owen 效应的谱分解,它将这些指标的计算分解为模型特定部分和模型无关部分。模型无关部分可以一次性预先计算,而 Shapley-Owen 效应的模型特定计算可以用模型的 *多项式混沌展开* (PCE) 系数的解析形式表达,现在可以重复使用这些系数来计算不同的 Shapley-Owen 效应。我们还提出了一种算法,用于计算模型的 PCE 和 Shapley-Owen 效应的精确且稀疏的截断,以及累积近似误差的上限。PCE 和 Shapley-Owen 效应的近似值都收敛到它们的真实值。