大型语言模型 (LLM) 已取代传统方法,在众多自然语言处理任务中发挥着重要作用。然而,在命名实体识别 (NER) 中,现有的基于 LLM 的方法...
设计能够满足人们出行需求的公共交通 (PT) 网络对于减少道路上的私家车数量,进而减少污染和拥堵至关重要。因此,城市的可持续发展与高效的公共交通密切相关。现有的交通网络设计 (TND) 方法通常旨在优化广义成本,即包括运营商和用户成本的唯一数字。由于我们旨在将公共交通的质量定义为满足出行需求的能力,因此我们专注于公共交通的可达性,即通过公共交通到达周围兴趣点的便捷程度。公共交通可达性通常在城市地区分布不均:郊区通常公共交通可达性较差,这使得居住在郊区的居民不得不依赖私家车。因此,我们致力于设计公交线路,以最大程度地减少可达性地理分布的不平等。我们将最先进的消息传递神经网络 (MPNN) 与强化学习相结合。我们展示了该方法在代表蒙特利尔市简化情况的用例中优于元启发式算法(传统上用于 TND)的有效性。
强化学习(RL)中稀疏奖励环境对探索提出了重大挑战,往往会导致学习过程效率低下或不完整。为了解决这个问题,本文提出了一种师生 RL 框架,该框架利用大型语言模型 (LLM) 作为“教师”来指导智能体的学习过程,将复杂的任务分解成子目标。由于 LLM 具有基于结构和目的的文本描述来理解 RL 环境的固有能力,因此它们可以提供子目标来完成为环境定义的任务,方式类似于人类。在此过程中,提出了三种类型的子目标:相对于智能体的定位目标、对象表示以及由 LLM 直接生成的基于语言的指令。更重要的是,我们证明了只在训练阶段查询 LLM 是可能的,使智能体能够在没有任何 LLM 干预的情况下在环境中运行。我们通过评估三个最先进的开源 LLM(Llama、DeepSeek、Qwen)在 MiniGrid 基准测试的各种程序生成环境中引发子目标来评估该提议框架的性能。实验结果表明,这种基于课程的方法加速了学习,增强了复杂任务中的探索,与为稀疏奖励环境设计的最新基线相比,训练步骤的收敛速度提高了 30 到 200 倍。
我们提供了一个统一的框架,在这个框架中,叙事张力核心中的三种情绪(好奇心、悬念和惊喜)被形式化。该框架建立在非单调推理的基础上,它使我们能够简洁地表示世界的默认行为,并模拟接收故事的代理人的情感演变。在形式化了意识、好奇心、惊喜和悬念的概念之后,我们探讨了我们的定义所引发的属性,并研究了检测它们的计算复杂度。最后,我们提出了评估给定代理人聆听故事时这些情绪强度的途径。
本文提出了一种基于人工智能的数据质量监控系统的理论框架,旨在解决高容量环境下数据质量维护的挑战。我们分析了传统方法在处理大数据规模、速度和多样性方面的局限性,并提出了一种利用先进机器学习技术的概念性方法。我们的框架概述了一个系统架构,该架构包含异常检测、分类和预测分析,用于实时、可扩展的数据质量管理。关键组件包括智能数据摄取层、自适应预处理机制、上下文感知特征提取和基于人工智能的质量评估模块。持续学习范式是我们的框架的核心,确保适应不断变化的数据模式和质量要求。我们还讨论了可扩展性、隐私和与现有数据生态系统集成的影响。虽然没有提供实际结果,但它为未来的研究和实施奠定了坚实的理论基础,推动了数据质量管理的发展,并鼓励在动态环境中探索人工智能驱动的解决方案。
大型语言模型 (LLM) GPT-4o 突出的多模态能力和交互式体验突出了其在实际应用中的关键作用,但它缺乏一个高性能的开源对应物。本文介绍了白川-Omni,这是第一个开源的 7B 多模态大型语言模型 (MLLM),它能够同时处理和分析图像、视频、音频和文本等模态,同时提供高级的多模态交互体验和强大的性能。我们提出了一种有效的多模态训练方案,从 7B 模型开始,经过两个阶段的多模态对齐和跨音频、图像、视频和文本模态的多任务微调。这种方法使语言模型能够有效地处理视觉和音频数据。在各种全模态和多模态基准测试中表现出强大的性能,我们希望这项贡献能够成为开源社区在推进多模态理解和实时交互方面的竞争基准。
现有的基于检索的大语言模型 (LLM) 推理方法严重依赖非参数知识源的密度和质量来提供领域知识和显式推理链。然而,对于科学或专业领域,构建包含性知识源成本高昂,有时甚至不可行。为了解决这些挑战,我们引入了图启发式真实性外推 (GIVE),这是一种新颖的推理框架,它将参数和非参数记忆相结合,以增强非常稀疏的知识图上的知识检索和忠实推理过程。通过利用外部结构化知识来启发 LLM 对相关概念之间相互联系的建模,我们的方法促进了更符合逻辑的逐步推理方法,类似于专家解决问题的方式,而不是黄金答案检索。具体来说,该框架提示 LLM 将查询分解为关键概念和属性,使用相关实体构建实体组,并通过探测这些实体组中节点对之间的潜在关系来构建增强的推理链。我们的方法结合了事实链接和外推链接,以实现全面的理解和响应生成。在生物医学和常识问答推理密集型基准上的大量实验表明了我们提出的方法的有效性。具体来说,GIVE 使 GPT3.5-turbo 能够在没有任何额外训练成本的情况下,超越 GPT4 等高级模型,从而强调了将结构化信息和 LLM 的内部推理能力相结合,以解决资源有限的专业任务的有效性。
本文提出了 $\forall$uto$\exists$$\lor\!\land$L,一个用于评估大型语言模型(LLM)在具有明确正确性概念的正式任务中的新基准,例如翻译中的真相维护和逻辑推理。$\forall$uto$\exists$$\lor\!\land$L 是第一个基准范式,它提供了在没有人工标注的情况下扩展对 LLM 的客观评估所需的几个关键优势:(a)能够通过自动生成不同难度级别的任务来评估越来越复杂的 LLM;(b)自动生成真实值,消除对昂贵且耗时的人工标注的依赖;(c)使用自动生成的随机数据集,从而减轻了连续 LLM 对许多当代基准中使用的静态数据集过拟合的能力。实证分析表明,LLM 在 $\forall$uto$\exists$$\lor\!\land$L 上的性能高度表明了它在关注翻译和推理任务的各种其他基准上的性能,使其成为在手动策划的数据集难以获得和/或更新的情况下有价值的自主评估范式。
孕产妇死亡率仍然是全球公共卫生面临的重大挑战。减少设施内分娩期间发生的孕产妇死亡的一种有希望的方法是通过早期预警系统,这需要在分娩后持续监测产妇的生命体征。无线生命体征监测设备为持续监测提供了一种省力的解决方案,但其稀缺性引发了一个关键问题,即如何最有效地分配这些设备。我们通过将该问题建模为流行的无休止多臂老虎机 (RMAB) 范式的变体,为该问题设计了一种分配算法。在此过程中,我们识别并解决了该领域独有的、以前未研究过的约束条件,这些约束条件使得以前的 RMAB 方法不适用,并显著增加了学习和规划问题的复杂性。为了克服这些挑战,我们采用了来自强化学习的流行近端策略优化 (PPO) 算法,通过训练策略和价值函数网络来学习分配策略。我们在模拟中证明,我们的方法比最佳启发式基线方法的性能提高了高达 4 倍。
大型语言模型(LLMs)已在众多自然语言处理任务中取代了传统方法。然而,在命名实体识别(NER)中,现有的基于 LLMs 的方法...