越来越多的研究探讨了在人机协作决策中使用 AI 解释来影响用户决策阶段。然而,以往的研究发现过度依赖“错误”的 AI 输出存在问题。本文提出了一种基于交互式示例的解释方法,旨在帮助医疗专业人员更好地接受 AI,以便他们在 AI 辅助决策过程中更有效地依赖 AI。我们实现了一个基于 AI 的决策支持系统,该系统利用神经网络评估卒中后幸存者锻炼质量,并提供交互式示例解释,系统地将测试/任务样本的最近邻域从 AI 模型的训练集中提取出来,以帮助用户接受 AI 模型。为了研究交互式示例解释的影响,我们与领域专家、医疗专业人员进行了一项研究,评估了他们的表现和对 AI 的依赖程度。在接受培训期间提供交互式示例解释帮助医疗专业人员更好地依赖 AI,并在决策支持阶段做出更多“正确”决策和更少“错误”决策,相比之下,仅在决策支持阶段提供基于特征的解释效果较差。我们的研究探讨了在人机协作决策中帮助用户接受 AI 的新挑战。
将多个模型的参数合并已成为提高任务性能和鲁棒性的有效策略,但以往的工作受到集成创建和推理成本高昂的限制。本文利用大量可免费获取的训练模型,提出了一种无成本的模型合并方法。该方法侧重于合并模型的逐层集成,旨在保持特定任务最终层的独特性,同时统一最初的层,这些层主要与特征提取相关。这种方法确保了所有层参数的一致性,这对提高性能至关重要。此外,它还促进了知识的无缝整合,能够有效地合并来自不同数据集和任务的模型。具体而言,我们研究了它在无监督领域自适应 (UDA) 中的适用性,这是模型合并的一个未探索领域,用于语义和全景分割。实验结果表明,在不增加合并来自不同数据集 (↑2.6% mIoU) 的相同架构模型和具有共享主干 (↑6.8% mIoU) 的不同架构模型的额外成本的情况下,UDA 性能得到显著提升。此外,合并语义和全景分割模型可将 mPQ 提高 ↑7%。这些发现已在各种 UDA 策略、架构和数据集中得到验证。
在全球能源战略的背景下,准确的天然气需求预测对于确保资源高效配置和运营规划至关重要。传统预测方法难以应对不同行业和商业领域天然气消费模式日益复杂和多变的挑战。为了应对这些挑战,我们提出了第一个专门针对天然气需求预测的基础模型。基础模型以其跨任务和数据集泛化的能力而闻名,为传统方法的局限性提供了强大的解决方案,例如需要为不同的客户群体建立单独的模型以及其有限的泛化能力。我们的方法利用对比学习来提高现实世界场景中的预测精度,特别是通过解决历史消费数据中的噪声问题以及类似数据样本的潜在错误分类问题,这些问题会导致表示质量下降,从而影响下游预测任务的准确性。通过在对比学习框架中集成先进的噪声过滤技术,我们的模型提高了学习表示的质量,从而实现更准确的预测。此外,该模型在预训练期间经过行业特定微调,使其能够更好地捕捉不同行业天然气消费的独特特征。我们使用来自ENN集团的大规模数据集进行了大量实验,该数据集包含来自多个地区超过 10,000 个工业、商业和福利相关客户的数据。我们的模型优于现有的最先进方法,与最佳可用模型相比,MSE 相对提高了 3.68%,MASE 相对提高了 6.15%。
尽管小型语言模型 (SLM) 在现代智能设备中得到广泛应用,但与主要部署在数据中心和云环境中的大型语言模型 (LLM) 相比,它们在学术界所受到的关注要少得多。虽然研究人员不断提升 LLM 在通往通用人工智能的道路上的能力,但 SLM 研究旨在使机器智能更易于获取、更经济实惠,并为日常生活中的任务提供更高效的解决方案。我们重点关注具有 1 亿至 50 亿参数的基于 Transformer 的解码器专用语言模型,对 59 种最先进的开源 SLM 进行了调查,并从架构、训练数据集和训练算法三个方面分析了它们的的技术创新。此外,我们还评估了它们在常识推理、上下文学习、数学和编码等各个领域的性能。为了更深入地了解其在设备上的运行时成本,我们对它们的推理延迟和内存占用进行了基准测试。通过对我们的基准测试数据进行深入分析,我们为推动该领域的研究提供了宝贵的见解。
随着各种类型的犯罪持续威胁公共安全和经济发展,预测多种类型犯罪的发生对于有效的预防措施变得越来越重要。尽管已经付出了广泛的努力,但大多数努力忽略了不同犯罪类别的异质性,并且未能解决空间分布不平衡的问题。在这项工作中,我们提出了一种用于集体多类型犯罪预测的空间-时间混合图专家 (ST-MoGE) 框架。为了增强模型识别不同时空依赖关系的能力,并减轻不同犯罪类别时空异质性带来的潜在冲突,我们引入了一个注意力门控混合图专家 (MGEs) 模块,以捕获每个犯罪类别的独特和共享犯罪模式。然后,我们提出了跨专家对比学习 (CECL) 来更新 MGEs,并迫使每个专家专注于特定模式建模,从而减少混合和冗余。此外,为了解决空间分布不平衡的问题,我们提出了一种分层自适应损失重新加权 (HALR) 方法,以消除偏差和数据稀疏区域学习不足的问题。为了评估我们方法的有效性,我们在两个真实犯罪数据集上进行了全面的实验,并将我们的结果与 12 个高级基线进行了比较。实验结果证明了我们方法的优越性。
在使用大型语言模型 (LLM) 的检索增强生成 (RAG) 任务中,检索信息的质量对于最终输出至关重要。本文介绍了 IRSC 基准,用于评估嵌入模型在多语言 RAG 任务中的性能。该基准包含五个检索任务:查询检索、标题检索、段落部分检索、关键词检索和摘要检索。我们的研究解决了当前在 RAG 场景中缺乏对嵌入模型的全面测试和有效比较方法的问题。我们引入了新的指标:语义理解相似度指数 (SSCI) 和检索能力竞争指数 (RCCI),并评估了 Snowflake-Arctic、BGE、GTE 和 M3E 等模型。我们的贡献包括:1) IRSC 基准,2) SSCI 和 RCCI 指标,以及 3) 对嵌入模型跨语言局限性的见解。IRSC 基准旨在增强对 RAG 任务中准确检索系统的理解和开发。所有代码和数据集均可在以下地址获取:https://github.com/Jasaxion/IRSC\_Benchmark
给定一个无条件扩散模型和一个针对目标属性(例如,分类器)的预测器,训练免费引导的目标是在没有额外训练的情况下生成具有理想目标属性的样本。现有的方法虽然在各种单独的应用中有效,但往往缺乏理论基础和对大量基准的严格测试。因此,它们甚至可能在简单的任务中失败,将它们应用于新的问题不可避免地变得困难。本文介绍了一种新颖的算法框架,它将现有方法包含为特例,将训练免费引导的研究统一到对算法无关设计空间的分析中。通过理论和经验研究,我们提出了一种高效且有效的超参数搜索策略,可以轻松应用于任何下游任务。我们系统地对 7 个扩散模型在 16 个任务上进行了 40 个目标的基准测试,平均提高了 8.5% 的性能。我们的框架和基准为以无训练的方式进行条件生成提供了坚实的基础。
随着强化学习 (RL) 解决的任务复杂性不断提高,奖励函数的定义也变得非常复杂。我们提出了一种 RL 方法,旨在通过直观的策略简化奖励塑造过程。首先,我们不是使用包含多个项的单个奖励函数,而是在约束多目标 RL (CMORL) 框架内定义多个奖励和成本函数。对于涉及顺序复杂动作的任务,我们将任务划分为不同的阶段,并为每个阶段定义多个奖励和成本。最后,我们介绍了一种实用的 CMORL 算法,该算法根据这些奖励最大化目标,同时满足由成本定义的约束。该方法已在仿真和真实世界环境中的各种杂技任务中得到成功验证。此外,与现有的 RL 和约束 RL 算法相比,该方法已证明能够成功执行任务。我们的代码可在 https://github.com/rllab-snu/Stage-Wise-CMORL 获取。
重症监护病房 (ICU) 中的药物剂量适当与否对患者的生存至关重要。肝素用于治疗 ICU 中的栓塞和抑制血液凝固,由于其复杂性以及对各种因素(包括患者的临床特征、潜在的医疗状况和潜在的药物相互作用)的敏感性,需要谨慎管理。剂量不当会导致严重并发症,例如中风或过度出血。为了应对这些挑战,本研究提出了一种基于强化学习 (RL) 的个性化最佳肝素给药策略,该策略根据个体患者的状况,在治疗范围内可靠地指导给药决策。实施了一种批处理约束策略,以最小化离线 RL 环境中的分布外错误,并有效地将 RL 与现有的临床医生策略相结合。该策略的有效性使用加权重要性抽样(一种离策略评估方法)进行评估,并使用 t-SNE 探索了状态表示与 Q 值之间的关系。使用重症监护信息市场 III (MIMIC-III) 数据库进行了定量和定性分析,证明了所提出的基于 RL 的药物策略的有效性。这项研究利用先进的机器学习技术和大量的临床数据,增强了肝素管理实践,并为开发复杂的医学决策支持工具奠定了先例。
随着生成式人工智能 (GenAI) 模型的进步,其生成内容的能力得到了显著增强,这在数据生成和预测领域得到了广泛应用。此外,GenAI 在数据建模和分析方面具有强大的能力,这在各个方面增强了电动汽车物联网 (IoEV) 的应用。本文研究并调查了 GenAI 在 IoEV 中的应用。具体而言,我们将 IoEV 的 GenAI 分为四个不同的层,即电动汽车电池层、单个电动汽车 (EV) 层、智能电网与电动汽车层以及安全层。我们首先介绍了在 IoEV 应用的每个层中使用的各种 GenAI 技术。随后,总结了可用于训练 GenAI 模型的公共数据集。最后,我们对未来的发展方向提出了建议。本调查不仅对不同层级中 GenAI 在 IoEV 中的应用进行了分类,而且通过突出每个层级的设计和实施挑战,为研究人员和从业人员提供了宝贵的资源。此外,它还为未来的研究方向提供了一份路线图,通过集成先进的 GenAI 技术,使开发更强大、更高效的 IoEV 系统成为可能。