时间序列分类 (TSC) 包含两种设置:对整个序列进行分类或对分割的子序列进行分类。分割 TSC 的原始时间序列通常包含多个类别,且每个类别的持续时间变化 (MVD)。因此,MVD 的特性对分割 TSC 构成了独特的挑战,但现有工作在很大程度上忽略了这一点。具体来说,在 MVD 中,待分类的连续实例(片段)之间存在自然的时序依赖性。然而,主流的 TSC 模型依赖于独立同分布 (i.i.d.) 的假设,专注于独立地对每个片段进行建模。此外,具有不同专业知识的标注者可能会提供不一致的边界标签,导致无噪声 TSC 模型的性能不稳定。为了解决这些挑战,我们首先正式证明了有价值的上下文信息增强了分类实例的判别能力。利用 MVD 在数据和标签层面的上下文先验知识,我们提出了一种新颖的一致性学习框架 Con4m,该框架有效地利用了更有利于区分分割 TSC 任务中连续片段的上下文信息,同时协调不一致的边界标签进行训练。在多个数据集上的大量实验验证了 Con4m 在处理 MVD 上的分割 TSC 任务方面的有效性。
大型语言模型 (LLM) 已经改变了众多领域的科研和实践。在计算机教育研究 (CER) 领域,LLM 备受关注,尤其是在编程学习方面。然而,CER 中关于 LLM 的许多工作都集中在应用和评估专有模型上。本文评估了开源 LLM 在生成高质量编程作业反馈和判断编程反馈质量方面的效率,并将结果与专有模型进行了对比。我们对学生提交的 Python 入门编程练习数据集的评估表明,最先进的开源 LLM 在生成和评估编程反馈方面几乎与专有模型不相上下。此外,我们还展示了较小型 LLM 在这些任务中的效率,并强调了即使对教育工作者和实践者而言,也能免费获得各种各样的 LLM。
大型语言模型日益增长的安全问题,迫切需要将其与多样化的人类偏好相协调,以同时增强其有效性和安全性。一种有前景的方法是通过基于人类反馈的强化学习 (RLHF) 来执行安全约束。对于这种受约束的 RLHF,典型的基于拉格朗日的原始-对偶策略优化方法计算成本高且经常不稳定。本文提出了一种对偶化的视角,该视角将受约束的对齐简化为等效的无约束对齐问题。我们通过预优化具有封闭形式的平滑凸对偶函数来实现这一点。此捷径消除了对繁琐的原始-对偶策略迭代的需求,大大减少了计算负担并提高了训练稳定性。我们的策略在基于模型和基于偏好的设置中产生了两种实用算法(分别为 MoCAN 和 PeCAN)。广泛的实验结果证明了我们算法的有效性和优点。
随着大型语言模型 (LLM) 被广泛用于模拟和建模人类行为,理解它们的偏差变得至关重要。我们开发了一个使用五大性格调查的实验框架,并发现各种大型语言模型中存在先前未被发现的社会期望偏差。通过系统地改变大型语言模型接触到的问题数量,我们证明了它们能够推断出自己正在接受评估。当推断出人格评估时,大型语言模型会将其分数偏向特征维度理想的一端(即,外向性增加,神经质减少等)。这种偏差存在于所有测试模型中,包括 GPT-4/3.5、Claude 3、Llama 3 和 PaLM-2。偏差水平似乎在较新的模型中有所增加,GPT-4 的调查回复变化了 1.20 个(人类)标准差,Llama 3 的变化了 0.98 个标准差——影响非常大。这种偏差对于问题的顺序随机化和释义是稳健的。对所有问题进行反向编码会降低偏差水平,但不会消除偏差,这表明这种效应不能归因于同意偏差。我们的研究结果揭示了一种新出现的社会期望偏差,并表明了使用心理测量测试对大型语言模型进行画像以及使用大型语言模型作为人类参与者的替代品的局限性。
多个互联自动驾驶车辆间的协同感知可以通过车辆间的信息交换来极大地增强感知能力。尽管先前的方法取得了进展,但由于信道变化和协同车辆之间的数据异构性,挑战依然存在。为了解决这些问题,我们提出了ACC-DA,这是一个信道感知的协同感知框架,它可以动态调整通信图,在减轻数据异构性带来的负面影响的同时,最大限度地减少平均传输延迟。我们的创新之处在于三个方面:首先,我们设计了一种传输延迟最小化方法,该方法可以根据不同的信道信息状态构建通信图并最小化传输延迟;其次,我们提出了一种自适应数据重建机制,它可以动态调整速率失真权衡以提高感知效率,并最大限度地减少数据传输过程中的时间冗余;最后,我们设计了一种域对齐方案来对齐来自不同车辆的数据分布,从而减轻不同车辆之间的域差异,并提高目标任务的性能。综合实验表明,与现有的最先进技术相比,我们的方法是有效的。
大型通用人工智能(AGI)模型,包括ChatGPT/GPT-4等大型语言模型(LLM),在各种通用领域任务中取得了前所未有的成功。然而,当直接应用于医学影像等需要深入专业知识的专业领域时,这些模型面临着由医学领域固有的复杂性和独特特征带来的显著挑战。本文综述了AGI模型在医学影像和医疗保健领域的潜在应用,主要关注大型语言模型、大型视觉模型和大型多模态模型。我们对LLM和AGI的关键特征和使能技术进行了全面的概述,并进一步考察了AGI模型在医疗领域的演进和实施路线图,总结了它们的当前应用、潜力和相关挑战。此外,我们还重点介绍了未来的潜在研究方向,对未来的发展方向进行了全面的展望。这篇综述旨在深入探讨AGI在医学影像、医疗保健及其他领域的未来影响。
神经形态计算在利用类脑原理提升人工智能应用的计算效率和能力方面展现出巨大潜力。然而,神经形态计算研究领域目前缺乏标准化的基准测试,这使得准确衡量技术进步、与传统方法进行性能比较以及确定有前景的未来研究方向变得困难。以往的神经形态计算基准测试工作由于缺乏包容性、可操作性和迭代性基准设计和指南而未能得到广泛采用。为了解决这些不足,我们提出了NeuroBench:一个用于神经形态计算算法和系统基准测试的框架。NeuroBench是由业界和学术界开放研究人员社区共同设计的一项工作,旨在为标准化神经形态方法的评估提供一个具有代表性的结构。NeuroBench框架引入了一套通用的工具和系统的评估方法,为在硬件无关(算法测试)和硬件相关(系统测试)环境下量化神经形态方法提供了一个客观的参考框架。在本文中,我们概述了多个应用领域的基准测试任务和指南,并针对两种基准测试途径,展示了神经形态方法和传统方法的初始性能基线。NeuroBench旨在不断扩展其基准测试和功能,以促进和跟踪研究社区取得的进展。
重症监护室 (ICU) 是医院中一个专门的区域,危重病人在这里接受强化护理和监测。全面的监测对于评估病人的病情,特别是病情严重程度,以及最终的护理质量至关重要。然而,由于时间限制和医护人员的工作量,ICU 中的病人监测范围有限。目前,对病情严重程度的视觉评估,包括面部表情、姿势和活动能力等细微之处,要么是不规律地记录,要么根本没有记录。这些人工观察带有主观性,容易出现记录错误,并给医护人员增加额外的工作负担。人工智能 (AI) 系统凭借其卓越的学习能力,有可能增强患者的视觉监测和评估。此类系统需要强大的标注数据进行训练。为此,我们开发了一个无处不在的传感和数据处理系统,该系统从 ICU 中的多模态数据(深度图像、彩色 RGB 图像、加速度计、肌电图、声压和光照水平)中收集数据,用于开发智能监测系统,以进行持续且细致的病情严重程度、谵妄风险、疼痛和活动能力评估。本文介绍了我们为实时患者监测和视觉评估而开发的智能重症监护室 (I2CU) 系统架构。
生成式大型语言模型(LLM)能够生成文本,但其文本内容与真实性之间缺乏直接对应关系,这被广泛认为类似于弗兰克福特在其著名专著《胡说八道》中描述的语言使用方式。本文对此进行了严格的探讨,确定了这种现象的成因及其分析方法。本文进一步论证了基于LLM的聊天机器人参与了“胡说八道的语言游戏”。我们利用统计文本分析方法,基于一个对比了1000篇科学出版物与ChatGPT生成的典型伪科学文本的数据集,对这种维特根斯坦式的语言游戏特征进行了研究。然后,我们探讨了在两种著名的社会功能障碍背景下是否可以检测到相同的语言特征:乔治·奥威尔对政治和语言的批判,以及大卫·格雷伯对“垃圾工作”的描述。利用简单的假设检验方法,我们证明了胡说八道语言的统计模型能够可靠地将ChatGPT生成的弗兰克福特式人工胡说八道与在自然人类语言中观察到的政治和工作场所中的胡说八道功能联系起来。
强大的医疗机器学习 (ML) 模型具有彻底改变医疗保健的潜力,方法是加速临床研究、改进工作流程和结果,并产生新颖的见解或能力。从头开发此类 ML 模型成本高昂,需要大量的计算资源、数据和时间(例如,专家标注)。为了应对这些挑战,我们引入了医疗人工智能开发者基础 (HAI-DEF),这是一套预训练的、特定领域的foundation模型、工具和方案,旨在加速医疗应用的 ML 建设。这些模型涵盖各种模式和领域,包括放射学(X 射线和计算机断层扫描)、组织病理学、皮肤病学影像和音频。与传统方法相比,这些模型提供的特定领域嵌入能够在标注数据更少、训练时间更短以及计算成本更低的情况下促进人工智能开发。此外,我们在这些模型中使用了通用的接口和样式,并优先考虑可用性,以使开发人员能够高效地集成 HAI-DEF。我们介绍了跨各种任务的模型评估,并以对其应用和评估的讨论作为结尾,其中涵盖了确保有效性、公平性和公正性的重要性。最后,虽然 HAI-DEF,特别是基础模型降低了医疗保健中 ML 的入门门槛,但我们强调了针对每个所需使用场景使用问题和人群特定数据进行验证的重要性。随着更多模式和功能的添加,本技术报告将随着时间推移而更新。