本研究旨在探究 GPT-4 是否能够有效地为设计类大学生的作业评分并提供有用的反馈。在设计教育中,作业没有唯一的正确答案,通常涉及解决开放式设计问题。这种设计项目的主观性往往会导致评分问题,因为不同评审者之间的评分可能会有差异,例如来自工程背景或建筑背景的教师。本研究采用迭代研究方法开发定制 GPT,旨在获得更可靠的结果,并测试它是否能够为设计学生提供建设性的反馈。研究结果包括:首先,经过数轮迭代,GPT 与人类评审者之间的信度达到了教育工作者普遍接受的水平。这表明,通过向 GPT 提供准确的提示,并不断迭代构建定制 GPT,它可以有效地为学生的作业评分,成为人类评审者的可靠补充。其次,GPT 在不同时间评分的内部信度在 0.65 到 0.78 之间。这表明,在适当的指导下,定制 GPT 可以提供一致的结果,这是为学生评分的先决条件。由于一致性和可比性是确保教育评估可靠性的两条主要规则,因此本研究探讨了是否可以开发出符合这两条规则的定制 GPT。最后,我们通过测试定制 GPT 是否可以为学生提供有用的反馈来结束论文,并反思教育工作者如何开发和迭代定制 GPT 以作为辅助评审者。
机器学习领域中一个日益增长的趋势是使用数据生成技术,因为机器学习模型的性能依赖于训练数据集的数量。然而,在许多医疗应用中,由于资源限制,收集大型数据集具有挑战性,这会导致过拟合和泛化能力差。本文介绍了一种新方法,即聚类潜在空间中的合成数据点生成(AGCL),旨在通过合成数据生成来提高小型医疗数据集的分类性能。AGCL框架包括特征提取、K-means聚类、基于类分离度量的聚类评估以及从具有不同类表示的聚类中生成合成数据点。该方法应用于帕金森病筛查,利用面部表情数据,并在多个机器学习分类器上进行评估。实验结果表明,与基线、GN和kNNMTD相比,AGCL显著提高了分类精度。AGCL在不同情绪的多数投票中,总体测试精度最高达到83.33%,交叉验证精度最高达到90.90%,证实了其在增强小型数据集方面的有效性。
近年来,基于概念的可解释模型通过预定义的概念集成功地提供了有意义的解释。然而,对预定义概念的依赖限制了其应用,因为用于解释的概念数量有限。本文提出了一种名为解释瓶颈模型 (XBMs) 的新型可解释深度神经网络。XBMs 在没有预定义概念的情况下从输入中生成文本解释,然后通过利用预训练的视觉语言编码器-解码器模型,根据生成的解释预测最终的任务预测。为了同时实现目标任务性能和解释质量,我们通过目标任务损失训练 XBMs,并使用来自冻结的预训练解码器的蒸馏来惩罚解释解码器的正则化。我们的实验(包括与最先进的概念瓶颈模型的比较)证实,XBMs 在没有预定义概念集的情况下提供了准确且流畅的自然语言解释。代码将在 https://github.com/yshinya6/xbm/ 上提供。
本文提出了一种基于模糊逻辑的注意力机制(模糊注意力层),这是一种新颖的计算方法,旨在提升心理研究中神经模型的可解释性和有效性。所提出的模糊注意力层机制被集成到 Transformer 编码器模型中的一个神经网络层,以促进通过神经信号(例如功能性近红外光谱 (fNIRS) 捕获的信号)分析复杂的心理现象。通过利用模糊逻辑,模糊注意力层能够学习和识别可解释的神经活动模式。这种能力解决了使用 Transformer 时的一个重大挑战:缺乏透明度,无法确定哪些特定的大脑活动对特定预测贡献最大。我们对来自参与手牵手社交互动受试者的 fNIRS 数据进行的实验结果表明,模糊注意力层不仅学习了可解释的神经活动模式,而且还提高了模型性能。此外,学习到的模式为理解人际接触和情感交流的神经相关性提供了更深入的见解。我们的模型的应用显示出在破译人类社会行为的微妙复杂性方面的巨大潜力,从而为社会神经科学和心理人工智能领域做出重大贡献。
端到端自动驾驶提供了一种简化的替代传统模块化管道的方案,将感知、预测和规划集成到一个框架中。虽然深度强化学习 (DRL) 近年来在该领域获得了关注,但现有方法往往忽略了 DRL 特征提取与感知之间的关键联系。在本文中,我们将 DRL 特征提取网络直接映射到感知阶段,通过语义分割实现更清晰的解释。通过利用鸟瞰图 (BEV) 表示,我们提出了一种新颖的基于 DRL 的端到端驾驶框架,该框架利用多传感器输入来构建对环境的统一三维理解。这种基于 BEV 的系统提取并转换关键的环境特征,为 DRL 生成高级抽象状态,从而促进更明智的控制。广泛的实验评估表明,我们的方法不仅提高了可解释性,而且在自动驾驶控制任务中显著优于最先进的方法,将碰撞率降低了 20%。
从自然语言输入(例如用户输入或任务文档)生成模拟来训练游戏和机器人中的智能体,仍然是一个开放性的挑战。现有的方法侧重于该挑战的一部分,例如生成奖励函数或任务超参数。与之前的工作不同,我们引入了 FACTORSIM,它可以从语言输入中生成可用于训练智能体的完整代码模拟。利用编码模拟特有的结构模块化,我们建议使用分解的部分可观察马尔可夫决策过程表示,这使我们能够在生成过程的每个步骤中减少上下文依赖性。为了评估,我们引入了一个生成模拟基准,该基准评估生成的模拟代码的准确性和在强化学习设置中促进零样本迁移的有效性。我们表明,FACTORSIM 在生成模拟方面优于现有方法,包括提示一致性(例如,准确性)、零样本迁移能力和人工评估。我们还展示了它在生成机器人任务方面的有效性。
人工智能(AI)和大型语言模型(LLMs)在医疗保健,尤其是临床应用方面具有革命性的潜力。同时,数字孪生技术,即对复杂系统进行建模和模拟的技术,在增强患者护理方面也获得了关注。然而,尽管在实验性临床环境中取得了进步,但人工智能和数字孪生在简化临床操作方面的潜力仍未得到充分利用。本文介绍了一种专门设计用于增强肿瘤学临床操作的新型数字孪生框架。我们建议整合多个专门的数字孪生,例如医疗必要性孪生、护理导航孪生和临床病史孪生,以提高工作流程效率,并根据每个患者的独特数据为其提供个性化护理。此外,通过整合多个数据源并将它们与美国国家综合癌症网络 (NCCN) 指南相一致,我们创建了一个动态的癌症护理路径,这是一个不断发展的知识库,使这些数字孪生能够提供精确的、量身定制的临床建议。
基于大型语言模型 (LLM) 的 AI 代理越来越多地被用于代表用户行动,通过对话界面帮助用户完成各种任务。尽管它们具有优势,但人们对隐私泄露的潜在风险表示担忧,尤其是在涉及社交互动的情况下。虽然现有研究侧重于通过限制 AI 代理访问敏感用户信息来保护隐私,但许多社交场景需要披露私人信息才能实现预期结果,因此需要在隐私保护和信息披露之间取得平衡。为了应对这一挑战,我们进行了一项试点研究,以调查用户对不同社交关系和任务场景中 AI 代理的偏好,然后提出了一种能够实现隐私意识自我披露的新型 AI 代理系统。我们的用户研究表明,所提出的 AI 代理可以战略性地保护隐私,开创了其在各种动态社交互动中的应用。
主动学习 (AL) 通过从未标记数据中选择最有价值的示例取得了巨大成功。然而,在涉及开放集噪声的真实场景中,它们通常会退化,这被研究为开放集标注 (OSA)。在本文中,我们将退化归因于基于 softmax 的平移不变性导致的不可靠预测,并相应地提出了一种基于狄利克雷的粗到细示例选择 (DCFS) 策略。我们的方法引入了基于单纯形的证据深度学习 (EDL) 来打破平移不变性,并通过同时考虑基于证据的数据和分布不确定性来区分已知类和未知类。此外,通过两个分类器头的模型差异识别出难的已知类示例,我们分别放大和减轻未知类和已知类的模型差异。最后,我们将差异与不确定性结合起来形成一个两阶段策略,从已知类中选择信息量最大的示例。在各种开放性比率数据集上的大量实验表明,DCFS 实现了最先进的性能。
纽约证券交易所上市公司数量呈指数级增长,这对市场分析师、交易员和股东来说是一个重大挑战,他们必须定期监控和评估大量公司的业绩和战略转变。迫切需要一种快速、经济高效且全面的方法来评估公司业绩,并有效地检测和比较许多公司的战略变化。我们提出了一种新颖的数据驱动方法,利用大型语言模型 (LLM) 系统地分析和评估公司基于其 SEC 10-K 文件的业绩。这些文件提供了公司财务业绩和战略方向的详细年度报告,是评估公司健康状况各个方面的丰富数据来源,包括信心、环境可持续性、创新和人力资源管理。我们还引入了用于提取和预处理 10-K 文件的自动化系统。该系统准确地识别和分割 SEC 规定的必要部分,同时隔离包含有关公司关键信息的关键文本内容。然后将这些整理后的数据输入 Cohere 的 Command-R+ LLM,以生成跨各种性能指标的定量评级。随后处理和可视化这些评级以提供可操作的见解。然后将所提出的方案在交互式 GUI 上实现,作为无代码解决方案,用于运行数据管道并创建可视化。该应用程序展示了评级结果,并提供了公司业绩的逐年比较。