大型语言模型 (LLM) 在代码生成等复杂分析任务中已取代了传统方法,通常的做法是在模型的上下文窗口内对整个任务的解决方案进行采样。先前的工作表明,在模型的上下文内进行子任务分解(思维链)有利于解决此类任务。在本研究中,我们指出了 LLM 在同一上下文窗口内执行多个子任务的能力的局限性 - 上下文内组合的难度,这表明将分解后的问题分布在多个 LLM 代理系统中具有优势。组合的难度通过生成复杂度指标来量化,即采样至少一个正确解决方案所需的 LLM 生成次数。我们发现,在同一上下文内解决组合问题的生成复杂度与将其分布在多个代理之间相比存在差距,并且该差距随着解决方案长度呈指数增长。我们从理论上证明了我们的结果,并在经验上进行了验证。
具有长上下文处理能力的大型语言模型(LLM)由于其实现复杂性、训练效率和数据稀疏性而仍然面临挑战。为了解决这个问题,当我们处理无限长度的文档时,提出了一种名为在线长上下文处理(OLP)的新范式,这在自动新闻报道、实时电子商务和病毒式短视频等各种流媒体的信息接收和组织中普遍存在。此外,在爆炸式增长中,我们试图从众多 LLM 中选择最合适的 LLM 时,经常会遇到一个困境,即追求出色的性能、经济实惠的价格和较短的响应延迟。鉴于此,我们还开发了角色强化学习(Role-RL)来根据其实际性能自动将不同的 LLM 部署到 OLP 管道中的各自角色中。在我们的 OLP-MINI 数据集上进行了广泛的实验,发现具有 Role-RL 框架的 OLP 实现了 OLP 基准,平均召回率为 93.2%,LLM 成本节省了 79.4%。代码和数据集可在以下地址公开获取:https://anonymous.4open.science/r/Role-RL。
深度学习和物联网的进步推动了多样化的人体感知应用。然而,受各种因素或环境影响,人体感知中存在着不同的模式,由于自然分布的变化,通用神经网络模型的性能受到挑战。为了解决这个问题,个性化定制了针对个人用户的模型。然而,大多数个性化研究忽略了感官数据中跨环境的个体用户异质性,限制了个体用户泛化能力。这种局限性在临床应用中尤为重要,因为有限的数据可用性阻碍了泛化能力和个性化。值得注意的是,由于治疗进展等外部因素,个体用户的感知属性预计会发生变化,进一步加剧了挑战。这项工作介绍了 CRoP,一种利用现成的预训练模型和剪枝进行优化个性化和泛化的全新静态个性化方法。CRoP 在四个人体感知数据集上展现出优异的个性化效果和个体用户鲁棒性,包括两个来自真实世界健康领域的数据集,突出了其实际和社会影响。此外,为了支持 CRoP 的泛化能力和设计选择,我们通过梯度内积分析、消融研究以及与最先进的基线比较提供了实证依据。
因果语言模型在预训练期间从通用文本语料库中获取大量知识,但众所周知,知识学习的效率并不令人满意,尤其是在从知识密集型且小规模的语料库中学习时。这种缺陷可能源于语言模型难以捕获的远距离依赖关系,以及对训练文本中的共现模式和干扰线索的过度拟合。为了解决这些问题,本文提出了一种方法,通过增强语言模型自身发现的文本中难以捉摸但重要的线索来增强语言模型预训练期间的知识学习。我们发现,更大的语言模型更多地关注不明显但重要的线索,而这些线索往往会被更小的语言模型忽略。因此,我们可以通过对比大型语言模型和小语言模型的注意力权重来识别这些线索。我们使用识别的线索作为指导,对训练文本执行令牌丢弃数据增强,并在事实记忆中观察到小型和大型模型性能的显著提升。这表明,性能更强和性能较差的语言模型之间的行为对比包含重要的知识学习线索,并且可以“放大”以直接提高知识学习效率。
城市环境中无人机数量的不断增加,需要制定策略来最大程度地减少其对环境的影响,包括能源效率和降噪。为了减少这些问题,需要开发新的策略,例如通过深度强化学习 (DRL) 来开发预测模型和优化飞行计划。我们的目标是开发能够使无人机在城市环境中自主导航的 DRL 算法,同时考虑到建筑物和其他无人机,优化轨迹以减少能量消耗和噪音。这可以通过使用流体流动模拟来实现,模拟无人机导航的环境,并训练无人机作为与城市环境交互的代理。在这项工作中,我们考虑了一个由二维流场和障碍物(理想情况下代表建筑物)组成的域,这些障碍物是从三维高保真数值模拟中提取的。所提出的方法使用 PPO+LSTM 单元,通过再现导航中一个简单但基本的问题(即泽尔梅洛问题)来验证,该问题处理在湍流中航行的船舶,从起点到目标位置,优化轨迹。目前的方法在简单 PPO 和 TD3 算法方面都有显著改进,PPO+LSTM 训练策略的成功率 (SR) 为 98.7%,碰撞率 (CR) 为 0.1%,优于 PPO (SR = 75.6%,CR=18.6%) 和 TD3 (SR=77.4% 和 CR=14.5%)。这是 DRL 策略迈出的第一步,该策略将使用实时信号在三维流场中引导无人机,使导航在飞行时间方面高效,并避免对车辆造成损坏。
本文介绍了 AMMORE,一个包含 53,000 个数学开放式问答对的新数据集,这些数据来自 Rori,一个被多个非洲国家学生使用的学习平台。本文进行了两个实验,以评估大型语言模型 (LLM) 在评估特别具有挑战性的学生答案方面的应用。AMMORE 数据集支持各种潜在的分析,并为研究未充分研究的现实世界教育环境中的学生数学学习提供了一个重要资源。在实验 1 中,我们使用各种基于 LLM 的方法,包括零样本、少样本和思维链提示,来评估规则型分类器无法准确评估的 1% 的学生答案。我们发现,性能最佳的方法——思维链提示——准确地对这些边缘案例的 92% 进行了评分,有效地将整体评分准确率从 98.7% 提高到 99.9%。在实验 2 中,我们旨在通过将最佳 LLM 方法生成的评分传递给贝叶斯知识追踪 (BKT) 模型来更好地了解改进的评分准确性的结果效度,该模型估计了学生对特定课程的掌握程度。我们发现,在单个问题层面上,模型准确性的适度提高会导致学生掌握程度估计的显著变化。目前用于评估学生答案的规则型分类器错误分类了 6.9% 的学生在他们完成的课程中的掌握状态,而使用 LLM 思维链方法,这种错误分类率降低到 2.6%。总而言之,这些发现表明,LLM 可以成为评估 K-12 数学教育中开放式问题的宝贵工具,有可能促进在形成性评估中更广泛地采用开放式问题。
Segment Anything 模型 (SAM) 因其在未见数据和任务上的出色泛化能力而备受关注。尽管前景可期,但 SAM 的漏洞,尤其是对通用对抗性扰动 (UAP) 的漏洞,尚未得到深入研究。本文提出了 DarkSAM,这是第一个针对 SAM 的无提示通用攻击框架,包括基于语义解耦的空间攻击和基于纹理失真的频率攻击。我们首先将 SAM 的输出划分为前景和背景。然后,我们设计了一种阴影目标策略,以获取图像的语义蓝图作为攻击目标。DarkSAM 致力于通过从图像的空间域和频域中提取和破坏关键目标特征来欺骗 SAM。在空间域中,我们破坏了图像中前景和背景的语义,以混淆 SAM。在频域中,我们通过扭曲图像的高频成分(即纹理信息)进一步增强了攻击效果。因此,使用单个 UAP,DarkSAM 使 SAM 无法在不同提示下对各种图像进行分割。对 SAM 及其两个变体模型在四个数据集上的实验结果证明了 DarkSAM 的强大攻击能力和迁移性。
从数据中检测和衡量混杂效应是因果推断中的一个关键挑战。现有的方法通常假设因果充分性,忽略了未观察到的混杂变量的存在。因果充分性既不现实又无法通过经验检验。此外,现有的方法对潜在的因果生成过程做出了强烈的参数假设,以保证混杂变量的可识别性。通过放宽因果充分性和参数假设,并利用因果发现和混杂分析在非独立同分布数据方面的最新进展,我们提出了一种检测和衡量混杂的综合方法。我们考虑了混杂的各种定义,并引入了量身定制的方法来实现三个目标:(i)检测和衡量一组变量之间的混杂;(ii)分离观察到的和未观察到的混杂效应;(iii)了解不同变量集之间混杂偏差的相对强度。我们展示了混杂度量的一些有用性质,并提出了满足这些性质的度量。实证结果支持理论分析。
脑电图 (EEG) 数据为研究人员和临床医生提供了一种非侵入性方法,可以实时观察大脑活动。深度学习技术与脑电图数据的整合极大地提高了识别有意义模式的能力,从而为临床和研究目的提供了宝贵的见解。然而,迄今为止,大多数为脑电图数据分析而设计的框架要么过于专注于预处理,要么过于专注于深度学习方法本身,这使得它们在临床医生和开发者社区中的使用存在问题。此外,诸如伦理考虑、偏差、不确定性和 AI 模型用于脑电图数据分析的内在局限性等关键问题经常被忽视,这对这些技术的负责任实施提出了挑战。在本文中,我们介绍了一个专门针对脑电图数据处理、模型训练和报告生成的综合深度学习框架。该框架的构建方式使其能够被 AI 开发人员进一步改编和开发,并能够通过模型卡片报告结果和对开发人员和临床医生都有用的特定信息。通过这种方式,我们讨论了该框架如何在未来为临床研究人员和开发人员提供必要的工具,以创建用于脑电图数据分析和诊断的透明和负责任的 AI 模型。
眼科疾病是一个重大的全球性健康问题,需要使用先进的精确诊断工具。光学相干断层扫描 (OCT) 成像能够提供视网膜的高分辨率横截面图像,已成为眼科中一项关键的成像模式。传统上,医生会手动从这种诊断图像中检测各种疾病和生物标志物。近年来,深度学习技术已广泛用于医疗诊断任务,从而实现快速准确的诊断。本文提出了一种使用卷积神经网络 (CNN) 和视觉Transformer 融合的方法来检测眼科生物标志物。虽然 CNN 擅长在图像的局部上下文中提取特征,但 Transformer 以其从图像的全局上下文中提取特征的能力而闻名。通过融合这两种技术,我们可以利用两者的优势。我们的方法已在 OLIVES 数据集上实现,用于从 OCT 图像中检测 6 种主要生物标志物,并显示了数据集上宏观平均 F1 分数的显著提高。