车载摄像头(行车记录仪)每天记录着数百万的驾驶视频,为各种应用提供了宝贵的潜在数据来源,包括驾驶地图的制作和更新。利用这些行车记录仪数据的一个必要步骤是估计摄像头的姿态。然而,行车记录仪拍摄的低质量图像,其特点是运动模糊和动态物体,给现有的图像匹配方法带来了挑战,难以准确地估计摄像头的姿态。在本研究中,我们提出了一种精确的行车记录仪图像姿态估计方法,利用了摄像头的固有运动先验。通常,行车记录仪拍摄的图像序列表现出明显的运动先验,例如向前运动或横向转向,这些先验作为对应关系估计的重要线索。基于这一观察,我们设计了一个姿态回归模块,旨在学习摄像头的运动先验,随后将这些先验整合到对应关系和姿态估计过程中。实验表明,在真实的行车记录仪数据集上,我们的方法在 AUC5\textdegree 姿态估计方面比基线方法提高了 22%,并且能够估计更多图像的姿态,在结构从运动 (SfM) 中的重投影误差更小,提高了 19%。
人类决策者可以从人工智能反馈中学习吗?利用来自一个大型在线象棋平台的 52,000 名决策者的数据,我们研究了人工智能的使用如何影响三个相互关联的长期结果:学习、技能差距和决策策略的多样性。首先,我们发现,个人更有可能在经历成功而非失败的情况下寻求人工智能反馈。这种人工智能反馈寻求策略对学习有害:成功反馈会降低未来表现,而失败反馈则会提高未来表现。其次,技能更高的决策者更常寻求人工智能反馈,并且更有可能在失败后寻求人工智能反馈,并且比技能较低的个人从人工智能反馈中获益更多。因此,获得人工智能反馈会增加而不是减少高技能和低技能个人之间的技能差距。最后,我们利用 42 次主要平台更新作为自然实验,表明获得人工智能反馈会导致群体智力多样性的下降,因为个人倾向于专门从事相同的领域。总而言之,这些结果表明,从人工智能反馈中学习并非自动进行,正确使用人工智能本身也是一项技能。此外,尽管人工智能反馈在个人层面上有益,但获得人工智能反馈可能会在群体层面上产生重大的负面影响,包括智力多样性的丧失和技能差距的扩大。
本研究探讨了 Segment Anything Model 2 (SAM2) 在具有挑战性的视频伪装目标分割 (VCOS) 任务中的应用和性能。VCOS 涉及检测在视频中与周围环境无缝融合的目标,这些目标具有相似的颜色和纹理、光线条件差等。与普通场景中的物体相比,伪装物体更难检测。SAM2 是一种视频基础模型,在各种任务中展现出潜力。但它在动态伪装场景中的有效性仍未得到充分探索。本研究对 SAM2 在 VCOS 中的能力进行了全面研究。首先,我们使用不同的模型和提示(点击、框和掩码)评估了 SAM2 在伪装视频数据集上的性能。其次,我们探索了将 SAM2 与现有的多模态大型语言模型 (MLLM) 和 VCOS 方法集成。第三,我们通过在视频伪装数据集上微调 SAM2 来专门调整 SAM2。我们全面的实验表明,SAM2 在视频中检测伪装物体方面具有出色的零样本能力。我们还表明,通过专门调整 SAM2 的参数以适应 VCOS,可以进一步提高这种能力。代码将发布在 https://github.com/zhoustan/SAM2-VCOS。
网络入侵检测系统 (NIDS) 是保护计算机网络免受恶意活动(包括拒绝服务 (DoS)、探测、用户到根 (U2R) 和远程到本地 (R2L) 攻击)的关键。如果没有有效的 NIDS,网络将容易受到重大安全漏洞和数据丢失的攻击。机器学习技术为增强 NIDS 提供了一种很有前景的方法,通过自动化威胁检测和提高准确性。在本研究中,我们提出了一种用于 NIDS 的增强卷积神经网络 (EnCNN),并使用 KDDCUP'99 数据集评估其性能。我们的方法包括全面的数据预处理、探索性数据分析 (EDA) 和特征工程。我们将 EnCNN 与各种机器学习算法进行了比较,包括逻辑回归、决策树、支持向量机 (SVM) 以及随机森林、AdaBoost 和投票集成等集成方法。结果表明,EnCNN 显着提高了检测精度,与最先进的方法相比提高了 10%。这证明了 EnCNN 在实时网络入侵检测中的有效性,为识别和缓解安全威胁以及增强网络整体弹性提供了一种强大的解决方案。
任务规划通常涉及优化ISR(情报、监视和侦察)资产的使用,以便在允许的参数范围内,在约束条件下实现一组任务目标。这里感兴趣的任务涉及多个无人机在多个目标之间进行路线规划,利用传感器捕获与每个目标相关的数据。找到此类解决方案通常是一个NP-Hard问题,无法在经典计算机上有效地解决。此外,在任务过程中可能会出现新的约束和目标,需要在短时间内计算出新的解决方案。为了实现这一点,我们研究了近期量子算法,这些算法有潜力提供相对于当前经典方法的加速。我们展示了如何将一大类此类问题表述为混合整数线性规划(MILP),然后转换为二次无约束二元优化(QUBO)。所提供的公式用途广泛,可以适应许多不同的约束,并提供清晰的量子比特扩展。我们讨论了使用商用量子退火器求解QUBO公式的结果,并将解决方案与当前边缘经典求解器进行了比较。我们还分析了使用量子近似优化算法(QAOA)求解QUBO的结果,并讨论了其结果。最后,我们还提供了将问题编码到变分量子特征求解器(VQE)形式主义中的有效方法,我们针对问题定制了ansatz,从而有效地利用了可用的量子比特。
通过损失最小化训练的人工智能模型已经取得了显著成功,其基础是信息论和统计物理学等领域的原理。本文从第一性原理的样本集中行为入手,通过统计力学的视角探索这些已建立的联系,这些行为是 AI 和机器学习的基础。我们对统计力学建模的开发突出了指数族、统计量、物理量和信息论的关键作用。
在放射治疗计划中,精确勾画目标结构和危及器官 (OAR) 对确保治疗效果和患者安全至关重要。近年来,深度学习 (DL) 的进步显著提高了 OAR 勾画性能,但这些模型的可靠性,尤其是在存在分布外 (OOD) 场景的情况下,在临床环境中仍然是一个问题。本应用研究探索了在 OAR 勾画工作流程中集成认知不确定性估计,以使用专门编译的数据在临床相关场景中实现 OOD 检测。此外,我们引入了一种先进的统计方法来进行 OOD 检测,以增强不确定性估计的方法框架。我们的实证评估表明,认知不确定性估计在识别模型预测不可靠且可能需要专家审查的实例方面是有效的。值得注意的是,我们的方法在 OOD 检测中实现了 0.95 的 AUC-ROC,对植入病例的特异性为 0.95,敏感性为 0.92,突出了其有效性。本研究解决了当前研究领域中存在的重大差距,例如缺乏不确定性估计的真实情况以及有限的实证评估。此外,它提供了认知不确定性估计在 FDA 批准且广泛使用的来自西门子医疗公司瓦里安的 OAR 分割临床解决方案中的临床相关应用,突出了其实际益处。
在抽象摘要中,从源文档中包含的大量信息中产生简洁准确的摘要是一个挑战。因此,尽管大型语言模型 (LLMs) 可以生成流畅的文本,但它们经常通过幻觉生成原始来源中不存在的内容而引入不准确性。虽然最大化似然的监督微调方法会导致这个问题,但它们并不能始终如一地提高摘要的忠实度。基于偏好的优化方法,如直接偏好优化 (DPO),可以进一步优化模型,使其与人类偏好一致。然而,这些方法仍然严重依赖于昂贵的人工反馈。在这项工作中,我们介绍了一种新颖且直接的方法,称为基于模型的偏好优化 (MPO),用于微调 LLMs 以提高摘要能力,而无需任何人工反馈。通过利用模型固有的摘要能力,我们创建了一个偏好数据集,该数据集完全由模型使用不同的解码策略生成。我们在标准摘要数据集和各种指标上的实验表明,我们提出的 MPO 显著提高了生成摘要的质量,而无需依赖人工反馈。
近年来,特征表示和降维技术的进步突显了它们在提高预测模型效能方面的关键作用。本研究提出了 TemporalPaD,一个专为时间模式数据集设计的新型端到端深度学习框架。TemporalPaD 将强化学习 (RL) 与神经网络相结合,以实现并发的特征表示和特征降维。该框架由三个协同模块组成:策略模块、表示模块和分类模块,这些模块基于 Actor-Critic (AC) 框架构建。负责通过 RL 进行降维的策略模块充当 Actor,而用于特征提取的表示模块和用于分类的分类模块共同充当 Critic。我们使用 29 个 UCI 数据集(一个用于验证特征降维算法的知名基准)通过 10 次独立测试和 10 折交叉验证对 TemporalPaD 进行了全面评估。此外,鉴于 TemporalPaD 专为时间序列数据而设计,我们将其应用于涉及增强子类别和增强子强度的现实世界 DNA 分类问题。结果表明,TemporalPaD 是一个高效且有效的框架,可实现特征降维,适用于结构化数据和序列数据集。本文提供的 TemporalPaD 源代码作为补充材料免费提供,可在 http://www.healthinformaticslab.org/supp/ 上获取。
理解和建模复杂的动态系统对于提高车辆性能和安全性至关重要,尤其是在自动驾驶的背景下。近年来,诸如 Koopman 算子和其近似器——扩展动态模式分解 (EDMD)——等流行方法因其能够有效地将强非线性系统行为转化为线性表示而备受关注。这使得它们可以与传统的线性控制器相结合。为了实现这一点,奇异值分解 (SVD),特别是截断 SVD,被用来从大量的 datasets 中有效地近似 Koopman 算子。本研究评估了 EDMD 中使用的不同基函数,并对截断 SVD 进行了排序,以表示变道行为模型,旨在平衡计算效率和信息损失。然而,研究结果表明,截断 SVD 技术并不一定能显著减少计算训练时间,并且会导致显著的信息损失。