arXiv:2505.00339v1 类型: cross
摘要: 人工智能(AI)正迅速改变教育领域,为个性化的学习和内容创建流程化提供了前所未有的机会。然而,在教育环境中实现AI的全部潜力需要仔细考虑AI生成材料的质量、认知深度以及伦理影响。本文综述了四项相关研究,提出了一种全面的框架,用于提升基于AI的教育工具。我们整合了认知评估框架(布卢姆分类法和SOLO分类法)、对AI生成反馈的语义分析以及伦理设计原则,以指导有效和负责任的AI工具的发展。我们概述了一种结构化三阶段方法,涵盖认知对齐、语言反馈整合以及伦理保障。通过将其整合到OneClickQuiz插件中——一个基于AI的Moodle测验生成插件——该框架的实际应用得到了验证。这项工作为教育工作者、研究人员和开发者提供了一份全面且可操作的指南,帮助他们在利用AI潜力的同时,维护教育内容生成中的教学和伦理标准。
arXiv:2505.00337v1 Announce Type: cross
摘要:文本到视频生成模型近年来取得了显著进展,能够生成在审美和指令遵循方面都表现出色的高质量视频,已成为数字艺术创作和在线用户参与的核心。然而,尽管取得了这些进展,这些模型在尊重基本物理定律方面的能力仍主要未经测试:许多输出仍违反了诸如刚体碰撞、能量守恒和重力动力学等基本约束,导致内容不现实,甚至误导性。现有的物理评估基准通常依赖于自动的像素级指标,应用于简化的日常生活场景提示,因此忽略了人类判断和基本物理原理。为了弥补这一差距,我们引入了 \textbf{T2VPhysBench},这是一个基于基本原理的基准,系统评估最先进的文本到视频系统(无论是开源的还是商业的)是否服从十二项核心物理定律,包括牛顿力学、守恒原理和外在效应。我们的基准使用了严格的评估协议,并包括三个目标研究:(1)整体合规性评估,结果显示所有模型在每项定律类别中的平均得分为0.60以下;(2)提示削减研究揭示,即便是专门针对特定物理定律的详细提示也无法纠正物理违规;(3)反事实鲁棒性测试显示,当模型被如此指示时,它们往往会生成违反物理规则的视频。研究结果揭示了当前架构的持续限制,并提供了对未来研究的指导,以实现真正具备物理意识的视频生成。
arXiv:2505.00335v1 Announce Type: cross
摘要:隐式神经表示(INR)已在多种领域取得了成功应用。为了在实际生活中使用INR,加速训练变得尤为重要。在用于视频应用的INR领域,最先进的方法采用网格型参数编码,并且相对于其前身实现了更快的编码速度。然而,这种网格使用的做法不考虑视频的动态特性,导致了可训练参数的冗余使用。因此,它在参数效率和比特率方面明显低于不使用参数编码的NeRV风格的方法。为了应对这个问题,我们提出了时序一致调制的神经视频表示(NVTM)这一新颖框架,它可以捕捉视频的动态特性。通过将时空3D视频数据分解为具有流信息的2D网格集合,NVTM能够快速学习视频表示并高效使用参数。我们的框架允许一次性处理时间上对应的像素点,从而实现较高的编码速度,尤其是在与NeRV风格方法相比时,速度提高了3倍以上。此外,它在UVG(动态)上平均提高了1.54dB/0.019的PSNR/LPIPS(即使参数减少了10%),在MCL-JCV(动态)上平均提高了1.84dB/0.013的PSNR/LPIPS,优于之前的网格型工作。通过将其扩展到压缩任务,我们展示了与视频压缩标准(H.264,HEVC)和最近的视频压缩INR方法相媲美的表现。此外,我们进行了广泛实验,展示了我们的算法在各种任务中的优越性能,涵盖超分辨率、帧插值和视频补全。项目页面为 https://sujiikim.github.io/NVTM/。
arXiv:2505.00322v1 安全类型:交叉
摘要:本文介绍了一种基于人工智能、考虑交互的人工智能主动安全分析框架,该框架考虑了车辆组间的交互。具体而言,该框架采用增强道路坡度考虑的自行车模型,以准确捕捉车辆动力学。同时,开发了一种基于超图的人工智能模型,用于预测环境交通的可能轨迹。通过集成这两个组件,该框架通过解决随机常微分方程得出车辆在三维道路表面的内部间距,从而提供高保真度的替代安全度量,例如碰撞时间(TTC)。为了展示其有效性,该框架使用包括四阶龙格-库塔积分和人工智能推断在内的随机数值方法进行分析,生成反映复杂多智能体机动和行为不确定性概率权重的高保真度TTC(HF-TTC)分布。在高速公路数据集上使用HF-TTC与传统恒定速度TTC和无交互感知方法进行评估,所提出的框架提供了一种系统的方法来实现增强的人工智能主动安全分析,在复杂交通环境中提高了安全感知的潜力。
arXiv:2505.00316v1 交叉公告类型
摘要:Cellular-Potts模型是开发用于模拟复杂多细胞生物系统的计算模型的强大且通用框架。由于需要显式建模大量个体模型代理之间的相互作用及由偏微分方程(PDEs)描述的扩散场,Cellular-Potts模型(CPM)通常计算成本较高。在本工作中,我们使用U-Net架构开发了一个卷积神经网络(CNN)代理模型,该模型考虑了周期性边界条件。我们使用该模型加速了之前用于研究体外血管生成的机理CPM的评估。该代理模型被训练以预测100个计算步骤(蒙特卡洛步,MCS)后的行为,相比CPM代码执行,将模拟评估加速了590倍。经过多次递归评估,我们的模型有效地捕获了原始Cellular-Potts模型展示出的新兴行为,如血管芽生、延伸和血管缺损的吻合以及血管缺损的收缩。该方法展示了深度学习有望作为CPM模拟的有效代理模型的潜力,从而能够更快地评估计算成本高昂的CPM生物过程的空间和时间尺度更广泛的模拟。
arXiv:2505.00308v1 说明类型:横跨多个领域的
摘要:目的:本研究提出了一种基于深度学习(DL)的质量评估(QA)方法,用于评估放射治疗中自动生成的轮廓(auto-contours),重点关注在线自适应放射治疗(OART)。该方法通过贝叶斯序分类(BOC)和校准的不确定性阈值,可以在无需参考真实轮廓或大量手工标注的情况下,进行可靠的QA预测。方法:我们开发了一个BOC模型来分类自动生成轮廓的质量并量化预测的不确定性。通过校准步骤来优化满足临床准确性的不确定性阈值。该方法在三种数据场景下进行了验证:无手动标签、少量标签和大量标签。对于前列腺癌放射治疗中的直肠轮廓,当无手动标签时,我们使用几何近似标签;当标签有限时,使用迁移学习;当标签充足时,直接使用监督学习。结果:BOC模型在所有场景下均表现出稳健的性能。仅使用30个手动标签微调模型,以及34个受试者的校准,测试数据的准确率超过90%。使用校准后的阈值,在超过98%的情况下准确地预测了自动生成轮廓的93%以上的质量,减少了不必要的手动审查,并指出了需要修正的病例。结论:所提出的QA模型通过减少手动工作量和实现快速、知情的临床决策,提高了OART中的轮廓绘制效率。通过不确定性量化,它确保了更安全、更可靠的工作流程。
arXiv:2505.00295v1 宣传类型:交叉
摘要:气体泄漏对人类健康和环境构成重大风险。尽管长期存在担忧,但由于泄漏的隐蔽性和随机形状,目前几乎没有能够高效且准确地检测和分割泄漏的方法。本文中,我们提出了一种细粒度空间-时间感知(FGSTP)算法用于气体泄漏分割。FGSTP可以在帧间捕获关键运动线索,并将其与端到端网络中的精细对象特征结合在一起。具体而言,我们首先构建一个相关体积以捕获连续帧之间的运动信息。然后,精细感知逐步通过先前的输出对对象级特征进行细化。最后,使用解码器优化边界分割。由于气体泄漏分割没有高精度的标注数据集,我们手动标注了一个气体泄漏视频数据集GasVid。在GasVid上的实验结果表明,我们的模型在分割非刚性物体(如气体泄漏)方面表现出色,产生的掩模比其他最先进的(SOTA)模型更准确。
arXiv:2505.00290v1 交叉声明类型:交叉
摘要:分子气味预测是利用分子结构来预测其气味的过程。虽然准确预测仍然是一个挑战,但人工智能模型可以建议潜在的气味。然而,现有的方法通常依赖于基本描述符或手工制作的指纹,这些描述符缺乏表现力,阻碍了有效的学习。此外,这些方法还面临着严重的类不平衡问题,限制了AI模型的训练效果。为了解决这些挑战,我们提出了一种特征贡献驱动的分层多特征映射网络(HMFNet)。具体来说,我们引入了一种细粒度的局部多层次特征提取模块(LMFE),它在原子级别进行深层特征提取,捕捉到气味预测至关重要的详细特征。为了增强原子特征的提取,我们结合了谐波调制特征映射(HMFM),该模块动态学习特征的重要性和频率调制,提高模型捕捉相关模式的能力。此外,我们设计了一种全局多层次特征提取模块(GMFE),用于从分子图拓扑学习全局特征,从而使模型能够充分利用全局信息并增强其气味预测的辨别力。为了进一步缓解类不平衡的问题,我们提出了化学知情损失(CIL)。实验结果表明,我们的方法显著提高了各种深度学习模型的性能,突显了其在分子结构表示和加速人工智能驱动技术开发方面的发展潜力。
arXiv:2505.00284v1 宣传类型: cross
摘要: 视觉-语言模型(Vision-Language Models, VLMs)在端到端自动驾驶中展现了显著的潜力。然而,充分利用其能力以确保自动驾驶的安全性和可靠性仍然是一个开放的研究挑战。为了系统地考察VLMs在驾驶任务中的进展和局限性,我们引入了LightEMMA,一种轻量级的端到端多模态模型,用于自动驾驶。LightEMMA提供了一个统一的、基于VLM的自动驾驶框架,无需特殊定制,便于将不断发展的最新商业和开源模型集成和评估。我们使用各种VLM构建了十二个自动驾驶代理,并在nuScenes预测任务上评估了它们的性能,全面评估了诸如推理时间、计算成本和预测准确性等指标。示例说明了,尽管VLM在场景解释方面具有很强的能力,但在自动驾驶任务中的实际表现仍然令人担忧,突出了进一步改进的需求。代码可在 https://github.com/michigan-traffic-lab/LightEMMA 获取。
arXiv:2505.00268v1 交叉领域公告类型:跨领域
摘要:语言使用有效性的标志在于一致性——在类似的情境中表达相似的意义,并避免矛盾。虽然人类交流自然地体现了这一原则,但最先进的语言模型在不同场景下保持可靠的一致性方面仍然面临挑战。本文探讨了人工智能语言系统中一致性研究的景观,探讨了一致性的正式方面(包括逻辑规则遵守)和非正式方面(如道德和事实的一致性)。我们分析了当前衡量一致性各方面的方法,指出了标准化定义、多语言评估和提高一致性的方法中的关键研究缺口。我们的研究结果表明,需要建立稳健的基准来衡量一致性,并采用跨学科的方法来确保在特定领域的任务中应用语言模型时的一致性,同时保持其实用性和适应性。