arXiv:2411.00264v2 更新类型: 替换
摘要:人类从小就具备从图像和场景中推断几何模式的能力。然而,开发能够进行类似推理的大型多模态模型(LMMs)仍然是一项挑战,突显了需要开发稳健的评估方法来评估这些能力的重要性。我们介绍了\Turtle,一个用于评估LMMs解析几何模式的能力的标准,给定视觉示例、文本指令或两者——并生成精确的代码输出。受到用于教授儿童基础编码和几何概念的乌龟几何学的启发,TurtleBench 特设了包含具有底层算法逻辑的模式化形状的任务。我们的评估结果显示,领先的LMMs在这些任务上表现出显著的困难,即使是GPT-4o在最简单的任务上也只有19%的准确性,而少量示例提示仅稍微改进了它们的性能(<2%)。\Turtle 暴露了人类和AI在直观和视觉几何理解方面的差距,为该领域的未来研究奠定了基础。\Turtle 是为数不多的能够评估LMMs整合视觉理解能力和代码生成能力的标准之一,为未来的研究奠定了基础。本文的代码和数据集可在以下链接获取:\href{https://github.com/sinaris76/TurtleBench}{https://github.com/sinaris76/TurtleBench}
arXiv:2410.17248v3 公告类型: 替换
摘要:将机器学习模型应用于机载处理超光谱数据将为广泛的任务带来前所未有的自主性,例如甲烷检测或矿物识别。这可以实现早期预警系统,并允许在卫星星座之间实现新的自动化排程能力。传统方法遭受高假阳性率的问题,而之前的深度学习模型则表现出计算要求过高的问题。我们提出了快速且准确的机器学习架构,这些架构支持端到端培训,无需依赖人工制作的产品或光谱波段压缩预处理。我们在两个与超光谱数据处理相关的任务上评估了我们的模型。在我们提出的通用架构下,我们的模型在新创建的合成数据集上将前甲烷检测最先进的模型的F1分数提高了27%,在之前发布的大型基准数据集上提高了13%。我们还表明,在合成数据集上训练模型可以使得在实际事件数据集上微调的模型的F1分数提高6.9%,而与从头开始训练相比。在新创建的矿物识别数据集中,我们的模型将F1分数提高了3.5%。相比于之前的传统和深度学习方法,我们的模型提高了85%的推理速度,通过移除了对传统计算特征的依赖。使用我们的架构,EMIT传感器的一捕获数据可在ION-SCV 004卫星的现实代理系统中30秒内完成处理。
arXiv:2410.10212v2 公告类型:替换
摘要:公交车停站控制是一种广泛采用的策略,用于维持公交车系统的稳定性和提高其运营效率。传统的基于模型的方法通常面临着公交车状态预测和乘客需求估计准确性较低的挑战。相比之下,强化学习(RL)作为一种数据驱动的方法,在制定公交停站策略方面展现了巨大的潜力。RL 确定最优控制策略以最大化累积奖励,这反映了整体控制目标。然而,在现实任务中将稀疏且延时的控制目标转化为密集且实时的奖励以供 RL 使用是一项挑战,通常需要大量的手动试验与错误调整。鉴于此,本研究通过利用大型语言模型 (LLMs) 的上下文学习和推理能力,引入了一种自动奖励生成范式。这种新的范式称为增强 RL,其中包括几个基于 LLM 的模块:奖励初始化器、奖励调整器、性能分析器和奖励精炼器。这些模块协同工作,根据指定的基于 RL 的任务的训练和测试结果的反馈,初始化并逐步改进奖励函数。由 LLM 生成的有效奖励函数被筛选出来,以确保 RL 剂型在迭代过程中的稳定性能进步。为评估所提出的增强 RL 范式的可行性,将其应用于广泛变化的公交车停站控制场景,包括不同的公交线路、站点和乘客需求。结果表明,所提出的范式相较于传统的 RL 策略、基于 LLM 的控制器、基于物理反馈的控制器和基于优化的控制器,具备优越性、泛化能力和鲁棒性。本研究揭示了 LLM 在各种智能交通应用中巨大潜力。
arXiv:2410.08437v3 宣告类型: 替换
摘要: 本文提出了AutoEval,这是一个新型基准,用于衡量大型语言模型(LLM)在翻译和逻辑推理等具有明确正确性概念的形式任务中的扩展能力。AutoEval 是第一个提供在无需人工标注的情况下扩展对 LLMs 的客观评估的关键优势的基准框架:(a) 能够通过自动生成不同难度级别的任务来评估日益复杂的 LLMs;(b) 能自动生成基准数据,从而消除对昂贵且耗时的人工标注的依赖;(c) 使用自动生成且随机化的数据集来减轻后续 LLMs 对许多当代基准中使用的静态数据集的过拟合能力。实证分析表明,一个LLM在AutoEval中的表现高度预测了它在其他关注翻译和推理任务的多样基准中的表现,使其成为一个有价值的自主评估框架,尤其是在难以获取和/或更新手编数据集的情况下。
arXiv:2410.00332v5 宣告类型: 替换
摘要: 理解守恒定律是人类认知发展中一个关键的里程碑,被认为是由数量概念的理解和操作的可逆性支持的。为了评估这种人类智能的关键组成部分是否在视觉语言模型中出现,我们搭建了ConserveBench,这是一个涵盖四个物理量维度共计365项认知实验的测试套件:体积、固体数量、长度和数量。前两种涉及到需要理解可逆性的变换任务,而后两种涉及非变换任务,评估数量理解。令人惊讶的是,我们发现,虽然视觉语言模型在变换任务方面通常表现良好,但在非变换任务方面却往往失败。操作的可逆性和数量概念的理解之间存在分离,这两种都是被认为是人类理解守恒定律基石的要素。[网站]
arXiv:2410.00324v5 公告类型: 重写
摘要:了解他人的意图和从他人的角度思考被认为是理论心智的两个核心组成部分,这是人类智能的体现。将这些能力注入机器是构建类似人类的人工智能的重要步骤。为研究视觉语言模型(VLMs)的意图理解和层次2视角处理能力,我们构建了IntentBench和PerspectBench,其中包含超过300个基于现实场景和经典认知任务的认知实验。我们发现VLMs在意图理解方面表现出色,但在层次2视角处理方面表现不佳。这表明VLMs在基于模拟和基于理论的心智理论能力之间可能存在分离,突显其无法利用基于模型的推理来推断他人的心智状态。详见 $\href{https://growing-ai-like-a-child.github.io/}{Website}$
arXiv:2410.00318v3 机械推理类型: 修改
摘要:机械推理是人类智能的一个标志,定义为其在从日常任务到土木工程等各种人类活动中无处不在且不可替代的作用。因此,向机器嵌入机械推理是构建人类水平的人工智能的重要一步。在此,我们利用155项认知实验来测试26个视觉语言模型(VLMs)对系统稳定性、齿轮和滑轮系统、杠杆原理、惯性和运动以及流体力学的理解。结果表明,VLMs在所有领域中都表现逊于人类,尤其是在齿轮系统的推理和流体力学方面表现出显著的困难。值得注意的是,随着参数数量的增加,它们在这些任务上的表现并未改善,这表明当前基于注意力的架构可能无法掌握进行机械推理所需的某些底层机制,特别是在涉及心理模拟的部分。
arXiv:2409.16395v2 宣告类型: 替换
摘要:药物错误严重威胁患者安全,导致不良药物事件并给卫生保健系统带来巨大经济负担。旨在减轻这些错误的临床决策支持系统(CDSSs)在处理非结构化临床数据时往往受到局限,包括依赖静态数据库和基于规则的算法,经常生成过多的警报,导致卫生保健提供者产生警报疲劳。本文介绍了HELIOT,这是一种创新的不良药物反应管理CDSS,利用大规模语言模型(LLMs)处理与全面的药学数据仓库集成的自由文本临床信息。HELIOT利用高级自然语言处理能力来解释医疗叙事,从未结构化的临床笔记中提取相关的药物反应信息,并从过去的患者特定药物耐受性中学习,以减少假警报,从而在初级保健、专科会诊和医院环境中提供更加精确和相关的不良药物事件警告。初步使用临床叙事合成数据集和专家验证的地面真相进行评估显示了积极的结果。在受控环境中,HELIOT在准确性方面表现出色。此外,通过智能分析临床笔记中记录的先前药物耐受性,并区分需要不同警报类型的案例,HELIOT有可能将传统CDSS的中断性警报减少超过50%。虽然这些初步成果令人鼓舞,但实际验证将是确认这些益处的关键。
arXiv:2409.13825v2 宣告类型: 替换
摘要:理解心脏的结构和运动对于诊断和管理心血管疾病至关重要,心血管疾病是全球死亡的主要原因。心脏形状和运动模式存在广泛的变异,这些变异受人口统计、身体测量和疾病因素的影响。解开正常的心脏形状和运动模式,以及理解每个个体偏离正常标准的方式,将有助于准确的诊断和个性化的治疗策略。为此,我们开发了一种新型条件生成模型 MeshHeart,以学习心脏形状和运动模式的分布。MeshHeart 能够生成包含时间维度的 3D 心脏网格序列,并考虑年龄、性别、体重和身高等因素。为模拟高维度和复杂的时空网格数据,MeshHeart 使用几何编码器将心脏网格表示在潜在空间中,随后使用时间变换器建模潜在表示的运动动态。基于 MeshHeart,我们研究了 3D+t 心脏网格序列的潜在空间,并提出了一种新颖的距离度量术语潜移差(latent delta),该度量可以量化真实心脏偏离其个性化正常模式在潜在空间中的偏差。在使用 38,309 个受试者的大型数据集中进行的实验中,MeshHeart 在心脏网格序列重建和生成方面表现出高的性能。潜在空间中定义的特征对于心脏疾病的分类具有很高的区分性,而潜移差与全表型关联研究中的临床表型表现出强烈的相关性。本研究的代码和模型将公开,以促进数字心脏建模的进一步研究。
arXiv:2406.08315v2 通告类型: 替换
摘要: 我们提出了ε-retrain,这是一种探索策略,在优化策略时鼓励行为偏好,并提供了单调改进的保证。为此,我们引入了一种迭代过程,用于收集重培训区域——即智能体未满足行为偏好的状态空间部分。我们的方法使用衰减因子ε在典型的均匀重启状态分布和重培训区域之间切换,允许智能体在违反偏好情况时进行重培训。我们还利用神经网络的形式验证来证明地量化智能体遵守这些行为偏好程度的程度。在数百个种子在移动、电力网络和导航任务上的实验表明,我们的方法可以产生表现出显著性能和采样效率改进的智能体。