arXiv:2502.09955v1
公告类型: 新闻
摘要: 类似于OpenAI的o1、o3和DeepSeek的R1等推理大语言模型在数学和编程领域取得了显著进展,但在国际数学奥林匹克(IMO)组合问题、抽象与推理语料库(ARC)谜题和人类最终考试(HLE)问题等复杂任务上仍面临挑战。我们通过在测试时结合多种模型和方法来使用一种多样化的推理方法。我们发现,验证数学和代码问题的正确性,以及在其他问题上进行拒绝采样是非常简单且有效的。我们通过Lean验证IMO问题的解答正确性,并通过代码验证ARC谜题的正确性,发现最佳的N次采样有效地回答了HLE问题。我们的方法将IMO组合问题的答案准确性从33.3%提高到77.8%,将HLE问题的答案准确性从8%提高到37%,并且解决了948名人类无法解决的80%的ARC谜题,以及o3高计算能力无法解决的26.5%的ARC谜题。通过测试时模拟、强化学习和通过推理反馈进行的元学习改进了泛化能力,通过调整代理图表示和提示、代码和数据集。我们的方法是可靠的、 robust的、可扩展的,并且遵循可重复研究的精神,我们在发布时将使其公开可用。
arXiv:2502.09947v1 通知类型: 新
摘要: 在远程医疗监测数据的分析中,时间序列表示学习在揭示患者行为的更深层次模式方面提供了显著的价值,尤其是在数据具有精细的时间粒度的情况下。在这项研究中,我们重点关注痴呆症患者家庭活动记录的数据集。我们提出了一种两阶段自监督学习方法。第一阶段涉及将时间序列活动转换为文本字符串,然后由微调的语言模型进行编码。第二阶段,这些时间序列向量被二维化以应用PageRank方法,以分析潜在状态转换,定量评估参与者的行为模式并识别活动偏见。结合诊断数据,这些见解旨在支持个性化的护理干预措施。
arXiv:2502.09933v1 宣布类型: 新
摘要: 归纳推理(IR),从示例中总结规则并应用于新示例的能力,长期以来一直被视为一般智能的基本能力,并受到认知科学和人工智能研究人员的广泛关注。许多基准已被提出以衡量这种能力,特别是对于大型语言模型(LLMs);然而,它们主要集中在少样本(通常少于10个样本)的设置上,并且缺乏对从长上下文中整合大量信息的评估。另一方面,LLMs 的不断增长的上下文长度带来了新的范式—多样本上下文学习(ICL),它通过数百到数千个示例解决新任务,而无需昂贵且低效的微调。然而,大多数多样本评估主要集中在分类(IR的一个非常有限的方面),而流行的长上下文 LLM 任务,如大草堆中的一针(NIAH),很少需要复杂的智能来整合大量信息。为了弥补这两个领域的缺陷,我们提出了 MIR-Bench,这是第一个要求 LLM 通过输入输出示例从底层函数中推导输出的多样本上下文归纳推理基准,这些输入输出示例具有多种数据格式。基于 MIR-Bench,我们研究了归纳推理和多样本 ICL 的许多新型问题,包括对抗错误样本的鲁棒性以及思维链(CoT)的影响,并获得了深入的发现。
arXiv:2502.09913v1 通知类型: 新
摘要: 基于Web的管理系统在风险管理及工业安全方面得到了广泛应用。然而,有效地将来源搜索能力集成到这些系统中,以使决策者能够定位和解决危险(例如气体泄漏检测)仍然是一个挑战。尽管先前的努力已经探索了使用基于Web的众包和AI算法为来源搜索决策支持,但这些方法在招募人力资源方面存在成本,并且在时间敏感的情况下响应速度较慢。为解决这一问题,我们介绍了AutoS$^2$earch,这是一种利用大规模模型在Web应用程序中进行零样本来源搜索的新型框架。AutoS$^2$earch 在基于Web的显示中通过简化视觉环境运作,利用一个模拟人类推理的推理链提示。多模态大规模语言模型(MLLMs)动态地将视觉观察转化为语言描述,从而使LLM能够在四个方向选择上进行语义推理。广泛实验表明,AutoS$^2$earch 在实现与人类-AI协作来源搜索性能相当的同时,消除了对众包劳动力的依赖。我们的工作提供了在其他工业应用中利用Web工程设计此类自主系统的宝贵见解。
arXiv:2502.09903v1 宣布类型: 新
摘要: 在这篇论文中,我们通过自动机理论的视角重新审视大型语言模型的提示工程。我们认为语言模型充当自动机的角色,并且与所有其他自动机一样,应该使用它们所接受的语言进行编程,即所有自然语言和形式语言的统一集合。因此,传统的软件工程实践——基于编程语言与自然语言之间的明确分离——必须重新思考。我们介绍了Ann Arbor架构,这是一种基于代理导向编程的语言模型高级抽象概念框架,并提供了上下文内学习的新视角。基于这一框架,我们介绍了我们的代理平台Postline的设计,并报告了我们在代理训练方面的初步实验。
arXiv:2502.09897v1 宣告类型: 新
摘要: 机器学习(ML)和人工智能(AI)的迅速发展引发了化学领域的重大变革,然而,将这些方法应用于光谱和光谱分析数据,即光谱机器学习(SpectraML),的应用仍然相对较少。现代光谱技术(包括质谱、核磁共振、红外光谱、拉曼光谱、紫外-可见光谱)生成了不断增长的高维数据量,迫切需要超越传统基于专家的工作流程的自动化和智能化分析。在本综述中,我们提供了一个统一的SpectraML综述,系统地考察了最先进的用于正向任务(分子到光谱预测)和反向任务(光谱到分子推理)的方法。我们追溯了光谱领域中ML的历史演变,从早期的模式识别到最新的能够进行高级推理的基础模型,并提供了一种代表性神经架构的分类,包括基于图的方法和基于变换器的方法。针对数据质量、多模态集成和计算可扩展性等关键挑战,我们强调了合成数据生成、大规模预训练和少样本或零样本学习等新兴方向。为了促进可再现研究,我们还发布了包含近期论文及其相应数据集的开源仓库(https://github.com/MINE-Lab-ND/SpectrumML_Survey_Papers)。我们的综述为研究人员提供了一条路线图,引导其在光谱学与人工智能的交叉领域取得进展。
arXiv:2502.09861v1 宣告类型: 新
摘要: 可解释性对于自主和智能系统的透明性至关重要,并有助于支持适当水平的信任的发展。已经在这方面进行了大量研究,并制定了一些标准来规定透明性的要求。然而,仍存在一个缺口:这些标准过于高层化,并未能充分规定可解释性的要求。本文开发了一个评分表,可以用来指定可解释性的要求,或评估特定应用中提供的可解释性方面。该评分表通过考虑多种利益相关者的需求来开发,并适用于多方系统以及其他人工智能技术。我们还提供了如何使用评分表的指导,并通过将其应用于多种应用场景来说明其普遍性和实用性。
arXiv:2502.09843v1 通告类型: 新文章
摘要: 多模态人工智能是朝着利用人类-人工智能通信中多种模态的有效工具建设迈出的重要一步。构建能够与长文档互动的多模态文档导向人工智能系统仍然是一项挑战。我们的工作旨在填补直接利用文档中图文内容生成响应的研究空白。我们基于GPT-4o提出了一种交互式对话AI代理'MuDoC',以生成包含交替文本和图表的文档导向响应。MuDoC的智能教科书界面促进了可信度的提升,并通过允许即时导航到文档中的源文本和图表来验证系统响应。我们还讨论了基于MuDoC响应的定性观察,以突出其优点和局限性。
arXiv:2502.09649v1 公告类型: 新
摘要: 视觉运动模仿学习使具备身体的代理可以从视频示范和机器人本体感觉中有效地习得操作技能。然而,随着场景复杂性和视觉干扰的增加,现有在简单场景中表现良好的方法在性能上会下降。为了解决这一挑战,我们引入了Imit Diff——一种具有双分辨率融合的语义引导扩散变换器,用于模仿学习。我们的方法利用视觉语言基础模型的前期知识,将高层次的语义指令翻译为像素级的视觉定位。这些信息被明确地集成到一个多尺度视觉增强框架中,该框架由一个双分辨率编码器构建。此外,我们还在扩散变换器架构中引入了一种一致性策略实现,以提高实时性能和实体代理控制的运动平滑度。我们在多个具有挑战性的实际任务上评估了Imit Diff。由于其面向任务的视觉定位和细粒度的场景感知,它在包含视觉干扰和类别泛化的复杂场景中显著优于最先进的方法。代码将公开提供。
arXiv:2502.07465v2 宣告类型: 替换-交叉
摘要: 本研究使用深度学习模型来预测特定日子城市的分区犯罪数量。这有助于增强警方的监控,收集情报,并主动预防犯罪。我们将犯罪数量预测视为时空序列挑战,其中输入数据和预测目标都是时空序列。为了提高犯罪预测的准确性,我们提出了一种结合卷积神经网络(CNN)和长短期记忆(LSTM)网络的新模型。我们进行了比较分析,以评估不同数据序列(包括原始数据和区间数据)对四种深度学习预测模型预测误差的影响。直接将原始犯罪数据输入预测模型会导致高预测误差,使得该模型不适合实际应用。研究结果表明,当犯罪数据被划分为10个或5个类别时,提出的CNN-LSTM模型表现出最优性能。通过区间划分可以提高预测模型的性能,但定义不良的区间可能会降低地图的细节。与将数据划分为5个区间相比,将数据划分为10个区间能够取得最佳平衡,既能保留数据特征,又能超越原始数据在预测建模中的效果。