arXiv:2502.10395v1 类型: cross
摘要: 智能导师系统(ITSs)在帮助学生学习方面非常有效;进一步的研究可以使它们更有效。特别 desirable 是研究学生如何使用这些系统学习,这些系统如何最好地支持学生学习,以及哪些学习科学原理在 ITSs 中至关重要。CTAT+Tutorshop 提供了一个全方位集成的平台,该平台促进了从 ITS 数据中发现学习者挑战,识别系统改进机会,并进行实验研究的完整研究生命周期。该平台包括支持和加速 ITS 开发的编写工具,这些工具提供自动数据日志记录,且格式与 DataShop 兼容,DataShop 是一个独立的站点,支持对教育技术日志数据进行分析以研究学生的学习。在为学习科学研究提供众多技术支持的许多平台中,CTAT+Tutorshop 可能是唯一一个让研究人员能够在设计研究时编写 ITS 元素或整个 ITS 元素的平台。该平台已被用于开发和实施估计有 147 项研究,这些研究涉及各种实验室和现实世界教育环境,包括 K-12 和高等教育,并涵盖了广泛的研究问题。本文介绍了在 CTAT+Tutorshop 平台上进行的五项研究案例,并总结了过去的研究成就以及未来研究人员的可能性。我们反思了使该平台在促进各种 ITS 研究方面如此有效的独特要素。
arXiv:2312.02073v3 宣告类型:交叉
摘要:大型语言模型(LLMs)具有从其上下文中汲取新颖信息的惊人能力。然而,这些上下文关系背后的机制仍然未知,尤其是在上下文信息与参数中储存的事实知识相矛盾的情况下,LLMs 也擅长回忆这些知识。在检索增强生成方法中,偏好上下文信息至关重要,这些方法通过丰富上下文以提供最新的信息,希望可以使知识锚定纠正过时或嘈杂的储存知识。我们提出了一种新的方法来研究锚定能力,使用 Fakepedia,一个新构建的与模型内部参数化知识相矛盾的反事实文本数据集。在这项研究中,我们介绍了 Fakepedia,这是一种反事实数据集,设计用于评估内部参数化知识与上下文信息相矛盾时的锚定能力。我们使用各种 LLMs 对 Fakepedia 进行基准测试,并基于我们的 Masked Grouped Causal Tracing(MGCT)方法对 LLM 组件在回答 Fakepedia 查询时进行因果中介分析。通过这种方法的分析,我们识别出锚定和未锚定响应之间不同的计算模式。我们最终证明,仅通过计算分析即可区分锚定和未锚定的响应。我们的结果,结合关于事实回忆机制的现有发现,提供了 LLM 内锚定机制和事实回忆机制交互作用的连贯叙述。
arXiv:2502.12143v1 公告类型: 新
摘要: 大语言模型(LLMs)在复杂推理任务中表现出色,将它们的推理能力精简到较小的模型中也显示出潜力。然而,我们在研究中发现了一个有趣的现象,我们称之为小型模型学习能力差距:小型模型(参数量 $\leq$3B)并不一贯地从长链推理(CoT)中受益或从大模型中进行精简。相反,它们在更短、更简单的推理链上表现更好,这些推理链更好地与它们的固有学习能力相匹配。为了解决这个问题,我们提出了一种名为Mix Distillation的简单而有效的策略,通过结合长和短的CoT示例或从大、小型模型中获取推理,来平衡推理的复杂性。我们的实验表明,与仅使用数据训练相比,Mix Distillation显着提高了小型模型的推理性能。这些发现突显了直接强模型精简的局限性,并强调了适应推理复杂性对于有效推理能力转移的重要性。
arXiv:2502.12131v1 宣称类型: 新
摘要: 随着人工智能模型在规模和能力上爆炸式增长,对其内部机制的理解仍然是一个关键挑战。受到神经科学中动力系统方法成功的启发,我们在此提出了一种新的框架,用于研究深度学习系统的计算过程。我们关注变压器模型中的残差流(RS),将其视为在各层间进化的动力系统。我们发现,尽管RS不是一个特权基,但个体RS单元的激活在整个层之间表现出强烈的连续性。随着层的增加,RS中的激活加速并变得越来越密集,而个体单元则追踪不稳定的周期轨道。在降维空间中,RS遵循一条弯曲的轨迹,低层具有捕获动态特性。这些洞见将动力系统理论与机制可解释性联系起来,为一种结合理论严谨性和大规模数据分析的“AI神经科学”奠定了基础,以促进我们对现代神经网络的理解。
arXiv:2502.12130v1 宣传类型: 新颖
摘要: 大型语言模型(LLMs)在一系列文本生成任务中展现出了非凡的能力。然而,LLMs 在需要多步决策和环境反馈的问题上仍然存在挑战,例如在线购物、科学研究和数学问题解决。与纯粹的文本数据相比,收集大规模的决策数据具有挑战性。此外,许多强大的LLMs仅通过API访问,这由于成本和复杂性因素阻碍了它们为代理任务进行微调。为了应对LLM代理的局限性,我们提出了一种框架,能够在不需要人工注释的情况下自动从环境中学习奖励模型。该模型可以用于评估LLM代理的行动轨迹,并为任务规划提供启发式方法。具体而言,我们的方法包括使用一个基于LLM的代理随机导航环境,生成多样化的行动轨迹。随后,利用另一个LLM分配任务意图,并为每个轨迹合成正确的响应和错误响应。这些三元组(任务意图、正面响应和负面响应)随后用作训练数据,以优化一个能够评分行动轨迹的奖励模型。通过在不同代理基准上的评估展示了我们框架的有效性和泛化能力。总之,我们提出的框架代表了增强LLM代理决策能力的重大进展。通过自动化学习奖励模型,我们克服了数据稀缺和API限制的挑战,有可能革命性地改变LLM在复杂和交互环境中应用的方式。这项研究为更高级的AI代理铺平了道路,这些代理能够解决需要多步决策的一系列现实世界问题。
arXiv:2502.12125v1 宣告类型: new
摘要: 我们通过研究类之间的层级关系在训练过程中如何演变来探讨深度分类器的训练动力学。通过大量的实验,我们认为分类问题中的学习过程可以通过标签聚类的角度来理解。具体来说,我们观察到网络在训练的早期阶段倾向于区分更高层次的(超类)类别,而在后期则学习更具体(子类)的类别。我们提出了一种新的框架来跟踪训练过程中特征流形的演变,揭示了类关系层次如何在网络层中逐渐出现并完善。我们的分析表明,学习到的表示与数据集的语义结构密切相关,提供了聚类过程的量化描述。值得注意的是,我们证明在超类标签空间中,某些神经崩溃的性质比在子类标签空间中出现得更早,这有助于弥合初始学习阶段与终端阶段之间的差距。我们认为,我们的发现为深入理解深度网络中的分层学习机制提供了新的见解,为未来进一步理解深度学习动力学开辟了道路。
arXiv:2502.12102v1 Announce Type: 新
摘要:我们如何设计和与社会人工智能互动取决于AI被设计为模仿或占据的社会关系角色。在人类社会中,像教师-学生、家长-孩子、邻里、兄弟姐妹或雇主-雇员这样的关系由特定规范治理,这些规范规定或禁止合作功能,包括等级、关怀、交易和繁殖。这些规范塑造了我们对每个合作伙伴适宜行为的判断。例如,职场规范可能允许老板对员工发布命令,但不允许反之,反映了等级和交易的期望。随着大型语言模型驱动的AI代理和聊天机器人越来越被设计为类似于人类职位的角色——如助手、心理健康提供者、导师或伴侣——探讨人类与AI互动中是否以及如何将人类的社会关系规范扩展至其中变得至关重要。我们的分析探讨了AI系统与人类之间的差异,如缺乏意识经验和免疫疲劳所带来的影响,这些差异可能影响AI履行特定关系功能并遵守相应规范的能力。这项分析是由哲学家、心理学家、关系科学家、伦理学家、法律专家和AI研究人员共同完成的,对AI系统的设计、用户行为和监管具有重要意义。虽然我们承认AI系统可以在某些社会关系角色中提供显著的便利性,如增加可用性和一致性,但它们也存在促进不健康依赖或不现实期望的风险,这些期望可能渗透到人与人的关系中。我们提出,理解并仔细塑造(或实施)适当的人类与AI关系规范对于确保人类与AI的互动是道德的、可信赖的,并有利于人类福祉至关重要。
arXiv:2502.12094v1 宣告类型: 新
摘要: 近期研究表明,在推理过程中引入搜索可以显著提高语言代理的推理能力。一些方法可能会利用真实数据或依赖模型自身生成的反馈。搜索算法利用这一反馈来生产可更新探索和利用多种推理路径标准的值。在本研究中,我们探讨了如何利用搜索和模型的自我反馈来进行推理任务。首先,我们在数学推理过程中研究地面真值反馈和自我反馈之间的差异。其次,我们观察到将搜索技术应用于更复杂任务(如工具调用)时的局限性,并针对这些差距开发了针对特定任务的领域特定方法。我们的实验揭示了仅依赖自我反馈进行搜索时泛化方面的挑战。为了使搜索有效,要么需要访问地面真相,要么需要针对特定任务精心设计反馈机制。
arXiv:2502.12066v1 宣布类型: 新闻
摘要: 利用大型语言模型(LLMs)自动化规划为传统行业带来了变革性的机会,但仍然未得到充分探索。在商业建筑领域,自动调度的复杂性往往需要手动干预以确保精准性。我们提出了CONSTRUCTA,这是一种新颖的研究框架,利用LLMs优化半导体制造等复杂项目中的施工计划。CONSTRUCTA 通过以下方式解决关键挑战:(1) 通过静态RAG整合施工特定知识;(2) 使用受建筑专业知识启发的情境采样技术提供相关输入;(3) 部署Construction DPO,利用基于人类反馈的 reinforcement 学习(RLHF)与专家偏好对齐。在专有数据上的实验展示了与基准方法相比,在缺失值预测、依赖性分析和自动化规划性能上的改善分别达到了+42.3%、+79.1% 和 +28.9%,突显了其有潜力改变施工流程并激发特定领域的大规模语言模型的进步。
arXiv:2502.12054v1 宣布类型: 新
摘要: 大型语言模型在各种领域中展现出了令人惊叹的能力,特别是在数学和逻辑推理方面。然而,当前的评估忽略了基于物理的推理——一项复杂的任务,需要物理定理和约束。我们提出了PhysReason基准,包含1200个问题,其中包含基于知识的问题(占25%)和基于推理的问题(占75%),后者又被分为三个难度级别(简单、中等、困难)。值得注意的是,这些问题平均需要8.1步解决方案,而困难级别的问题则需要15.6步,反映出了基于物理的推理的复杂性。我们提出了物理解决方案自动评分框架,该框架结合了高效的答案级和全面的步骤级评估。在答案级评估中,表现最好的模型如Deepseek-R1、Gemini-2.0-Flash-Thinking和o3-mini-high的得分低于60%,性能从知识性问题(75.11%)下降到困难问题(31.95%)。通过步骤级评估,我们识别出了四个关键瓶颈:物理定理应用、物理过程理解、计算和物理条件分析。这些发现使PhysReason成为评估大型语言模型基于物理的推理能力的创新和全面基准。我们的代码和数据将发布在https://dxzxy12138.github.io/PhysReason。