arXiv:2502.12048v1 通告类型: 新闻
摘要: 将脑机接口(BCI)与生成人工智能(GenAI)集成开启了脑信号解码的新前沿,使其能够实现辅助沟通、神经表示学习和多模态集成。BCIs,尤其是利用脑电图(EEG)技术的接口,提供了一种非侵入性的方法,将神经活动转换为有意义的输出。近年来,包括生成对抗网络(GANs)和基于变换器的大型语言模型(LLMs)在内的深度学习进步显著提高了基于EEG的图像、文本和语音生成技术。本文对基于EEG的多模态生成进行了文献综述,重点介绍了(i)通过GANs、变分自编码器(VAEs)和扩散模型实现的EEG到图像生成,以及(ii)通过基于变换器的语言模型和对比学习方法实现的EEG到文本生成。此外,我们讨论了脑电图到语音合成的新兴领域,这是一个不断发展的多模态前沿。我们强调了生成方法背后的关键数据集、用例、挑战和EEG特征编码方法。通过提供基于EEG的生成AI的结构化概述,本文旨在为研究人员和实践者提供见解,以促进神经解码、增强辅助技术并扩展脑机交互的边界。
arXiv:2502.12029v1 Announce Type: 新增
摘要:大规模语言模型(LLMs)在各种复杂任务中展现了非凡的能力,但它们仍然存在幻觉的问题。引入外部知识,如知识图谱,可以增强LLMs提供事实性答案的能力。LLMs有能力进行交互式地探索知识图谱。然而,大多数方法受到了LLMs内部知识挖掘不足、可信知识推理路径生成受限以及内部与外部知识集成模糊的影响。因此,我们提出KnowPath,这是一种由内部和外部知识协作驱动的知识增强大规模模型框架。它依赖于LLMs的内部知识来指导对外部知识图谱中可解释的有向子图的探索,更有效地集成两种知识来源,以实现更准确的推理。在多个真实世界的数据集上的广泛实验确认了KnowPath的优势。
arXiv:2502.12025v1 安全类型: 新
摘要:新兴的大型推理模型(LRMs),如DeepSeek-R1模型,通过利用长链推理(CoT)来生成结构化的中间步骤,从而增强其推理能力。然而,长CoT本身并不必然保证输出的安全性,可能会导致诸如代码中引入安全漏洞或传播错误信息等有害后果。当前对大型语言模型(LLMs)安全性的研究通常集中在短答案响应上,忽视了LRMs的长CoT风格的输出。为了填补这一空白,我们对LRM安全性进行了系统性的研究。首先,我们研究了与人类注释校准的安全评估器。利用我们新开发的度量标准,我们彻底评估了12个最先进的LRMs在StrongReject和WildJailbreak数据集上的安全性。我们的结果显示,LRMs的安全性与其推理进步成反比。此外,我们对推理轨迹和最终答案进行了深入分析。我们发现,三种解码策略——ZeroThink、LessThink和MoreThink——可以在不进行额外训练的情况下提高模型的安全性。然而,这些策略要么使用受限的推理轨迹,要么需要高昂的推理成本。为了更好地增强LRM安全性,我们引入了SafeChain,这是第一种以CoT风格编写的安全性训练数据集。我们对两个LRMs进行了微调,结果显示,它不仅增强了模型的安全性,还在6个推理基准上保持了性能。
arXiv:2502.11969v1 宣告类型: 新
摘要: 在视觉-语言模型(VLMs)中,提示调整已经显示了其在将模型适应下游任务方面的有效性。然而,学习到的提示难以泛化到未见过的类别,因为它们往往会过度拟合在提示调整过程中所针对的类别。我们通过研究失败案例发现,学习到的提示会破坏未见过类别的语义关系,生成具有不正确语义关系的文本嵌入。为了解决这一问题,我们提出了相似性对齐正则化(SAR),该方法正则化可学习的提示以保留由手工设计的提示捕获的类别间的语义关系。具体地,我们首先使用ChatGPT-4o获取与基类相关的新型类,并在其进行提示调整时利用它们作为潜在的未见过的类。然后,通过同时针对基类和新型类,SAR将可学习提示生成的文本嵌入之间的相似性关系与手工设计提示的相似性关系对齐。通过对现有提示调整方法应用SAR的广泛实验表明,其在提高对未见过类别的泛化能力方面具有有效性。
arXiv:2502.11959v1 通告类型: 新增
摘要: 声明验证是指确定证据是否支持或反驳某一声明的任务。在自我改进方法中,生成推理链并选择导致正确结果的链进行训练已经成功应用于像数学问题解决这样的任务。然而,在声明验证中,这种方法遇到了困难。低质量的推理链可能会错误地匹配二元真伪标签,将错误的推理引入自我改进过程,最终降低性能。为了解决这一问题,我们提出了一种名为STRIVE的结构化推理方法:结构化推理用于自我改善验证。我们的方法引入了声明分解、实体分析和证据接地验证的结构化推理设计。这些组件提高了推理质量,减少了错误,并为自我改进提供了额外的监督信号。STRIVE首先通过在一个小数目标注示例上的微调基础模型来学习结构化推理设计,从而进行预热阶段。然后,它应用于生成所有训练示例的推理链,仅选择那些正确且结构上健全的链用于后续的自我改进训练。我们展示了STRIVE在基准模型上的显著改进,与基础模型相比提高了31.4%的性能,与Chain of Thought相比提高了20.7%,突显了其效果。
arXiv:2502.11925v1 宣告类型: 新
摘要:多模态大型语言模型(MLLMs)的快速发展使得多种模态,包括文本和图像,可以在大型语言模型(LLM)框架内进行整合。然而,文本和图像通常相互连接,形成多模态属性图(MMAG)。在这样的图上如何结合MLLMs的关联信息(即,图结构)和语义信息(即,文本和图像)以实现多模态理解和生成,这一领域尚未得到充分探索。本文中,我们提出了GraphGPT-o,它支持在MMAGs上进行全方位多模态理解和创作。我们首先全面研究了线性化变体,将语义和结构信息转换为MLLMs的输入。然后,我们提出了一种分层对齐器,使MLLMs能够进行深层次的图编码,从而弥合MMAGs和MLLMs之间的差距。最后,我们在图场景中探索了推理选择,使MLLMs适应交错的文本和图像生成。来自不同领域的三个数据集的广泛实验表明我们提出的方法的有效性。接受后,我们将公开提供数据集和代码。
arXiv:2502.11915v1 宣布类型: 新论文
摘要:ChatGPT 是一个人工智能模型,有可能彻底改变教育领域。然而,它解决非英语问题的效果仍然存在不确定性。本研究使用 586 道韩国数学题评估了 ChatGPT 的鲁棒性。ChatGPT 的准确率为 66.72%,正确回答了其中的 391 道题目。我们还根据 eleven 个标准评估了它对数学题的评分能力,并进行了主题分析。我们的研究结果表明,ChatGPT 的评分与教育理论和应试者观点相符。虽然 ChatGPT 在问题分类方面表现良好,但在非英语环境中却遇到困难,这指出了改进的领域。未来的研究应解决语言偏见,并提高其在多种语言中的准确性。针对特定领域的优化和多语言训练可以改进 ChatGPT 在个性化教育中的作用。
arXiv:2502.11882v1 宣布类型: 新闻
摘要:基于大规模语言模型(LLMs)的代理在逐轮的人工智能协作方面表现出色,但在需要实时互动的并发任务方面存在困难。延迟问题以及推断变化的人类策略的挑战阻碍了它们在没有明确指令的情况下做出自主决策的能力。通过使用当前独立的系统1和系统2方法进行实验,我们验证了在实时任务中使用双重过程理论(DPT)的必要性。我们提出了DPT-Agent,这是一种新颖的语言代理框架,将系统1和系统2结合在一起,以实现高效的实时并发人机协作。DPT-Agent的系统1采用有限状态机(FSM)和代码作为策略,进行快速、直观且可控的决策。DPT-Agent的系统2结合了心理理论(ToM)和异步反思,以推断人类意图并执行基于推理的自主决策。我们通过进一步使用基于规则的代理和人类合作者的实验,展示了DPT-Agent的有效性,显示出在主流基于LLM的框架中的显著改进。据我们所知,DPT-Agent是第一个实现了成功的实时并发人机协作的自主语言代理框架。DPT-Agent的代码可以在 https://github.com/sjtu-marl/DPT-Agent 查找。
arXiv:2502.11881v1 类型: 新增
摘要: 现有的大型语言模型推理方法在各种任务上展现了令人印象深刻的 capability,如解决数学和编程问题。然而,将这些方法应用于缺乏正确答案或基于规则的验证方法的场景中——例如追踪智能体的心理状态——仍然是一个挑战。受到顺序蒙特卡罗算法的启发,我们介绍了思维追溯,这是一种推理算法,设计用于通过生成假设并根据观察结果进行加权,而不依赖于数据集中问题的正确答案来跟踪特定智能体的心理状态。我们的算法基于贝叶斯理论的心理模型框架,使用大型语言模型(LLMs)根据智能体的感知和行为对其心理状态的演变进行概率性推理。我们对多种心理理论基准进行了思维追溯的评估,结果显示其性能明显优于基线大型语言模型。我们的实验还揭示了最近的推理模型——例如o1和R1——在心理理论方面的有趣行为,突出了社会推理与其它领域之间的差异。
arXiv:2502.11817v1 宣告类型: 新
摘要: 知识追踪(Knowledge Tracing, KT)旨在基于学生以往的练习和教育场景中的额外信息来预测他们未来的成绩。由于知识追踪有助于在教育情境中实现个性化的体验,因此受到了显著的关注。同时,对先前练习序列的自回归建模已被证明是完成这项任务的有效方法。自回归建模中知识追踪的主要挑战之一是如何有效地表示练习之间学习者前响应(pre-response)和后响应(post-response)状态。现有的方法通常使用复杂的模型架构来利用问题和响应记录来更新学习者状态。在这项研究中,我们从一个新颖的角度提出了知识追踪任务,将其视为生成过程,与自回归模型的原则一致。我们证明了知识状态可以通过自回归编码在一个问题-响应交替序列上直接表示,在这种模型中,通过分析历史交互来生成最可能的隐藏状态表示。这种方法构成了我们框架的基础,称为交替自回归知识追踪(Alternate Autoregressive Knowledge Tracing, AAKT)。此外,我们通过辅助任务将额外的教育信息,如技能相关问题,整合到我们的框架中,并将额外的练习详细信息,如响应时间,作为附加输入。我们提出的框架使用自然语言生成(NLG)中的先进自回归技术进行训练和预测。通过对四个真实世界的知识追踪(KT)数据集进行实证评估表明,AAKT在AUC、ACC和RMSE方面始终优于所有基线模型。此外,广泛的消融研究和可视化分析验证了AAKT中关键组件的有效性。