arXiv:2502.12842v1 宣告类型: 新
摘要: 有效的反馈对于培养学生的科学探究成功至关重要。随着人工智能的进步,大型语言模型(LLMs)为即时和自适应反馈提供了新的可能性。然而,这种反馈往往缺少由实际从业者提供的教学验证。为解决这一限制,我们的研究评估和比较了LLM代理与教师和科学教育专家对学生撰写的实验协议所给反馈的质量。四位蒙着眼睛的评审员,均为科学探究和科学教育的专业人士,根据有效反馈的六个标准(Feed Up、Feed Back、Feed Forward、建设性语气、语言清晰度和技术术语)使用五点李克特量表对LLM生成的反馈文本、教师和科学教育专家的反馈进行了评估。我们的结果显示,LLM生成的反馈在整体质量上与教师和专家没有显著差异。然而,LLM代理在Feed Back维度上的表现落后,该维度涉及在学生工作背景下识别和解释错误。定性分析突出了LLM代理在情境理解方面的局限性以及在具体错误的清晰传达方面的不足。我们的研究结果表明,将LLM生成的反馈与人类专长相结合,可以利用LLM的效率和教育者的细微理解来增强教育实践。
arXiv:2502.12782v1 Announce Type: 新
摘要:可控制的文字到视频(T2V)模型的训练高度依赖于视频和字幕之间的对齐,然而现有的研究很少将视频字幕评估与T2V生成评估联系起来。本文介绍了VidCapBench,这是一种专门为T2V生成设计的视频字幕评估方案,不依赖于任何特定的字幕格式。VidCapBench采用数据标注流水线,结合专家模型标注和人工完善,将每个收集的视频与视频美学、内容、运动以及物理法则的关键信息关联起来。随后,VidCapBench将这些关键信息属性拆分为可自动评估和需要手动评估的子集,以满足敏捷开发的快速评估需求以及详尽验证的精确要求。通过对多种最先进的字幕生成模型进行评估,我们证明了VidCapBench在稳定性和全面性方面优于现有的视频字幕评估方法。使用现成的T2V模型进行验证表明,VidCapBench的评分与T2V质量评估指标之间存在显著的正相关,这表明VidCapBench可以为训练T2V模型提供有价值的指导。该项目可在 https://github.com/VidCapBench/VidCapBench 获取。
arXiv:2502.12669v1 宣告类型: 新
摘要: 针钙钛矿太阳能电池(PSCs)领域的快速进展,研究发表量呈指数级增长,迫切需要有效的知识管理与推理系统。我们提出了一种全面的知识增强系统,结合了三个关键组件。首先,我们开发了Perovskite-KG,这是一个基于1,517篇研究论文构建的专业知识图谱,包含23,789个实体和22,272个关系。其次,我们创建了两个互补数据集:Perovskite-Chat,其中包含55,101个高质量的问答对,是通过新颖的多代理框架生成的,并且包含2,217个精心筛选的材料科学问题的Perovskite-Reasoning数据集。第三,我们引入了两个专门的大语言模型:Perovskite-Chat-LLM 用于专业知识辅助,Perovskite-Reasoning-LLM 用于科学推理任务。实验结果表明,我们的系统在专业知识检索和科学推理任务中显著优于现有模型,为研究人员提供了有效工具,用于文献回顾、实验设计以及PSC研究中的复杂问题解决。
arXiv:2502.12589v1 通知类型: 新颖
摘要: 最近,在训练语言模型进行逐步推理以解决复杂的数值推理任务方面取得了显著进展。除了用于解决这些问题的方法之外,问题本身的结构和表述方式也在决定大型语言模型的性能中起着重要作用。我们观察到,即使数学问题的表面形式发生一些小变化,也可能会对答案分布和解决率产生深远影响。这凸显了LLMs对表面级变化的脆弱性,揭示了其在处理复杂问题时的有限鲁棒性。在本文中,我们提出了一种RM-PoT三阶段框架,该框架结合了问题重述(RM)、代码辅助推理(PoT)和领域感知的少样本学习,以解决这些限制。我们的方法首先将输入问题转化为多种表面形式,以减少结构偏向,然后从前构建的领域特定问题库中检索五个语义对齐的示例,以提供上下文指导,并最后生成可执行的Python代码以进行精确计算。
arXiv:2502.12566v1 宣布类型: 新
摘要: 随着人们期望AI在人类生活中扮演不同的角色,使大语言模型(LLMs)具有不同个性,吸引了越来越多的研究兴趣。虽然“拟人化”增强了LLMs的互动性和适应性,但它也引发了关于内容安全的关键关注,尤其是在与LLM生成内容相关性方面涉及偏见、情感和毒性的问题。本研究探讨了将不同个性特征赋予LLMs如何影响其输出的偏见和毒性。利用社会心理学广泛接受的HEXACO个性框架,我们设计了实验性较强的提示,测试了三种LLMs在三个毒性与偏见基准上的表现。研究发现,这三种模型对HEXACO个性特征都十分敏感,更重要的是,它们输出的偏见、负面情感和毒性存在一致的差异。特别是,调整几个个性特征的水平可以有效减少模型性能中的偏见和毒性,类似于人类个性特征与有毒行为之间的相关性。研究结果强调了除了训练或微调方法的有效性之外,还需要检查LLM拟人化的内容安全。它们还表明,个性调整可能是一种简单且低成本的方法,可以在受控条件下进行文本生成。
arXiv:2502.12532v1 任务类型: 新
摘要: 体感问答(EQA)主要集中在室内环境,而城市环境中的复杂性,包括环境、行动和感知,还没有得到充分探索。为了弥合这一差距,我们引入了CityEQA,这是一个新的任务,其中的体感代理通过在动态城市空间中的主动探索来回答开放词汇的问题。为了支持这个任务,我们提出了CityEQA-EC,这是第一个基准数据集,包含1,412个人工标注的任务,涵盖了六个类别,并基于一个现实的3D城市模拟器。此外,我们提出了Planner-Manager-Actor(PMA),一种专为CityEQA设计的新型代理。PMA支持长期规划和分层的任务执行:规划者将问答问题分解为子任务,管理者在过程中保持以对象为中心的认知地图进行空间推理,而专业的演员处理导航、探索和收集子任务。实验结果显示,PMA实现了60.7%的人类级回答准确率,显著优于现有的基准方法。尽管如此,与人类的表现差距表明,CityEQA中增强的视觉推理需求。这项工作为未来城市空间智能的发展铺平了道路。数据集和代码可在https://github.com/BiluYong/CityEQA.git获取。
arXiv:2502.12521v1 宣告类型: 新
摘要: 我们考察了大规模语言模型(LLMs)在解决复杂任务中的推理和计划能力。最近推理时技术的进展表明,通过在推理过程中探索中间步骤,可以在不需要额外训练的情况下增强LLM的推理能力。值得注意的是,OpenAI的o1模型通过其新颖的多步推理和验证方法展示了令人鼓舞的性能。在此,我们探索了扩展推理时技术如何提高推理和计划能力,重点关注计算成本与性能之间的权衡。为此,我们构建了一个全面的基准测试,称为Sys2Bench,并对涵盖五个类别的十一个不同任务进行了广泛的实验,包括算术推理、逻辑推理、常识推理、算法推理和规划。我们的研究结果表明,单纯扩展推理时的计算存在局限性,因为在所有推理和规划任务中,并没有单一的推理时技术能始终表现出色。
arXiv:2502.12492v1 通知类型: 新
摘要: 大型语言模型(LLMs)在各个领域展示了令人瞩目的能力,特别是在系统1任务方面,然而它们在系统2任务中的问题解决机制的复杂性尚未得到充分探索。最近关于系统2到系统1方法的研究激增,通过推理时的计算探索系统2的推理知识,并将所探索的知识压缩到系统1过程中。在本文中,我们重点关注代码生成,这是一个代表性的系统2任务,并识别出两个主要挑战:(1)复杂的隐藏推理过程和(2)异质数据分布,这使得探索和训练稳健的语言模型求解器变得复杂。为了解决这些问题,我们提出了一种新的BDC框架,利用MC-Agent-Tree算法中的互Boosting和Disentangling异质训练数据以实现可组合的LoRA专家,为每个数据实例获得输入感知的超网络加权的自定义问题求解器,提供有效性、灵活性和稳健性。该框架通过相互验证和提升多个LLMs,并整合到增强的蒙特卡洛树搜索过程中。此外,我们引入了DisenLora算法,该算法将异质数据聚类以微调LLMs为可组合的LoRA专家,通过输入感知的超网络实现自适应地生成定制问题求解器。这项工作为推进LLMs在复杂推理任务中的能力奠定了基础,提供了一种新颖的系统2到系统1解决方案。
arXiv:2502.12450v1 宣告类型: 新
摘要: 海曼的社会交换理论(SET)普遍被视为理解人类文明和社会结构形成与演变的基本框架。在社会科学中,通常基于简单的模拟实验或真实世界的以人为中心的研究,这两种方法要么缺乏现实性,要么成本过高难以控制。在人工智能领域,大型语言模型(LLMs)的最新进展显示了模拟人类行为的强大能力。受这些见解的启发,我们采取了跨学科的研究视角,并提议使用基于LLM的代理来研究海曼的SET。具体而言,我们构建了一个由三个LLM代理组成的虚拟社会,并让他们参与社会交换游戏,以观察其行为。通过广泛的实验,我们发现海曼的SET在我们的代理社会中得到了很好的验证,展示了代理和人类行为的一致性。在此基础上,我们故意改变代理社会的设置,扩展了传统的海曼的SET,使其更加全面和详细。据我们所知,这篇论文标志着使用基于LLM的代理研究海曼的SET的第一步。更重要的是,本文提出了一个新的且可行的研究范式,通过基于LLM的代理将社会科学和计算机科学领域联系起来。代码可在 https://github.com/Paitesanshi/SET 获取。
arXiv:2502.12445v1 安全类型:新
摘要:人工智能安全是一个迅速增长的研究领域,旨在防止前沿人工智能技术的伤害和滥用,特别是生成型人工智能(GenAI)工具的滥用,这些工具能够通过文本提示生成逼真和高质量的内容。这类工具包括大型语言模型(LLMs)和文本到图像(T2I)扩散模型。随着各种领先的GenAI模型的性能接近饱和,主要是由于相似的训练数据来源和神经网络架构设计,开发可靠的安全部署措施已成为责任感和可持续性的关键区别点。本文提出了计算安全概念的形式化,这是一种数学框架,通过信号处理理论和方法的视角,使人们能够对GenAI中的安全性挑战进行定量评估、建模和研究。特别是,我们探讨了两个可以作为假设检验问题形式化的计算安全挑战类别。对于模型输入的安全性,我们展示了敏感性分析和损失景观分析如何用于检测带有 Jailbreak 尝试的恶意提示。对于模型输出的安全性,我们阐明了如何使用统计信号处理和对抗学习来检测人工智能生成的内容。最后,我们讨论了关键的开放研究挑战、机会以及信号处理在计算人工智能安全中的核心作用。