arXiv 论文列表

作者: Annika Bush

arXiv:2501.15585v2 宣告类型: 替换-交叉摘要：随着人工智能（AI）和可持续发展举措日益交汇，理解公众对其关系的看法变得至关重要，这对于成功实施变得至关重要。然而，目前没有经过验证的工具可以衡量这些特定的看法。本文介绍了开发和验证人工智能和可持续性感知量表（AISPI）的工作，这是一种新的13项量表，用于衡量个人如何看待AI进步与环境可持续性之间的关系。通过因子分析（N=105），我们识别出两个独特维度：双重转型和相互竞争的利益。该量表在可靠性（alpha=.89）和结构效度方面表现出强大的性能，通过与已建立的AI和可持续性态度量表的相关性来验证。我们的研究发现表明，个人可以同时认识到AI-可持续性关系中的协同效应和紧张关系，这对在这个关键交汇点工作的研究人员和实践者具有重要意义。这项工作提供了一个基础工具，用于未来关于公众对AI在可持续发展中的作用的看法的研究。

发布时间: 3/25/2025

查看原文

语言模型中数学推理能力的提升：解决问题数据、数据合成方法及训练阶段的影响

作者: Zui Chen, Tianqiao Liu, Mi Tian, Qing Tong, Weiqi Luo, Zitao Liu

arXiv:2501.14002v3 类型: replace-cross 摘要：对于大型语言模型（LLMs）来说，数学推理依然是一个极具挑战性的领域，因此开发了如LLEMMA、DeepSeekMath和Qwen2-Math等特定于数学的LLMs。这些模型通常遵循两阶段训练范式：预训练使用数学相关的语料库，然后使用问题数据集进行监督微调（SFT）。尽管取得了这些努力，通过持续预训练（CPT）获得的数学推理改进通常不如通过SFT获得的显著。本研究通过探索在预训练阶段的替代策略来解决这一差异，重点是使用解决问题的数据而非通用数学语料库。我们研究了三个主要的研究问题：（1）解决问题的数据在CPT期间是否能比通用数学语料库更有效地提升模型的数学推理能力？（2）来自同一数据源的合成数据同样有效吗，哪些合成方法最有效？（3）来自同一解决问题数据的在CPT阶段和SFT阶段获得的能力有何不同，是什么因素导致了这些差异？我们的研究结果表明，解决问题的数据在CPT期间显著提升了模型的数学能力，相较于通用数学语料库。我们还识别出了有效的数据合成方法，展示了导师放大合成方法的最佳性能。此外，虽然SFT促进了指令遵循能力，但在使用相同数据的情况下，它在CPT阶段的表现不如SPT，部分原因是它在处理更复杂的解决问题数据时学习能力较差。这些见解为优化LLMs的数学推理能力提供了宝贵指导，最终我们在Qwen2-Math的基础上开发出了一个强大的数学基础模型——MathGPT-8B。

发布时间: 3/25/2025

查看原文

人类概念表示源自语言预测

作者: Ningyu Xu, Qi Zhang, Chao Du, Qiang Luo, Xipeng Qiu, Xuanjing Huang, Menghan Zhang

arXiv:2501.12547v3 通知类型: 替换-交叉摘要：人们通过丰富的物理和社会经历获得概念，并利用这些概念来理解世界。相比之下，仅通过语言数据的下一个token预测训练的大语言模型（LLMs）表现出令人惊叹的人类行为。这些模型是否在开发类似人类的概念，如果是，这些概念是如何被表示和组织的？为了解答这些问题，我们将经典的逆向词典任务重新定义，以模拟人类在上下文中推断概念的过程，并调查LLMs中人类概念表示的出现。我们的结果表明，LLMs可以从语言描述中灵活地推导出概念，特别是在其他概念的上下文线索相关的背景下。推导出的表示趋向于一种共同的、上下文无关的结构，能够有效预测跨关键心理学现象的人类行为，包括相似性的计算、类别和语义尺度。此外，这些表示与人类大脑的神经活动模式很好地对齐，即使是对视觉刺激而非语言刺激的反应，也为生物可行性提供了证据。这些发现确立了结构化的、类似人类的概念表示可以从语言预测自然出现，而无需现实世界的支撑。更广泛地说，我们的工作将LLMs定位为理解复杂人类认知的有前途的计算工具，并为更好地使人工智能和人类智能对齐铺平了道路。

发布时间: 3/25/2025

查看原文

是去Google搜索，还是使用ChatGPT？CS2学生信息收集方法及成果比较

作者: Aayush Kumar, Daniel Prol, Amin Alipour, Sruti Srinivasa Ragavan

arXiv:2501.11935v3 宣告类型: replace-cross 摘要：像ChatGPT这样的大型语言模型（LLMs）在高等教育中被学生广泛用作学习编程和相关概念的工具。然而，目前尚不清楚学生在使用LLMs学习时的成效如何，以及他们使用了哪些学习策略。由于大多数学生在线自学的经验主要来自于使用诸如Google等搜索引擎，因此评估在这种背景下使用的AI工具可以帮助我们解决这些问题。在这项混合方法研究中，我们进行了一项探索性的自身对照研究，以了解CS2学生如何使用传统方法（如教育网站和视频）以及LLMs来学习编程概念，并考察学生在这两种情境下的学习方法。我们发现，学生发现使用传统方法学习更难的概念比使用ChatGPT更容易。我们还发现，在使用搜索引擎时，学生提出的跟进问题更少，而对LLMs的提示则更倾向于明确地请求信息。

发布时间: 3/25/2025

查看原文

构建和解释化学领域的机器学习模型：以硼基勒夏米酸的探索与设计为例

arXiv:2501.01576v3 宣传类型: 替换-交叉摘要：将机器学习（ML）集成到化学中在分子设计中具有变革性的潜力，特别是针对具有目标性质的分子。然而，焦点往往集中在创建高效的预测模型上，有时会导致可解释性的牺牲。在本研究中，我们利用可解释的人工智能技术，探索基于硼的路易斯酸的理性设计，这些路易斯酸由于其电子接受性质，在有机反应中扮演着至关重要的角色。我们使用氟离子亲合性作为路易斯酸性的一个代理，基于化学上有意义的描述符开发了可解释的机器学习模型，包括从从Hammett线性自由能关系导出的取代基参数和从第一原理计算中获得的功能属性。通过将化学空间限制在明确定义的分子框架中，我们实现了高度准确的预测（平均绝对误差<6 kJ/mol），并在低数据状态下超过了传统的黑盒深度学习模型。模型的可解释性分析揭示了这些化合物中路易斯酸性的来源，并通过分子框架上取代基的性质和定位识别了可用于调节路易斯酸性的可操作杠杆。本工作将机器学习与化学家的思维方式结合起来，证明了可解释模型如何激发分子设计并增强对化学反应性的科学理解。

发布时间: 3/25/2025

查看原文

面向GPU-based AI系统的CUDA神话破除

作者: Yunjae Lee, Juntaek Lim, Jehyeon Bang, Eunyeong Cho, Huijong Jeong, Taesu Kim, Hyungjun Kim, Joonhyung Lee, Jinseop Im, Ranggi Hwang, Se Jung Kwon, Dongsoo Lee, Minsoo Rhu

arXiv:2501.00210v2 宣告类型: replace-cross 摘要：本文对Intel Gaudi NPUs作为NVIDIA GPU替代品在AI系统设计中的应用进行了全面评估，目前NVIDIA GPU是AI系统设计中的事实标准。首先，我们创建了一套微基准测试来比较Intel Gaudi-2与NVIDIA A100的表现，结果显示Gaudi-2不仅在基础的AI计算、内存和通信操作上取得了竞争力，还在端到端执行几个重要的AI工作负载时也表现出了竞争力。随后，我们通过讨论一些可以在软件层面实施的关键FBGEMM操作和vLLM的优化策略，来评估Gaudi NPU的可编程性，并将其效率与GPU优化的版本进行比较。结果显示，Gaudi-2在能效方面与A100相当，但在软件成熟度方面存在明显的改进空间。总体而言，我们得出结论，如果有效地集成到高级AI框架中，Gaudi NPUs有可能在AI服务器市场挑战NVIDIA GPU的主导地位，尽管还需要进一步改进以与NVIDIA强大的软件生态系统全面竞争。

发布时间: 3/25/2025

查看原文

如何思考端到端加密和AI：训练、处理、披露和同意

作者: Mallory Knodel, Andr\'es F\'abrega, Daniella Ferrari, Jacob Leiken, Betty Li Hou, Derek Yen, Sam de Alfaro, Kyunghyun Cho, Sunoo Park

arXiv:2412.20231v2 宣告类型: replace-cross 摘要：端到端加密（E2EE）已成为确保全球数十亿用户通信安全的金标准，为用户提供了强大的保密性和隐私保护。然而，当前向广泛集成人工智能（AI）模型的推动，包括在E2EE系统中的集成，引发了一些严重的安全问题。本工作对AI模型与E2EE应用的（不）兼容性进行了关键性审查。我们从两个方面探讨了这一问题：（1）E2EE应用中集成AI“助手”的问题，以及（2）使用E2EE数据进行AI模型训练的问题。我们分析了每种情况下可能的安全影响，并识别出与E2EE安全保证的冲突。然后，我们分析了在E2EE应用中集成AI模型的法律影响，考虑到AI集成可能会削弱E2EE承诺的保密性。最后，我们基于我们的技术与法律分析提出了一系列详细的建议，包括：必须优先考虑的技术设计选择以维护E2EE的安全性；服务提供商如何准确地代表E2EE安全；以及AI功能的默认行为和请求用户同意的最佳实践。我们希望这篇论文能够激发关于AI快速部署与E2EE提供的安全之间的紧张关系的知情讨论，并引导负责任的新AI功能开发。

发布时间: 3/25/2025

查看原文

MotiF: 让文本在图像动画中的运动焦点损失中发挥作用

作者: Shijie Wang, Samaneh Azadi, Rohit Girdhar, Saketh Rambhatla, Chen Sun, Xi Yin

arXiv:2412.16153v2 宣告类型: replace-cross 摘要: 文本-图像到视频 (TI2V) 生成旨在根据文本描述生成视频，这也被称为文本引导的图像动画。现有大多数方法在生成与文本提示匹配良好的视频时遇到困难，特别是在指定动作时。为克服这一限制，我们引入了 MotiF，这是一种简单而有效的方法，能够引导模型的学习集中在更多动作的区域，从而提高文本匹配和动作生成的效果。我们使用光流生成动作热图，并根据动作的强度调整损失权重。这种修改后的目标使得在现有方法利用动作先验作为模型输入的基础上，取得了显著的改进。此外，由于缺乏用于评估 TI2V 生成的多样基准，我们提出了 TI2V Bench 数据集，包含 320 组图像-文本对，用于稳健评估。我们提出了一个由标注者在两段视频中选择整体偏好的评估协议，并提供其理由。通过在 TI2V Bench 上进行全面评估，MotiF 出色地超过了九个开源模型，平均偏好率为 72%。TI2V Bench 和额外结果将发布在 https://wang-sj16.github.io/motif/。

发布时间: 3/25/2025

查看原文

移除策略评估：语言模型能否无状态地制定策略以颠覆控制协议？

作者: Alex Mallen, Charlie Griffin, Misha Wagner, Alessandro Abate, Buck Shlegeris

arXiv:2412.12480v3 宣告类型: replace-cross 摘要：AI控制协议是一种旨在有用地部署AI系统，并防止AI故意造成某些不可接受结果的计划。本文探讨了在不共享上下文间记忆的情况下，AI系统如何生成并执行其自身的策略，以颠覆控制协议。完成这一目标时，AI系统可能需要在每个上下文中可靠地生成最优计划，以校准概率采取行动，并在不通信的情况下与其他自身实例协调计划。我们开发了Subversion Strategy Eval这一包含八个环境的套餐，涵盖了多种协议和战略能力，并提供六个集中的功能以单独隔离这些能力。我们使用Inspection-AI实现评估，并开源发布。我们评估了Claude 3.5模型及其仅提供帮助版本，以及OpenAI推理模型。在不共享上下文间记忆的情况下，没有模型在策略上表现出显著的能力以颠覆控制协议。然而，提供给模型额外的功能，例如在上下文之间共享计划的能力，可以显著提高性能。我们希望我们的评估能够作为模型是否能够颠覆控制协议的领先指标，并且能够缓解AI控制评估中最坏情况假设，即完美战略能力的整体假设。

发布时间: 3/25/2025

查看原文

FlowDock：几何流匹配生成蛋白-配体对接和亲和力预测

作者: Alex Morehead, Jianlin Cheng

arXiv:2412.10966v3 宣告类型: replace-cross 摘要：最近提出了强大的蛋白质-配体结构生成AI模型，但很少有这些方法同时支持灵活的蛋白质-配体对接和亲和力估计。那些能够做到这一点的方法中，没有一种可以直接并发地建模多种结合配体，或者在药理学相关的药物靶标上进行了严格基准测试，这阻碍了其在药物发现中的广泛应用。在这项工作中，我们提出了FlowDock，这是第一个基于条件流匹配的深层几何生成模型，它学习将未结合（apo）结构直接映射为其结合（holo）对应物，用于任意数量的结合配体。此外，FlowDock在其生成的蛋白质-配体复合结构中提供了预测的结构置信分数和亲和力值，这使用户能够快速虚拟筛选新的（多配体）药物靶标。对于知名的PoseBusters基准数据集，FlowDock在输入未结合（apo）蛋白质结构的情况下，与单序列AlphaFold 3相比，盲对接成功率达到了51%，且没有利用多序列比对获得的任何信息，而对挑战性的新DockGen-E数据集，FlowDock优于单序列AlphaFold 3，并且在结合口袋泛化方面与单序列Chai-1相当。此外，在16届关联评估技术批判性评估（CASP16）中，FlowDock在140个蛋白质-配体复合物的药理学结合亲和力估计类别中排名前五，证明了其学习表示在虚拟筛选中的有效性。源代码、数据和预训练模型可在https://github.com/BioinfoMachineLearning/FlowDock获取。

发布时间: 3/25/2025

查看原文