arXiv 论文列表

作者: Qian Huang, Qiyun Wang

ChatGPT 已被应用于多种教育场景，包括学习、教学和研究。它在进行系统性文献综述 (SLR) 方面也具有潜力。然而，关于如何在 SLR 中使用 ChatGPT 的实证研究有限。本研究基于已发表的 SLR，采用基于设计的方案使用 ChatGPT 对同一 33 篇论文进行了 SLR，通过比较综述结果来观察差异，并回答以下问题：ChatGPT 在多大程度上能够进行 SLR？人类研究人员可以利用哪些策略来构建 ChatGPT 的提示，从而提高 SLR 的可靠性和有效性？本研究发现 ChatGPT 能够进行 SLR。它需要详细准确的提示来分析文献。它也存在局限性。本研究总结了研究人员在使用 ChatGPT 进行 SLR 时需要遵循的指导原则。

发布时间: 9/27/2024

查看原文

深度强化学习中面向视频游戏的语义聚类探索

作者: Liang Zhang, Adarsh Pyarelal, Justin Lieffers

本文研究了深度强化学习（DRL）在电子游戏中的语义聚类特性，丰富了我们对DRL内部动力学的理解，并提高了其可解释性。在这个语境下，语义聚类指的是神经网络根据语义相似性对视频输入进行内部分组的固有能力。为了实现这一目标，我们提出了一种新颖的DRL架构，该架构集成了一个语义聚类模块，该模块既能降低特征维数，又能进行在线聚类。该模块无缝地集成到DRL训练管道中，解决了先前基于t-SNE的分析方法中观察到的不稳定性问题，并消除了对语义分析进行大量人工标注的必要性。通过实验，我们验证了所提出的模块的有效性和DRL在电子游戏中的语义聚类特性。此外，基于这些特性，我们引入了新的分析方法来帮助理解策略的层次结构和特征空间中的语义分布。

发布时间: 9/27/2024

查看原文

事后奖励校准：以长度偏差为例

作者: Zeyu Huang, Zihan Qiu, Zili Wang, Edoardo M. Ponti, Ivan Titov

来自人类反馈的强化学习将大型语言模型的输出与人类的价值观和偏好相一致。奖励模型 (RM) 是这一过程的核心，它将人类反馈转化为训练信号，以优化 LLM 的行为。然而，RM 可能会通过利用其训练数据中的虚假相关性来发展偏差，例如偏向基于长度或风格而不是真实质量的输出。这些偏差会导致不正确的输出排名、次优的模型评估，以及在 LLM 对齐中放大不良行为。本文解决了在没有额外数据和训练的情况下纠正此类偏差的挑战，引入了事后奖励校准的概念。我们首先提出了一种直观的估计偏差项的方法，从而将其移除以近似潜在的真实奖励。然后，我们使用局部加权回归将该方法扩展到更通用和稳健的形式。专注于普遍的长度偏差，我们在三个实验设置中验证了我们提出的方法，证明了持续的改进：（1）在 RewardBench 数据集上的 33 个奖励模型中，平均性能提升了 3.11；（2）基于 AlpacaEval 基准，RM 排名与 GPT-4 评估和人类偏好的对齐增强；（3）在多个 LLM-RM 组合中，RLHF 过程的长度控制胜率得到提高。我们的方法在计算上是高效的，并且可以推广到其他类型的偏差和 RM，为减轻 LLM 对齐中的偏差提供了一种可扩展且稳健的解决方案。我们的代码和结果可在 https://github.com/ZeroYuHuang/Reward-Calibration 获得。

发布时间: 9/27/2024

查看原文

人工智能赋能沸水堆中子通量测量与虚拟校准

作者: Anirudh Tunga, Jordan Heim, Michael Mueterthies, Thomas Gruenwald, Jonathan Nistor

准确捕捉反应堆堆芯的三维功率分布对于确保反应堆的安全经济运行、遵守技术规范以及燃料循环规划（安全、控制和性能评估）至关重要。离线（即在循环规划和堆芯设计期间），使用三维中子学模拟器来估计反应堆的功率、慢化剂、空隙和流量分布，从中可以近似得出热极限和燃料暴露量的裕度。在线，这是通过一系列局部功率范围监测器 (LPRM) 实现的，这些监测器旨在捕捉足够的 neutron flux 信息以推断完整的节点功率分布。从测量和校准到功率适应过程的某些问题，对操作员提出了挑战，并限制了经济地设计装载堆芯的能力（例如，工程中存在不足的裕度或比所需更多的裕度）。人工智能 (AI) 和机器学习 (ML) 正被用来解决这些问题，以降低维护成本，提高在线局部功率测量的准确性，并减少离线和在线功率分布之间的偏差，从而提高设计安全经济的装载堆芯的能力。我们展示了从两种深度神经网络 (DNN) 架构（SurrogateNet 和 LPRMNet）训练的 ML 模型，它们分别证明了 1% 和 3% 的测试误差。这些模型的应用包括旁路或故障 LPRM 的虚拟传感能力、连续校准之间检测器的按需虚拟校准、LPRM 的高精度核寿命终点确定以及堆芯内测量功率分布和预测功率分布之间的偏差降低。

发布时间: 9/27/2024

查看原文

高效大语言模型的搜索

作者: Xuan Shen, Pu Zhao, Yifan Gong, Zhenglun Kong, Zheng Zhan, Yushu Wu, Ming Lin, Chao Wu, Xue Lin, Yanzhi Wang

大型语言模型（LLM）在人工智能研究领域一直占据主导地位。为了压缩LLM，许多高效的技术，包括权重剪枝、量化和蒸馏，已被广泛采用，旨在减少内存并加速推理，这突出了LLM中的冗余性。然而，大多数模型压缩技术集中在权重优化上，而忽略了对最佳架构的探索。此外，传统的架构搜索方法因其参数复杂性过高而难以在LLM上展现出有效性。本文提出了一种免训练架构搜索框架，以识别保留原始LLM基本优势并实现推理加速的最佳子网络。此外，在生成继承原始LLM特定权重的子网络后，我们引入了一种重构算法，利用省略的权重，用少量校准数据来修正继承的权重。与能够生成更小型网络的SOTA免训练结构化剪枝工作相比，我们的方法在标准基准测试中展现出更优异的性能。此外，我们生成的子网络可以直接减少GPU内存的使用并实现推理加速。

发布时间: 9/27/2024

查看原文

基于混合量子-经典人工智能的对抗生成网络深度伪造攻击检测策略，用于自动驾驶车辆交通标志分类系统

作者: M Sabbir Salek, Shaozhi Li, Mashrur Chowdhury

自动驾驶汽车（AV）的感知模块严重依赖于基于深度学习的模型来检测和识别周围环境中的各种物体。AV 交通标志分类系统是该模块不可或缺的一部分，它帮助 AV 识别道路交通标志。然而，对抗性攻击，即攻击者修改或改变为交通标志识别而捕获的图像，可能会导致 AV 错误识别交通标志，并造成危险后果。深度伪造技术作为一种有前景的技术，可以用于此类对抗性攻击，其中深度伪造交通标志将在图像被馈送到 AV 交通标志分类系统之前替换真实世界的交通标志图像。在本研究中，作者介绍了如何制作基于生成对抗网络的深度伪造攻击来欺骗 AV 交通标志分类系统。作者开发了一种利用混合量子-经典神经网络 (NN) 的深度伪造交通标志图像检测策略。这种混合方法利用幅度编码来使用量子态表示输入交通标志图像的特征，与经典对应方法相比，它大大降低了内存需求。作者在真实世界和深度伪造交通标志图像上评估了这种混合深度伪造检测方法以及几个基线经典卷积 NN。结果表明，在大多数情况下，用于深度伪造检测的混合量子-经典 NN 可以实现与基线经典卷积 NN 相当或更高的性能，同时所需的内存不到本研究中考虑的最浅经典卷积 NN 所需内存的三分之一。

发布时间: 9/27/2024

查看原文

思想的证明：神经符号程序合成实现稳健且可解释的推理

作者: Debargha Ganguly, Srinivasan Iyengar, Vipin Chaudhary, Shivkumar Kalyanaraman

大型语言模型 (LLM) 彻底改变了自然语言处理，但它们在推理一致性方面存在困难，尤其是在新领域和复杂的逻辑序列中。本研究介绍了“思想证明”框架，该框架增强了 LLM 输出的可靠性和透明度。我们的方法将 LLM 生成的想法与形式逻辑验证相结合，使用自定义解释器将 LLM 输出转换为一阶逻辑结构，以便定理证明器进行审查。我们方法的核心是基于 JSON 的中间领域特定语言，它在设计上平衡了精确的逻辑结构和直观的 انسانی概念。这种混合表示既能进行严格的验证，又能使人们轻松地理解 LLM 的推理过程。主要贡献包括健壮的类型系统，具有排序管理以增强逻辑完整性；规则的显式表示，以清楚区分事实知识和推断知识；以及灵活的架构，允许轻松扩展到各种特定于领域的应用。我们通过在 StrategyQA 和一项新颖的多模态推理任务上的基准测试证明了“思想证明”的有效性，结果表明在开放式场景中的性能有所提高。通过提供可验证和可解释的结果，我们的技术解决了人工智能系统问责制的重要需求，并为高风险领域的人机协同监督奠定了基础。

发布时间: 9/27/2024

查看原文

基于大型语言模型代理的资产定价模型

作者: Junyan Cheng, Peter Chin

本研究提出了一种新颖的资产定价方法，即基于 LLM 代理的资产定价模型 (AAPM)，该方法融合了来自 LLM 代理的定性自由裁量投资分析和定量的手动金融经济因素，以预测资产超额收益。实验结果表明，我们的方法在投资组合优化和资产定价误差方面优于基于机器学习的资产定价基准。具体而言，异常投资组合的夏普比率和平均 $|\alpha|$ 分别显着提高了 9.6% 和 10.8%。此外，我们对模型进行了广泛的消融研究并分析了数据，以揭示对所提出方法的进一步见解。

发布时间: 9/27/2024

查看原文

协作漫画生成：将视觉叙事理论与人工智能模型相结合，提升创造力

作者: Yi-Chun Chen, Arnav Jhala

本研究提出了一种理论驱动的视觉叙事生成系统，它将概念性原则（漫画创作惯例）与生成模型和语言模型相结合，以增强漫画创作过程。我们的系统将人类的创造力与 AI 模型相结合，以支持生成过程的各个部分，为创作漫画内容提供一个协作平台。这些漫画创作惯例源于先前由人类创建的图像序列，作为制作和完善故事讲述的指南。该系统将这些原则转换为系统层，通过顺序决策促进漫画创作，解决叙事元素，如面板构成、故事张力变化和面板过渡。主要贡献包括将机器学习模型集成到人机协作漫画生成过程中，将抽象的叙事理论部署到 AI 驱动的漫画创作中，以及一个用于叙事驱动图像序列的自定义工具。这种方法改善了生成图像序列中的叙事元素，并在 AI 生成漫画过程中激发了人类的创造力。我们在 https://github.com/RimiChen/Collaborative_Comic_Generation 上开源了代码。

发布时间: 9/27/2024

查看原文

抗体开发中的对手塑造

作者: Sebastian Towers, Aleksandra Kalisz, Philippe A. Robert, Alicia Higueruelo, Francesca Vianello, Ming-Han Chloe Tsai, Harrison Steel, Jakob N. Foerster

抗病毒疗法通常针对当前的病毒株。从博弈论的角度来看，这对应着一种短视或近视的反应。然而，治疗诱导的选择压力作用于病毒抗原，驱动突变株的出现，而初始疗法对这些突变株的疗效降低。基于抗体与病毒抗原结合的计算模型（Absolut! 框架），我们设计并实施了这种病毒进化逃逸的遗传模拟。至关重要的是，这允许我们的抗体优化算法考虑并影响病毒的整个逃逸曲线，即引导（或“塑造”）病毒进化。这受到对手塑造的启发，对手塑造在一般和学习中，考虑了共同玩家的适应，而不是采取近视的最优反应。因此，我们将优化后的抗体称为塑造者。在我们的模拟中，我们证明了我们的塑造者针对当前和模拟的未来病毒变异，优于以近视方式选择的抗体。此外，我们表明，与近视抗体相比，塑造者对病毒施加了特定的进化压力。总而言之，塑造者改变了病毒株的进化轨迹，并最大限度地减少了与近视对应物相比的病毒逃逸。虽然这是一个简化的模型，但我们希望我们提出的范式能够在未来实现更好的长期有效疫苗和抗体疗法的发现，这得益于模拟工具能力的快速进步。我们的代码可在 https://github.com/olakalisz/antibody-shapers 获取。

发布时间: 9/26/2024

查看原文