arXiv 论文列表

作者: Xiao-Qi Han, Xin-De Wang, Meng-Yuan Xu, Zhen Feng, Bo-Wen Yao, Peng-Jie Guo, Ze-Feng Gao, Zhong-Yi Lu

先进材料的发现是人类技术发展和进步的基石。材料的结构及其相应的性能本质上是晶格、电荷、自旋、对称性和拓扑等多种自由度的复杂相互作用的结果，这对材料的逆向设计方法提出了重大挑战。长期以来，人们通过大量的实验探索新的材料，并提出了相应的理论体系来预测新的材料性能和结构。随着计算能力的提高，研究人员逐渐发展了各种电子结构计算方法，例如密度泛函理论和高通量计算方法。近年来，人工智能技术在计算机科学领域的快速发展使得有效刻画材料性能与结构之间的隐式关联成为可能，从而开辟了功能材料逆向设计的高效范式。基于生成式模型和判别式模型的材料逆向设计取得了显著进展，引起了研究人员的广泛关注。鉴于这一技术的快速进步，本综述回顾了人工智能驱动材料逆向设计的最新进展，介绍了其背景、关键发现和主流技术发展路线，并总结了未来发展方向上仍需解决的问题。本综述提供了人工智能驱动材料逆向设计的最新概述，可作为研究人员的有用资源。

发布时间: 11/28/2024

查看原文

DINO-LG：一种用于冠状动脉钙化评分的特定任务DINO模型

作者: Mahmut S. Gokmen, Caner Ozcan, Moneera N. Haque, Cody Bumgardner

冠状动脉疾病 (CAD) 是全球主要的死亡原因之一，需要有效的风险评估策略，而通过计算机断层扫描 (CT) 进行的冠状动脉钙化 (CAC) 评分是预防的关键方法。传统的基于预构建模型上实现的 UNET 架构的方法面临着注释的包含 CAC 的 CT 扫描稀缺和数据集不平衡等挑战，导致分割和评分任务的性能降低。本研究通过结合 DINO（无标签的自蒸馏）的自监督学习 (SSL) 技术解决了这些限制，该技术无需 CAC 特定的注释即可进行训练，从而增强其生成独特特征的鲁棒性。DINO-LG 模型利用标签指导来关注钙化区域，取得了显著改进，在检测包含 CAC 的 CT 切片方面，灵敏度达到 89%，特异性达到 90%，而标准 DINO 模型的灵敏度为 79%，特异性为 77%。此外，假阴性率和假阳性率分别降低了 49% 和 59%，这使得临床医生在排除低风险患者的钙化时更有信心，并最大限度地减少了放射科医生对图像的重复检查。此外，使用基本的 UNET 架构对 CAC 评分和分割任务进行处理，该架构专门应用于 DINO-LG 模型识别为包含钙化区域的 CT 切片。这种有针对性的方法通过向 UNET 模型提供相关的切片来提高 CAC 评分的准确性，显著提高了诊断精度，减少了假阳性和假阴性，最终通过最大限度地减少不必要的检查和治疗来降低整体医疗成本，这在 CAD 风险评估方面取得了宝贵的进展。

发布时间: 11/28/2024

查看原文

自训练与一致性：基于一致性驱动的理性评估来改进大型语言模型的推理能力

作者: Jaehyeok Lee, Keisuke Sakaguchi, JinYeong Bak

大型语言模型（LLM）的自训练方法通过利用模型自身生成的推理过程进行训练来提升其推理能力。以往的方法将生成正确答案的推理过程标记为合适的训练样本。然而，单一指标存在误判推理质量的风险，导致模型学习到有缺陷的推理模式。为了解决这个问题，我们提出了CREST（基于一致性的自训练推理评估框架），这是一个进一步通过后续问题评估每个推理过程并利用该评估结果指导训练的自训练框架。具体来说，我们引入了两种方法：（1）过滤掉在后续问题中经常导致错误答案的推理过程；（2）基于原始问题和后续问题的推理评估结果的混合偏好进行偏好学习。在三个问答数据集上使用开放式LLM进行的实验表明，与之前的自训练方法相比，CREST不仅提高了推理过程的逻辑稳健性和正确性，而且还提高了推理能力。

发布时间: 11/28/2024

查看原文

IOPO：通过输入输出偏好优化赋能大型语言模型处理复杂指令

作者: Xinghua Zhang, Haiyang Yu, Cheng Fu, Fei Huang, Yongbin Li

在大语言模型（LLM）领域，随着越来越多的代理和应用程序利用LLM进行构建，模型准确遵循指令的能力至关重要，而指令的复杂性也在迅速增加。然而，一方面，复杂的指令评估数据有限；另一方面，也没有专门的算法来提高遵循复杂指令的能力。为此，本文介绍了TRACE，一个用于改进和评估复杂指令遵循能力的基准，包含12万条训练数据和1000条评估数据。此外，我们提出了IOPO（输入-输出偏好优化）对齐方法，该方法同时考虑输入和输出偏好对，使LLM不仅能快速与响应偏好对齐，还能仔细探索指令偏好。在领域内和领域外数据集上的大量实验都证实了IOPO的有效性，与SFT和DPO相比，在领域内数据上分别提高了8.15%和2.18%，在领域外数据上分别提高了6.29%和3.13%。

发布时间: 11/28/2024

查看原文

基于监督微调的语言模型Q学习：Q-SFT

作者: Joey Hong, Anca Dragan, Sergey Levine

基于价值的强化学习（RL）原则上可以学习针对各种多轮问题的有效策略，从游戏到对话再到机器人控制，包括通过从静态先前收集的数据集中进行离线RL。然而，尽管广泛使用策略梯度方法来训练大型语言模型以完成单轮任务（例如，问答），但在离策略或离线环境下用于多轮RL的基于价值的方法已被证明特别难以扩展到大型语言模型的设置。这种设置需要有效地利用预训练，扩展到具有数十亿参数的大型架构，以及在大型数据集上进行训练，所有这些都代表了当前基于价值的RL方法的主要挑战。在这项工作中，我们提出了一种新颖的离线RL算法来解决这些缺点，将Q学习转换为修改后的监督微调（SFT）问题，其中标记的概率直接转换为Q值。通过这种方式，我们获得了一种算法，该算法可以平滑地从预训练期间最大化数据似然性过渡到微调期间学习接近最优的Q函数。我们的算法具有强大的理论基础，享有与最先进的Q学习方法类似的性能界限，同时在实践中使用与SFT非常相似的目标。因此，我们的方法可以充分利用语言模型的预训练优势，无需在RL微调之前重新初始化任何权重，也无需初始化新的预测值或优势的头。根据经验，我们在各种任务上评估了我们在预训练的LLM和VLM上的方法，包括自然语言对话以及来自图像的机器人操作和导航。

发布时间: 11/28/2024

查看原文

大型语言模型的可迁移集成黑盒越狱攻击

作者: Yiqi Yang, Hongye Fu

本报告提出了一种新颖的黑盒越狱攻击框架，该框架整合了多种基于大型语言模型 (LLM) 的攻击方法，以实现可迁移且强大的越狱攻击。我们的方法基于对现有越狱研究和实践的三个关键观察结果：首先，与单个攻击相比，集成方法在暴露已对齐大型语言模型的漏洞方面应该更有效；其次，不同的恶意指令在越狱难度上存在固有差异，需要进行差异化处理以确保更有效的攻击；最后，恶意指令的语义连贯性对于触发已对齐大型语言模型的防御至关重要；因此，必须仔细破坏其语义连贯性以操纵其嵌入表示，从而提高越狱成功率。我们通过参加 2024 年大型语言模型和智能体安全竞赛验证了我们的方法，我们的团队在越狱攻击赛道中取得了顶级成绩。

发布时间: 11/28/2024

查看原文

OpenMU：你的音乐理解瑞士军刀

作者: Mengjie Zhao, Zhi Zhong, Zhuoyuan Mao, Shiqi Yang, Wei-Hsiang Liao, Shusuke Takahashi, Hiromi Wakaki, Yuki Mitsufuji

我们提出了OpenMU-Bench，这是一个大型基准套件，用于解决训练多模态语言模型以理解音乐的数据稀缺问题。为了构建OpenMU-Bench，我们利用了现有的数据集并引导了新的标注。OpenMU-Bench还通过包含歌词理解和音乐工具的使用来拓宽音乐理解的范围。利用OpenMU-Bench，我们训练了我们的音乐理解模型OpenMU，并进行了大量的消融实验，证明OpenMU优于MU-Llama等基线模型。OpenMU和OpenMU-Bench都是开源的，以促进未来在音乐理解方面的研究，并提高创意音乐制作效率。

发布时间: 11/28/2024

查看原文

关于在大型语言模型推理训练中设计有效强化学习奖励

作者: Jiaxuan Gao, Shusheng Xu, Wenjie Ye, Weilin Liu, Chuyi He, Wei Fu, Zhiyu Mei, Guangju Wang, Yi Wu

奖励模型在提高大型语言模型 (LLM) 的推理能力方面越来越重要。现有研究表明，经过良好训练的奖励模型可以通过搜索大幅提高模型在推理时的性能。然而，奖励模型在强化学习 (RL) 训练期间的潜力仍然很大程度上未被探索。目前尚不清楚这些奖励模型能否提供额外的训练信号，以增强在使用稀疏成功奖励（验证解决方案的正确性）的 RL 训练中 LLMs 的推理能力。在这项工作中，我们评估了用于 RL 训练的流行奖励模型，包括结果监督奖励模型 (ORM) 和过程监督奖励模型 (PRM)，并通过将这些学习到的奖励与成功奖励相结合，使用 RL 训练用于解决数学问题的 LLM 集合。令人惊讶的是，尽管这些学习到的奖励模型具有强大的推理时间性能，但它们可能无法帮助甚至会损害 RL 训练，产生的性能比仅使用成功奖励训练的 LLM 更差。我们的分析表明，LLM 可以通过重复正确但无必要的推理步骤从某些奖励模型中获得高奖励，从而导致严重的奖励作弊问题。因此，我们引入了两种新的奖励细化技术，包括裁剪和增量。其核心思想是确保任何推理轨迹的累积奖励具有上限，以保持学习到的奖励模型有效，而不会被利用。我们在 MATH 和 GSM8K 基准测试中，使用多个奖励模型对一组 15 亿和 70 亿参数的 LLM 进行了评估，结果表明，通过精心设计的奖励函数，无需任何额外的监督微调即可改进所有经过评估的 LLM，包括在 MATH 和 GSM8K 基准测试中达到最先进水平的 70 亿参数 LLM Qwen2.5-Math-7B-Instruct。

发布时间: 11/28/2024

查看原文

大型语言模型基于循环问答的技能习得

作者: So Kuroki, Taishi Nakamura, Takuya Akiba, Yujin Tang

训练大型语言模型以获取特定技能仍然是一项具有挑战性的工作。传统的训练方法往往难以应对数据分布不平衡以及与特定任务性能不匹配的目标函数缺陷。为了解决这些挑战，我们引入了CycleQD，这是一种利用质量多样性框架通过算法的循环适应、基于模型融合的交叉以及基于SVD的变异的新方法。在CycleQD中，每个任务的性能指标轮流作为质量度量，而其他指标则作为行为特征。这种对单个任务的循环关注允许一次集中精力在一个任务上，从而无需进行数据比例调整，并简化了目标函数的设计。AgentBench的实验结果表明，将CycleQD应用于基于LLAMA3-8B-INSTRUCT的模型，不仅使其在编码、操作系统和数据库任务上超越了传统的微调方法，而且在这些领域实现了与GPT-3.5-TURBO（其参数可能多得多）相当的性能。至关重要的是，这种增强的性能是在保持强大的语言能力的同时实现的，这在其在广泛采用的语言基准测试任务上的表现中得到了证明。我们重点介绍了CycleQD的关键设计选择，详细说明了这些选择如何促进其有效性。此外，我们的方法具有通用性，可以应用于图像分割模型，突出了其在不同领域的适用性。

发布时间: 11/28/2024

查看原文

可微分无权神经网络

作者: Alan T. L. Bacellar, Zachary Susskind, Mauricio Breternitz Jr., Eugene John, Lizy K. John, Priscila M. V. Lima, Felipe M. G. Fran\c{c}a

我们介绍了一种基于互连查找表的可微权重神经网络 (DWN) 模型。通过一种新颖的扩展有限差分技术对二值进行近似微分，实现了 DWN 的训练。我们提出了可学习映射、可学习约简和谱正则化来进一步提高这些模型的准确性和效率。我们在三种边缘计算环境中评估了 DWN：(1) 基于 FPGA 的硬件加速器，与最先进的解决方案相比，它在延迟、吞吐量、能源效率和模型面积方面表现出优越性；(2) 低功耗微控制器，在严格的内存限制下，它比 XGBoost 实现了更好的精度；(3) 超低成本芯片，在精度和预测硬件面积方面始终优于小型模型。DWN 在表格数据集上的表现也优于领先方法，平均排名更高。总的来说，我们的工作将 DWN 定位为边缘兼容高吞吐量神经网络的开创性解决方案。

发布时间: 11/28/2024

查看原文