arXiv 论文列表

PLaMo-100B：一款专为日语能力设计的全新语言模型

作者: Preferred Elements, :, Kenshin Abe, Kaizaburo Chubachi, Yasuhiro Fujita, Yuta Hirokawa, Kentaro Imajo, Toshiki Kataoka, Hiroyoshi Komatsu, Hiroaki Mikami, Tsuguo Mogami, Shogo Murai, Kosuke Nakago, Daisuke Nishino, Toru Ogawa, Daisuke Okanohara, Yoshihiko Ozaki, Shotaro Sano, Shuji Suzuki, Tianqi Xu, Toshihiko Yanase

我们介绍了 PLaMo-100B，一个为日语能力而设计的大型语言模型。该模型使用 2 万亿个词元从头开始训练，并采用了诸如 QK 归一化和 Z 损失等架构，以确保训练过程中的稳定性。训练后技术，包括监督微调和直接偏好优化，被应用于改进模型的性能。基准评估表明，PLaMo-100B 表现良好，尤其是在日语特定任务中，取得了与 GPT-4 等前沿模型相媲美的结果。基础模型可在 https://huggingface.co/pfnet/plamo-100b 获取。

发布时间: 10/23/2024

查看原文

OpenAI 的 o1-preview 模型中的系统 2 思维：在数学考试中取得近乎完美的成绩

作者: Joost de Winter, Dimitra Dodou, Yke Bauke Eisma

人类认知过程通常被划分为两个系统：系统 1，涉及快速直观的思考；系统 2，涉及缓慢、慎重的推理。此前，大型语言模型因缺乏系统 2 的更深层次、更具分析性的能力而受到批评。2024 年 9 月，OpenAI 推出了 o1 模型系列，旨在处理类似系统 2 的推理。尽管 OpenAI 的基准测试结果令人鼓舞，但仍需要独立验证。在本研究中，我们对 o1-preview 模型进行了两次荷兰“数学 B”期末考试测试。该模型在 76 分中分别获得了接近满分的 76 分和 74 分。作为对比，荷兰只有 16,414 名学生中的 24 名取得了满分。相比之下，GPT-4o 模型在 76 分中分别获得了 66 分和 62 分，远高于荷兰平均得分 40.63 分。这两个模型都没有访问考试内容。由于存在模型污染的风险（即，o1-preview 和 GPT-4o 的知识截止日期是在考试发布在线之后），我们用一个新的数学 B 考试重复了这个过程，该考试是在截止日期之后发布的。结果再次表明 o1-preview 表现出色（第 97.8 百分位），这表明污染并非影响因素。我们还表明，o1-preview 的输出存在一定程度的差异，这意味着有时会存在“运气”（答案正确）或“坏运气”（输出偏离到错误的内容）。我们证明了一种自我一致性方法，即重复给出提示并选择最常见的答案，是一种识别正确答案的有用策略。结论是，虽然 OpenAI 的新模型系列具有巨大潜力，但也必须考虑某些风险。

发布时间: 10/23/2024

查看原文

可扩展的无模拟熵不平衡最优传输

作者: Jaemoo Choi, Jaewoong Choi

最优传输 (OT) 问题研究连接两个分布的传输映射，同时最小化给定的成本函数。寻找这样的传输映射在机器学习中有着广泛的应用，例如生成式建模和图像到图像的转换。本文提出了一种可扩展且无模拟的方法来解决熵不平衡最优传输 (EUOT) 问题。我们推导了该 EUOT 问题的动力学形式，它是薛定谔桥 (SB) 问题的推广。在此基础上，我们从随机最优控制解释中推导出 EUOT 问题的对偶公式和最优条件。利用这些特性，我们提出了一种无模拟算法来求解 EUOT，称为无模拟 EUOT (SF-EUOT)。虽然现有的 SB 模型在训练和评估期间需要昂贵的模拟成本，但我们的模型通过利用互易性实现了无模拟训练和一步生成。与之前的 SB 方法相比，我们的模型在生成式建模和图像到图像的转换任务中展现出显著的扩展性改进。

发布时间: 10/23/2024

查看原文

基于等变性的多智能体强化学习样本效率和泛化能力提升

作者: Joshua McClellan, Naveed Haghani, John Winder, Furong Huang, Pratap Tokekar

多智能体强化学习（MARL）面临着样本效率低和泛化能力差的挑战[1]。这些挑战部分源于用于学习策略的神经网络缺乏结构或归纳偏差。在多智能体场景中，对称性是一种常见的结构形式。几何深度学习领域已经开发出等变图神经网络（EGNN），这些网络对节点的旋转、平移和反射具有等变性（或对称性）。等变性的引入已被证明可以提高学习效率并降低误差[2]。本文证明了 EGNN 可以提高 MARL 的样本效率和泛化能力。然而，我们也发现，将 EGNN 简单地应用于 MARL 会导致早期探索能力差，这是由于 EGNN 结构的偏差造成的。为了缓解这种偏差，我们提出了探索增强型等变图神经网络或 E2GN2。我们使用常见的 MARL 基准测试 MPE 和 SMACv2 将 E2GN2 与其他常见的函数逼近器进行比较。E2GN2 在样本效率方面表现出显著的改进，最终奖励收敛更快，在我们的泛化测试中，与标准 GNN 相比，E2GN2 的收益高出 2-5 倍。这些结果为复杂的多智能体系统中更可靠、更有效的解决方案铺平了道路。

发布时间: 10/23/2024

查看原文

从文本到多模态：探索大型语言模型在医疗实践中的演进与影响

作者: Qian Niu, Keyu Chen, Ming Li, Pohsun Feng, Ziqian Bi, Lawrence KQ Yan, Yichao Zhang, Caitlyn Heqi Yin, Cheng Fei, Junyu Liu, Benji Peng

大型语言模型（LLMs）已从基于文本的系统快速发展为多模态平台，对包括医疗保健在内的各个领域产生了重大影响。这篇全面的综述探讨了 LLMs 向多模态大型语言模型 (MLLMs) 的发展及其在医疗实践中日益增长的影响力。我们考察了 MLLMs 在医疗保健领域的现状，分析了它们在临床决策支持、医学影像、患者参与和研究中的应用。该综述强调了 MLLMs 在整合多种数据类型（如文本、图像和音频）方面的独特能力，从而为患者健康提供更全面的见解。我们还讨论了 MLLM 实施面临的挑战，包括数据限制、技术障碍和伦理考量。通过识别关键的研究差距，本文旨在指导未来在数据集开发、模态对齐方法以及建立伦理指南等领域的调查。随着 MLLMs 继续塑造医疗保健的未来，了解其潜力和局限性对于将其负责任且有效地整合到医疗实践中至关重要。

发布时间: 10/23/2024

查看原文

语音到现实：利用自然语言、3D 生成式 AI 和离散机器人组装实现按需生产

作者: Alexander Htet Kyaw, Se Hwan Jeon, Miana Smith, Neil Gershenfeld

我们提出了一种将语音转化为物理对象的系统，该系统结合了 3D 生成式人工智能与机器人组装。该系统利用自然语言输入，使设计和制造更容易获得，使没有 3D 建模或机器人编程专业知识的个人能够创建物理对象。我们建议利用基于格子的体素组件的离散机器人组装来解决使用生成式 AI 输出进行物理生产的挑战，例如设计可变性、制造速度、结构完整性和材料浪费。该系统解释语音以生成 3D 对象，将其离散化为体素组件，计算最佳组装顺序，并生成机器人工具路径。结果通过组装各种物体（从椅子到架子）得到证明，这些物体通过语音提示并在 5 分钟内使用 6 轴机器人手臂实现。

发布时间: 10/23/2024

查看原文

基于 Himawari-8 卫星影像和深度学习模型开发泰国太阳辐射图

作者: Suwichaya Suwanwimolkul, Natanon Tongamrak, Nuttamon Thungka, Naebboon Hoonchareon, Jitkomut Songsiri

本文介绍了一个在线平台，每 30 分钟更新一次泰国太阳辐照度地图，该平台可在 https://www.cusolarforecast.com 访问。该平台使用从 Himawari-8 卫星图像中提取的云指数、具有局部调整的 Linke 浊度的 Ineichen 晴空模型以及机器学习模型来估计泰国全天空太阳辐照度 (GHI)。该方法将晴空辐照度、云指数、来自 MERRA-2 数据库的再分析 GHI 和温度数据以及日期和时间作为输入，用于 GHI 估计模型，包括 LightGBM、LSTM、Informer 和 Transformer。这些模型通过评估 2022 年至 2023 年 1.5 年期间 53 个地面站的 15 分钟地面 GHI 数据，与商业服务 X 的估计结果进行比较。结果表明，这四种模型的性能具有竞争力，并且优于服务 X。最佳模型是 LightGBM，其 MAE 为 78.58 W/sqm，RMSE 为 118.97 W/sqm。获取泰国再分析的 MERRA-2 数据在经济上不可行。在移除这些特征后，Informer 模型的 MAE 性能最佳，为 78.67 W/sqm。考虑到气候区和数据的时间粒度，所获得的性能与现有文献一致。由于该地图显示了对 93,000 个网格的 GHI 估计值，并频繁更新，本文还描述了一个用于显示整个地图的计算框架。它测试了深度学习模型在 GHI 估计过程中的运行时性能。

发布时间: 10/23/2024

查看原文

乐高式LoRA融合：通过秩聚类将LoRA模块化推向极致

作者: Ziyu Zhao, Tao Shen, Didi Zhu, Zexi Li, Jing Su, Xuwu Wang, Kun Kuang, Fei Wu

低秩自适应（LoRA）因其模块化设计和在 Huggingface 等平台上的广泛可用性，已成为微调大型语言模型（LLM）以适应不同领域的热门技术。这种模块化特性激发了人们对组合多个 LoRA 以增强 LLM 能力的兴趣。然而，现有的 LoRA 组合方法主要关注需要额外训练的任务特定适应，而当前的模型合并技术通常无法充分利用 LoRA 的模块化特性，导致参数干扰和性能下降。在本文中，我们研究了以更细粒度的方式拆卸和重新组装多个 LoRA 的可行性，类似于组装乐高积木。我们引入了最小语义单元 (MSU) 的概念，其中对应于 LoRA 中每个秩的参数充当独立单元。这些 MSU 表现出置换不变性和串联求和等价性，从而能够灵活组合以创建新的 LoRA。基于这些见解，我们提出了 LoRA-LEGO 框架。该框架通过将来自不同 LoRA 的 MSU 分组到 $k$ 个集群中来进行秩级参数聚类。每个集群的质心作为代表性 MSU，能够组装具有调整秩为 $k$ 的合并 LoRA。此外，我们应用双重加权策略来优化合并 LoRA 的规模。跨各种基准的实验表明，我们的方法在 LoRA 合并方面优于现有方法。

发布时间: 10/23/2024

查看原文

基于历史轨迹的零阶联邦学习优化方法

作者: Chenlin Wu, Xiaoyu He, Zike Li, Jing Gong, Zibin Zheng

联邦学习高度依赖于分布式梯度下降技术。在梯度信息不可用的情况下，需要从零阶信息中估计梯度，这通常涉及沿各向同性随机方向计算有限差分。这种方法存在较高的估计误差，因为在各向同性采样过程中可能会忽略目标景观的几何特征。在这项工作中，我们提出了一种非各向同性采样方法来改进梯度估计过程。在我们的方法中，梯度是在由历史解轨迹跨越的子空间中估计的，旨在鼓励探索有希望的区域，从而提高收敛速度。所提出的方法使用协方差矩阵进行采样，该矩阵是两部分的凸组合。第一部分是一个薄投影矩阵，包含子空间的基础，旨在提高利用能力。第二部分是历史轨迹。我们在零阶联邦设置中实现了该方法，并表明收敛速度与现有方法一致，同时在通信或本地计算方面没有引入显著的开销。与几种常用的零阶联邦优化算法相比，我们在几个数值实验中验证了我们提议的有效性。

发布时间: 10/23/2024

查看原文

像素字节：捕捉多模态生成中的统一嵌入

作者: Fabien Furfaro

本报告介绍了像素字节嵌入，这是一种用于统一多模态表示学习的新方法。我们的方法将不同的输入捕获在一个单一的、连贯的表示中，从而为多模态序列生成（尤其是文本和像素化图像）提供了新兴特性。受 Image Transformers、PixelCNN 和 Mamba-Bytes 等最先进的序列模型的启发，PixelBytes 旨在解决集成不同数据类型的挑战。我们探索了各种模型架构，包括循环神经网络 (RNN)、状态空间模型 (SSM) 和基于注意力的模型，重点关注双向处理和我们创新的 PxBy 嵌入技术。我们在专门的 PixelBytes Pokémon 数据集上进行的实验表明，具有 PxBy 嵌入和卷积层的双向序列模型可以生成连贯的多模态序列。这项工作有助于推进能够以统一的方式理解和生成多模态数据的集成人工智能模型的发展。

发布时间: 10/23/2024

查看原文