arXiv 论文列表

作者: Ke Yi, Zengke Liu, Jianwei Zhang, Chengyuan Li, Tong Zhang, Junyang Lin, Jingren Zhou

大型语言模型在参数规模不断增大的情况下展现出令人瞩目的能力。然而，由于其规模庞大，为大型语言模型提供服务会产生大量的计算和内存移动成本。量化方法被用来降低服务成本和延迟。然而，激活值中的异常值阻碍了 INT4 权重-激活量化的发展。现有的方法将异常值和正常值分离到两个矩阵中，或者将异常值从激活值迁移到权重中，导致高延迟或精度下降。通过观察大型语言模型中的激活值，可以将异常值分类为通道级异常值和尖峰异常值。在本工作中，我们提出了旋转运行时平滑 (RRS)，一种用于量化的即插即用激活平滑器，它由运行时平滑和旋转操作组成。运行时平滑 (RS) 通过在运行时使用通道级最大值平滑激活值来消除通道级异常值。旋转操作可以缩小尖峰异常值和正常值之间的差距，减轻通道级平滑造成的受害者影响。所提出的方法在 LLaMA 和 Qwen 家族中优于最先进的方法，并将 WikiText-2 的困惑度从 57.33 提高到 INT4 推理的 6.66。

发布时间: 10/1/2024

查看原文

基于对比学习的多阶段渐进微调SNN和RL驱动的外部优化增强GANs

作者: Osama Mustafa

深度学习在癌症研究中的应用，特别是在早期诊断、病例理解和治疗策略设计方面，强调了高质量数据的需求。生成式人工智能，尤其是生成对抗网络（GANs），已经成为解决诸如类别不平衡、鲁棒学习和模型训练等挑战的领先解决方案，同时解决了患者隐私和真实数据稀缺带来的问题。尽管 GANs 有着巨大的潜力，但它们面临着一些挑战，这些挑战既是固有的，也是针对组织病理学数据特有的。固有的问题包括训练不平衡、模式崩溃、从不足的鉴别器反馈中进行线性学习，以及由于严格的反馈导致的硬边界收敛。组织病理学数据以其复杂的表示、高空间分辨率和多尺度特征，呈现出独特的挑战。为了应对这些挑战，我们提出了一个包含两个组件的框架。首先，我们引入了一种基于对比学习的多阶段渐进微调孪生神经网络 (MFT-SNN)，用于评估组织病理学图像块之间的相似性。其次，我们在 GAN 训练循环中实施了一个基于强化学习的外部优化器 (RL-EO)，作为奖励信号生成器。修改后的鉴别器损失函数包含加权奖励，引导 GAN 最大化此奖励，同时最小化损失。这种方法为鉴别器提供了一个外部优化指南，防止生成器过拟合并确保平滑收敛。我们提出的解决方案已在最先进的 (SOTA) GAN 和去噪扩散概率模型上进行了基准测试，在各种指标上优于之前的 SOTA，包括 FID 分数、KID 分数、感知路径长度和下游分类任务。

发布时间: 10/1/2024

查看原文

语言模型行为评估中的复制危机迫在眉睫？证据与解决方案

作者: Laur\`ene Vaugrante, Mathias Niepert, Thilo Hagendorff

大型语言模型（LLMs）正越来越多地融入各种日常应用，对这些模型行为的研究也随之激增。然而，由于该领域的新颖性，缺乏清晰的方法学指南。这引发了人们对从 LLM 行为研究中获得的见解的可重复性和普遍性的担忧。在本研究中，我们讨论了复制危机的潜在风险，并通过一系列复制实验来支持我们的担忧，这些实验侧重于旨在影响 LLM 推理能力的提示工程技术。我们使用手动双重检查的推理基准子集（包括 CommonsenseQA、CRT、NumGLUE、ScienceQA 和 StrategyQA），对 GPT-3.5、GPT-4o、Gemini 1.5 Pro、Claude 3 Opus、Llama 3-8B 和 Llama 3-70B 进行了测试，测试了链式思维、情感提示、专家提示、沙袋以及重新阅读提示工程技术。我们的发现表明，在几乎所有测试的技术中，统计上都没有显著差异，这突出表明了先前研究中存在一些方法学缺陷。我们提出了一种前瞻性方法，包括开发用于评估 LLM 的稳健方法，建立可靠的基准，以及设计严格的实验框架，以确保对模型输出的准确可靠评估。

发布时间: 10/1/2024

查看原文

卒中康复的计算机辅助疗法：系统评价与荟萃分析

作者: Stanley Mugisha. Mirko Job. Matteo Zoppi, Marco Testa, Rezia Molfino

**目的：**评估不同形式的虚拟现实 (VR) 治疗（沉浸式虚拟现实 (IVR) 或非沉浸式虚拟现实 (NIVR)）与传统疗法 (CT) 相比，在改善卒中患者的生理和心理状况方面的有效性。**方法：**在七个数据库中进行文献检索。ACM 数字图书馆、Medline（通过 PubMed）、Cochrane、IEEE Xplore、Web of Science 和 Scopus。使用 Cohen's d 计算主要结果的效应量。使用随机效应模型，将汇总结果用于呈现治疗效果的总体估计。**结果：**共评估了 22 项随机对照试验。3 项试验表明，沉浸式虚拟现实改善了上肢活动、功能和日常生活活动，与 CT 相当。18 项试验表明，NIVR 在改善上肢活动和功能、平衡和移动性、日常生活活动和参与方面与 CT 有类似的益处。对不同形式的 VR 的比较表明，IVR 可能比 NIVR 对上肢训练和日常生活活动更有益。**结论：**本研究发现，IVR 疗法可能比 NIVR 更有效，但不如 CT 改善上肢活动、功能和日常生活活动。然而，尚无证据表明 IVR 治疗的持久性。需要更多涉及更大样本量的研究来评估沉浸式虚拟现实技术的长期影响和潜在益处。

发布时间: 10/1/2024

查看原文

大型语言模型在天文研究演化中的作用是什么？

作者: Morgan Fouesneau, Ivelina G. Momcheva, Urmila Chadayammuri, Mariia Demianenko, Antoine Dumont, Raphael E. Hviding, K. Angelique Kahle, Nadiia Pulatova, Bhavesh Rajpoot, Marten B. Scheuck, Rhys Seeburger, Dmitry Semenov, Jaime I. Villase\~nor

ChatGPT 和其他最先进的大型语言模型 (LLM) 正在迅速改变多个领域，为广泛的应用提供了强大的工具。这些模型通常在海量数据集上进行训练，表现出类似人类的文本生成能力，使其在研究任务中非常有用，例如构思、文献综述、编码、起草和推广。我们进行了一项研究，涉及 13 位不同职业阶段和研究领域的宇航员，以探索 LLM 在多个月内跨越不同任务的应用，并评估其在研究相关活动中的表现。这项工作伴随着一项匿名调查，评估参与者对 LLM 的体验和态度。我们提供了对尝试的任务和调查答案的详细分析，以及具体的输出示例。我们的发现突出了 LLM 在支持研究方面的潜力和局限性，同时也解决了普遍性和研究特异性的伦理问题。最后，我们提出了一系列建议，强调研究人员需要将批判性思维和领域专业知识与 LLM 相结合，确保这些工具成为严谨科学探究的辅助工具，而不是替代品。

发布时间: 10/1/2024

查看原文

移动边缘计算中稳定大型语言模型训练的资源分配

作者: Chang Liu, Jun Zhao

随着移动设备日益成为高级应用的中心，边缘计算为其固有的计算限制提供了一种可行的解决方案，特别是在部署大型语言模型 (LLM) 方面。然而，尽管边缘计算取得了进步，但在训练和部署 LLM 方面仍然存在重大挑战，因为这些模型存在计算需求和数据隐私问题。本文探索了一种协作训练框架，该框架将移动用户与边缘服务器集成在一起，以优化资源分配，从而提高性能和效率。我们的方法利用参数高效微调 (PEFT) 方法，允许移动用户调整 LLM 的初始层，而边缘服务器处理更具挑战性的后续层。具体而言，我们制定了一个多目标优化问题，以最小化训练过程中的总能耗和延迟。我们还通过将稳定性增强措施纳入目标函数来解决模型性能不稳定的普遍问题。通过新颖的分数规划技术，我们为所提出的问题找到了一个驻点。仿真表明，我们的方法减少了能耗和延迟，并提高了各种移动环境中 LLM 的可靠性。

发布时间: 10/1/2024

查看原文

超越提示：大型语言模型的动态对话基准测试

作者: David Castillo-Bolado, Joseph Davidson, Finlay Gray, Marek Rosa

我们引入了一个用于对话代理的动态基准测试系统，该系统通过单一的、模拟的、长时间的用户$\leftrightarrow$代理交互来评估其性能。交互是用户和代理之间的对话，其中引入了多个任务，然后同时进行。我们定期切换上下文以交织任务，这构建了一个现实的测试场景，我们在其中评估代理的长期记忆、持续学习和信息整合能力。来自专有和开源大型语言模型的结果表明，大型语言模型通常在单任务交互中表现良好，但在任务交织时，它们在相同任务上的表现却很糟糕。值得注意的是，补充了 LTM 系统的短上下文大型语言模型的表现与具有更大上下文的大型语言模型一样好，甚至更好。我们的基准测试表明，大型语言模型在应对更自然的交互时，存在着其他挑战，而现有的基准测试迄今为止无法捕捉到这些挑战。

发布时间: 10/1/2024

查看原文

音乐生成只需要旋律

作者: Shaopeng Wei, Manzhen Wei, Haoyu Wang, Yu Zhao, Gang Kou

我们提出了旋律引导音乐生成（MMGen）模型，这是第一个使用旋律引导音乐生成的新颖方法，尽管方法非常简单，资源也非常有限，但它取得了优异的性能。具体来说，我们首先使用多模态对齐模块将旋律与音频波形及其关联描述对齐。随后，我们将扩散模块条件化到学习到的旋律表示上。这使得 MMGen 能够生成与提供的音频风格相匹配的音乐，同时还能生成反映给定文本描述内容的音乐。为了解决高质量数据稀缺的问题，我们构建了一个多模态数据集 MusicSet，其中包含旋律、文本和音频，并将公开发布。我们进行了大量的实验，证明了所提模型在实验指标和实际性能质量方面的优越性。

发布时间: 10/1/2024

查看原文

基于平行超平面的纵向眼底OCT疾病进展预测

作者: Arunava Chakravarty, Taha Emre, Dmitrii Lachinov, Antoine Rivail, Hendrik Scholl, Lars Fritsche, Sobha Sivaprasad, Daniel Rueckert, Andrew Lotery, Ursula Schmidt-Erfurth, Hrvoje Bogunovi\'c

基于医疗图像预测未来疾病进展风险是一个挑战，因为患者存在异质性，并且存在微妙或未知的影像学生物标志物。此外，用于生存分析的深度学习 (DL) 方法容易受到跨扫描仪的图像域偏移的影响。我们针对从视网膜 OCT 扫描预测晚期干性年龄相关性黄斑变性 (dAMD) 发病的任务来解决这些问题。我们提出了一种用于生存预测的新型 DL 方法，该方法可以从当前扫描中联合预测一个风险评分（与转化时间成反比）和在时间间隔 $t$ 内转化的概率。它使用由将偏差项参数化为 $t$ 的函数生成的平行超平面族。此外，我们开发了基于受试者内图像对的无监督损失，以确保风险评分随时间推移而增加，并且未来转化预测与使用未来访问的实际扫描进行的 AMD 阶段预测一致。这种损失使训练好的模型能够在使用不同扫描仪获取的新未标记数据集上进行数据高效的微调。对使用不同扫描仪获取的两个大型数据集进行的广泛评估表明，在 6、12 和 24 个月的预测间隔内，数据集 1 的平均 AUROC 为 0.82，数据集 2 的平均 AUROC 为 0.83。

发布时间: 10/1/2024

查看原文

工厂操作员对认知助理在知识共享中的应用的看法：挑战、风险和对工作的影响

作者: Samuel Kernan Freire, Tianhao He, Chaofan Wang, Evangelos Niforatos, Alessandro Bozzon

在向以人为中心的制造业转变的过程中，我们为期两年的纵向研究调查了在工厂部署认知助手 (CA) 的实际影响。认知助手旨在促进工厂操作员之间的知识共享。我们的研究重点是基于智能手机的语音助手和基于大型语言模型的聊天机器人，考察了它们在真实工厂环境中的可用性和效用。根据我们在工厂部署认知助手期间收集的定性反馈，我们进行了主题分析，以调查对工作流程和知识共享的看法、挑战和总体影响。我们的结果表明，虽然认知助手有可能通过知识共享和更快地解决生产问题来显著提高效率，但它们也带来了关于工作场所监控、可共享知识类型以及与人与人之间的知识共享相比的不足的担忧。此外，我们的研究结果强调了处理隐私、知识贡献负担以及工厂操作员与其管理者之间紧张关系的重要性。

发布时间: 10/1/2024

查看原文