arXiv 论文列表

作者: Joo Young Choi, Jaesung R. Park, Inkyu Park, Jaewoong Cho, Albert No, Ernest K. Ryu

当前最先进的扩散模型采用包含卷积和（qkv）自注意力层的 U-Net 架构。U-Net 处理图像，同时以每个采样步骤的时间嵌入输入和对应于所需条件生成的类别或标题嵌入输入为条件。这种条件化涉及对卷积层的缩放和平移操作，但不会直接影响注意力层。虽然这些标准的架构选择无疑是有效的，但对注意力层不进行条件化感觉是任意的，并且可能不是最佳的。在这项工作中，我们表明，只需在注意力层添加 LoRA 条件化，而无需改变或调整 U-Net 架构的其他部分，就可以提高图像生成质量。例如，在 EDM 扩散模型中添加 LoRA 条件化，对于无条件和类别条件的 CIFAR-10 生成，FID 分数分别为 1.91/1.75，优于基线的 1.97/1.79。

发布时间: 10/7/2024

查看原文

MedAdapter：面向医疗推理的大语言模型高效测试时自适应方法

作者: Wenqi Shi, Ran Xu, Yuchen Zhuang, Yue Yu, Haotian Sun, Hang Wu, Carl Yang, May D. Wang

尽管大型语言模型（LLMs）在生成和推理方面能力有所提高，但由于其庞大的规模和企业隐私问题，将它们应用于生物医学领域仍然面临挑战。在这项工作中，我们提出了 MedAdapter，一种统一的后期适配器，用于将 LLM 测试时适应生物医学应用。MedAdapter 并非微调整个 LLM，而是通过仅微调一个小的 BERT 尺寸适配器来有效地适应原始模型，以对 LLM 生成的候选解决方案进行排序。实验表明，MedAdapter 有效地适应了生物医学推理中的白盒和黑盒 LLM，分别实现了 25.48% 和 11.31% 的平均性能提升，而无需大量的计算资源或与第三方共享数据。MedAdapter 在与训练时适应相结合时也表现出优异的性能，突出了对现有适应方法的灵活和互补解决方案。面对平衡模型性能、计算资源和数据隐私的挑战，MedAdapter 为将 LLM 适应生物医学领域提供了一种高效、隐私保护、经济高效且透明的解决方案。

发布时间: 10/7/2024

查看原文

软偏好优化：将语言模型与专家分布对齐

作者: Arsalan Sharifnassab, Saber Salehkaleybar, Sina Ghiassian, Surya Kanoria, Dale Schuurmans

我们提出了一种名为“软偏好优化”(SPO) 的方法，用于将生成模型（例如大型语言模型 (LLM)）与人类偏好对齐，而无需奖励模型。SPO 通过一个自然的损失函数直接在偏好数据集上优化模型输出，该损失函数将偏好损失与模型整个输出分布的正则化项相结合，而不是将其限制在偏好数据集上。虽然 SPO 不需要假设存在底层奖励模型，但我们证明了在 Bradley-Terry (BT) 模型假设下，它收敛到奖励的 softmax，分布的“软度”可以通过 softmax 指数（算法参数）进行调整。我们展示了 SPO 的方法论、理论基础以及在简单性、计算效率和对齐精度方面的比较优势。

发布时间: 10/7/2024

查看原文

BMRetriever：微调大型语言模型以成为更优秀的生物医学文本检索器

作者: Ran Xu, Wenqi Shi, Yue Yu, Yuchen Zhuang, Yanqiao Zhu, May D. Wang, Joyce C. Ho, Chao Zhang, Carl Yang

开发有效的生物医学检索模型对于在知识密集型生物医学任务中取得优异成绩至关重要，但由于缺乏足够的公开注释的生物医学数据和计算资源，这一任务仍然具有挑战性。我们提出了BMRetriever，这是一系列密集检索器，通过在大型生物医学语料库上进行无监督预训练，然后在标记数据集和合成对的组合上进行指令微调，以增强生物医学检索。在11个数据集上的5个生物医学任务上的实验验证了BMRetriever在各种生物医学应用中的有效性。BMRetriever还表现出强大的参数效率，4.1亿参数的变体性能超过了大至11.7倍的基线，而20亿参数的变体则与超过50亿参数的模型性能相当。为了确保透明度、可重复性和对新领域的应用，我们发布了训练数据和模型检查点，网址为\url{https://huggingface.co/BMRetriever}。

发布时间: 10/7/2024

查看原文

面向检索的知识用于点击率预测

作者: Huanshuo Liu, Bo Chen, Menghui Zhu, Jianghao Lin, Jiarui Qin, Yang Yang, Hao Zhang, Ruiming Tang

点击率（CTR）预测对于个性化在线服务至关重要。基于样本检索的模型，例如 RIM，已经展现出卓越的性能。然而，由于检索过程，它们面临着推理效率低下和资源消耗过高的挑战，阻碍了它们在工业环境中的实际应用。为了解决这个问题，我们提出了一种通用的即插即用 \underline{r}etrieval-\underline{o}riented \underline{k}nowledge (\textbf{\name}) 框架，它绕过了实际的检索过程。该框架具有一个知识库，它使用分解-重建范式保存并模仿检索和聚合的表示。知识蒸馏和对比学习优化了知识库，使检索增强表示能够与各种 CTR 模型集成。在三个大型数据集上的实验表明 \name 具有优异的兼容性和性能，其中神经知识库充当检索池的有效替代品。\name 超越了教师模型，同时保持了优越的推理效率，并证明了使用参数化方法从非参数化方法中提取知识的可行性。这些结果突出了 \name 在现实世界应用中的巨大潜力及其将基于检索的方法转变为实用解决方案的能力。我们的实现代码可在 \url{https://github.com/HSLiu-Initial/ROK.git} 中获取，以支持可重复性。

发布时间: 10/7/2024

查看原文

MDAgents：用于医疗决策的LLM自适应协作

作者: Yubin Kim, Chanwoo Park, Hyewon Jeong, Yik Siu Chan, Xuhai Xu, Daniel McDuff, Hyeonhoon Lee, Marzyeh Ghassemi, Cynthia Breazeal, Hae Won Park

基础模型正成为医学领域中宝贵的工具。尽管它们前景广阔，但如何最好地利用大型语言模型（LLMs）来完成复杂的医疗任务仍然是一个开放性问题。我们引入了一个名为医疗决策代理（MDAgents）的新型多代理框架，通过自动分配协作结构给 LLM 团队，帮助弥合这一差距。分配的单人或团队协作结构是针对手头的医疗任务量身定制的，模拟了现实世界中适应不同复杂程度任务的医疗决策过程。我们使用最先进的 LLM 在一系列现实世界的医疗知识和医疗诊断基准上评估了我们的框架和基线方法。MDAgents 在需要理解医疗知识和多模态推理的十个基准测试中的七个中取得了最佳性能，与之前方法的最佳性能相比，显示出高达 6.5%（p < 0.05）的显著改进。消融研究表明，MDAgents 有效地确定了医疗复杂性，以优化各种医疗任务的效率和准确性。值得注意的是，在团队协作中结合主持人审查和外部医疗知识，平均准确率提高了 11.8%。我们的代码可以在 https://github.com/mitmedialab/MDAgents 找到。

发布时间: 10/7/2024

查看原文

Inheritune：训练更小但更专注的语言模型

作者: Sunny Sanyal, Ravid Shwartz-Ziv, Alexandros G. Dimakis, Sujay Sanghavi

大型语言模型（LLM）在各种自然语言处理任务中取得了显著的性能，这主要归功于 Transformer 架构及其自注意力机制。然而，我们观察到，在标准的解码器式 LLM 中，注意力矩阵在更深层的层中退化为单列。处于这种状态的层无法学习任何有意义的东西，并且大多是冗余的；我们将这些层称为“懒惰层”。本文的目标是通过消除这种结构性低效率来训练更小的模型，而不会影响性能。受此观察的启发，我们提出了 Inheritune，这是一种简单而有效的训练方法，用于开发更小、性能更高的语言模型。使用 Inheritune 训练的较小模型继承了来自较大预训练模型的早期 Transformer 层，然后重新训练并逐步扩展，直到它们匹配或超过较大模型的性能。我们证明了 Inheritune 能够在 OpenWebText-9B 和 FineWeb_edu 等数据集上训练各种大小的 GPT-2 模型。使用 Inheritune 训练的模型，尽管层数明显更少，但其性能与更大的模型相当，甚至超过了更大的模型。例如，我们的 16 层 GPT-2 中型变体实现了与标准 24 层 GPT-2 中型模型相当的性能。代码可在 https://github.com/sanyalsunny111/LLM-Inheritune 获取。

发布时间: 10/7/2024

查看原文

大型语言模型中高维的人类价值表示

作者: Samuel Cahyawijaya, Delong Chen, Yejin Bang, Leila Khalatbari, Bryan Wilie, Ziwei Ji, Etsuko Ishii, Pascale Fung

大型语言模型（LLMs）在各种任务和领域中的广泛应用，使得这些模型与人类价值观和偏好保持一致变得至关重要。鉴于人类价值观对齐的各种方法，从基于人类反馈的强化学习（RLHF）到宪法学习等，迫切需要在模型发布之前了解注入这些模型的人类价值观的范围和性质。此外，还需要在没有昂贵的大规模人工标注的情况下进行模型对齐。我们提出了 UniVaR，一个与模型架构和训练数据正交的人类价值分布的高维表示。从八种多语言 LLM 的价值相关输出中训练，并在四种多语言 LLM（即 LlaMA2、ChatGPT、JAIS 和 Yi）的输出上进行测试，我们表明 UniVaR 是一个强大的工具，可以比较嵌入在不同 LLM 中的不同语言来源的分布。通过 UniVaR，我们探索了不同的 LLM 如何在不同的语言和文化中优先考虑各种价值观，揭示了人类价值观和语言建模之间复杂相互作用的奥秘。

发布时间: 10/7/2024

查看原文

事后逆转：我们是否过早地选择了模型？

作者: Rishabh Ranjan, Saurabh Garg, Mrigank Raman, Carlos Guestrin, Zachary Lipton

经过训练的模型通常会与后处理转换相结合，例如温度缩放 (TS)、集成和随机权重平均 (SWA)，以提高性能、鲁棒性、不确定性估计等。然而，这些转换通常只在基础模型通过标准方法最终确定后才应用。在本文中，我们通过广泛的实证研究对这种做法提出了质疑。特别是，我们展示了一种我们称之为后处理逆转的现象，其中性能趋势在应用后处理转换后发生了逆转。这种现象在高噪声环境中尤为突出。例如，虽然基础模型在训练初期严重过拟合，但集成和 SWA 都会偏向训练了更多轮次的模型。后处理逆转还可以防止双下降现象的出现，并减轻基础模型中测试损失和测试误差之间的不匹配。初步分析表明，这些转换通过抑制错误标记示例的影响，利用它们与干净示例的学习动态差异，来诱导逆转。根据我们的发现，我们提出了后处理选择，这是一种简单技术，通过后处理指标来指导模型开发决策，例如提前停止、检查点和更广泛的超参数选择。我们的实验涵盖了真实世界的视觉、语言、表格和图数据集。在 LLM 指令微调数据集上，与朴素选择相比，后处理选择导致 MMLU 提升了 >1.5 倍。

发布时间: 10/7/2024

查看原文

换位思考：基于扩散模型的机器人视角转换

作者: Josua Spisak, Matthias Kerzel, Stefan Wermter

类人机器人可以通过模仿人类来受益于它们与人类形态的相似性。当人类教导其他人如何执行动作时，他们通常会演示这些动作，学习者会模仿演示以了解如何执行动作。能够从第三人称视角的演示中 mentally 转移到第一人称视角的演示，对于人类的这种能力至关重要。由于这是一项具有挑战性的任务，因此通常通过从第一人称视角创建演示来简化机器人。创建这些演示可以更容易地模仿，但需要更多努力。因此，我们引入了一种新颖的扩散模型，该模型使机器人能够直接从第三人称演示中学习，通过学习从第三人称视角生成第一人称视角。该模型在两种视角之间转换物体和环境的大小和旋转。这使我们能够利用易于制作的第三人称演示和易于模仿的第一人称演示的优势。

发布时间: 10/7/2024

查看原文