LLM2D

arXiv 论文列表

作者: Samia Belhadj, Sanguk Park, Ambika Seth, Hesham Dar, Thijs Kooi
医疗人工智能的公平性日益被视为医疗保健交付的关键方面。虽然大多数关于公平性的先前工作强调了平等性能的重要性,但我们认为,公平性的下降可能是有害的或无害的,具体取决于变化的类型以及敏感属性的使用方式。为此,我们引入了正和公平的概念,即只要不以牺牲个体亚组性能为代价,导致更大群体差异的性能提升是可以接受的。这允许与疾病相关的敏感属性被用来提高性能,而不会损害公平性。 我们通过比较四个在训练阶段对种族属性使用不同的 CNN 模型来说明这个想法。结果表明,从图像中删除所有人口统计编码有助于缩小不同亚组之间性能的差距,而利用种族属性作为模型的输入则提高了整体性能,同时扩大了亚组之间的差异。然后,通过我们对正和公平的概念来区分有害差异和无害差异,将这些更大的差距置于集体利益的角度。
发布时间: 10/1/2024
查看原文
作者: Johan Bjorck, Alon Benhaim, Vishrav Chaudhary, Furu Wei, Xia Song
最先进的大语言模型 (LLM) 是通过扩展来实现的——扩展模型大小、数据集大小和集群大小。在最大规模的运行中,对超参数进行广泛的调整在经济上是不可行的。相反,必须从较小的实验中推断出或“转移”近似最优的超参数。Yang 等人已经研究了跨模型大小的超参数转移。然而,跨数据集大小(或标记范围)的超参数转移尚未得到研究。为了弥补这一不足,我们对最优学习率 (LR) 如何依赖于 LLM 训练中的标记范围进行了大规模的实证研究。我们首先证明了最优 LR 会随着标记范围发生显著变化——更长的训练需要更小的 LR。其次,我们证明了最优 LR 遵循一个缩放定律,并且可以通过我们的缩放定律从较短的范围内准确地估计出较长范围的最优 LR。我们还提供了一个经验法则,用于在不增加当前实践开销的情况下,跨标记范围转移 LR。最后,我们提供了证据表明 LLama-1 使用了过高的 LR,并估计了由此带来的性能损失。因此,我们认为跨数据大小的超参数转移是 LLM 训练中一个重要且被忽视的组成部分。
发布时间: 10/1/2024
查看原文
作者: Yuho Lee, Taewon Lee, Jason Cai, Hang Su, Hwanjun Song
现有的摘要质量评估基准往往缺乏多样的输入场景,只关注狭义定义的维度(例如,忠实度),并且难以应对主观和粗粒度的标注方案。为了解决这些缺陷,我们创建了 UniSumEval 基准,它扩展了输入上下文的范围(例如,领域、长度)并提供细粒度、多维度的标注。我们在数据创建中利用了 AI 辅助,识别潜在的幻觉输入文本,并帮助人类标注者降低细粒度标注任务的难度。利用 UniSumEval,我们对九种最新的语言模型进行了基准测试,以了解它们在不同输入上下文和评估维度上的表现。此外,我们对 SOTA 自动摘要评估器进行了全面比较。我们的基准数据将在 https://github.com/DISL-Lab/UniSumEval-v1.0 上公开。
发布时间: 10/1/2024
查看原文
作者: Zhiqiang Yuan, Weitong Chen, Hanlin Wang, Kai Yu, Xin Peng, Yiling Lou
代码翻译将代码从一种编程语言转换为另一种编程语言,同时保持其原始功能,这对于软件迁移、系统重构和跨平台开发至关重要。传统的基于规则的方法依赖于人工编写的规则,这既费时又常常导致代码可读性较差。为了克服这一问题,已经开发了基于学习的方法,利用平行数据来训练模型以实现自动代码翻译。最近,大型语言模型 (LLM) 的发展进一步推动了基于学习的代码翻译。虽然前景看好,但 LLM 翻译的程序仍然存在各种质量问题(例如,语法错误和语义错误)。特别是,当仅仅提供相应的错误消息时,LLM 很难自行调试这些错误。 在这项工作中,我们提出了一种新颖的基于 LLM 的多智能体系统 TRANSAGENT,它通过四种基于 LLM 的智能体的协同作用来增强基于 LLM 的代码翻译,包括初始代码翻译器、语法错误修复器、代码对齐器和语义错误修复器。TRANSAGENT 的主要见解是首先基于目标程序和源程序之间的执行对齐来定位目标程序中的错误代码块,这可以缩小修复空间,从而降低修复难度。为了评估 TRANSAGENT,我们首先从最近的编程任务中构建了一个新的基准,以减轻潜在的数据泄露问题。在我们的基准测试中,TRANSAGENT 在翻译效率和效率方面均优于最新的基于 LLM 的代码翻译技术 UniTrans;此外,我们对不同 LLM 的评估表明了 TRANSAGENT 的泛化能力,我们的消融研究表明了每个智能体的贡献。
发布时间: 10/1/2024
查看原文
作者: Shuhao Chen, Weisen Jiang, Baijiong Lin, James T. Kwok, Yu Zhang
近年来,研究表明,组装多个现成的预训练大语言模型 (LLM) 可以利用其互补能力。为了实现这一点,路由是一种很有前景的方法,它学习一个路由器来为每个查询选择最合适的 LLM。然而,现有的路由模型在多个 LLM 对查询表现良好的情况下效率低下。为了解决这个问题,本文提出了一种名为基于查询的双重对比学习路由器 (RouterDC) 的方法。RouterDC 模型包含一个编码器和 LLM 嵌入,并提出了两种对比学习损失来训练 RouterDC 模型。实验结果表明,RouterDC 在组装 LLM 方面非常有效,并且在分布内 (+2.76%) 和分布外 (+1.90%) 任务上都大大优于单个表现最佳的 LLM 以及现有的路由方法。源代码可在 https://github.com/shuhao02/RouterDC 获取。
发布时间: 10/1/2024
查看原文
作者: Ziyang Zhang, Andrew Thwaites, Alexandra Woolgar, Brian Moore, Chao Zhang
在复杂的听觉环境中,人类听觉系统具有非凡的能力,可以专注于特定的说话者,同时忽略其他说话者。本研究提出了一种名为 SWIM 的新模型,它是一种将短时窗卷积神经网络 (CNN) 与 Mamba 集成的模型,用于从脑电图 (EEG) 信号中识别听觉注意的轨迹(左或右),而无需依赖语音包络。SWIM 由两部分组成。第一部分是短时窗 CNN (SW$_\text{CNN}$),它充当短期 EEG 特征提取器,并在广泛使用的 KUL 数据集的留一说话者外设置中实现了 84.9% 的最终准确率。这种改进归因于改进的 CNN 结构、数据增强、多任务训练和模型组合的使用。第二部分,Mamba,是一个序列模型,首次应用于听觉空间注意解码,以利用来自先前 SW$_\text{CNN}$ 时间步长的长期依赖关系。通过联合训练 SW$_\text{CNN}$ 和 Mamba,所提出的 SWIM 结构利用了短期和长期信息,并实现了 86.2% 的准确率,与之前的最先进结果相比,分类错误减少了 31.0%。源代码可在 https://github.com/windowso/SWIM-ASAD 获取。
发布时间: 10/1/2024
查看原文
作者: Huangyu Dai, Ben Chen, Kaidi Chen, Ying Han, Zihan Liang, Wen Jiang
针对跨语言对话和贸易,神经机器翻译 (NMT) 至关重要,但仍然面临着生成内容单调和重复的持续挑战。传统的解决方案依赖于惩罚文本冗余或标记重现,其效果有限,特别是对于包含固有冗余的长篇商品描述和电子商务描述,即使在大型语言模型 (LLMs) 出现之后也是如此。本文通过信息熵的视角研究了文本重复的根本原因,将这种现象归因于输入文本中较高的不确定性。为了解决这个问题,本文提出了一种名为“对比标记学习与相似性衰减 (CTSD)” 的新算法,该算法根据不同的注意力权重和标记间距离动态地调节标记的抑制。此外,本文还编制并发布了一个包含在线真实商品标题文本的电子商务数据集,该数据集容易受到幻觉翻译的影响,用于对该算法进行基准测试。大量的评估表明,CTSD 在精确度和泛化能力方面显著优于现有方法。额外的在线 A/B 测试强调了其实用价值,表明用户参与度和转化率都有明显的提高。值得注意的是,该方法已在全球最大的 B2B 电子商务平台阿里巴巴网站的八个多语言站点上全面实施。
发布时间: 10/1/2024
查看原文
作者: Wentao Gao, Ziqi Xu, Jiuyong Li, Lin Liu, Jixue Liu, Thuc Duy Le, Debo Cheng, Yanchang Zhao, Yun Chen
随着现实世界应用中对长序列时间序列预测的需求不断增长,例如电力消耗规划,时间序列预测的重要性在各个领域变得越来越重要。这在该领域表示学习的最新进展中得到了体现。本研究提出了一种用于时间序列预测的新型多视角方法,该方法创新性地将趋势和季节性表示与基于独立成分分析 (ICA) 的表示相结合。认识到现有方法在表示复杂和高维时间序列数据方面的局限性,本研究通过结合 TS(趋势和季节性)和 ICA(独立成分)视角来解决这一挑战。这种方法提供了对时间序列数据的全面理解,超越了传统模型,传统模型往往会忽略细微的非线性关系。TSI 模型的有效性通过对各种基准数据集的全面测试得到了证明,在该测试中,它表现出优于当前最先进模型的性能,尤其是在多元预测方面。该方法不仅提高了预测的准确性,而且通过提供对时间序列数据的更深入理解,为该领域做出了重大贡献。利用 ICA 进行视图分析的研究为时间序列预测的进一步探索和方法学进步奠定了基础,为研究和实际应用开辟了新的途径。
发布时间: 10/1/2024
查看原文
尽管误差反向传播在神经网络中被广泛使用,但它因缺乏生物学上的合理性而受到批评,存在着诸如反向锁定问题和权重传输问题等问题。这些局限性促使研究人员探索更具生物学合理性的学习算法,这些算法有可能揭示生物神经系统如何适应和学习。受生物系统中观察到的逆流交换机制的启发,我们提出了逆流学习(CCL),这是一种用于神经网络中信用分配的生物学合理框架。该框架使用前馈网络处理输入数据,并使用反馈网络处理目标,每个网络通过反向平行信号传播来增强另一个网络。通过利用来自反馈网络底层的更具信息量的信号来指导前馈网络顶层的更新,反之亦然,CCL 能够同时将源输入转换为目标输出,并动态地相互影响这些转换。在使用多层感知器和卷积神经网络的 MNIST、FashionMNIST、CIFAR10 和 CIFAR100 数据集上的实验结果表明,CCL 达到了与其他生物学合理算法相当的性能,同时提供了更具生物学现实性的学习机制。此外,我们展示了我们的方法在自动编码器任务中的适用性,强调了其在无监督表示学习方面的潜力。我们的工作为生物启发和合理的学习算法提供了一个方向,为神经网络中的学习和适应提供了一种替代机制。
发布时间: 10/1/2024
查看原文
作者: Ezra Karger, Houtan Bastani, Chen Yueh-Han, Zachary Jacobs, Danny Halawi, Fred Zhang, Philip E. Tetlock
预测未来事件是明智决策的重要输入。机器学习 (ML) 系统有潜力大规模提供预测,但目前还没有框架来评估 ML 系统在标准化预测问题集上的准确性。为了填补这一空白,我们引入了 ForecastBench:一个动态基准,它评估 ML 系统在自动生成和定期更新的 1,000 个预测问题集上的准确性。为了避免任何可能的数据泄露,ForecastBench 仅包含关于未来事件的问题,这些事件在提交时没有已知的答案。我们通过收集来自专家(人类)预测者、公众和 LLM 在基准的随机子集(N = 200)上的预测来量化当前 ML 系统的能力。虽然 LLM 在许多基准测试中取得了超越人类的表现,但它们在这里表现不佳:专家预测者优于表现最好的 LLM(p 值 <= 0.01)。我们在 www.forecastbench.org 的公开排行榜上展示了系统和人类得分。
发布时间: 10/1/2024
查看原文