arXiv:2408.16673v2 宣布类型: 替换交叉
摘要:大规模语言模型(LLMs)通常依赖于监督微调(SFT)来专门应用于下游任务,而交叉熵(CE)损失则是默认选择。然而,CE最大化观察到的数据的似然性,而忽略了其他可能性。因此,CE通常会导致模型输出的多样性降低,这阻碍了对外进一步发展的探索,因为进一步的发展需要通过抽样来探索更好的响应。为了解决这一局限性,本文提出了一种新的游戏论形式的SFT。在这种框架中,引入了一个辅助变量来调节学习过程。我们证明,提出的游戏论方法与带熵正则化的逆KL最小化问题有关。这种正则化可以防止过度记忆训练数据,并促进输出的多样性。为了实现这一框架,我们开发了GEM,这是一种与CE相比计算效率更高的新训练算法,利用了一些LLM的独特性质。对从3B到70B参数的预训练模型进行的实证研究表明,GEM在下游性能方面达到了与CE相当的水平,同时显著提高了输出的多样性。这种多样性的增加转化为了在聊天和代码生成任务测试时计算缩放方面的性能增益。此外,我们观察到,保持输出的多样性还具有额外的好处,即减轻遗忘,因为保持多样化的输出促使模型在整个训练过程中保留预训练知识。
arXiv:2408.12606v3 宣布类型: replace-cross
摘要:乳腺磁共振成像(MRI)在各种成像模态中对乳腺癌检测的灵敏度最高,并且在中国高风险女性中是标准做法。解读多序列MRI耗时且易受主观变异影响。我们开发了一个大型模态专家混合模型(MOME),在统一结构中整合了多参数MRI信息,并利用来自中国5,205名女性患者的乳腺MRI扫描进行模型开发和验证。MOME匹配了四位资深放射科医师在识别乳腺癌方面的表现,并优于一位初级放射科医师。该模型能够减少乳腺影像报告和数据系统(BI-RADS) 4级患者的不必要的活检,区分三阴性乳腺癌,并预测新辅助化疗后的病理完全缓解。MOME进一步支持在缺少模态数据时进行推理,并通过突出病变和评估模态贡献来提供决策解释。总之,MOME展示了通过多参数MRI对乳腺癌患者进行非侵入性、个性化管理的准确且鲁棒的多模态模型。代码可在 https://github.com/LLYXC/MOME/tree/main 获得。
arXiv:2408.09049v2 宣布类型: replace-cross
摘要:大规模语言模型(LLMs)表现出非确定性行为,而提示已经成为了引导其输出朝向期望方向的主要方法之一。一种流行策略是赋予模型一个特定的“人设”,以诱导更具多样性和上下文敏感的响应,类似于人类视角所展现的多样性。然而,与人们期望基于人设的提示会带来广泛的意见变化相反,我们的实验表明,LLMs保持一致的价值取向。特别地,我们观察到它们的响应中存在一种持续的惯性,某些道德和价值维度,尤其是避免伤害和公平性,即使在不同的“人设”设置下也明显偏向某个方向。为了系统地研究这一现象,我们使用了大规模的角色扮演方法,结合随机多样化的人设提示与模型输出的宏观趋势分析。我们的研究结果突显了LLMs中的强烈内部偏见和价值偏好,强调了仔细审查和调整这些模型以确保平衡和公平应用的重要性。
arXiv:2407.20177v4 宣布类型: 替换交叉
摘要:领域重加权是一个新兴的研究领域,旨在通过调整不同数据源的相对权重来提高LLM预训练的效果和效率。我们发现,在较小规模下表现良好的数据混合可能在较大规模下不再保持其优势,这挑战了现有做法,即在小型实验中确定具有竞争力的数据混合,然后直接应用于更大的规模。为了解决这一问题,我们提出了AutoScale,这是一种具有两阶段、规模感知的数据组合框架。首先,AutoScale拟合一个参数化模型,该模型可以预测不同数据组合下的模型损失,然后使用该模型在较小、更易于管理的预算下找到一个近似最佳分配。接下来,利用一种新的理论分析方法,该方法研究了最优组合如何随规模演化,AutoScale可以将该组合外推到更大的预算而不需进一步重新训练。从实验上讲,AutoScale加速了收敛并改善了下游性能。例如,在预训练GPT-2 Large时,它比基线实现28%更快的困惑度减少,并在未加权训练上实现了高达38%的提速,同时在各种下游任务上达到最佳平均结果。总体而言,我们的发现表明,随着训练规模的变化,领域的重要性也会发生变化,突显了在LLM训练中依赖于规模的数据整理的必要性。我们的代码已开源。
arXiv:2407.12605v2 通知类型: 替换-交叉
摘要:云-边缘计算要求应用程序在多样化的基础设施上运行,通常由网络物理事件触发。容器提供了轻量级的部署选项,但从中央仓库拉取镜像可能会导致延迟。本文提出了一种新的声明式方法和开源原型,用于在云-边缘连续体中跨多个位置复制容器镜像。考虑到资源可用性、网络QoS和存储成本,我们利用逻辑编程来(i)通过回答集编程(ASP)确定最优初始放置,并(ii)使用基于Prolog的持续推理来调整放置。通过仿真实验,我们展示了结合ASP和基于Prolog的持续推理如何在基础设施规模增加时平衡成本优化和快速决策的放置调整能力。
arXiv:2407.07760v2 消息类型: 交叉替换
摘要:由于难以识别目标组件以及遮挡、背景杂乱、外观或环境随时间变化导致的混淆,长期视频中跟踪和分割多个具有不同或复杂部分的相似对象尤其具有挑战性。在这篇论文中,我们提出了一种鲁棒的视频对象分割框架,该框架学习空间语义特征和具有区分性的对象查询,以解决上述问题。具体来说,我们构建了一个空间语义块,包括语义嵌入组件和空间依赖性建模部分,用于关联全局语义特征和局部空间特征,提供全面的目标表示。此外,我们开发了一个掩码交叉注意力模块,在查询传播过程中专注于目标对象的最具有区分性的部分,从而减轻噪声累积,确保有效的长期查询传播。广泛实验结果表明,所提出的方法在基准数据集上的性能达到甚至超越了最新的技术水平,包括DAVIS2017测试集(**87.8%),YoutubeVOS 2019(**88.1%),MOSE验证集(**74.0%),以及LVOS测试集(**73.0%),并展示了我们模型的有效性和泛化能力。完整的源代码和训练模型可以在 \href{https://github.com/yahooo-m/S3}{https://github.com/yahooo-m/S3} 发布。
arXiv:2407.05952v3 通知类型: 替换-交叉
摘要:表格推理涉及对表格数据的自然语言查询进行解释,这为语言理解与结构性数据分析的结合提出了独特挑战。现有方法要么依赖于文本推理,在语义解释方面表现出色,但在数学运算方面存在困难,要么依赖于符号推理,能够很好地处理计算但在语义理解方面有所欠缺。本文介绍了新型算法H-STAR,该算法在两阶段过程中结合了符号和语义(文本)方法来解决这些局限性。H-STAR采用:(1)逐步表提取,通过“多视图”列检索后进行行提取,以及(2)自适应推理,根据问题类型调整推理策略,利用语义推理进行直接查找和复杂词汇查询,并在定性和逻辑任务中通过符号推理支持增强文本推理。我们广泛的实验表明,H-STAR在三个表格问答(QA)和事实验证数据集中显著优于最先进的方法,这突显了其有效性和效率。
arXiv:2407.05712v2 通知类型: replace-cross
摘要:现有的神经头像方法在肖像动画的质量和运动范围方面取得了显著进展。然而,这些方法忽略了计算开销,并且据我们所知,没有任何一种方法是设计来在移动设备上运行的。本文提出了一种轻量级的一次性神经头像方法——MobilePortrait,通过将外部知识整合到运动建模和图像合成中,降低了学习复杂度,使得在移动设备上进行实时推理成为可能。具体而言,我们引入了一种显式关键点和隐式关键点的混合表示法,以实现精确的运动建模,并使用预先计算的视觉特征来增强前景和背景的合成。借助这两种关键设计并采用简单的U-Nets作为骨干网络,我们的方法在计算需求方面仅为现有方法的十分之一,验证结果显示其在移动设备上的速度超过100 FPS,并支持视频和音频驱动的输入。
arXiv:2406.11721v2 声明类型: replace-cross
摘要:理解对齐技术始于理解指令调优带来的零样本泛化,但对其中机制的理解还很有限。现有的工作主要集中在任务级别上,而没有考虑到任务是人为定义的,并且对大型语言模型来说,仅仅是由标记和表示组成的。为了弥合这一差距,我们从数据本身的视角研究了零样本泛化。首先,我们证明了零样本泛化在指令调优早期就开始发生了,损失在这过程中作为一个稳定的指标发挥了作用。接着,我们从相似性和粒度的角度研究了训练数据的排列方式,确认了接触某些训练实例的时间可能大大有助于在未见任务上的泛化。最后,我们提出了一种更为实际的训练数据排列框架——以测试为中心的多轮排列,并展示了其在促进持续学习和进一步降低损失方面的有效性。首次展示,零样本泛化在指令调优过程中是训练数据和测试数据在实例级别上基于相似性的泛化形式。我们的代码发布在 https://github.com/thunlp/Dynamics-of-Zero-Shot-Generalization。
arXiv:2406.09564v3 宣告类型: replace-cross
摘要:上下文多臂老虎机算法对于解决实际决策问题至关重要。在实践中,从不同领域收集上下文多臂老虎机的反馈可能涉及不同的成本。例如,从实验小鼠(作为源领域)和人类(作为目标领域)测量药物反应。不幸的是,当存在分布转移时,将来自源领域的上下文多臂老虎机算法适应到目标领域仍然是一个主要挑战,且未被充分探索。在本文中,我们提出了第一个用于上下文多臂老虎机的一般领域自适应方法。我们的方法通过从源领域收集反馈来学习目标领域的多臂老虎机模型。我们的理论分析表明,即使跨领域适应,我们的算法也能保持亚线性后悔界。实验证明,我们的方法在实际数据集上优于最新的上下文多臂老虎机算法。