arXiv 论文列表

Clinnova 联邦学习概念验证：跨境合作的关键见解

作者: Julia Alekseenko, Bram Stieltjes, Michael Bach, Melanie Boerries, Oliver Opitz, Alexandros Karargyris, Nicolas Padoy

Clinnova 是一项由法国、德国、瑞士和卢森堡共同发起的一项合作计划，致力于通过数据联合、标准化和互操作性来释放精准医疗的力量。这项欧洲大区倡议旨在利用人工智能 (AI) 和数据科学创建可互操作的欧洲标准，以提高医疗保健结果和效率。主要组成部分包括多学科研究中心、联合生物银行战略、数字健康创新平台和联合 AI 战略。它针对炎症性肠病、类风湿性疾病和多发性硬化症 (MS)，强调数据质量以开发用于个性化治疗和转化研究的 AI 算法。斯特拉斯堡 IHU（微创手术研究所）在该计划中处于领先地位，负责开发联合学习 (FL) 概念验证 (POC)，这将成为推动医疗保健领域 AI 发展的基础。Clinnova-MS 的核心目标是通过使用 FL 开发更准确的模型来提高 MS 患者的护理水平，这些模型可以检测疾病进展，指导干预措施，并在多个站点验证数字生物标志物。本技术报告介绍了 Clinnova 框架内关于 MS 磁共振成像分割的首个跨境联合 POC 的见解和主要收获。虽然我们的工作标志着通过跨境合作推进 MS 分割的一个重要里程碑，但也强调了在医疗保健环境中充分发挥 FL 潜力的重要性，需要解决技术、物流和伦理方面的考虑因素。

发布时间: 10/4/2024

查看原文

针对语言模型的适应性内容水印攻击优化

作者: Abdulrahman Diaa, Toluwani Aremu, Nils Lukas

大型语言模型（LLM）可能被滥用于传播网络垃圾邮件和虚假信息。内容水印技术通过在模型生成的输出中隐藏信息来阻止滥用，并可以使用秘密水印密钥进行检测。鲁棒性是核心安全属性，它表明规避检测需要（显著）降低内容质量。许多 LLM 水印方法已被提出，但鲁棒性仅针对缺乏水印方法知识且只能找到次优攻击的非自适应攻击者进行测试。我们将 LLM 水印的鲁棒性表述为一个目标函数，并提出基于偏好的优化来调整针对特定水印方法的自适应攻击。我们的评估表明：（i）自适应攻击显著优于非自适应基线。（ii）即使在非自适应环境中，针对少数已知水印进行优化的自适应攻击在针对其他未见水印进行测试时仍然非常有效，并且（iii）基于优化的攻击是实用的，并且需要不到 7 个 GPU 小时。我们的发现强调了需要针对自适应攻击者测试鲁棒性的必要性。

发布时间: 10/4/2024

查看原文

创意故事生成中的集体批评家

作者: Minwook Bae, Hyounghun Kim

使用大型语言模型 (LLM) 生成数千字且具有叙事连贯性的长篇故事一直是一项具有挑战性的任务。以往的研究通过提出不同的框架来解决这一挑战，这些框架创建故事计划并根据该计划生成长篇故事。然而，这些框架主要集中在维持故事的叙事连贯性，往往忽视了故事策划中的创造力和从这些计划中生成的故事情节的表达力，而这些都是吸引读者兴趣的理想属性。本文提出了一种用于创意故事生成的集体批评框架 (CritiCS)，该框架由计划细化阶段 (CrPlan) 和故事生成阶段 (CrText) 组成，将集体修订机制集成到长篇故事生成过程，以促进这些属性。具体而言，在每个阶段，一群 LLM 评论家和一个领导者协作，在多个回合中逐步细化计划和故事草稿。广泛的人工评估表明，CritiCS 可以显著提高故事的创造力和读者参与度，同时保持叙事连贯性。此外，该框架的设计允许人类作家在批评过程中的任何角色中积极参与，从而实现故事创作中的交互式人机协作。

发布时间: 10/4/2024

查看原文

从数据中学习游戏的潜在规则：一个象棋故事

作者: Ben Fauber

我们证明了具有数百万参数的小型预训练基础生成语言模型可以从与过程相关的数据中学习过程的潜在规则。受斯蒂芬·茨威格的中篇小说“象棋小说”（英文名为“皇家游戏”）的启发，我们展示了 2800 万和 1.25 亿参数的预训练基础小型语言模型 (SLM) 可以使用 1000 到 100 万个例子进行指令微调，以学习象棋规则，提出合法移动，并准确地解决象棋问题。我们还探讨了连续语言模型微调时期对改进结果的影响，并证明了通过增加指令微调示例数量来减少模型幻觉。

发布时间: 10/4/2024

查看原文

SynCo：对比学习中合成难样本用于提升无监督视觉表征

作者: Nikolaos Giakoumoglou, Tania Stathaki

对比学习已成为自监督视觉表征学习中的主流方法，其中难负样本（与锚点样本非常相似）是增强学习表征的判别能力的关键。然而，由于识别和整合难负样本的难度，以及由此带来的计算成本显著增加，有效地利用难负样本仍然是一个挑战。为了解决这个问题，我们引入了 SynCo（对比学习中的合成负样本），这是一种新颖的对比学习方法，通过生成合成难负样本来提高模型性能。SynCo 建立在 MoCo 框架之上，引入了六种新策略来创建多样化的合成难负样本，这些样本可以在不增加太多计算开销的情况下动态生成。SynCo 实现了更快的训练和更好的表征学习，在预训练仅 200 个 epoch 后，ImageNet 线性评估的 top-1 准确率达到 68.1%，超过了使用相同 ResNet-50 编码器的 MoCo 的 67.5%。此外，它更有效地迁移到检测任务：在 PASCAL VOC 上，它优于监督基线和 MoCo，AP 达 82.5%；在 COCO 数据集上，它为边界框检测建立了新的基准，AP 达 40.4%，实例分割的 AP 达 35.4%。我们的合成难负样本生成过程显著提高了通过自监督对比学习学习到的视觉表征的质量。代码可在 https://github.com/giakoumoglou/synco 获取。

发布时间: 10/4/2024

查看原文

模型融合中的参数竞争均衡

作者: Guodong Du, Junlin Lee, Jing Li, Runhua Jiang, Yifei Guo, Shuyang Yu, Hanting Liu, Sim Kuan Goh, Ho-Kin Tang, Daojing He, Min Zhang

虽然微调预训练模型已成为普遍做法，但这些模型在特定领域之外通常表现不佳。最近开发的模型融合技术能够将多个为不同任务微调的模型直接集成到单个模型中。这种策略促进了多任务能力，而无需在原始数据集上重新训练。然而，现有方法在解决任务之间潜在冲突和复杂相关性方面存在不足，特别是在参数级调整方面，这给有效平衡各种任务之间的参数竞争带来了挑战。本文介绍了一种名为 PCB-Merging（参数竞争平衡）的创新技术，这是一种轻量级且无需训练的技术，可调整每个参数的系数以实现有效的模型融合。PCB-Merging 采用内部平衡来衡量单个任务内参数的重要性，并采用外部平衡来评估不同任务之间参数的相似性。重要性评分较低的参数将被丢弃，而剩余的参数将被重新缩放以形成最终合并的模型。我们评估了我们的方法在各种合并场景中的表现，包括跨任务、跨领域和跨训练配置，以及域外泛化。实验结果表明，我们的方法在多种模态、领域、模型大小、任务数量、微调形式和大型语言模型中实现了显著的性能提升，优于现有的模型融合方法。代码可在以下地址公开获取：\url{https://github.com/duguodong7/pcb-merging}。

发布时间: 10/4/2024

查看原文

噪声和变化标签分布下的在线多标签分类

作者: Yizhang Zou, Xuegang Hu, Peipei Li, Jun Hu, You Wu

多标签数据流在现实世界应用中通常包含噪声标签，即在相关和无关标签中都会出现。然而，现有的在线多标签分类方法在标签质量方面大多受到限制，无法处理噪声标签的情况。另一方面，真实标签分布可能随着时间的推移而变化，这在观察到的噪声标签分布中是隐藏的，难以跟踪，这对概念漂移适应提出了重大挑战。受此启发，我们提出了一种在线多标签分类算法，该算法适用于噪声和变化标签分布 (NCLD)。该凸目标旨在同时对标签评分和标签排序进行建模，以实现高精度，其对 NCLD 的鲁棒性得益于三个新颖的工作：1) 局部特征图用于联合重建标签评分和观察到的标签，并推导出无偏排序损失并应用于学习可靠的排序信息。2) 通过检测两个相邻块之间无偏标签基数的差异，我们识别出真实标签分布的变化，并重置从过去学习的所有信息或排序，以匹配新的分布。3) 基于从闭式最优模型解推导出的更新规则，实现了高效准确的更新。最后，经验实验结果验证了我们的方法在 NCLD 下对实例进行分类的有效性。

发布时间: 10/4/2024

查看原文

扩散与选项：面向时间扩展任务的分层生成技能组合

作者: Zeyu Feng, Hao Luan, Kevin Yuchen Ma, Harold Soh

安全且成功地部署机器人不仅需要生成复杂计划的能力，还需要频繁地重新规划和纠正执行错误的能力。本文针对在后退视界方式下，在时间扩展目标下进行长时域轨迹规划的挑战。为此，我们提出了 DOPPLER，一个数据驱动的分层框架，它基于线性时序逻辑 (LTL) 指定的指令生成和更新计划。我们的方法将时间任务分解成具有离线非专家数据集的层次强化学习的选项链。它利用扩散模型来生成具有低级动作的选项。我们在批次生成期间设计了一种行列式引导的后验采样技术，这提高了扩散生成的选项的速度和多样性，从而导致更有效的查询。在机器人导航和操作任务上的实验表明，DOPPLER 可以生成一系列轨迹，这些轨迹逐渐满足指定的避免障碍物和顺序访问的公式。演示视频可在以下网址在线获取：https://philiptheother.github.io/doppler/。

发布时间: 10/4/2024

查看原文

BiSSL：用于自监督预训练和微调的双层优化

作者: Gustav Wagner Zakarias, Lars Kai Hansen, Zheng-Hua Tan

在这项工作中，我们提出了 BiSSL，一个首创的训练框架，它引入了双层优化来增强自监督学习中预训练和下游微调阶段之间的对齐。BiSSL 将预训练和下游任务目标分别制定为双层优化问题中的下层和上层目标，并作为自监督学习管道中的一个中间训练阶段。通过更明确地建模这些训练阶段的相互依赖性，BiSSL 促进了它们之间增强的信息共享，最终导致更适合下游任务的骨干参数初始化。我们提出了一种训练算法，该算法在优化 BiSSL 中定义的两个目标之间交替进行。使用在 STL10 数据集上使用 SimCLR 预训练的 ResNet-18 骨干，我们证明了与传统的自监督学习管道相比，我们提出的框架在各种下游图像分类数据集上始终如一地实现了改进或具有竞争力的分类精度。对骨干特征的定性分析进一步表明，BiSSL 在微调之前增强了骨干中下游特征的对齐。

发布时间: 10/4/2024

查看原文

元度量：利用人类偏好校准生成任务的度量指标

作者: Genta Indra Winata, David Anugraha, Lucky Susanto, Garry Kuwanto, Derry Tanti Wijaya

理解性能评估指标的质量对于确保模型输出与人类偏好一致至关重要。然而，目前尚不清楚每个指标在多大程度上能够捕捉到这些偏好的各个方面，因为指标往往在一个特定领域表现出色，但在所有维度上却并非如此。为了解决这个问题，必须系统地将指标校准到人类偏好的特定方面，以满足每个方面的独特特征。我们引入了 MetaMetrics，这是一种经过校准的元指标，旨在以监督的方式评估不同模态的生成任务。MetaMetrics 优化了现有指标的组合，以增强其与人类偏好的对齐。我们的指标在语言和视觉下游任务中都展现出灵活性和有效性，在各种多语言和多领域场景中都显示出显著优势。MetaMetrics 与人类偏好高度一致，并且具有高度可扩展性和易于集成到任何应用程序中。这使得 MetaMetrics 成为改进生成任务评估的强大工具，确保指标能够更具代表性地反映人类在不同语境下的判断。

发布时间: 10/4/2024

查看原文