arXiv 论文列表

DSG-KD：从领域特定到通用语言模型的知识蒸馏

预训练语言模型经过微调以解决特定下游任务是自然语言处理（NLP）中的常见方法。然而，通过微调获取领域特定知识具有挑战性。传统方法涉及在特定任务微调之前，使用大量领域特定数据预训练语言模型。本研究基于从韩国儿科急诊部门（PEDs）获取的电子病历（EMR）数据，探讨紧急/非紧急分类任务。我们的研究发现，现有的领域特定预训练语言模型在处理非英语地区多语言自由文本数据特征时，表现不如通用语言模型。为解决这些局限性，我们提出了一种领域知识转移方法，利用知识蒸馏通过微调将领域特定知识注入通用语言模型。本研究通过将通用语言模型定义为学生模型，领域特定预训练模型定义为教师模型，展示了模型间专业知识的有效转移。特别是，我们解决了从非英语地区（如韩国）的PEDs获取的EMR数据的复杂性，并证明所提出的方法在这些情境下提高了分类性能。所提出的方法不仅在韩国PED EMR数据上优于基线模型，还具有在各种专业和技术领域的广泛适用性。未来工作中，我们计划将此方法扩展至包括多个非英语地区，并解决更多下游任务，旨在利用最先进的知识蒸馏技术开发高级模型架构。代码可在https://github.com/JoSangYeon/DSG-KD获取。

发布时间: 9/24/2024

查看原文

部署开源大型语言模型：性能分析

自2023年11月ChatGPT发布以来，大型语言模型（LLMs）取得了显著的成功，包括在开源社区中，许多开源权重模型可供使用。然而，部署此类服务的要求往往未知且难以提前评估。为了促进这一过程，我们在波尔多大学Inria中心进行了大量测试。本文中，我们提出了一种基于可用GPU的多个不同大小模型（主要是Mistral和LLaMa）性能的比较，使用vLLM，一个旨在优化这些模型推理的Python库。我们的结果为希望部署LLMs的私人及公共团体提供了宝贵的信息，使他们能够根据可用硬件评估不同模型的性能。因此，本研究有助于促进这些大型语言模型在各种应用领域的采用和使用。

发布时间: 9/24/2024

查看原文

大型语言模型的端到端图展平方法

近年来，大型语言模型（LLMs）的突破为实现图数据的通用方法提供了新思路。将图转换为自然语言供LLMs处理的常见做法，即图展平，表现出良好的通用性和可解释性。然而，文本格式的组织不佳导致在长距离场景理解中表现不佳。受人类认知推理习惯的启发，我们提出了一种新的图展平方法以适应LLMs，称为端到端有向无环图路径提示（EEDP）。在真实世界数据集上的实验表明，EEDP在长距离场景中提升了LLMs的推理性能，同时在短距离场景中保持了优异的表现，展示了面对距离变化时的良好鲁棒性。

发布时间: 9/24/2024

查看原文

Mammo-聚类：一种用于乳腺X线摄影中检测与分类的弱监督多视角全局-局部上下文聚类网络

arXiv:2409.14876v1 公告类型: 交叉摘要: 乳腺癌长期以来对女性健康构成重大威胁，因此早期筛查对于减轻其影响至关重要。然而，作为早期筛查的首选方法，乳腺X线摄影面临着双重阅读负担、在偏远和欠发达地区推广的挑战以及由于数据限制而难以实现智能早期筛查发展等问题。为了应对这些挑战，我们提出了一种基于上下文聚类的弱监督多视角乳腺X线摄影早期筛查模型。上下文聚类作为一种既非卷积神经网络也非变换器的特征提取结构，结合多视角学习进行信息互补，展现出一种有前景的方法。弱监督设计专门针对数据限制问题。我们的模型在两个公共数据集上以较少的参数实现了最先进的性能，Vindr-Mammo数据集上的AUC为0.828，CBIS-DDSM数据集上的AUC为0.805。我们的模型显示出减轻医生负担和提高欠发达地区女性乳腺癌筛查可行性的潜力。

发布时间: 9/24/2024

查看原文

面向医学图像中任意分割的无真值评估方法

我们致力于构建一个无需真实标签的评估模型，用于评估SAM（分割一切模型）及其变体在医学图像中生成的分割质量。该模型通过比较输入图像与其对应的分割图来估计分割质量分数。基于先前的研究，我们将此问题框架化为监督学习框架内的回归问题，使用Dice分数（以及其他可选指标）来计算训练损失。该模型利用大量公开的医学图像数据集进行训练，这些数据集包含了SAM及其变体的分割预测。我们将此模型命名为EvanySeg（医学图像中任意分割的评估）。我们对基于卷积的模型（如ResNet）和基于Transformer的模型（如ViT）进行了探索，结果表明ViT在EvanySeg中表现更优。该模型可应用于多种任务，包括：（1）通过检测低百分位分割质量分数来识别分割质量较差的样本；（2）在没有真实标签的情况下，通过测试样本的平均分数来基准化分割模型；（3）在人机协作过程中，通过在分数空间内应用阈值来提醒人类专家；（4）在测试时，当存在多个分割模型时，通过选择得分最高的预测来为每个测试样本选择最佳分割预测。模型和代码将在https://github.com/ahjolsenbics/EvanySeg上提供。

发布时间: 9/24/2024

查看原文

FedSlate：一种联邦深度强化学习推荐系统

强化学习方法已被用于优化推荐系统中的长期用户参与度。然而，现有的基于强化学习的推荐系统并未充分利用不同平台上个体用户行为的相关性。一种潜在的解决方案是将来自各个平台的数据集中到一个中心位置，并使用这些聚合数据进行训练。然而，这种方法引发了经济和法律问题，包括增加的通信成本和对用户隐私的潜在威胁。为了应对这些挑战，我们提出了**FedSlate**，一种联邦强化学习推荐算法，该算法有效利用了在法律层面禁止共享的信息。我们采用SlateQ算法来辅助FedSlate学习用户的长期行为并评估推荐内容的价值。我们将推荐系统的现有应用范围从单用户单平台扩展到单用户多平台，并通过引入联邦学习来解决跨平台学习的挑战。我们使用RecSim构建了一个模拟环境来评估FedSlate，并将其性能与最先进的基准推荐模型进行比较。实验结果表明，在各种环境设置下，FedSlate在基线方法上表现出优越的效果，并且在基线方法完全不适用的情况下，FedSlate促进了推荐策略的学习。代码可在\textit{https://github.com/TianYaDY/FedSlate}获取。

发布时间: 9/24/2024

查看原文

具有形式化目标达成保证的新型智能体：移动机器人实验研究

强化学习（RL）已被证明在机器人领域的多项任务中既有效又便捷。然而，它需要探索足够多的状态-动作对，其中许多可能是不安全或不重要的。例如，在没有保证在某个情节中能够达到某些期望状态的情况下，在线无模型学习可能会带来危险且效率低下。为了解决安全性问题，一种越来越常见的方法是增加一个屏蔽系统，将RL动作限制在安全动作集合内。然而，这类框架的一个难点是如何有效地将RL与屏蔽系统结合，以确保探索不会过度受限。本文提出了一种名为Critic As Lyapunov Function（CALF）的新型安全无模型RL代理，并展示了CALF如何以高效便捷的方式改进机器人控制基线，同时确保稳定目标达成的保障。后者通常是安全性的关键部分。通过CALF，所有状态-动作对仍可探索，同时正式保证了期望目标状态的达成。本文提供了形式化分析，展示了CALF的目标稳定保障特性，并通过一组真实世界和数值实验（使用非完整轮式移动机器人（WMR）TurtleBot3 Burger）证实了CALF在几集设置中相对于近端策略优化（PPO）等成熟RL代理以及修改版SARSA在总成本达成方面的优越性。

发布时间: 9/24/2024

查看原文

针对大型语言模型的有效且隐蔽的模糊测试驱动越狱攻击

大型语言模型（LLMs）在各种任务中表现出色，但仍容易受到越狱攻击，攻击者通过创建越狱提示来误导模型生成有害或冒犯性内容。当前的越狱方法要么严重依赖手工制作的模板，这在可扩展性和适应性方面存在挑战，要么难以生成语义连贯的提示，使其容易被检测到。此外，大多数现有方法涉及冗长的提示，导致查询成本更高。本文针对这些挑战，提出了一种新的越狱攻击框架，这是一种自动化的黑盒越狱攻击框架，结合了黑盒模糊测试方法并进行了一系列定制设计。我们的方法不依赖手工制作的模板，而是从一个空种子池开始，无需搜索任何相关的越狱模板。我们还开发了三种新的问题依赖变异策略，使用LLM助手生成语义连贯且长度显著减少的提示。此外，我们实现了一个两级判断模块，以准确检测真正的成功越狱。我们在7个代表性LLM上评估了我们的方法，并与5种最先进的越狱攻击策略进行了比较。对于GPT-3.5 turbo、GPT-4和Gemini-Pro等专有LLM API，我们的方法分别实现了超过90%、80%和74%的攻击成功率，超过了现有基线60%以上。此外，我们的方法在显著减少越狱提示长度的同时，能够保持高语义连贯性。当针对GPT-4时，我们的方法即使在100个标记的情况下也能实现超过78%的攻击成功率。此外，我们的方法具有可转移性，并且对最先进的防御措施具有鲁棒性。我们将在发表后开源我们的代码。

发布时间: 9/24/2024

查看原文

将知识图谱嵌入函数空间

arXiv:2409.14857v1 公告类型: 交叉摘要: 我们提出了一种新颖的嵌入方法，该方法与传统方法不同，它在有限维函数空间中进行操作，而不是在有限向量空间中，从而显著偏离了标准的知识图谱嵌入技术。最初使用多项式函数来计算嵌入，然后我们使用具有不同层复杂度的神经网络来表示更复杂的嵌入。我们认为，使用函数进行嵌入计算可以增强表达能力，并允许更多的自由度，从而实现实体表示的组合、导数和原语等操作。此外，我们详细描述了我们方法的逐步构建过程，并提供了可重复使用的代码，从而促进了该领域进一步的探索和应用。

发布时间: 9/24/2024

查看原文

FUSED-Net：通过解冻参数、伪支持集、嵌入归一化和领域适应增强少样本交通标志检测

自动交通标志识别在现代交通系统中至关重要，促使多项研究致力于通过利用大规模数据集来提升性能。由于交通标志的外观在不同国家之间存在差异，因此构建大规模数据集往往不切实际，需要能够利用有限数据产生满意性能的高效模型。在此背景下，我们提出了“FUSED-Net”，该模型基于Faster RCNN进行交通标志检测，并通过解冻参数、伪支持集、嵌入归一化和域适应等技术来减少数据需求。与传统方法不同，我们在训练过程中保持所有参数解冻，使FUSED-Net能够从有限样本中学习。通过数据增强生成的伪支持集进一步提升了性能，弥补了目标域数据的稀缺性。此外，嵌入归一化被引入以减少类内方差，标准化特征表示。通过在不同于目标域的多样化交通标志数据集上进行预训练，域适应技术提高了模型的泛化能力。在BDTSD数据集上评估FUSED-Net时，我们在1-shot、3-shot、5-shot和10-shot场景下分别实现了2.4倍、2.2倍、1.5倍和1.3倍的mAP提升，相较于最先进的少样本目标检测（FSOD）模型。此外，我们在多个场景下的跨域FSOD基准测试中超越了现有最先进的工作。

发布时间: 9/24/2024

查看原文