arXiv 论文列表

作者: Yingjian Chen, Feiyang Li, Xingyu Song, Tianxiao Li, Issey Sukeda, Irene Li

arXiv:2504.10982v2 宣布类型: replace-cross 摘要：大型语言模型（LLMs）在医学问答任务中表现良好，但由于隐私限制，防止在临床环境中使用GPT-4等商用模型，因此它们在日语环境中的有效性受到限制。为此，最近的努力集中在指令微调开源LLMs上，尽管结合检索增强生成（RAG）的方法潜力尚待开发。为了弥合这一差距，我们是第一个探索基于知识图谱（KG）的RAG框架，用于日语医学问答的小型开源LLMs。实验结果表明，在使用小型开源LLMs进行日语医学问答时，基于知识图谱的RAG的影响是有限的。进一步的案例研究揭示了RAG的有效性受到外部检索内容的质量和相关性的影响。这些发现为在日语医学问答中应用RAG的挑战和潜力提供了宝贵的见解，同时也为其他低资源语言提供了参考。

发布时间: 4/17/2025

查看原文

视觉语言模型在神经心理学测试中表现普遍不佳

作者: Gene Tangtartharakul, Katherine R. Storrs

arXiv:2504.10786v2 通告类型: 交叉替换摘要：视觉语言模型（VLMs）在视觉推理任务中表现出色，成功应对了需要高层次图像理解的大学级挑战。然而，VLMs在处理像方向、位置、连续性和遮挡这样的基础视觉概念时的一些近期报告显示，人类和VLM视觉之间可能存在一条潜在的鸿沟。在这里，我们利用神经心理学的工具，系统评估了三个最新的VLMs在视觉领域的能力。通过从六个临床和实验电池中抽样的51项测试，我们根据健康成年人的正常表现，描述了领先VLMs的视觉能力。虽然这些模型在简单的对象识别任务中表现出色，但我们发现其在低级和中级视觉能力上的普遍缺陷，这些缺陷在人类中被认为是临床显著的。这些选择性的缺陷，通过经过验证的测试电池进行特征描述，表明一个人工系统可以在无需发展对人类而言无需显式训练的基础视觉概念的情况下，实现复杂的对象识别。

发布时间: 4/17/2025

查看原文

自我控制动态扩展模型 for 连续学习

作者: Runqing Wu, Kaihui Huang, Hanyi Zhang, Fei Ye

arXiv:2504.10561v2 公告类型: replace-cross 摘要：持续学习（CL）是一种高级训练范式，在获得新任务期间先前的数据样本保持不可访问。许多研究致力于利用预训练的视觉变换器（ViT）来提高模型在持续学习中的效果。尽管如此，这些方法通常使用单一的、静态的骨干网络，这在处理多种数据领域的新任务时无法充分适应，因为活跃参数的数量很大。本文通过引入一种创新的自我控制动态扩展模型（SCDEM），解决了这一限制，该模型协调多个不同的可训练预训练ViT骨干网络，提供多样且语义丰富的表示。具体而言，通过使用多骨干架构作为共享模块，所提出的SCDEM动态生成一个新的专家，以最少的参数来适应新任务。还引入了一种新颖的合作优化机制（COM），通过利用历史专家的预测信号协同优化多个骨干网络，从而在不抹去先前获得的知识的情况下促进新任务的学习。此外，提出了一种新的特征分布一致性（FDC）方法，通过基于最优传输距离的机制将先前学习和当前学习的表示之间的语义相似性对齐，有效减轻了负知识转移的影响。此外，为进一步缓解过度正则化挑战，本文提出了一种新颖的动态逐层特征注意力机制（DLWFAM），以自主确定每个可训练表示层的惩罚强度。进行了广泛的实验来评估所提出方法的有效性，实证结果表明，该方法达到了最先进的性能。

发布时间: 4/17/2025

查看原文

LLM遗忘揭示了当前基准中比预期更强的coreset效应

作者: Soumyadeep Pal, Changsheng Wang, James Diffenderfer, Bhavya Kailkhura, Sijia Liu

arXiv:2504.10185v2 声明类型: replace-cross 摘要: 大型语言模型去学习已成为确保通过移除预训练模型中的有害数据-模型影响来实现安全性与可控行为的同时保留通用用途的关键挑战。近期有许多致力于开发大型语言模型去学习基准，如WMDP（大规模破坏代理）和MUSE（机器去学习六项评估），这些基准促进了去学习性能评估的标准化和方法的比较。尽管这些基准具有实用性，但我们首次发现这些基准中存在一种新颖的核心集效应。具体来说，我们发现使用原始（完整）遗忘集进行的大型语言模型去学习，可以通过显著较小的子集（充当“核心集”）得到有效保持，例如，只需遗忘集的5%甚至更低的比例，即使这些子集是随机选择的。这表明，在这些基准中，即使在数据量极低的情况下，大型语言模型去学习也可以出乎意料地容易完成。我们证明了在这些基准中，无论使用哪种去学习方法（如NPO（负面偏好优化）和RMU（表示误导去学习），这两种方法在这些基准中非常流行），核心集效应仍然很强。这种出乎意料的强大核心集效应在各种数据选择方法中也表现出鲁棒性，这些方法从随机选择到更复杂的启发式方法都有。我们通过关键字视角解释了大型语言模型去学习中的核心集效应，显示仅从遗忘集中提取的关键字对去学习的效果贡献巨大，表明当前的去学习主要是由一组高影响的标记驱动，而不是整个数据集。我们还从额外的维度，如模式连通性和对抗“监狱突破”攻击的鲁棒性，进一步证明了核心集去学习模型的忠实性。代码可在 https://github.com/OPTML-Group/MU-Coreset 获得。

发布时间: 4/17/2025

查看原文

BoTTA：设备端测试时长适应xing基准测试

作者: Michal Danilowski, Soumyajit Chatterjee, Abhirup Ghosh

arXiv:2504.10149v2 公告类型: replace-cross 摘要：深度学习模型的性能在运行时依赖于测试样本，而从训练数据分布的变化会显著降低准确性。测试时自适应（TTA）通过在推理过程中调整模型来解决这一问题，无需使用标记的测试数据或访问原始训练集。尽管研究从算法复杂性、数据和类分布变化、模型架构以及离线学习与连续学习等多个角度探索了TTA，但针对移动和边缘设备的具体约束仍然未被充分探讨。我们提出了一种名为BoTTA的基准，旨在在移动和边缘设备的实际约束条件下评估TTA方法。我们的评估针对四种由资源限制和使用条件引起的挑战：（i）有限的测试样本，（ii）有限的类曝光，（iii）多样化的分布变化，以及（iv）样本内的重叠变化。我们使用基准数据集评估最新的TTA方法，并在实际测试平台上报告系统级指标。此外，与先前的工作不同，我们通过提倡周期性自适应而非持续的推理时自适应，与设备上的需求保持一致。实验揭示了关键见解：许多最近的TTA算法在小数据集上挣扎，无法泛化到未见过的类别，并且依赖于分布变化的多样性和复杂性。BoTTA还报告了设备特定的资源使用情况。例如，尽管SHOT在使用512个适应样本时将准确性提高2.25倍，但在Raspberry Pi上使用峰值内存却是基模型的1.08倍。BoTTA为资源受限的实际部署中的TTA提供了可操作的指导。

发布时间: 4/17/2025

查看原文

理解并优化多阶段AI推理管道

作者: Abhimanyu Rajeshkumar Bambhaniya, Hanjiang Wu, Suvinay Subramanian, Sudarshan Srinivasan, Souvik Kundu, Amir Yazdanbakhsh, Midhilesh Elavazhagan, Madhu Kumar, Tushar Krishna

arXiv:2504.09775v2 类型: replace-cross 摘要：大规模语言模型（LLMs）的快速进化推动了日益复杂的推理管道和硬件平台的需求。现代LLM服务不仅超越了传统的预填充解码工作流，还整合了多阶段过程，如检索增强生成（RAG）、键值（KV）缓存检索、动态模型路由和多步骤推理。这些阶段具有不同的计算需求，需要结合GPU、ASIC、CPU和内存中心架构的分布式系统。然而，现有的模拟器缺乏建模这些异构多引擎工作流的准确性，限制了它们对架构决策的指导能力。为了填补这一缺口，我们引入了HERMES，这是一种异构多阶段LLM推理执行模拟器。HERMES能够模拟多样化的请求阶段，包括RAG、KV检索、推理、预填充和解码，跨复杂硬件层次结构进行建模。HERMES支持异构客户端并发执行多个模型，这是先前框架所不具备的，同时还集成高级批处理策略和多级内存层次结构。通过将实际硬件跟踪与分析建模相结合，HERMES捕捉到混合CPU加速部署中的关键权衡，如内存带宽争用、跨集群通信延迟和批处理效率。通过案例研究，我们探讨了推理阶段对端到端延迟的影响、混合管道的最佳批处理策略以及远程KV缓存检索的架构影响。HERMES使系统设计师能够应对LLM推理不断变化的景观，提供有关优化硬件软件协同设计以适应下一代AI负载的可操作见解。

发布时间: 4/17/2025

查看原文

个性化对话销售代理：基于上下文的用户画像以进行战略行动

作者: Tongyoung Kim, Jeongeun Lee, Soojin Yoon, Sunghwan Kim, Dongha Lee

arXiv:2504.08754v3 宣告类型: replace-cross 摘要：对话型推荐系统（CRSs）旨在通过对话与用户互动，提供个性化推荐。虽然传统的CRS主要侧重于提取偏好和检索项目，但现实世界中的电子商务互动涉及更为复杂的决策过程，其中用户会考虑到超出简单属性的多个因素。为了弥合这一差距，我们引入了对话型销售（CSales）这一新颖的任务，它统一了偏好提取、推荐和说服，以更好地支持用户决策过程。为了对CSales进行现实评价，我们提出了CSUser，这是一种基于真实数据构建的语言模型用户模拟器，能够建模多样化的用户特征、需求和个人特质。此外，我们还提出了CSI，这是一种能够通过对话主动推断上下文特征的对话型销售代理，以便进行个性化的行动规划。广泛的实验表明，CSUser有效地复制了真实用户的行为，并突显了上下文建模在战略行动选择中的重要性，最终推动了电子商务中的成功购买。

发布时间: 4/17/2025

查看原文

AI驱动的情感分析：解锁电子商务领域中的商业价值_v1

作者: Qianye Wu, Chengxuan Xia, Sixuan Tian

arXiv:2504.08738v2 通告类型: replace-cross 摘要：电子商务的迅速增长导致了大量客户反馈数据的涌现，从产品评论到服务互动不一而足。从这些数据中提取有意义的见解对于希望提高客户满意度并优化决策的企业至关重要。本文介绍了一种专为电子商务应用设计的AI驱动情感分析系统，兼顾了准确性和可解释性。我们的方法将传统的机器学习技术与现代深度学习模型相结合，不仅能够更细致地理解客户情感，还能保证决策过程的透明性。实验结果表明，我们的系统在多样化的大型数据集上超越了标准的情感分析方法，准确率达到89.7%。除了技术性能之外，我们在多个电子商务平台上的实际部署还证明了在客户参与度和运营效率方面的显著改进。本研究强调了将AI应用于商业环境中情感分析的潜力和挑战，并提供了有关实际部署策略和未来优化领域的见解。

发布时间: 4/17/2025

查看原文

基于案例的可解释深度学习for多标签ECG分类的对比学习

作者: Sahil Sethi, David Chen, Thomas Statchen, Michael C. Burkhart, Nipun Bhandari, Bashar Ramadan, Brett Beaulieu-Jones

arXiv:2504.08713v2 通知类型: 交叉替换摘要：基于深度学习的心电图（ECG）分类已经展现出了令人印象深刻的性能，但由于缺乏透明且忠实的解释，临床应用仍受到限制。事后方法如显著性图可能无法准确反映模型的真实决策过程。基于原型的推理提供了一种更透明的替代方案，通过将决策基于实际心电图段落的相似性，使忠实、案例为基础的解释成为可能。我们引入了ProtoECGNet，这是一种基于原型的深度学习模型，用于可解释的多标签心电图分类。ProtoECGNet 使用一种结构化、多分支架构，反映了临床解释工作流程：它结合了一个一维卷积神经网络（1D CNN）与全局原型进行节律分类，一个二维卷积神经网络（2D CNN）与时间局部原型进行基于形态的推理，以及另一个二维卷积神经网络（2D CNN）与全局原型进行广泛的异常处理。每个分支都使用一种为多标签学习设计的原型损失进行训练，结合了聚类、分离、多样性和一种新的对比损失，该损失鼓励不同类别原型之间的适当分离，同时允许聚类于频繁共存的诊断。我们在 PTB-XL 数据集上对所有 71 个诊断标签进行评估，显示出与最先进的黑盒模型相当的性能，同时提供了结构化的案例为基础的解释。为了评估原型质量，我们对最终模型投影后的原型进行了一种结构化的临床审查，发现这些原型被评定为具有代表性和清晰性。ProtoECGNet 表明原型学习可以有效地扩展到复杂的多标签时间序列分类，为临床决策支持提供了透明且可信任的深度学习模型的实用途径。

发布时间: 4/17/2025

查看原文

Towards 对称低秩适配器

作者: Tales Panoutsos, Rodrygo L. T. Santos, Flavio Figueiredo

arXiv:2504.03719v2 宣告类型: replace-cross 摘要: 在本文中，我们介绍了一种优化后的低秩对称适配器——Symmetric Low-Rank Adapters (SymLoRA)，这是LoRA的一种具有更少权重的变体。该方法利用低秩对称权重矩阵来更有效地学习下游任务。传统的LoRA通过类似于奇异值分解(SVD)的方法，将微调权重与原始预训练权重累积起来，即模型权重通过形式为$BA$（其中$B \in \mathbb{R}^{n\times r}$，$A \in \mathbb{R}^{r\times n}$，$r$是合并后权重矩阵的秩）的形式进行微调。相比之下，我们的方法，即SymLoRA，将微调权重表示为谱分解的形式，即$Q \, diag(\Lambda)\, Q^T$，其中$Q \in \mathbb{R}^{n\times r}$，$\Lambda \in \mathbb{R}^r$。SymLoRA所需的微调权重大约只有原来的一半。在这里，我们证明了这种方法在下游任务效果上几乎没有损失。

发布时间: 4/17/2025

查看原文