arXiv 论文列表

作者: Florinel-Alin Croitoru, Vlad Hondru, Radu Tudor Ionescu, Nicu Sebe, Mubarak Shah

arXiv:2405.13637v5 通告类型: 替换-交叉摘要: 直接偏好优化 (DPO) 已被提议作为一种有效的替代强化学习从人类反馈 (RLHF) 方案的方法。在本文中，我们提出了基于课程学习的 DPO 新颖且增强版本，用于文本到图像生成。我们的方法分为两个训练阶段。首先，通过使用奖励模型获得每条提示生成的示例的排名。然后，采样并提供越来越困难的示例对给文本到图像生成（扩散或一致性）模型。排名中相差较大的生成样本被视为形成简单的示例对，而排名中临近的示例形成困难示例对。换句话说，我们使用样本之间的排名差异作为难度的衡量标准。根据难度水平将采样的示例对分成批次，并逐步用于训练生成模型。我们提出的方法 Curriculum DPO 在九个基准测试上与最先进的微调方法进行了比较，在文本对齐、美学和人类偏好方面均优于竞争对手的方法。我们的代码可在 https://github.com/CroitoruAlin/Curriculum-DPO 获取。

发布时间: 4/15/2025

查看原文

联合半监督和对比学习使跨域泛化和多域分割成为可能

作者: Alvaro Gomariz, Yusuke Kikuchi, Yun Yvonna Li, Thomas Albrecht, Andreas Maunz, Daniela Ferrara, Huanxiang Lu, Orcun Goksel

arXiv:2405.05336v3 通告类型: replace-cross 摘要: 尽管当前的深度学习模型在处理不同域的图像方面非常有效，但在处理具有不同外观和内容的图像时仍面临挑战。我们介绍了SegCLR，这是一个多功能框架，旨在跨不同域分割图像，通过同时使用监督学习和对比学习来有效利用标记和未标记数据进行学习。我们通过一项全面的评估证明了SegCLR的优越性能，该评估涉及三种不同的临床数据集，其中包括3D视网膜光学相干断层扫描(OCT)图像，对不同网络配置的切片分割进行评估，并且在10种不同的网络初始化下进行验证。在无监督域适应的背景下，SegCLR的表现与在目标域上训练的监督上限模型相当。值得注意的是，我们发现SegCLR框架的分割性能受目标域未标记数据的丰富程度的影响不大，因此我们还提出了一种有效的SegCLR域泛化扩展，称为零样本域适应，这消除了对目标域信息的任何需求。这表明，在分割的标准监督训练中加入对比损失可以生成更优秀的模型，且这些模型能够更自然地适用于域内和域外测试数据。此外，我们还为在多个包含标记数据的域中实际部署SegCLR提出了一个实用的解决方案。因此，我们的框架在多域应用中推动了基于深度学习的分割技术的边界，无论数据是否可用、是标记的、未标记的还是不存在的。

发布时间: 4/15/2025

查看原文

RULSurv：一种基于生存概率的早期截断aware的滚动轴承剩余使用寿命预测方法

作者: Christian Marius Lillelund, Fernando Pannullo, Morten Opprud Jakobsen, Manuel Morante, Christian Fischer Pedersen

arXiv:2405.01614v3 宣传类型: 替换交叉摘要：预测滚动轴承的剩余使用寿命（RUL）是一个活跃的研究领域，其中不断应用新的机器学习技术来预测退化趋势并在故障发生前预测故障。然而，很少有研究明确解决了处理截断数据的挑战，其中关于特定事件（例如，机械故障）的信息是不完整或仅部分观察到的。为了解决这一问题，我们引入了一种新颖且灵活的方法，使用Kullback-Leibler（KL）散度进行早期故障检测，并使用生存分析进行RUL估计，自然支持截断数据。我们使用XJTU-SY数据集，并通过在三种不同操作条件下采用5折交叉验证策略来演示我们的方法。在使用12.0 kN和2100 RPM的最高负载下预测轴承的故障时间，并且存在25%的随机截断时，使用线性COX比例风险模型，我们的方法实现了平均绝对误差（MAE）为14.7分钟（95% CI = 13.6-15.8），使用非线性的随机生存森林模型，MAE为12.6分钟（95% CI = 11.8-13.4），而线性LASSO模型（不支持截断）的MAE为18.5分钟（95% CI = 17.4-19.6）。此外，我们的方法在最高负载下的5个轴承中实现了平均累积相对准确性（CRA）为0.7586，这优于几种最先进的基准方法。我们的工作强调了在构建早期故障检测和RUL估计的预测模型时考虑截断数据的重要性。

发布时间: 4/15/2025

查看原文

Q-Newton: 结合量子-经典调度以加速基于牛顿梯度下降的神经网络训练

作者: Pingzhi Li, Junyu Liu, Hanrui Wang, Tianlong Chen

arXiv:2405.00252v2 宣布类型: 替换-交叉摘要：深度学习中的优化技术主要依赖于一阶梯度方法，如SGD。然而，神经网络训练可以从第二阶优化的快速收敛特性中大大受益。Newton-GD 在这一类别中脱颖而出，它通过使用逆海森矩阵重新缩放梯度。然而，其主要瓶颈之一是矩阵求逆，这在弱可扩展性的情况下以 $O(N^3)$ 时间进行，尤其是矩阵求逆非常耗时。矩阵求逆可以转化为求解一系列线性方程。鉴于利用量子叠加和纠缠原理的量子线性求解器算法（QLSAs）可以在 $\text{polylog}(N)$ 时间内运行，它们展示了通过指数加速来进行有希望的方法。特别是，最近的一种 QLSA 展现了 $O(d \cdot \kappa \log(N \cdot \kappa / \epsilon))$ 的复杂度扩展，这取决于矩阵的：大小 $N$、条件数 $\kappa$、误差容限 $\epsilon$ 和量子算子稀疏性 $d$。然而，这也意味着它们的潜在的指数优势可能会受到某些属性（即 $\kappa$ 和 $d$）的限制。我们提出了 Q-Newton，这是一种混合量子-经典的调度器，用于通过 Newton-GD 加速神经网络训练。Q-Newton 采用了精简的调度模块，该模块协调量子和经典的线性求解器，通过估计并减少 $\kappa$ 和构建 $d$ 以适应量子求解器。我们的评估展示了 Q-Newton 与常用的优化器（如 SGD）相比，有潜力显著减少总训练时间。我们假设未来可能通过阿季松物理学降低量子机器的门时间，从而确立了量子计算发展的一个雄心勃勃且充满希望的目标。

发布时间: 4/15/2025

查看原文

无知造就仇恨！对抗对话中仇恨言论的说服模式提炼

作者: Ghadi Alyahya, Abeer Aldayel

arXiv:2403.15449v3 公告类型: replace-cross 摘要：探索控诉言论使用的因素是理解针对在线仇恨言论的最佳方法的核心。各种研究评估了控诉言论中使用的基于情绪的因素，如情绪共情、冒犯性和敌意。为了更好地理解对话中使用的控诉言论，本研究表明将说服模式提炼为理性、情感和可信度，并评估其在两种类型的对话互动中——闭合（多轮）和开放（单轮）——中的使用，涉及种族主义、性别歧视和宗教偏见。评估涵盖了人类来源和机器生成的控诉言论在行为表现上的区别。此外，研究还评估了论点立场与控诉言论中观察到的说服模式之间的互动。值得注意的是，在开放和闭合互动中使用控诉言论的说服模式存在细微差异，尤其是在主题方面，总体趋势是使用理性作为说服模式来表达对仇恨言论的反驳。机器生成的控诉言论倾向于展示情感说服模式，而人类控诉言论则更倾向于理性。此外，我们的研究显示，理性说服模式往往比其他说服模式更有可能获得支持性回复。这些发现突显了将说服模式纳入反制仇恨言论的研究中的潜力，因为这些模式可以作为解释性的最优手段，并为进一步采纳回复的立场及其在评估构成最优控诉言论中的角色方面提供道路。

发布时间: 4/15/2025

查看原文

甲状腺癌诊断中的机器学习与变压器：一篇综述

作者: Yassine Habchi, Hamza Kheddar, Yassine Himeur, Mohamed Chahine Ghanem

arXiv:2403.13843v2 通知类型: replace-cross 摘要：随着开发智能诊断系统以帮助医学专家处理治疗不可治愈疾病的大量数据的兴趣日益增加，这一点尤为显著。特别是在通过机器学习（ML）和大数据分析使用Transformer来评估甲状腺癌（TC）的预后和确定个体恶性风险方面，识别甲状腺癌已经取得了进展。本文综述了基于AI的方法（尤其是使用Transformer的方法）在诊断甲状腺癌方面的各种研究。它基于人工智能（AI）算法、框架目标以及所使用的计算环境介绍了这些方法的新分类系统。此外，它还根据数据集的特征审查和对比了可用的TC数据集。本文强调了通过监督、无监督或混合方法使用AI工具在诊断和治疗TC方面的重要性，特别关注Transformer和大型语言模型（LLMs）在医学诊断和疾病管理中的持续重要性。文章还讨论了这一领域取得的进展以及面临的持续挑战。最后，它探讨了这一研究领域的未来方向和重点。

发布时间: 4/15/2025

查看原文

PhD：一个由ChatGPT提示引发的视觉幻觉评估数据集

作者: Jiazhen Liu, Yuhan Fu, Ruobing Xie, Runquan Xie, Xingwu Sun, Fengzong Lian, Zhanhui Kang, Xirong Li

arXiv:2403.11116v4 宣布类型: replace-cross 摘要：多模态大型语言模型（MLLMs）会幻觉，这引发了视觉幻觉评估（VHE）的新兴主题。本文贡献了一个由ChatGPT提示驱动的视觉幻觉评估数据集（PhD），用于大规模客观的VHE。VHE的本质是向MLLM提出关于特定图像的问题，以评估其幻觉倾向。根据要问的内容（对象、属性、情感等）以及提问的方式，我们从两个维度，即任务和模式，对PhD进行了结构化。考虑了从低级（对象/属性识别）到中级（情感/位置识别和计数）的五种视觉识别任务。除了常规的视觉问答模式（我们称其为PhD-base），PhD还提出了带有虚假背景（PhD-sec）或错误背景（PhD-icc）的问题，或者带有AI生成的反常常识图像（PhD-ccs）。我们通过ChatGPT辅助的半自动流水线构建PhD，包括四个关键模块：任务特定的幻觉项目（hitem）选择、嵌入hitem的问题生成、虚假/错误背景生成以及反常识（CCS）图像生成。PhD总计包含超过14000个日常图像、750个反常识图像和102000组视觉问答三元组，展示了MLLMs在各种模式和任务中的显著表现差异，提供了有关幻觉本质的宝贵见解。因此，PhD不仅是一个强有力的工具，可用于视觉幻觉评估，还可能在MLLMs的精炼中发挥重要作用。

发布时间: 4/15/2025

查看原文

Re-Ex：在解释后的修订减少了LLM回复中的事实错误

作者: Juyeon Kim, Jeongeun Lee, Yoonho Chang, Chanyeol Choi, Junseong Kim, Jy-yong Sohn

arXiv:2402.17097v3 Announce Type: replace-cross 摘要：减轻幻觉问题是在现实场景中可靠部署大型语言模型（LLMs）的关键挑战。近期，提出了多种方法来检测和修正LLM生成文本中的事实错误，以减少幻觉。在本文中，我们提出了一种名为Re-Ex的方法，用于后编辑LLM生成的响应。Re-Ex引入了一种新的推理步骤，称为事实错误解释步骤。Re-Ex通过三个步骤修订了LLM的初始响应：首先，使用外部工具检索初始LLM响应中的事实错误证据；其次，LLM根据收集到的证据解释响应中的问题部分；最后，LLM使用前一步提供的解释修订初始响应。除了解释步骤外，Re-Ex还采用了新的提示技术，以减少响应修订过程所需的token计数和推理时间。在多个基准测试中，与包括FacTool、CoVE和RARR在内的现有方法相比，Re-Ex提供了更好的检测和修订性能，且推理时间和token数量更少。

发布时间: 4/15/2025

查看原文

COMPASS: 计算语言学映射患者-治疗师联盟策略

作者: Baihan Lin, Djallel Bouneffouf, Yulia Landa, Rachel Jespersen, Cheryl Corcoran, Guillermo Cecchi

arXiv:2402.14701v3 通告类型: 替换-交叉摘要：治疗联盟是心理治疗成功的关键预测因素。传统上，治疗联盟评估依赖于治疗师和病人共同完成的问卷调查。本文中，我们介绍了一种名为 COMPASS 的新型框架，可以直接从心理治疗会话中使用的自然语言中推断出治疗联盟。我们的方法利用了先进的大型语言模型（LLMs）来分析会话转录，并将它们映射到分布式表示。这些表示捕捉了对话和心理测量工具（如工作联盟量表）之间的语义相似性。通过分析1970年至2012年间收集的近950个会话数据集，涵盖多种精神疾病，包括焦虑（N=498）、抑郁（N=377）、精神分裂症（N=71）和自杀倾向（N=12），我们证明了该方法能够提供精细的患者-治疗师一致性轨迹映射，为临床实践提供可解释的洞见，并识别与所治疗疾病相关的新兴模式。通过结合使用各种基于深度学习的主题建模技术和提示生成语言模型，我们分析了不同精神疾病的主题特点以及这些主题在对话中的演变。这一综合框架增强了对治疗互动的理解，为治疗师提供了及时的反馈，以评估治疗关系的质量，并提供了清晰可操作的洞见，以提高心理治疗的效果。

发布时间: 4/15/2025

查看原文

基于会话的推荐中多视角意图学习与对齐大语言模型方法

作者: Shutong Qiao, Wei Zhou, Junhao Wen, Chen Gao, Qun Luo, Peixuan Chen, Yong Li

arXiv:2402.13840v2 通告类型: 替换交叉摘要：基于会话的推荐（SBR）方法通常依赖于用户行为数据，这些数据可能面临会话数据稀疏性的挑战，从而限制了性能。研究人员已经认识到，除了行为信号外，项目描述中的丰富语义信息对于捕捉隐藏的用户意图至关重要。虽然大型语言模型（LLMs）提供了利用这些语义数据的新方法，但会话匿名性、短序列特性和高LLM训练成本的问题阻碍了为SBR开发轻量级、高效LLM框架的发展。为了解决上述挑战，我们提出了一种增强的SBR框架，该框架集成了来自多个视角的语义和行为信号。该两阶段框架利用了LLMs和传统SBR模型的优点，同时最小化了训练成本。在第一阶段，我们使用多观点提示来推断会话语义层面的潜在用户意图，并通过意图定位模块来缓解LLM的幻觉。在第二阶段，我们将这些语义推断与行为表示对齐并统一起来，有效地将大模型和小模型的洞察力合并在一起。在两个真实数据集上的广泛实验表明，LLM4SBR框架可以有效提升模型性能。我们将在https://github.com/tsinghua-fib-lab/LLM4SBR 上发布我们的代码和基线。

发布时间: 4/15/2025

查看原文