随着自杀念头的增多,早期检测和干预显得尤为重要。社交媒体平台是用户分享个人经历和寻求帮助的场所,可以用来识别有风险的个人。然而,每天大量的帖子使得人工审核变得不切实际。本文探讨了利用大型语言模型 (LLMs) 自动检测文本型社交媒体帖子中的自杀内容。我们提出了一种通过提示 LLMs 为未标记数据生成伪标签的新方法,并结合传统的分类微调技术来提高标签准确性。为了构建强大的自杀检测模型,我们开发了一种集成方法,包括使用 Qwen2-72B-Instruct 进行提示,以及使用 Llama3-8B、Llama3.1-8B 和 Gemma2-9B 等微调模型。我们在 IEEE 大数据 2024 大数据竞赛的社交媒体自杀意念检测挑战赛数据集上评估了我们的方法。此外,我们进行了全面的分析,以评估不同模型和微调策略对检测性能的影响。实验结果表明,集成模型显著提高了检测准确率,与单个模型相比提高了 5 个百分点。它在公共测试集上实现了 0.770 的加权 F1 分数,在私有测试集上实现了 0.731 的加权 F1 分数,为识别社交媒体中的自杀内容提供了一种有前景的解决方案。我们的分析表明,LLMs 的选择会影响提示性能,更大的模型能够提供更高的准确率。我们的代码和检查点已在 https://github.com/khanhvynguyen/Suicide_Detection_LLMs 公开发布。
随着深度学习模型的广泛部署,它们以各种方式影响着周围环境。由此产生的分布偏移会导致部署模型的性能意外下降。现有的预测性能方法通常将有关部署模型的信息纳入特征向量中,以预测未来的结果。虽然这种方法具有吸引人的理论特性,但修改预测任务的输入维度往往不切实际。为了解决这个问题,我们提出了一种新颖的技术,以模块化方式调整预训练的主干网络,从而实现更好的样本效率并能够重复使用现有的深度学习资产。重点关注性能标签偏移,关键思想是训练一个浅层适配器模块,以便在给定要部署模型的充分统计量的情况下,对主干网络的 logits 执行贝叶斯最优标签偏移校正。因此,我们的框架将输入特定特征嵌入的构建与控制性能的机制分离。受动态基准测试用例的启发,我们在对抗性采样下评估了我们的方法,用于视觉和语言任务。我们展示了它如何在再训练轨迹中导致更小的损失,并使我们能够有效地从候选模型中进行选择,以预测性能下降。更广泛地说,我们的工作为解决深度学习中的性能问题提供了第一个基线。
本研究旨在探讨基于神经网络的方法作为框架,用于研究图像增强技术对视觉皮层激活的影响的可靠性和实用性。在一项初步研究中,我们准备了一组最先进的大脑编码模型,这些模型是从 2023 年 Algonauts 项目挑战赛 [16] 中排名前十的方法中选出的。我们分析了它们预测各种图像增强技术对神经反应影响的能力。鉴于获取实际数据由于脑成像程序的高成本而不可行,我们的研究建立在一系列实验的基础上。具体而言,我们分析了大脑编码器估计对各种增强进行的脑反应的能力,方法是评估对针对物体(即面部和文字)的增强进行的反应,这些物体对特定区域的影响是已知的。此外,我们研究了对训练期间未见过的物体进行的预测激活,探索了语义分布外刺激的影响。我们为构成所提框架的模型的泛化能力提供了相关证据,该框架似乎有望用于识别给定任务的最佳视觉增强滤波器、模型驱动的设计策略以及 AR 和 VR 应用。
视觉模型在图像分类方面表现出色,但在泛化到未见数据方面却举步维艰,例如对来自未见领域的图像进行分类或发现新的类别。本文探讨了逻辑推理与深度学习泛化在视觉分类中的关系。我们推导出了一种称为 L-Reg 的逻辑正则化方法,它将逻辑分析框架与图像分类联系起来。我们的工作表明,L-Reg 降低了模型在特征分布和分类器权重方面的复杂性。具体而言,我们揭示了 L-Reg 带来的可解释性,因为它使模型能够提取用于分类的显著特征,例如人脸到人物。理论分析和实验表明,L-Reg 在各种场景中提高了泛化能力,包括多领域泛化和广义类别发现。在图像跨越未知类别和未见领域的复杂现实世界场景中,L-Reg 一直在提高泛化能力,突出了其实际效力。
多模态情感分析 (MSA) 利用多模态数据来推断用户的感情。以往的方法侧重于平等地对待每种模态的贡献,或静态地使用文本作为主导模态进行交互,而忽略了每种模态可能成为主导的情况。本文提出了一种基于知识引导的动态模态注意力融合框架 (KuDA) 用于多模态情感分析。KuDA 利用情感知识来引导模型动态地选择主导模态并调整每种模态的贡献。此外,通过获得的多模态表示,模型可以通过相关性评估损失进一步突出主导模态的贡献。在四个 MSA 基准数据集上的大量实验表明,KuDA 实现了最先进的性能,并且能够适应不同主导模态场景。
在项目级别自动修复程序可能在人类活动的各个领域开辟尚未见过的机会。自 SWE-Bench 挑战提出以来,我们看到了许多解决方案。补丁生成是程序修复的一部分,基于测试套件的对话式补丁生成已证明其有效性。然而,对话式补丁生成的潜力尚未在 SWE-Bench 上得到具体评估。本研究报告了旨在评估对话式补丁生成对 SWE-Bench 中问题的个体有效性的实验结果。实验表明,基于 LLaMA 3.1 70B 的简单对话管道可以在 47% 的情况下生成有效的补丁,这与 SWE-Bench 上程序修复的最新技术相当。
上下文学习 (ICL) 是一种新兴的针对语言模型 (LM) 的少样本学习范式,其内部机制尚未得到充分探索。尽管已有研究描述了 ICL 的内部处理过程,但它们难以捕捉大型语言模型中的所有推理现象。因此,本文提出了一个综合性的电路来模拟推理动态,并试图解释观察到的 ICL 现象。具体而言,我们将 ICL 推理分为三个主要操作:(1) 总结:LM 将每个输入文本(演示和查询)编码为隐藏状态中的线性表示,其中包含解决 ICL 任务的足够信息。(2) 语义合并:LM 将演示的编码表示与其对应的标签标记合并,以生成标签和演示的联合表示。(3) 特征检索和复制:LM 在任务子空间中搜索与查询表示相似的联合表示,并将搜索到的表示复制到查询中。然后,语言模型头部在一定程度上捕捉这些复制的标签表示,并将它们解码为预测标签。所提出的推理电路成功地捕捉到了 ICL 过程中观察到的许多现象,使其成为 ICL 推理过程的全面而实用的解释。此外,通过禁用所提出的步骤进行的消融分析严重损害了 ICL 性能,表明所提出的推理电路是一种主导机制。此外,我们确认并列出了一些旁路机制,这些机制与所提出的电路并行地解决了 ICL 任务。
在水下导航、地球物理勘探和海洋工程等领域,准确校准重力适应区域具有重要意义。随着重力场数据在这些领域的应用不断增加,传统的基于单一特征的校准方法已不足以捕捉重力场的复杂特征,并解决多维数据之间错综复杂的相互关系。本文提出了一种用于重力适应区域校准的注意力增强算法。通过引入注意力机制,该算法自适应地融合多维重力场特征并动态分配特征权重,有效地解决了传统特征选择方法中固有的多重共线性问题和冗余问题,显著提高了校准精度和鲁棒性。此外,构建了一个包含超过10,000个采样点的海量重力场数据集,并利用克里格插值法提高了数据的空间分辨率,为模型训练和评估提供了可靠的数据基础。我们在几个经典的机器学习模型(如SVM、GBDT和RF)上进行了定性和定量实验,结果表明,所提出的算法显著提高了这些模型的性能,优于其他传统的特征选择方法。本文提出的方法为重力适应区域校准提供了一种新的解决方案,展现出强大的泛化能力,并具有在复杂环境中应用的潜力。代码可在以下链接获取:\href{this link} {https://github.com/hulnifox/RF-ATTN}.
检测大型语言模型(LLM)中的认知偏差是一项引人入胜的任务,旨在探究这些模型中现有的认知偏差。目前检测语言模型中认知偏差的方法通常存在检测能力不完整和可检测偏差类型范围有限的问题。为了解决这个问题,我们引入了“MindScope”数据集,该数据集独特地整合了静态和动态元素。静态部分包含跨越 72 种认知偏差类别的 5,170 个开放式问题。动态部分利用基于规则的多代理通信框架来促进多轮对话的生成。该框架灵活且易于适应涉及 LLM 的各种心理学实验。此外,我们引入了一种适用于广泛检测任务的多代理检测方法,该方法整合了检索增强生成 (RAG)、竞争辩论和基于强化学习的决策模块。该方法已证明具有显著的有效性,与 GPT-4 相比,其检测精度提高了 35.10%。代码和附录可在 https://github.com/2279072142/MindScope 获取。
基于扩散的文本到图像模型在多样性和美学方面取得了令人印象深刻的成就,但难以生成具有清晰可辨识的视觉文本的图像。现有的骨干模型存在诸如拼写错误、无法生成文本以及缺乏对中文文本的支持等局限性,但其发展显示出巨大的潜力。本文提出了一系列方法,旨在赋能骨干模型生成英文和中文的视觉文本。我们首先进行了一项初步研究,揭示字节对编码 (BPE) 分词和跨注意力模块的学习不足限制了骨干模型的性能。基于这些观察结果,我们进行了以下改进:(1)我们设计了一种混合粒度输入策略,以提供更合适的文本表示;(2)我们建议用三种字形感知训练损失来增强传统的训练目标,这可以增强跨注意力模块的学习,并鼓励模型关注视觉文本。通过实验,我们证明了我们的方法可以有效地赋能骨干模型生成语义相关、美观且准确的视觉文本图像,同时保持其基本图像生成质量。