arXiv 论文列表

大型语言模型中情感认知的最新进展

arXiv:2409.13354v1 公告类型: 交叉摘要: 大型语言模型(LLMs)中的情感认知对于提升社交媒体、人机交互和心理健康评估等各种应用的性能至关重要。我们探讨了当前的研究现状,主要围绕情感分类、情感丰富的响应生成和心智理论评估展开,同时承认了依赖标注数据和情感处理复杂性等挑战。本文详细综述了LLMs在情感认知方面的最新进展。我们探讨了关键研究、方法、成果和资源,并将其与乌里克·奈瑟的认知阶段相对应。此外,我们概述了该领域未来研究的可能方向,包括无监督学习方法和开发更复杂、可解释的情感认知LLMs。我们还讨论了对比学习等先进方法,以提高LLMs的情感认知能力。

发布时间: 9/23/2024

查看原文

ID-Guard：通过破坏识别来对抗面部篡改的通用框架

arXiv:2409.13349v1 公告类型: 交叉摘要: 深度学习面部操作的滥用对公民权利构成潜在威胁。为了从源头上防止这种欺诈，主动防御技术被提出，通过向图像中添加不可见的对抗性扰动来破坏操作过程，使伪造的输出对观察者来说不可信。然而，它们对输出的非定向破坏可能导致图像中人物的身份信息得以保留，从而导致个人的污名化。在本文中，我们提出了一种名为ID-Guard的新型通用框架，用于对抗面部操作。具体而言，该框架仅需要编码器-解码器网络的单次前向传递，即可生成与特定面部图像对应的跨模型通用对抗性扰动。为了确保被操纵面部图像的匿名性，引入了一种新的身份破坏模块（IDM），以有针对性地破坏伪造面孔中的可识别信息。此外，我们通过将不同面部操作的破坏视为多任务学习问题来优化生成的扰动，并设计了一种动态权重策略以提高跨模型性能。所提出的框架在防御多种广泛使用的面部操作方面表现出色，有效地扭曲了被操纵面部图像中的可识别区域。此外，我们的实验揭示了ID-Guard使被破坏图像能够避免面部修复和开源图像识别系统的能力。

发布时间: 9/23/2024

查看原文

无需微调的个性化图像生成

扩散模型在各种图像到图像的任务中展示了显著的有效性。在本研究中，我们介绍了Imagine yourself，一种用于个性化图像生成的最先进模型。与传统的基于调优的个性化技术不同，Imagine yourself作为一个无需调优的模型，使所有用户能够利用共享框架而无需个性化调整。此外，先前的工作在平衡身份保留、遵循复杂提示和保持良好视觉质量方面遇到了挑战，导致模型对参考图像产生强烈的复制粘贴效果。因此，它们很难生成符合需要对参考图像进行重大更改的提示的图像，例如改变面部表情、头部和身体姿势，并且生成图像的多样性较低。为了解决这些限制，我们提出的方法引入了1)一种新的合成配对数据生成机制以促进图像多样性，2)一种完全并行的注意力架构，包含三个文本编码器和一个完全可训练的视觉编码器，以提高文本忠实度，以及3)一种新颖的从粗到细的多阶段微调方法，逐步推动视觉质量的边界。我们的研究表明，Imagine yourself超越了最先进的个性化模型，在身份保留、视觉质量和文本对齐方面表现出更强的能力。该模型为各种个性化应用奠定了坚实的基础。人类评估结果验证了该模型在所有方面（身份保留、文本忠实度和视觉吸引力）相对于先前个性化模型的SOTA优势。

发布时间: 9/23/2024

查看原文

一种新颖的多模态模型自适应微调算法：遥感中自优化分类与高质量数据集选择

我们提出了一种适用于多模态大模型的自适应微调算法。该算法的核心步骤包括两个阶段的截断。首先，将大量数据投影到语义向量空间中，并使用MiniBatchKMeans算法进行自动聚类。这种分类确保了每个聚类内的数据具有高度的语义相似性。接下来，我们对每个聚类中的数据进行处理，计算多模态大模型向量空间中原数据与扰动数据之间的平移差异。这种差异作为数据的一种泛化度量。基于此度量，我们选择具有高泛化潜力的数据进行训练。我们将此算法应用于在两块3090 GPU上使用GeoChat多模态遥感数据集的三分之一训练InternLM-XComposer2-VL-7B模型。结果表明，我们的算法优于最先进的基线。在实验验证的基础上，基于我们优化选择的数据集训练的模型在各种遥感指标上的性能仅比全数据集训练的模型降低了1%。这种方法显著保留了通用能力，同时将训练时间减少了68.2%。此外，该模型在UCMerced和AID评估数据集上分别获得了89.86和77.19的分数，分别比GeoChat数据集高出5.43和5.16分。在LRBEN评估数据集上仅显示了0.91分的平均下降。

发布时间: 9/23/2024

查看原文

大型语言模型中的时间感知：跨时间事实回忆的基准测试

arXiv:2409.13338v1 公告类型: 交叉摘要: 谁是美国总统？答案取决于提问的时间。尽管大型语言模型（LLMs）在各种推理任务中得到评估，但它们往往忽视了一个关键维度：时间。在现实场景中，答案的正确性通常与时间背景密切相关。本文介绍了一种新型数据集，旨在严格测试LLMs处理时间敏感事实的能力。我们的基准提供了一种系统的方法来衡量LLMs的知识与正确时间背景的对齐程度，填补了当前评估方法中的一个关键空白，并为未来模型在现实应用中的改进提供了宝贵的工具。

发布时间: 9/23/2024

查看原文

SLaVA-CXR：用于胸部X光报告自动化的小型语言与视觉助手

arXiv:2409.13321v1 公告类型: 交叉摘要: 受大型语言模型(LLMs)成功的启发,越来越多的研究兴趣集中在开发医疗领域中的LLMs以辅助临床医生。然而,对于医院来说,使用闭源商业LLMs涉及隐私问题,而开发开源公共LLMs需要大规模计算资源,这些资源通常有限,尤其是在资源高效地区和低收入国家。我们提出了一种开源的小型语言和视觉助手(SLaVA-CXR),可用于胸部X光报告自动化。为了高效训练一个小助手,我们首先提出了Re$^3$Training方法,该方法模拟放射科医生的认知发展,并以识别、推理和报告的方式优化模型。然后,我们引入了一种数据合成方法RADEX,该方法可以生成高质量且多样化的训练语料库,并符合隐私法规。广泛的实验表明,我们基于2.7B骨干构建的SLaVA-CXR不仅优于之前的最佳模型,而且推理效率提高了6倍。

发布时间: 9/23/2024

查看原文

GAProtoNet：一种基于多头图注意力机制的原型网络用于可解释文本分类

预训练的基于Transformer的语言模型（LMs）以其强大的词嵌入能力在文本分类任务中取得了显著的改进，但其黑箱性质导致的缺乏可解释性一直是一个主要问题。在这项工作中，我们提出了GAProtoNet，一种新颖的白箱多头部图注意力基础的原型网络，旨在解释基于LM编码器构建的文本分类模型的决策。在我们的方法中，输入向量和原型被视为图中的节点，我们利用多头部图注意力来有选择地构建输入节点与原型节点之间的边，以学习可解释的原型表示。在推理过程中，模型根据每个原型的注意力得分加权的激活原型的线性组合做出决策，使得其选择可以通过注意力权重和投影到最匹配训练样本的原型透明地解释。在多个公共数据集上的实验表明，我们的方法在不牺牲原始黑箱LMs准确性的情况下取得了优越的结果。我们还与四种替代的原型网络变体进行了比较，我们的方法在所有变体中达到了最佳的准确率和F1分数。我们的案例研究和原型簇的可视化也展示了在解释基于LMs构建的黑箱模型决策方面的效率。

发布时间: 9/23/2024

查看原文

OMG-RL：基于离线模型的肝素治疗引导奖励学习

个性化医疗决策过程中的核心要素是准确诊断患者病情和制定适当的药物剂量策略。这种治疗过程，涉及递归评估患者状况并给予适当药物，可以有效地建模为强化学习（RL）问题。关键在于，RL在此背景下的成功取决于建立一个能够准确代表最佳治疗策略的明确奖励函数。然而，仅凭有限的一组显性指标来定义RL中的学习方向，由于所需领域知识的内在复杂性，使得任务变得复杂。这种方法还可能增加RL策略无法充分反映临床医生治疗意图的可能性，这些意图是通过考虑各种情况和指标来确定的。在本研究中，我们专注于开发一个反映临床医生意图的奖励函数，并引入离线模型引导的奖励学习（OMG-RL），该方法在离线RL环境中执行离线逆强化学习（IRL）。通过OMG-RL，我们从有限数据中学习包含专家意图的参数化奖励函数，从而增强代理的策略。我们在肝素剂量任务中验证了所提出的方法。结果表明，通过OMG-RL进行策略学习是有意义的，并确认在学习策略中，活化部分凝血活酶时间（aPTT）这一监测肝素效果的关键指标得到了积极强化。这种方法不仅可用于肝素剂量问题，还可广泛应用于基于RL的药物剂量任务。

发布时间: 9/23/2024

查看原文

时间分布式深度学习模型在纯外生预测中的应用：以天气图像时间序列预测地下水位深度为例

地下水资源是水循环中最相关的元素之一，因此开发能够准确预测地下水的模型是可持续资源管理框架中的关键任务。深度学习（DL）模型在水利学中已被证明非常有效，尤其是在使用空间分布数据（如栅格数据）时。在许多地区，水文测量难以定期或周期性地获取，有时最新的可用数据也已过时。相反，影响水资源的重要天气数据通常更易获取且质量更高。具体而言，我们提出了两种不同的深度学习模型，仅使用外源天气图像时间序列来预测Grana-Maira流域（皮埃蒙特，意大利）的水位深度。为了处理图像时间序列，两种模型均采用首个时间分布卷积神经网络（TDC），将每个时间步的图像编码为向量表示。第一个模型TDC-LSTM随后使用基于LSTM层的顺序模块来学习时间关系并输出预测。第二个模型TDC-UnPWaveNet则采用WaveNet架构的新版本，该架构在此被调整为输出比输入序列更短且完全移至未来的序列。为此，并为了处理UnPWaveNet中不同的序列长度，我们设计了一种新的通道分布层，其作用类似于时间分布层，但在通道维度上，即对输入的每个通道应用相同的操作集。TDC-LSTM和TDC-UnPWaveNet均显示出显著的结果。然而，两个模型侧重于不同的可学习信息：TDC-LSTM更侧重于降低偏差，而TDC-UnPWaveNet则更侧重于时间动态，最大化相关性和KGE。

发布时间: 9/23/2024

查看原文

利用深度学习解锁基因组规模代谢网络中缺失反应的可推广框架

代谢过程知识的不完整性阻碍了基因组规模代谢模型（GEMs）的准确性，进而影响了系统生物学和代谢工程的发展。现有的填补方法通常依赖于表型数据来最小化计算预测与实验结果之间的差异。然而，在实验数据和注释基因组可用之前，缺乏一种自动且精确的初始状态GEMs填补方法。在本研究中，我们介绍了CLOSEgaps，一种基于深度学习的工具，通过将填补问题建模为GEMs中的超边预测问题来解决这一难题。具体而言，CLOSEgaps将代谢网络映射为超图，并学习其超拓扑特征，以利用假设反应识别缺失的反应和间隙。这种创新方法允许对代谢网络中的已知和假设反应进行特征化和整理。广泛的结果表明，CLOSEgaps能够准确填补各种GEMs中超过96%的人工引入的间隙。此外，CLOSEgaps提高了24个GEMs的表型预测，并在两种生物体中显著提高了四种关键代谢物（乳酸、乙醇、丙酸和琥珀酸）的产量。作为一种广泛适用于任何GEM的解决方案，CLOSEgaps代表了自动化填补过程和揭示反应与观察到的代谢表型之间缺失连接的有前景的模型。

发布时间: 9/23/2024

查看原文