arXiv 论文列表

作者: Guangya Wan, Yunsheng Lu, Yuqi Wu, Mengxuan Hu, Sheng Li

arXiv:2402.11068v2 通知类型: replace-cross 摘要：因果发现(CD)和大型语言模型(LLMs)已成为人工智能中两个变革性的领域，它们的发展主要独立进行。虽然因果发现专注于从数据中揭示因果关系，而大型语言模型在自然语言处理和生成方面表现出色，两者之间的整合为推进因果理解提供了独特的机会。本文综述了大型语言模型如何在三个关键维度上改变因果发现：从文本直接提取因果关系、将领域知识融入统计方法以及因果结构的完善。我们系统地分析了利用大型语言模型进行因果发现的方法，强调了它们在因果推理中创新使用元数据和自然语言的用法。我们的分析揭示了大型语言模型在增强传统因果发现方法方面的潜力以及当前作为不完美专家系统的限制。我们确定了关键的研究空白，概述了基于大型语言模型的因果发现的评估框架和基准，并倡导未来在因果研究中利用大型语言模型的研究努力。作为第一个全面探讨大型语言模型和因果发现之间协同作用的研究，本篇文章为该领域的未来进步奠定了基础。

发布时间: 2/18/2025

查看原文

为社会意识谈判对话提供辅助的大语言模型代理

作者: Yuncheng Hua, Lizhen Qu, Gholamreza Haffari

arXiv:2402.01737v3 通告类型: replace-cross 摘要: 我们基于大型语言模型（LLMs）开发了辅助代理，以帮助谈判双方在商业谈判中。具体而言，我们通过让两个基于LLM的代理进行角色扮演来模拟商业谈判。第三个LLM作为修正代理，用于重写违反规范的言论以改善谈判结果。我们介绍了一种无需调优和无需标签的上下文学习（ICL）方法，用于为修正代理识别高质量的ICL示例，其中我们提出了一个新的选择标准，称为价值影响，用于衡量谈判结果的质量。我们提供了丰富的实验证据，证明该方法在三个不同谈判主题的谈判中具有有效性。我们已在以下地址发布了我们的源代码和生成的数据集：https://github.com/tk1363704/SADAS。

发布时间: 2/18/2025

查看原文

SWEA: 通过主体词嵌入修改更新大型语言模型的事实知识

作者: Xiaopeng Li, Shasha Li, Shezheng Song, Huijun Liu, Bin Ji, Xi Wang, Jun Ma, Jie Yu, Xiaodong Liu, Jing Wang, Weimin Zhang

arXiv:2401.17809v4 公告类型: replace-cross 摘要: 大型语言模型（LLMs）的通用能力使它们成为各种AI应用的基础架构，但更新它们的内部知识需要大量的资源。最近的模型编辑是一种高效更新LLMs中少量知识的有前景的技术，并且已经引起了广泛关注。特别是在直接更新模型参数的局部编辑方法已被证明适合更新少量知识方面。局部编辑方法通过计算最小二乘闭形式解更新权重，并通过推理中的向量级匹配识别编辑知识，从而取得了有希望的结果。然而，这些方法仍然需要大量的时间和资源来完成计算。此外，向量级匹配缺乏可靠性，并且这种更新破坏了模型参数的原始组织结构。为了应对这些问题，我们提出了一种可分离和可扩展的主体词嵌入修改（SWEA）框架，该框架通过标记级匹配找到编辑嵌入，并将其添加到Transformer输入中的主体词嵌入中。为了获得这些编辑嵌入，我们提出了优化然后抑制融合方法，该方法首先优化编辑目标的可学习嵌入向量，然后抑制知识嵌入维度（KEDs）以获得最终的编辑嵌入。因此，我们提出了SWEA$\oplus$OS方法来编辑LLMs中的事实知识。我们在CounterFact和zsRE数据集上展示了SWEA$\oplus$OS的整体最先进的（SOTA）性能。为了进一步验证SWEA$\oplus$OS在编辑知识方面的推理能力，我们在更复杂的RippleEdits基准上对其进行评估。结果表明，SWEA$\oplus$OS具备SOTA推理能力。

发布时间: 2/18/2025

查看原文

基于自我监督从不完美示范中学习的机器人 manipulational 操作方法

作者: Kun Wu, Ning Liu, Zhen Zhao, Di Qiu, Jinming Li, Zhengping Che, Zhiyuan Xu, Qinru Qiu, Jian Tang

arXiv:2401.08957v2 宣告类型: replace-cross 摘要: 在现实世界中，由于真实世界的数据采集过程具有挑战性、耗时且昂贵，尤其对于任务失败产生的不完美数据，有效地利用数据对于机器人的操作至关重要。当前的模仿学习（IL）通常会丢弃不完美数据，仅专注于成功的专家数据。尽管强化学习（RL）可以从探索和失败中学习，但模拟到现实的差距以及其对密集奖励和在线探索的依赖性，使得其难以在真实世界场景中有效应用。在这项工作中，我们旨在通过利用不完美数据来克服不需奖励信息即可改善机器人操作模型性能的挑战。具体而言，我们提出了一种自我监督数据筛选框架（SSDF），它结合专家数据和不完美数据来计算失败轨迹片段的质量分数。高质量片段通过失败数据被用于扩展训练数据集。然后，增强的数据集可以与任何下游策略学习方法一起用于机器人操作任务。在基于高保真Sapien模拟器和使用Franka机器人臂进行的真实世界机器人操作任务的ManiSkill2基准测试中，广泛实验证明，SSDF可以准确地通过高质量的不完美数据扩展训练数据集，并提高所有机器人操作任务的成功率。

发布时间: 2/18/2025

查看原文

扩散-EXR：基于扩散模型的可控解释推荐评论生成

作者: Ling Li, Shaohua Li, Winda Marantika, Alex C. Kot, Huijing Zhan

arXiv:2312.15490v4 Announce Type: replace-cross 摘要：去噪扩散概率模型（DDPM）在图像和音频生成任务中展现出了巨大的能力。然而，在文本生成领域，尤其是推荐系统中的评论生成，使用DDPM的情况较少。为了利用预测评论的可解释性来更好地解释推荐并提高推荐系统的透明度，我们提出了一种基于扩散模型的可解释推荐评论生成方法，名为Diffusion-EXR。Diffusion-EXR通过逐步向词嵌入序列中引入不同级别的高斯噪声来篡改评论嵌入序列，并在反向过程中学习重构原始词表示。DDPM的本质使得我们轻量级的Transformer主干在网络上取得了良好的效果。广泛实验结果表明，Diffusion-EXR在两个公开可用的基准数据集上实现了推荐评论生成的最佳效果。

发布时间: 2/18/2025

查看原文

PipeOptim：确保基于优化器依赖权重预测的有效1F1B调度

作者: Lei Guan, Dongsheng Li, Yongle Chen, Jiye Liang, Wenjian Wang, Xicheng Lu

arXiv:2312.00839v3 消息类型: 替换交叉摘要：异步流水线模型并行ism以"1F1B"（一次前向，一次后向）调度生成少量的气泡开销，并且总是提供相当高的吞吐量。然而，"1F1B"调度不可避免地会导致不同GPU之间跨批次的权重不一致性以及权重 staleness 问题。为同时解决这两个问题，本文提出了一种依赖优化器的权重预测策略（即 PipeOptim）。我们提案的关键洞察是，在前向传递过程中采用权重预测策略，以确保每个批次使用一致且不 staleness 的权重来进行前向传递。具体而言，我们首先根据用于训练深度神经网络模型的优化器的更新规则构造权重预测方案。然后，在"1F1B"流水线训练过程中，每个批次必须在前向传递之前执行权重预测，并利用预测的权重进行前向传递。因此，PipeOptim 1）继承了"1F1B"调度的优势，生成相当高的吞吐量，2）无论所使用的优化器类型如何，都能确保有效的参数学习。为了验证我们提案的有效性，我们在包括图像分类、情感分析和机器翻译在内的三个机器学习任务中，使用八种不同的深度学习模型进行了广泛实验评估。实验结果显示，PipeOptim 在与流行流水线方法 GPipe、PipeDream、PipeDream-2BW 和 SpecTrain 的比较中均优于这些方法。PipeOptim 的代码可在 https://github.com/guanleics/PipeOptim 获取。

发布时间: 2/18/2025

查看原文

社会人口统计学提示尚未成为模拟LLMs主观判断的有效方法

作者: Huaman Sun, Jiaxin Pei, Minje Choi, David Jurgens

arXiv:2311.09730v2 宣告类型: replace-cross 摘要：人类判断本质上是主观的，并且会受到个人特征如性别和种族的影响。虽然大型语言模型（LLMs）在多种情境下被广泛用于模拟人类反应，但它们在处理主观任务时对人口统计差异的处理能力仍存不确定性。在这项研究中，我们利用POPQUORN数据集，评估了九种流行的LLMs在其处理两个主观判断任务（礼貌和冒犯）的人口统计差异理解能力。我们发现，在零样本设置下，大多数模型在这两个任务中的预测与白人参与者提供的标签更为一致，而不是亚洲或黑人参与者提供的标签，而在礼貌任务中仅显示出轻微的女性偏见。此外，在某些情况下，社会人口统计学提示并没有一致地提高，甚至降低了LLMs从特定子人群感知语言的能力。这些发现突显了在执行主观判断任务时LLMs中可能存在的人口统计偏差，并强调了社会人口统计学提示作为实现多元对齐策略的局限性。代码和数据可在以下链接获取：https://github.com/Jiaxin-Pei/LLM-as-Subjective-Judge。

发布时间: 2/18/2025

查看原文

部分求和：具有端到端特征组学习的自 attribution 神经网络

作者: Weiqiu You, Helen Qu, Marco Gatti, Bhuvnesh Jain, Eric Wong

arXiv:2310.16316v3 宣告类型: 替换-交叉摘要: 自归因神经网络（SANNs）为高维问题的可解释模型提供了潜在的道路，但往往在性能上面临显著的权衡。在本文中，我们正式证明了单特征SANNs的误差下界，而基于组的SANNs可以实现零误差，从而获得高性能。基于这些洞见，我们提出了Sum-of-Parts（SOP）框架，将任何可微模型转换为基于组的SANN，其中特征组通过端到端的学习学习，而不需组监督。SOP在视觉和语言任务中实现了SANNs的最优性能，并且我们通过一系列定量和语义指标验证了组的可解释性。我们进一步验证了SOP解释在模型调试和宇宙学科学发现中的实用性。代码可从https://github.com/BrachioLab/sop获取。

发布时间: 2/18/2025

查看原文

基于穿戴设备的多属性公平性损失在卷积神经网络中的公平准确疼痛评估

作者: Yidong Zhu, Shao-Hsien Liu, Mohammad Arif Ul Alam

arXiv:2307.05333v2 宣告类型：替换交叉摘要：将物联网（IoT）、电子健康记录（EHR）和临床调查等多元化的健康数据与可扩展的人工智能（AI）整合，使识别疼痛的生理、行为和心理社会指标成为可能。然而，在临床疼痛评估中采用AI受到个性化和公平性等挑战的阻碍。许多AI模型，包括机器学习和深度学习，表现出偏见，基于性别或种族歧视特定群体，这导致医疗专业人士对其可靠性产生怀疑。本文提出了一种基于多属性公平损失（MAFL）的卷积神经网络（CNN）模型，该模型旨在考虑数据中的保护属性，确保在最小化受特权和非特权群体之间差异的同时，公平地预测疼痛状态。我们通过将所提出的模型与现有的缓解方法进行比较，来评估准确性和公平性之间的平衡是否可实现。我们的发现表明，该模型在与最先进的技术相比时表现优异。使用NIH全美数据集，包含868名个体1500天的数据，我们展示了该模型的有效性，其准确率在75%到85%之间。

发布时间: 2/18/2025

查看原文

具有时间不规则性的多变量时间序列的概率学习

作者: Yijun Li, Cheuk Hang Leung, Qi Wu

arXiv:2306.09147v3 通知类型: replace-cross 摘要：多变量时间序列的概率预测对于各种下游任务至关重要。现有的大多数方法依赖于序列在所有变量上均匀间隔和对齐。然而，现实世界中的多变量时间序列往往存在时间不规则性，包括非均匀间隔和对齐不一致的变量，这对准确预测构成了重大挑战。为了应对这些挑战，我们提出了一种端到端框架，该框架可以同时建模时间不规则性和在任意连续时间点上捕捉变量的联合分布。具体来说，我们引入了一种动态条件连续归一化流，以非参数方式建模数据分布，能够适应现实世界数据集中常见的复杂、非高斯特性。然后，通过利用仔细因子化的对数似然目标，我们的方法可以高效地捕捉时间依赖性和交叉截面依赖性。广泛的数据集上的实验表明，与现有方法相比，我们的方法在优越性和适应性方面具有明显优势。

发布时间: 2/18/2025

查看原文