arXiv 论文列表

作者: Wenhao Wang, Xiaoyu Liang, Rui Ye, Jingyi Chai, Siheng Chen, Yanfeng Wang

大型语言模型 (LLM) 的成功使得许多机构能够在其私有数据上微调 LLM。然而，这种做法由于LLM的记忆特性而引发了隐私问题。现有的解决方案，例如使用合成数据进行替代，难以同时提高性能和保护隐私。它们要么依赖本地模型进行生成，导致性能下降，要么利用API，直接将数据暴露给API服务器。为了解决这个问题，我们提出了KnowledgeSG，这是一个新颖的客户端-服务器框架，它在保证隐私的同时，提高了合成数据的质量并提升了模型性能。我们通过使用差分隐私 (DP) 从私有数据中学习本地知识，并从服务器中提取专业知识来实现这一点。此外，受联邦学习的启发，我们在客户端和服务器之间传输模型而不是数据，以防止隐私泄露。在医疗和金融领域的广泛实验证明了KnowledgeSG的有效性。我们的代码现已公开发布在https://github.com/wwh0411/KnowledgeSG。

发布时间: 10/10/2024

查看原文

基于大型语言模型的真实临床场景中自闭症诊断的协同驾驶

作者: Yi Jiang, Qingyang Shen, Shuzhong Lai, Shunyu Qi, Qian Zheng, Lin Yao, Yueming Wang, Gang Pan

自闭症谱系障碍（ASD）是一种普遍性发育障碍，严重影响个体的日常生活功能和社会参与。尽管大量研究集中在支持ASD的临床诊断上，但在基于大型语言模型（LLM）的方法领域，特别是关于基于第二版自闭症诊断观察量表（ADOS-2）的真实世界临床诊断场景的研究仍然缺乏系统性和全面性。因此，我们提出了一种名为ADOS-Copilot的框架，该框架在评分和解释之间取得了平衡，并探讨了影响LLM在此任务中性能的因素。实验结果表明，我们提出的框架与临床医生的诊断结果具有竞争力，最小平均绝对误差为0.4643，二元分类F1分数为81.79%，三元分类F1分数为78.37%。此外，我们从ADOS-2、LLM的能力、语言和模型规模等角度系统地阐明了当前LLM在此任务中的优势和局限性，旨在激励和指导LLM在更广泛的精神健康障碍领域的未来应用。我们希望有更多研究能够转化为真正的临床实践，为特立独行的孩子打开一扇友善之窗。

发布时间: 10/10/2024

查看原文

ClaimBrush：一种基于大型语言模型的自动化专利权利要求细化框架

作者: Seiya Kawano, Hirofumi Nonaka, Koichiro Yoshino

专利申请中专利权利要求的自动改进对于知识产权战略至关重要。本文提出了一种用于自动改进专利权利要求的新框架ClaimBrush，该框架包括一个数据集和一个重写模型。我们通过收集专利审查过程中大量的实际专利权利要求重写案例，构建了一个用于训练和评估专利权利要求重写模型的数据集。利用构建的数据集，我们通过微调大型语言模型构建了一个自动专利权利要求重写模型。此外，我们通过基于专利审查员办公行为预测模型的偏好优化，提高了自动专利权利要求重写模型的性能。实验结果表明，我们提出的重写模型优于启发式基线和最先进大型语言模型中的零样本学习。此外，基于专利审查员偏好的偏好优化提高了专利权利要求改进的性能。

发布时间: 10/10/2024

查看原文

基于蜂窝自由多输入多输出系统的长期功耗约束下的无线联邦学习

作者: Yifan Wang, Cheng Zhang, Yuanndong Zhuang, Yongming Huang

支持人工智能的无线网络受到了广泛关注，其中基于空中联合学习因其独特的传输和分布式计算特性而成为一项关键应用。本文推导了基于空中联合学习在无小区MIMO系统中的误差界限，并通过联合优化功率控制和波束成形来制定一个最小化最优性差距的优化问题。我们引入了MOP-LOFPC算法，该算法采用Lyapunov优化来解耦跨轮次的长期约束，同时仅需因果信道状态信息。实验结果表明，与现有基线相比，MOP-LOFPC在模型训练损失和遵守长期功率约束之间实现了更好、更灵活的权衡。

发布时间: 10/10/2024

查看原文

识别和解决目标导向决策中的妄想

作者: Mingde Zhao, Tristan Sylvain, Doina Precup, Yoshua Bengio

我们关注目标导向型智能体，这类智能体在决策规划期间会生成目标来指导其行为，并在评估期间实现更好的泛化能力。这些智能体的训练不当会导致妄想：智能体可能会对目标产生错误的信念，而无法正确地摒弃这些信念，从而导致不良行为和有害的分布外泛化。我们通过在精心控制的环境中使用直观的例子来识别不同类型的妄想，并调查其成因。我们演示了如何解决通过后见式重标记训练的智能体的妄想问题，后见式重标记是训练目标导向型强化学习智能体的一种主流方法。我们通过实验证实了所提出的解决方案在纠正妄想行为和改进分布外泛化方面的有效性。

发布时间: 10/10/2024

查看原文

ST-WebAgentBench：一个用于评估网页代理安全性和可信度的基准测试

作者: Ido Levy, Ben Wiesel, Sami Marreed, Alon Oved, Avi Yaeli, Segev Shlomov

大型语言模型驱动的网页代理的最新进展引入了新的架构和基准，展示了自主网页导航和交互方面的进步。然而，大多数现有基准优先考虑有效性和准确性，而忽略了安全性和可信度等关键因素，这些因素对于在企业环境中部署网页代理至关重要。不安全的网页代理行为（例如意外删除用户帐户或在关键业务操作中执行意外操作）的风险构成了广泛采用的重大障碍。本文提出ST-WebAgentBench，这是一个新的在线基准，专门用于评估企业环境中网页代理的安全性和可信度。该基准基于一个详细的框架，该框架定义了安全和可信 (ST) 代理行为，概述了如何构建 ST 策略，并引入了策略下完成度指标来评估代理性能。我们的评估表明，当前最先进的代理难以遵守策略，并且还不能依赖于关键业务应用程序。此外，我们提出了旨在提高网页代理中策略意识和合规性的架构原则。我们开源了这个基准，并邀请社区贡献，目标是培养新一代更安全、更值得信赖的 AI 代理。所有代码、数据、环境再现资源和视频演示均可在 https://sites.google.com/view/st-webagentbench/home 获取。

发布时间: 10/10/2024

查看原文

CasiMedicos-Arg：一个带有解释性论证结构标注的医学问答数据集

作者: Ekaterina Sviridova, Anar Yeginbergen, Ainara Estarrona, Elena Cabrio, Serena Villata, Rodrigo Agerri

解释人工智能（AI）的决策是当今AI领域的一大挑战，尤其是在医疗和法律等敏感领域。然而，解释决策背后的理由对于基于人类的审议来说也是一个主要问题，因为证明做出某个特定决策的“原因”非常重要。例如，住院医师不仅需要提供（可能是正确的）诊断，还需要解释他们如何得出某个结论。因此，开发新的工具来帮助住院医师训练他们的解释能力是人工智能在教育领域的中心目标。在本文中，我们遵循这一方向，并据我们所知，提出了第一个用于医学问答的多语言数据集，其中临床病例的正确和错误诊断都附有医生撰写的自然语言解释。这些解释已用论证成分（即前提、论点）和论证关系（即攻击、支持）进行人工标注，从而形成了多语言CasiMedicos-Arg数据集，该数据集包含四种语言（英语、西班牙语、法语、意大利语）的558个临床病例及其解释，我们标注了5021个论点、2313个前提、2431个支持关系和1106个攻击关系。最后，我们展示了具有竞争力的基线在这个具有挑战性的论证挖掘数据集上的表现。

发布时间: 10/10/2024

查看原文

超越FVD：用于视频生成质量的增强型评价指标

作者: Ge Ya Luo, Gian Mario Favero, Zhi Hao Luo, Alexia Jolicoeur-Martineau, Christopher Pal

弗雷歇视频距离 (FVD) 是一种广泛用于评估视频生成分布质量的指标。然而，其有效性依赖于关键假设。我们的分析揭示了三个显著的局限性：(1) 膨胀三维卷积网络 (I3D) 特征空间的非高斯性；(2) I3D 特征对时间扭曲的不敏感性；(3) 可靠估计所需的样本量过大。这些发现削弱了 FVD 的可靠性，并表明 FVD 作为视频生成评估的独立指标存在不足。在对各种指标和主干架构进行广泛分析后，我们提出了基于联合嵌入预测架构 (JEPA) 特征的 JEPA 嵌入距离 (JEDi)，并使用具有多项式核的最大平均差异进行度量。我们在多个开源数据集上的实验清楚地表明，它优于广泛使用的 FVD 指标，只需 16% 的样本即可达到其稳定值，同时平均将与人工评估的一致性提高了 34%。

发布时间: 10/10/2024

查看原文

单调平均场博弈中的最终迭代收敛性

作者: Noboru Isobe, Kenshi Abe, Kaito Ariu

平均场博弈 (MFG) 是用于模拟和逼近大量主体行为的框架，而 MFG 中均衡的计算一直是人们关注的焦点。尽管已经提出了逼近均衡的方法，但更新策略序列收敛到均衡的算法，特别是那些表现出最后一次迭代收敛的算法，仍然有限。我们提出使用一种简单的近端点型算法来计算 MFG 的均衡。随后，我们在 Lasry-Lions 型单调性条件下提供了第一个最后一次迭代收敛保证。我们进一步将镜像下降算法用于正则化 MFG，以有效逼近 MFG 近端点方法的更新规则。我们证明该算法可以在 $\mathcal{O}({\log(1/\varepsilon)})$ 次迭代后达到 $\varepsilon$ 的精度。这项研究为大规模和群体规模庞大的博弈提供了一种易于处理的方法。

发布时间: 10/10/2024

查看原文

稀疏PO：通过稀疏标记掩码控制大型语言模型的偏好对齐

作者: Fenia Christopoulou, Ronald Cardenas, Gerasimos Lampouras, Haitham Bou-Ammar, Jun Wang

偏好优化 (PO)已被证明是将语言模型与人类期望行为对齐的有效步骤。当前的变体遵循离线直接偏好优化目标，专注于一个严格的设置，其中所有标记都将 KL 散度和奖励作为信号贡献给损失函数。然而，人类偏好并非受序列中每个词的影响相同，而往往取决于特定的词或短语，例如，有害词汇的存在会导致非偏好响应。基于这一观察，我们认为在 PO 过程中不应平等地对待所有标记，并提出了一种名为 SparsePO 的灵活目标，旨在自动学习在 PO 训练期间对每个标记对应的 KL 散度和奖励进行加权。我们提出了两种不同的权重掩码变体，它们可以从参考模型本身导出，也可以动态学习。值得注意的是，我们的方法在学习的掩码中诱导稀疏性，允许模型学习如何最好地加权标记级别的奖励和 KL 散度贡献，学习最佳的掩码稀疏性水平。在多个领域（包括情感控制、对话、文本摘要和文本到代码生成）进行的大量实验表明，我们的方法根据目标任务为标记分配有意义的权重，生成更多具有所需偏好的响应，并在推理任务上比其他标记级和响应级 PO 方法提高了高达 2 个百分点。

发布时间: 10/10/2024

查看原文