arXiv 论文列表

叠加态下神经计算的复杂性

近年来，对神经网络的理解取得了进展，表明叠加（单个神经元同时表示多个特征的能力）是大型网络计算效率的关键机制。本文探讨了叠加计算的理论基础，重点关注明确的、可证明正确的算法及其效率。我们给出了第一个下界，表明对于广泛的类别问题（包括排列和成对逻辑运算），在叠加中计算的神经网络至少需要 $\Omega(m' \log m')$ 个参数和 $\Omega(\sqrt{m' \log m'})$ 个神经元，其中 $m'$ 是被计算的输出特征的数量。这意味着任何“彩票”稀疏子网络必须至少具有 $\Omega(m' \log m')$ 个参数，无论初始密集网络的大小如何。相反，我们展示了一个几乎紧密的上线：像成对 AND 这样的逻辑运算可以使用 $O(\sqrt{m'} \log m')$ 个神经元和 $O(m' \log^2 m')$ 个参数进行计算。因此，在叠加中计算（本文的主题）和在叠加中表示特征（根据 Johnson-Lindenstrauss 引理，可能只需要 $O(\log m')$ 个神经元）之间存在指数级差距。我们希望我们的结果为在神经网络可解释性研究中使用复杂性理论技术开辟一条道路。

发布时间: 9/25/2024

查看原文

IDA 共享自治：干预式扩散辅助

人工智能（AI）的快速发展揭示了协助人类控制先进技术的潜力。共享自主权 (SA) 通过结合人类飞行员和 AI 副驾驶的输入来促进控制。在之前的 SA 研究中，副驾驶在每个时间步确定执行的动作方面始终处于活跃状态。这限制了人类的自主权，并可能对性能产生不利影响。一般来说，有益的副驾驶帮助量会根据任务动态而有很大差异。因此，我们假设人类自主权和 SA 性能通过动态和选择性的副驾驶干预得到提高。为了解决这个问题，我们开发了一种目标无关的干预帮助 (IA)，它通过让副驾驶仅在副驾驶动作的预期价值超过人类动作的预期价值（在所有可能目标中）时才进行干预，来动态地共享控制。我们使用具有目标屏蔽的专家演示训练的扩散副驾驶 (称为 IDA) 来实现 IA。我们证明了 IA 性能的下限，它取决于飞行员和副驾驶的性能。对模拟人类飞行员的实验表明，IDA 在 Reacher 环境和月球着陆器变体中比仅飞行员控制和传统 SA 控制实现了更高的性能。然后，我们证明 IDA 在具有人在回路实验的月球着陆器中实现了更好的控制。人类参与者报告说，IDA 具有更大的自主权，并且更喜欢 IDA 而不是仅飞行员控制和传统 SA 控制。我们将 IDA 的成功归因于在同时提供帮助以防止人类飞行员进入普遍不良状态的同时，保留了人类的自主权。

发布时间: 9/25/2024

查看原文

基于知识图注意力辅助网络的高效推荐模型 (KGATAX)

推荐系统在帮助用户过滤海量信息方面起着至关重要的作用。然而，传统的推荐算法往往忽略了多源信息的整合和利用，限制了系统性能。因此，本研究提出了一种新颖的推荐模型，即知识图谱注意力辅助网络（KGAT-AX）。我们首先将知识图谱融入推荐模型，引入注意力机制，更明确地探索高阶连通性。通过多层交互信息传播，模型聚合信息以增强其泛化能力。此外，我们通过全息嵌入将辅助信息整合到实体中，通过学习其推理关系，为每个实体聚合相邻实体的信息。这使得能够更好地利用与实体相关的辅助信息。我们在真实数据集上进行了实验，以证明 KGAT-AX 模型的合理性和有效性。通过实验分析，我们观察到 KGAT-AX 与其他基线模型相比在公共数据集上的有效性和潜力。KGAT-AX 展示了更好的知识信息捕获和关系学习能力。

发布时间: 9/25/2024

查看原文

无关选择偏差影响大型语言模型的招聘决策

我们研究了大型语言模型（LLM）在招聘决策中是否表现出一种为人熟知的认知偏差，即吸引效应。吸引效应是指当出现一个劣势候选人时，会使优势候选人更具吸引力，从而增加优势候选人被选中而不是非支配竞争者的可能性。我们的研究发现，当 GPT-3.5 和 GPT-4 扮演招聘者的角色时，它们中存在着一致且显著的吸引效应。诱饵的无关属性，例如其性别，进一步放大了观察到的偏差。GPT-4 表现出比 GPT-3.5 更大的偏差变化。即使包含针对诱饵效应的警告，并且招聘者角色定义有所不同，我们的发现仍然稳健。

发布时间: 9/25/2024

查看原文

SketcherX：基于扩散模型和矢量化技术的AI驱动交互式机器人绘画

我们介绍了 SketcherX，这是一种新颖的机器人系统，通过交互式人机互动来进行个性化肖像绘制。与依赖模拟打印技术的传统机器人艺术系统不同，SketcherX 捕捉和处理面部图像以生成独特的、类似人类艺术风格的矢量化图画。该系统由两个 6 轴机械臂组成：一个面部机器人，配备头部安装的摄像头和大型语言模型 (LLM) 用于实时交互；一个绘图机器人，利用经过微调的稳定扩散模型、ControlNet 和视觉语言模型进行动态的、风格化的绘图。我们的贡献包括开发定制的矢量低秩自适应模型 (LoRA)，使系统能够无缝适应各种艺术风格，以及整合成对微调方法以提高笔触质量和风格准确性。实验结果表明，该系统能够在两分钟内生成高质量的个性化肖像，突出了其作为机器人创意新范式的潜力。这项工作通过将机器人定位为创造过程中的积极参与者，推进了机器人艺术领域的发展，为未来探索交互式人机艺术协作铺平了道路。

发布时间: 9/25/2024

查看原文

通过大型语言模型扩展终端用户对模拟的访问：挑战与机遇

大型语言模型 (LLMs) 正变得无处不在，用于创建智能虚拟助手来帮助用户与系统交互，例如在营销领域。虽然 LLMs 已在建模与仿真 (M&S) 中得到讨论，但该领域主要集中在代码生成或结果解释方面。我们探讨了使用 LLMs 扩展仿真访问权限的可能性，使非仿真最终用户能够用日常语言提出假设性问题。具体来说，我们讨论了设计这样一个端到端系统的机遇和挑战，分为三个主要阶段。首先，假设存在多个仿真模型的一般情况，文本查询将映射到最相关的模型。其次，如果找不到映射，则可以自动重新表述查询并生成澄清问题。最后，生成仿真结果并将其置于情境中以进行决策。我们对这种系统的愿景阐述了跨越 M&S、LLMs、信息检索和伦理的长期研究机会。

发布时间: 9/25/2024

查看原文

大型语言模型回声室：个性化和自动化虚假信息

大型语言模型（LLM）如 GPT4 和 Llama2 在摘要、翻译和内容审核等任务中展现出强大的能力。然而，它们的大规模应用引发了担忧，特别是LLM可能大规模传播具有说服力的、类似人类的虚假信息，这可能会严重影响公众舆论。本研究探讨了这些风险，重点关注LLM将虚假信息传播为事实的能力。为了研究这一点，我们构建了LLM回声室，一个模拟社交媒体聊天室的受控数字环境，虚假信息通常在其中传播。回声室，即个人只与志同道合的人互动的地方，会进一步强化信念。通过研究恶意机器人在这个环境中传播虚假信息，我们可以更好地理解这一现象。我们回顾了当前的LLM，探讨了虚假信息的风险，并应用了最先进的微调技术。使用微软phi2模型，用我们自定义的数据集进行微调，我们生成了有害内容来创建回声室。这种设置，由GPT4评估其说服力和危害性，揭示了围绕LLM的伦理问题，并强调了需要加强对虚假信息的防范措施。

发布时间: 9/25/2024

查看原文

通过廉价排序挖掘规则来高效学习概率逻辑模型

概率逻辑模型是神经符号人工智能的核心组成部分，并且是自身在需要高度可解释性的任务中重要的模型。与神经网络不同，逻辑模型通常使用领域专业知识手工制作，这使得它们的开发成本高昂且容易出错。虽然存在从数据中学习逻辑模型的算法，但它们通常非常昂贵，限制了它们在现实世界中的适用性。在这项工作中，我们引入了逻辑规则的精确度和召回率，并将它们的组合定义为规则效用——一种经济有效的度量方法，用于评估逻辑模型的预测能力。此外，我们引入了 SPECTRUM，一个用于从关系数据中学习逻辑模型的可扩展框架。它的可扩展性源于一个线性时间算法，该算法挖掘数据中的循环结构，以及一个使用廉价效用度量方法有效地对从这些结构构建的规则进行排序的第二个算法。此外，我们推导出关于学习到的逻辑模型效用的理论保证。因此，SPECTRUM 在真实世界数据集上比以前的方法快几个数量级地学习到更准确的逻辑模型。

发布时间: 9/25/2024

查看原文

CJEval：基于中国初中考试数据的评估大型语言模型基准测试

在线教育平台通过提供动态的数字基础设施，显著改变了教育资源的传播方式。随着这种转变的进一步加强，大型语言模型 (LLMs) 的出现提升了这些平台的智能水平。然而，当前的学术基准对现实世界行业场景的指导意义有限。这种局限性源于教育应用需要的不止是简单的测试题答案。为了弥合这一差距，我们引入了 CJEval，一个基于中国初中考试评估的基准。CJEval 包含 26,136 个样本，涵盖十个学科的四个应用级教育任务。这些样本不仅包括问题和答案，还包括详细的标注，例如问题类型、难度级别、知识概念和答案解释。通过利用这个基准，我们评估了 LLMs 的潜在应用，并通过在各种教育任务上进行微调，对它们的性能进行了全面分析。大量的实验和讨论突出了将 LLMs 应用于教育领域的机遇和挑战。

发布时间: 9/25/2024

查看原文

利用估计可迁移性代替人工直觉进行文本排序模型选择

文本排序领域取得了重大进展，这归功于预训练语言模型（PLMs）增强了双编码器。鉴于可用的 PLMs 数量众多，为给定数据集选择最有效的 PLMs 成为一项非凡的挑战。作为对人类直觉和暴力微调的有力替代，迁移性估计（TE）已成为一种有效的模型选择方法。然而，当前的 TE 方法主要针对分类任务设计，其估计的迁移性可能与文本排序的目标不一致。为了解决这一挑战，我们建议将预期排名作为迁移性进行计算，明确反映模型的排名能力。此外，为了减轻各向异性并纳入训练动态，我们自适应地缩放各向同性句子嵌入，以产生准确的预期排名得分。我们最终的方法，自适应排名迁移性（AiRTran），可以有效地捕捉模型之间的细微差异。在各种文本排序数据集上的具有挑战性的模型选择场景中，它在时间消耗很小的前提下，与之前的面向分类的 TE 方法、人类直觉和 ChatGPT 相比，取得了显著的改进。

发布时间: 9/25/2024

查看原文