arXiv 论文列表

人工智能可能存在认知偏差：基于大型语言模型的批量相关性评估中阈值启动的探索性研究

认知偏差是思维中的系统性偏差，会导致非理性判断和问题决策，在各个领域都得到了广泛的研究。近年来，大型语言模型（LLM）展现出了先进的理解能力，但它们可能会从训练数据中继承人类的偏差。尽管LLM的社会偏差已得到充分研究，但认知偏差却受到的关注较少，现有的研究集中在特定场景上。认知偏差对LLM在各种决策情境中的更广泛影响尚未得到充分探索。我们研究了LLM是否受相关性判断中的阈值启动效应的影响，这是一个核心任务，也是信息检索（IR）社区中广泛讨论的研究主题。启动效应是指暴露于某些刺激会无意识地影响随后的行为和决策。我们的实验使用了来自TREC 2019深度学习段落跟踪集合的10个主题，并在不同的文档相关性分数、批次长度和LLM模型（包括GPT-3.5、GPT-4、LLaMa2-13B和LLaMa2-70B）下测试了AI判断。结果表明，LLM倾向于对后面的文档给出更低的分数，如果前面的文档具有高度相关性，反之亦然，无论使用何种组合和模型。我们的发现表明，LLM的判断与人类判断类似，也受到阈值启动偏差的影响，并表明研究人员和系统工程师在设计、评估和审计IR任务及其他领域的LLM时，应考虑潜在的人类认知偏差。

发布时间: 9/25/2024

查看原文

NovelAI Diffusion V3 中对 SDXL 的改进

本技术报告记录了我们在训练 NovelAI Diffusion V3（我们最先进的动漫图像生成模型）过程中对 SDXL 所做的修改。

发布时间: 9/25/2024

查看原文

利用无监督学习进行经济高效的视觉异常检测

传统的基于机器学习的视觉检测系统需要大量的数据收集和重复的模型训练才能提高准确率。这些系统通常需要昂贵的相机、计算设备和大量的机器学习专业知识，这会给中小型企业带来沉重的负担。本研究探索利用预训练模型和低成本硬件的无监督学习方法来创建一个经济高效的视觉异常检测系统。该研究旨在开发一种低成本的视觉异常检测解决方案，该解决方案使用最少的数据进行模型训练，同时保持通用性和可扩展性。该系统利用 Anomalib 的无监督学习模型，并通过 openVINO 部署在价格合理的 Raspberry Pi 硬件上。结果表明，该经济高效的系统仅使用 10 张正常产品图像，只需 90 秒即可在 Raspberry Pi 上完成异常检测训练和推理，并实现超过 0.95 的 F1 宏观得分。虽然该系统对照明、产品定位或背景等环境变化略微敏感，但它仍然是中小型制造商工厂自动化检测的一种快速且经济的方法。

发布时间: 9/25/2024

查看原文

基于互信息最小化方法的跨年龄说话人验证中年龄与身份的解耦

跨年龄说话人验证（CASV）的研究兴趣日益浓厚。然而，现有的说话人验证系统在 CASV 中表现不佳，因为衰老会导致语音存在巨大的个体差异。在本文中，我们提出了一种基于互信息（MI）最小化的跨年龄说话人验证解耦表示学习框架。在我们的方法中，一个骨干模型被训练以从说话人信息中解耦身份相关和年龄相关的嵌入，一个 MI 估计器被训练以通过 MI 最小化来最小化年龄相关和身份相关嵌入之间的相关性，从而产生与年龄无关的说话人嵌入。此外，通过使用正负样本之间的年龄差距，我们提出了一种感知衰老的 MI 最小化损失函数，该函数使骨干模型能够更多地关注具有较大年龄差距的语音变化。实验结果表明，所提出的方法在 Vox-CA 的多个跨年龄测试集上优于其他方法。

发布时间: 9/25/2024

查看原文

边缘设备协同计算用于多视图分类

受物联网 (IoT) 设备激增和深度学习领域快速发展的推动，人们越来越希望将传统上由云处理的深度学习计算推送到网络边缘，以便更快地响应终端用户，减少对云的带宽消耗，并解决隐私问题。然而，要充分实现边缘深度学习，仍需解决两个主要挑战：（i）如何在资源受限的设备上满足深度学习的高资源需求，以及（ii）如何利用多个空间相关数据流的可用性，提高深度学习的有效性并改善应用级性能。为了解决上述挑战，我们探索了边缘协同推理，其中边缘节点和终端设备通过利用不同的计算分割和数据融合方式来共享相关数据和推理计算负担。除了传统的边缘-终端设备协同推理集中式和分布式方案外，我们还引入了选择性方案，通过有效减少数据冗余来降低带宽资源消耗。作为参考场景，我们重点关注网络系统中的多视图分类，其中传感节点可以捕获重叠的视野。对所提出的方案进行了精度、节点计算支出、通信开销、推理延迟、鲁棒性和噪声敏感性的比较。实验结果表明，选择性协同方案可以在上述性能指标之间实现不同的权衡，其中一些方案可以实现大量的通信节省（相对于集中式推理，传输数据减少了 18% 到 74%），同时推理精度仍保持在 90% 以上。

发布时间: 9/25/2024

查看原文

创造健康的摩擦：确定利益相关者对工作推荐解释的需求

信息检索在招聘中的应用日益广泛，特别是通过职位推荐系统 (JRSs)，这可能对求职者、招聘人员和公司产生重大影响。因此，此类系统在最近的立法中被认定为高风险。这要求 JRSs 可信且透明，让利益相关者能够理解为什么做出特定推荐。为了满足这一要求，需要确定利益相关者的确切偏好和需求。为此，我们使用一个现实的、基于任务的、混合设计用户研究 (n=30) 评估了一个可解释的职位推荐系统，其中利益相关者必须根据模型的解释做出决定。这种混合方法评估包括两个客观指标——正确性和效率，以及三个主观指标——信任、透明度和有用性。这些指标对每个参与者评估两次，一次使用真实解释，一次使用随机解释。该研究包括在执行针对每个利益相关者群体调整的任务时遵循出声思考协议的定性分析。我们发现，为利益相关者提供真实解释并不能显着提高决策速度和准确性。我们的结果表明，对于所有类型的利益相关者来说，真实解释在系统感知的信任度、有用性和透明度方面优于随机解释，但这种趋势并不显著。我们确定，利益相关者从与解释的交互中获益更多，将其视为能够提供健康摩擦的决策支持，而不是之前假设的具有说服力的工具。

发布时间: 9/25/2024

查看原文

逆约束强化学习中的可证明高效探索

为了在复杂环境中获得最优约束，逆约束强化学习 (ICRL) 试图以数据驱动的方式从专家演示中恢复这些约束。现有的 ICRL 算法从交互式环境中收集训练样本。然而，这些采样策略的有效性和效率仍然未知。为了弥合这一差距，我们引入了一个具有可证明效率的策略探索框架。具体来说，我们定义了 ICRL 问题的可行约束集，并研究了专家策略和环境动态如何影响约束的最优性。受我们发现的启发，我们提出了两种探索性算法，通过 1) 动态降低成本估计的有界累积误差和 2) 策略性地约束探索策略，来实现高效的约束推断。这两种算法在理论上都具有可处理的样本复杂度。我们在各种环境下实证地证明了我们算法的性能。

发布时间: 9/25/2024

查看原文

ASD-扩散模型：基于扩散模型的异常声音检测

基于扩散模型的无监督异常声音检测（ASD-Diffusion）旨在设计一种通用的方法，仅利用正常声音即可检测异常。本文针对现实世界工厂中的ASD问题，提出了基于扩散模型的异常声音检测方法（ASD-Diffusion）。在我们的流程中，声学特征中的异常被从其噪声污染特征重建为近似正常模式。其次，提出了一种后处理异常过滤算法，用于检测重建后与原始输入存在显著偏差的异常。此外，引入去噪扩散隐式模型，通过更长的去噪过程采样间隔来加速推理速度。该方法创新地将扩散模型应用于新的方案中。在 DCASE 2023 挑战赛任务 2 的开发集上的实验结果表明，该方法优于基线 7.75%，证明了该方法的有效性。

发布时间: 9/25/2024

查看原文

历史轨迹辅助零阶联邦优化

联邦学习是一种分布式学习框架，它允许客户端单独训练模型，并上传模型更新以进行聚合。本地训练过程严重依赖于分布式梯度下降技术。在无法获取梯度信息的情况下，需要从零阶信息中估计梯度，这通常涉及沿各向同性随机方向计算有限差分。这种方法存在较高的估计误差，因为在各向同性采样过程中可能会忽略目标景观的几何特征。在这项工作中，我们提出了一种非各向同性采样方法来改进梯度估计过程。在我们方法中，梯度是在由历史解决方案轨迹跨越的子空间中估计的，旨在鼓励探索有希望的区域，从而提高收敛速度。我们在零阶联邦设置中实现了这种方法，并表明收敛速度与现有方法一致，同时在通信或本地计算方面没有引入显著的开销。与几种常用的零阶联邦优化算法相比，我们在几个数值实验中验证了我们提议的有效性。

发布时间: 9/25/2024

查看原文

用于评估工具增强型大型语言模型作为对话式人工智能代理的自动化测试生成

工具增强型大型语言模型（LLM）是一种很有前途的方法，可以用来创建能够进行真实对话、遵循流程并调用适当功能的 AI 代理。然而，由于可能的对话的多样性，评估它们具有挑战性，现有的数据集只关注单个交互和函数调用。我们提出了一种测试生成管道来评估 LLM 作为对话式 AI 代理。我们的框架使用 LLM 生成以用户定义的流程为基础的多样化测试。为此，我们使用中间图来限制 LLM 测试生成器产生不以输入流程为基础的内容的倾向，并强制执行对可能对话的高覆盖率。此外，我们提出了 ALMITA，一个用于评估客户支持中 AI 代理的手动整理数据集，并用它来评估现有的 LLM。我们的结果表明，虽然工具增强型 LLM 在单个交互中表现良好，但它们往往难以处理完整的对话。虽然我们的重点是客户支持，但我们的方法是通用的，能够用于不同领域的 AI 代理。

发布时间: 9/25/2024

查看原文