arXiv 论文列表

作者: Max Weltevrede, Caroline Horsch, Matthijs T. J. Spaan, Wendelin B\"ohmer

在多任务强化学习中，智能体在固定的一组任务上进行训练，并需要泛化到新的任务。最近的研究表明，增加探索可以提高这种泛化能力，但其背后的确切原因仍不清楚。本文引入了多任务强化学习中的可达性概念，并证明了初始探索阶段会增加智能体在训练中所接触到的可达任务数量。正是这种增加，而不是探索本身，导致了泛化能力的提高，即使是对于不可达任务也是如此。受此启发，我们提出了一种新的方法 Explore-Go，该方法在每集开始时实施了这样的探索阶段。Explore-Go 仅修改了经验收集方式，可以与大多数现有的基于策略或离策略的强化学习算法结合使用。我们证明了该方法与一些流行算法结合使用时的有效性，并在多个环境中展示了泛化性能的提升。

发布时间: 10/7/2024

查看原文

基于神经网络的味觉脑电图通道选择优化食品风味感官评价

作者: Xiuxin Xia, Qun Wang, He Wang, Chenrui Liu, Pengwei Li, Yan Shi, Hong Men

味觉脑电图（EEG）由味觉刺激引起，可以反映不同的脑部模式，并用于食品感官评价等应用。然而，考虑到计算成本和效率，具有多个通道的脑电数据必须面对通道选择这一关键问题。本文提出了一种名为注意力类激活映射（CAM-Attention）的通道选择方法。CAM-Attention方法将卷积神经网络与通道和空间注意力（CNN-CSA）模型结合梯度加权类激活映射（Grad-CAM）模型。CNN-CSA模型利用注意力机制挖掘脑电数据中的关键特征，Grad-CAM模型有效地实现了特征区域的可视化。然后，基于特征区域有效地实现了通道选择。最后，CAM-Attention方法降低了味觉脑电识别计算负担，有效区分了四种味觉。简而言之，该方法具有优异的识别性能，为味觉感官评价提供了有效的技术支持。

发布时间: 10/7/2024

查看原文

并非所有扩散模型的激活都已被评估为判别特征

作者: Benyuan Meng, Qianqian Xu, Zitai Wang, Xiaochun Cao, Qingming Huang

扩散模型最初被设计用于图像生成。最近的研究表明，其骨干网络中的内部信号，即激活，也可以作为各种判别任务（如语义分割）的密集特征。鉴于大量的激活，选择一个小的但有效的子集是一个基本问题。为此，该领域的早期研究对激活的判别能力进行了大规模的定量比较。然而，我们发现许多潜在的激活尚未被评估，例如用于计算注意力分数的查询和键。此外，扩散架构的最新进展带来了许多新的激活，例如嵌入式 ViT 模块中的激活。两者结合起来，激活选择仍然悬而未决，但被忽视了。为了解决这个问题，本文进一步研究了更广泛的激活范围。考虑到激活数量的显著增加，全面的定量比较已不再可行。相反，我们试图理解这些激活的属性，以便通过简单的定性评估，可以预先过滤掉明显较差的激活。经过仔细分析，我们发现了扩散模型中普遍存在的三个属性，使本研究能够超越特定模型。在此基础上，我们针对几种流行的扩散模型提出了有效的特征选择解决方案。最后，跨多个判别任务的实验验证了我们的方法优于最先进的竞争对手。我们的代码可在 https://github.com/Darkbblue/generic-diffusion-feature 获取。

发布时间: 10/7/2024

查看原文

拉丁美洲 AI 初创企业投资风险评估：投资潜力排名与估值框架

作者: Abraham Ramos-Torres, Laura N. Montoya

拉丁美洲 (LATAM) 科技初创企业生态系统的增长得益于创新型企业家在各个领域满足市场需求。然而，这些初创企业面临着独特的挑战和风险，需要特定的管理方法。本文通过案例研究探讨了拉丁美洲在线外卖行业的总可寻址市场 (TAM)、可服务可用市场 (SAM) 和可服务可获得市场 (SOM) 指标，并以此作为使用折现现金流 (DCF) 方法评估初创企业的模型。通过分析阿根廷、哥伦比亚、乌拉圭、哥斯达黎加、巴拿马和厄瓜多尔等关键新兴力量，该研究强调了该地区人工智能驱动的初创企业的潜力和盈利能力，并开发了拉丁美洲科技初创企业投资新兴力量排名。本文还考察了初创企业面临的政治、经济和竞争风险，并提供了关于降低这些风险以最大限度地提高投资回报的战略见解。此外，研究强调了将投资组合多元化到新兴市场初创企业的价值，强调了尽管存在固有风险，但仍有实现大幅增长和回报的机会。

发布时间: 10/7/2024

查看原文

建构性失用症：可教导的视觉语言模型的意外局限及其对人类认知障碍的类比

作者: David Noever, Samantha E. Miller Noever

本研究揭示了可指示的视觉语言模型（VLMs）与人类认知障碍，特别是构思性失用症之间意想不到的平行关系。我们测试了 25 种最先进的 VLMs，包括 GPT-4 Vision、DALL-E 3 和 Midjourney v5，评估它们生成庞佐错觉图像的能力，这项任务需要基本的空间推理能力，通常用于构思性失用症的临床评估。值得注意的是，25 个模型中有 24 个未能正确渲染两条水平线，使其与透视背景相对应，这反映了顶叶受损患者的表现。这些模型始终错误地解释空间指令，产生了倾斜或错位的线条，这些线条遵循背景的透视关系，而不是保持水平。这种行为与失用症患者在视觉感知和运动技能完好的情况下难以复制或构建简单图形的方式惊人地相似。我们的研究结果表明，当前的 VLMs 尽管在其他领域具有先进的功能，但缺乏类似于构思性失用症患者受损的那些基本的空间推理能力。这种 AI 系统的局限性为研究空间认知缺陷提供了一种新颖的计算模型，并突出了 VLM 架构和训练方法改进的至关重要领域。

发布时间: 10/7/2024

查看原文

面向微视频推荐的多模态用户梦境表示

作者: Chengzhi Lin, Hezheng Lin, Shuchang Liu, Cangguang Ruan, LingJing Xu, Dezhao Yang, Chuyuan Wang, Yongqi Liu

在线微视频平台的激增凸显了先进推荐系统在缓解信息过载和提供个性化内容方面的必要性。尽管取得了进步，但准确及时地捕捉动态用户兴趣仍然是一项艰巨的挑战。受柏拉图式表征假设的启发，该假设认为不同的数据模态会收敛到一个共同的现实统计模型，我们引入了DreamUMM（梦想用户多模态表征），这是一种利用用户历史行为在多模态空间中创建实时用户表征的新方法。DreamUMM采用闭式解将用户视频偏好与多模态相似性相关联，假设用户兴趣可以在统一的多模态空间中有效地表示。此外，我们为缺乏近期用户行为数据的场景提出了Candidate-DreamUMM，仅从候选视频中推断兴趣。广泛的在线A/B测试表明用户参与指标（包括活跃天数和播放次数）有了显著改善。DreamUMM在两个拥有数亿日活跃用户的微视频平台上的成功部署，证明了其在个性化微视频内容交付中的实际有效性和可扩展性。我们的工作通过提供支持用户兴趣表征可能存在于多模态空间中的经验证据，为表征收敛的持续探索做出了贡献。

发布时间: 10/7/2024

查看原文

沃德：通过 LLM 水印实现可证明的 RAG 数据集推断

作者: Nikola Jovanovi\'c, Robin Staab, Maximilian Baader, Martin Vechev

检索增强生成（RAG）通过使LLM能够在生成过程中整合外部数据来改进LLM。这引起了数据所有者对他们的内容在RAG系统中被未经授权使用方面的担忧。尽管其重要性，检测此类未经授权使用的方法挑战仍未得到充分探索，来自相关领域的现有数据集和方法并不适合其研究。在这项工作中，我们采取了几个步骤来弥合这一差距。首先，我们将此问题形式化为（黑盒）RAG数据集推断（RAG-DI）。为了促进对此挑战的研究，我们进一步引入了一个专门为在现实条件下对RAG-DI方法进行基准测试而设计的新数据集，并提出了一组基线方法。在此基础上，我们引入了Ward，一种基于LLM水印的RAG-DI方法，使数据所有者能够获得有关其数据集在RAG系统中的使用情况的严格统计保证。在我们的实验评估中，我们表明Ward在许多具有挑战性的环境中始终优于所有基线，实现了更高的准确性、更优的查询效率和鲁棒性。我们的工作为RAG-DI的未来研究奠定了基础，并强调了LLM水印作为解决此问题的有希望的方法。

发布时间: 10/7/2024

查看原文

计算机视觉智能测试建模与生成：基于智能OCR的案例研究

作者: Jing Shu, Bing-Jiun Miu, Eugene Chang, Jerry Gao, Jun Liu

基于人工智能的系统具有独特的特性，同时在质量评估方面也带来了挑战。因此，确保和验证人工智能软件质量至关重要。本文提出了一种有效的人工智能软件功能测试模型来应对这一挑战。具体来说，我们首先对之前的工作进行了全面的文献综述，涵盖了人工智能软件测试过程的关键方面。然后，我们引入了一个三维分类模型，以系统地评估基于图像的文本提取人工智能功能，以及测试覆盖率标准和复杂性。为了评估我们提出的 AI 软件质量测试的性能，我们提出了四个评估指标来涵盖不同的方面。最后，基于提出的框架和定义的指标，我们以移动光学字符识别 (OCR) 案例研究为例，展示了该框架在评估 AI 功能质量方面的有效性和能力。

发布时间: 10/7/2024

查看原文

基于多尺度融合的脉冲神经网络用于侵入式脑机接口神经信号解码

作者: Yu Song, Liyuan Han, Bo Xu, Tielin Zhang

脑机接口 (BCI) 是神经科学与人工智能的先进融合，需要对神经信号进行稳定且长期的解码。脉冲神经网络 (SNN) 凭借其神经元动力学和基于脉冲的信号处理，天生适合这项任务。本文提出了一种利用多尺度融合增强型脉冲神经网络 (MFSNN) 的新方法。MFSNN 模仿人类视觉感知中的并行处理和多尺度特征融合，以实现实时、高效且节能的神经信号解码。最初，MFSNN 采用时间卷积网络和通道注意力机制从原始数据中提取时空特征。然后，它通过跳跃连接整合这些特征，从而提高解码性能。此外，MFSNN 通过小批量监督泛化学习提高了跨天信号解码的泛化能力和鲁棒性。在两个基准侵入式 BCI 范式中，包括单手抓握和触摸以及中心和外侧伸手任务，MFSNN 在准确性和计算效率方面都超过了传统的机器学习方法，例如 MLP 和 GRU。此外，MFSNN 的多尺度特征融合框架非常适合在神经形态芯片上实现，为在线解码侵入式 BCI 信号提供了一种节能的解决方案。

发布时间: 10/7/2024

查看原文

MARE：用于无监督理由提取的多方面理由提取器

作者: Han Jiang, Junwen Duan, Zhe Qu, Jianxin Wang

无监督理由提取旨在提取文本片段来支持模型预测，而无需显式理由标注。研究人员为解决此任务付出了许多努力。以往的工作通常独立编码每个方面，这可能会限制它们捕捉方面之间有意义的内部相关性的能力。虽然在减轻虚假相关性方面已经取得了重大进展，但我们的方法侧重于利用有益的内部相关性来改进多方面理由提取。在本文中，我们提出了一种多方面理由提取器 (MARE)，用于同时解释和预测多个方面。具体来说，我们提出了一种基于硬删除的多方面多头注意力 (MAMHA) 机制，用于同时编码多个文本块。此外，多个特殊标记被预先附加到文本前面，每个标记对应一个特定方面。最后，部署多任务训练以减少训练开销。在两个无监督理由提取基准上的实验结果表明，MARE 实现了最先进的性能。消融研究进一步证明了我们方法的有效性。我们的代码已在 https://github.com/CSU-NLP-Group/MARE 上公开提供。

发布时间: 10/7/2024

查看原文