arXiv 论文列表

光流的重要性：单目提取模态融合的实证比较研究，以实现更优的转向控制

arXiv:2409.12716v1 公告类型: 交叉摘要: 自动驾驶车辆的导航是人工智能领域的一个关键挑战，需要强大且准确的决策过程。本研究提出了一种新的端到端方法，利用单目摄像头的多模态信息来提高自动驾驶汽车的转向预测。与传统模型不同，传统模型需要多个传感器，这些传感器可能成本高且复杂，或者仅依赖于在不同条件下可能不够鲁棒的RGB图像，我们的模型显著提高了从单一视觉传感器进行车辆转向预测的性能。通过专注于RGB图像与深度补全信息或光流数据的融合，我们提出了一种综合框架，通过早期融合和混合融合技术整合这些模态。我们使用三种不同的神经网络模型来实现我们的方法：卷积神经网络-神经电路策略（CNN-NCP）、变分自编码器-长短期记忆（VAE-LSTM）和神经电路策略架构VAE-NCP。通过将光流纳入决策过程，我们的方法显著推进了自动驾驶导航。使用波士顿驾驶数据的比较研究结果表明，我们的模型集成了图像和运动信息，具有鲁棒性和可靠性。它优于不使用光流的现有最先进方法，将转向估计误差减少了31%。这展示了光流数据与先进的神经网络架构（用于数据融合的基于CNN的结构和用于从潜在空间推断命令的基于递归的网络）相结合，以提高自动驾驶车辆转向估计性能的潜力。

发布时间: 9/20/2024

查看原文

在“低资源”场景中连接思想：针对国家变体、克里奥尔语及其他低资源场景的自然语言处理

arXiv:2409.12683v1 公告类型: 交叉摘要: 尽管在大规模语言模型在少数语言的基准测试中取得了优异的成绩，但它们在处理位于“低资源”场景中的文本时仍面临挑战，如方言/社会方言（国家或社会语言变体）、克里奥尔语（由多种语言接触产生的语言）以及其他低资源语言。本入门教程将识别在自然语言处理（NLP）研究中常见的挑战、方法和主题，以应对和克服数据匮乏环境中的固有障碍。通过将过去的思想与当前领域相连接，本教程旨在激发在这些场景中工作的研究人员之间的合作与交叉融合。我们所说的“低资源”广泛指模型训练所需数据的显著缺乏——并且可能适用于教程中未涵盖的其他场景。

发布时间: 9/20/2024

查看原文

基于多目标区域化贝叶斯优化的猪饲料设计

arXiv:2409.12919v1 公告类型: 新提交摘要: 在动物营养背景下设计食物饮食是一个复杂的问题，旨在开发成本效益高的配方，同时平衡最低营养含量。基于代谢反应理论模型和原料中可消化能量浓度的传统方法在整合影响动物性能的畜牧业或环境变量以及与可持续发展政策相一致的多重目标方面存在局限性。最近，多目标贝叶斯优化被提出作为一种有前途的启发式替代方案，能够处理多源信息、多重且多样化的目标，并具有处理与原料营养成分变异性相关的测量不确定性的内在能力。然而，贝叶斯优化在高维搜索空间中遇到困难，导致探索主要集中在边界上。本文分析了一种将搜索空间划分为提供局部候选区域的策略，称为多目标区域化贝叶斯优化，作为在猪饮食设计背景下改进贝叶斯优化提供的帕累托集和帕累托前沿近似质量的替代方案。结果表明，与标准多目标贝叶斯优化相比，这种区域化方法产生了更多样化的非支配解。此外，区域化策略在找到优于文献中引用的随机规划方法所识别的解决方案方面，效率提高了四倍。使用每迭代批次查询候选解决方案的实验表明，优化过程可以在不损害初始优化最关键阶段帕累托集近似质量的情况下加速。

发布时间: 9/20/2024

查看原文

检索增强测试生成：我们还有多远？

arXiv:2409.12682v1 公告类型: 交叉摘要: 检索增强生成（RAG）在软件工程任务中展现了显著的进步。尽管其潜力巨大，RAG在单元测试生成中的应用仍未得到充分探索。为了填补这一空白，我们率先研究基于RAG的大型语言模型在测试生成中的有效性。由于RAG可以利用多种知识源来增强其性能，我们还探讨了不同知识源对RAG知识库在单元测试生成中的影响，以提供其实际效益和局限性的见解。具体而言，我们考察了基于三种领域知识的RAG：1）API文档，2）GitHub问题，以及3）StackOverflow问答。每种来源从不同角度提供了创建测试所需的关键知识，即API文档提供了官方API使用指南，GitHub问题提供了库开发者对API相关问题的解决方案，而StackOverflow问答则展示了社区驱动的解决方案和最佳实践。在我们的实验中，我们专注于五个广泛使用且典型的基于Python的机器学习（ML）项目，即TensorFlow、PyTorch、Scikit-learn、Google JAX和XGBoost，以高效构建、训练和部署复杂的神经网络。我们使用这些项目中最常用的前10%的API进行了实验，共涉及188个API。我们研究了四种最先进的LLM（开源和闭源），即GPT-3.5-Turbo、GPT-4o、Mistral MoE 8x22B和Llamma 3.1 405B的有效性。此外，我们比较了三种生成单元测试用例的提示策略，即零样本、基本RAG和基于三种外部来源的API级别RAG。最后，我们比较了用于RAG的不同知识源的成本。

发布时间: 9/20/2024

查看原文

视觉语言模型能否玩动作角色扮演游戏？以《黑神话：悟空》为例进行研究

arXiv:2409.12889v1 公告类型: 新提交摘要: 近期，基于大型语言模型（LLM）的智能体在多个领域取得了显著进展。其中，最受欢迎的研究领域之一是将这些智能体应用于电子游戏。传统上，这些方法依赖于游戏API来获取游戏内的环境和动作数据。然而，这种方法受限于API的可用性，并且无法反映人类玩游戏的方式。随着视觉语言模型（VLM）的出现，智能体现在具备了增强的视觉理解能力，能够仅通过视觉输入与游戏互动。尽管取得了这些进展，当前的方法在面向动作的任务中仍面临挑战，特别是在动作角色扮演游戏（ARPG）中，强化学习方法虽然普遍但存在泛化能力差和需要大量训练的问题。为了解决这些限制，我们选择了一款ARPG游戏“黑神话：悟空”作为研究平台，探索现有VLM在仅依赖视觉输入和复杂动作输出的场景中的能力边界。我们在游戏中定义了12个任务，其中75%专注于战斗，并将几种最先进的VLM纳入这一基准测试中。此外，我们将发布一个人类操作数据集，包含录制的游戏视频和操作日志，包括鼠标和键盘动作。此外，我们提出了一种新的VARP（视觉动作角色扮演）智能体框架，由动作规划系统和视觉轨迹系统组成。我们的框架展示了执行基本任务的能力，并在90%的简单和中等难度战斗场景中取得成功。本研究旨在为在复杂动作游戏环境中应用多模态智能体提供新的见解和方向。代码和数据集将在https://varp-agent.github.io/上提供。

发布时间: 9/20/2024

查看原文

(不)确定性中的(不)公平性：基于偏好的确定性公平决策者选择

公平性指标用于评估各种领域中决策过程中的歧视和偏见，包括机器学习模型和现实应用中的人类决策者。这涉及计算社会群体之间概率结果的差异，例如男性和女性申请者之间的接受率。然而，传统的公平性指标没有考虑到这些过程中的不确定性，并且在两个决策者表现出相同差异时缺乏可比性。利用贝叶斯统计，我们量化了差异的不确定性，以增强歧视评估。我们通过差异及其对应的不确定性来表示每个决策者，无论是机器学习模型还是人类。我们定义了决策者的偏好，并利用暴力搜索方法根据基于这些偏好的效用函数选择最优决策者。效用分数最高的决策者可以被解释为我们对其公平性最有信心的决策者。

发布时间: 9/20/2024

查看原文

KnowFormer: 重新审视用于知识图谱推理的Transformer

知识图谱推理在各种应用中扮演着至关重要的角色，并引起了广泛关注。近年来，基于路径的方法取得了显著的性能。然而，它们可能面临来自消息传递神经网络的限制，如路径缺失和信息过度压缩。本文重新审视了将变换器应用于知识图谱推理的问题，以解决基于路径方法所面临的约束，并提出了一种新的方法KnowFormer。KnowFormer利用变换器架构从消息传递的角度对知识图谱进行推理，而不是像之前的预训练语言模型方法那样通过文本信息进行推理。具体而言，我们基于知识图谱推理的查询原型定义了注意力计算，便于构建和高效优化。为了将结构信息融入自注意力机制，我们引入了结构感知模块分别计算查询、键和值。此外，我们提出了一种高效的注意力计算方法，以提高可扩展性。实验结果表明，KnowFormer在传导性和归纳性基准测试中均优于显著的基线方法。

发布时间: 9/20/2024

查看原文

增强建筑工地安全：一种用于有效头盔检测的轻量级卷积网络

arXiv:2409.12669v1 公告类型: 交叉摘要: 在建筑安全领域，个人防护设备的检测，如头盔，在预防工作场所伤害方面起着至关重要的作用。本文详细介绍了为准确分类建筑工地上的头盔存在而设计的卷积神经网络（CNNs）的开发和评估。最初，开发了一个简单的CNN模型，包含一个卷积块和一个全连接层，取得了适中的结果。为了提高其性能，模型逐步进行了改进，首先通过扩展架构以包括额外的卷积块和全连接层。随后，整合了批量归一化和dropout技术，旨在减轻过拟合并提高模型的泛化能力。这些模型的性能经过系统分析，揭示了在第一研究阶段最先进配置下的峰值F1分数为84%，精确度为82%，召回率为86%。尽管有所改进，准确性仍然不理想，从而为进一步的架构和操作改进奠定了基础。这项工作为自动化头盔检测技术的持续调整和优化奠定了基础框架，预计未来的改进将解决这些初步实验中发现的局限性。

发布时间: 9/20/2024

查看原文

张量大脑如何利用嵌入和具身化来编码感知与解码符号

张量大脑已被引入作为一种用于感知和记忆的计算模型。我们概述了张量大脑模型，包括其最新进展。张量大脑包含两个主要层次：表示层和索引层。表示层是意识研究中亚符号全局工作空间的模型。表示层的状态是认知大脑状态。索引层包含概念、时间实例和谓词的符号。在自底向上的操作中，认知大脑状态由索引层编码为符号标签。在自顶向下的操作中，符号被解码并写入表示层。这作为具身化反馈到早期的处理层。自顶向下的操作成为语义记忆的基础。概念的嵌入向量形成了其索引与表示层之间的连接权重。嵌入是概念的签名或“DNA”，当其索引被激活时，大脑会对其进行解码。它整合了从不同经验、模态和符号解码中了解到的关于概念的所有信息。尽管是计算性的，但有人提出张量大脑可能与大脑的实际运作有关。符号生成的顺序性可能是自然语言生成的前提。我们描述了一种注意力机制，并讨论了通过多路复用实现的多任务处理。我们强调了张量大脑固有的多模态性。最后，我们讨论了嵌入式和符号推理。

发布时间: 9/20/2024

查看原文

深度生成模型作为表格机器学习对抗攻击策略

arXiv:2409.12642v1 公告类型: 交叉摘要: 深度生成模型(DGMs)在计算机视觉中找到了应用，用于生成对抗样本以测试机器学习(ML)系统的鲁棒性。将这些对抗技术扩展到表格ML中由于表格数据的独特性质以及在对抗样本中保留领域约束的必要性而面临独特的挑战。在本文中，我们将四种流行的表格DGMs适应为对抗DGMs(AdvDGMs)，并评估它们在生成符合领域约束的真实对抗样本方面的有效性。

发布时间: 9/20/2024

查看原文