基于仿真的测试是确保自动驾驶软件可靠性的重要步骤。然而,当公司依赖第三方通用模拟器进行内部或外包测试时,测试结果对真实自动驾驶车辆的泛化能力就受到了威胁。本文通过引入“数字兄弟”的概念来增强基于仿真的测试,这是一种多模拟器方法,它在构建于不同技术的多个通用模拟器上测试给定的自动驾驶车辆,这些模拟器在测试过程中作为一个整体共同运行。我们通过一个侧重于测试自动驾驶车辆车道保持组件的案例研究来说明我们的方法。我们使用两个开源模拟器作为数字兄弟,并在大量测试用例上将这种多模拟器方法与物理比例自动驾驶车辆的数字孪生体进行了经验比较。我们的方法需要为每个单独的模拟器生成和运行测试用例,这些测试用例以道路点序列的形式出现。然后,使用特征映射来表征所测试的驾驶条件,从而在模拟器之间迁移测试用例。最后,计算联合预测失效概率,只有在兄弟模拟器之间达成一致的情况下才报告失效。我们的实证评估表明,数字兄弟的集成失效预测器在预测数字孪生体的失效方面优于每个单独的模拟器。我们讨论了案例研究的结果,并详细说明了我们的方法如何帮助对自动驾驶软件自动化测试感兴趣的研究人员。
一种名为“套娃策略梯度”(MPG)的新型策略梯度 (PG) 算法在固定步长最大熵强化学习的背景下被提出并研究,其中智能体旨在最大化熵奖励,此外还有累积奖励。在线性函数逼近设置中使用 softmax 策略,我们证明了熵正则化目标的最优策略的唯一性并对其进行了刻画,并证明了 MPG 的全局收敛性。这些结果是在连续状态和动作空间的情况下证明的。MPG 直观易懂,理论上合理,此外我们还证明了无限步长最大熵目标的最优策略可以通过 MPG 框架的最优策略任意逼近。最后,当策略由神经网络参数化时,我们根据收敛时的神经正切核给出了全局最优性的判据。作为概念验证,我们在标准测试基准上对 MPG 进行了数值评估。
本研究旨在解决推文/用户地理位置预测任务,并为文本大数据地理标记提供一种灵活的方法。该方法利用神经网络进行自然语言处理 (NLP),以坐标对(经度、纬度)和二维高斯混合模型 (GMM) 来估计位置。所提出的模型已在 Twitter 数据集上进行了微调,并使用预训练的双向编码器表示Transformer (BERT) 作为基础模型。性能指标显示,在全球范围内,模型在推文内容和元数据上下文的文本特征上进行训练和评估后,中位误差小于 30 公里;在美国数据集上,中位误差小于 15 公里。我们的源代码和数据可在 https://github.com/K4TEL/geo-twitter.git 获取。
我们提出了一种最流行的神经网络激活函数的统一表示。采用分数阶微积分中的 Mittag-Leffler 函数,我们提出了一种灵活且紧凑的函数形式,能够在各种激活函数之间进行插值,并减轻神经网络训练中常见的梯度消失和梯度爆炸问题。所提出的门控表示将固定形状激活函数的范围扩展到其自适应对应物,其形状可以从训练数据中学习。所提出函数形式的导数也可以用 Mittag-Leffler 函数表示,这使其成为基于梯度的反向传播算法的合适候选者。通过在不同大小的各种数据集上训练多个不同复杂度的神经网络,我们证明了采用激活函数的统一门控表示为传统机器学习框架中激活函数的各个内置实现提供了一种有前景且经济高效的替代方案。
自然语言处理(NLP)技术的快速发展导致了诸如ChatGPT和Claude等文本生成工具的广泛应用和有效性。然而,如果这些技术被用于改写剽窃——这是一种在科学文献和一般文本媒体中最隐蔽的滥用内容的形式——则会对各种媒体形式的可信度构成重大风险。尽管已经开发出用于识别改写的自动化方法,但由于用于训练这些方法的数据集的不一致性,检测这种类型的剽窃仍然具有挑战性。在本文中,我们考察了传统和当代的改写识别方法,研究了流行数据集中某些改写类型的代表性不足(包括用于训练大型语言模型(LLMs)的数据集)如何影响检测剽窃的能力。我们引入并验证了一种新的改进的改写类型学(ReParaphrased,REfined PARAPHRASE类型学定义),以更好地理解改写类型表示中的差异。最后,我们提出了未来研究和数据集开发的新方向,以增强基于人工智能的改写检测。
多任务学习最近成为对复杂场景进行全面理解的一种很有前景的解决方案。多任务模型不仅内存效率高,而且如果设计得当,还可以促进任务间互补信号的交换。在这项工作中,我们联合处理二维语义分割和三个与几何相关的任务:密集深度估计、表面法线估计和边缘估计,展示了它们在室内和室外数据集上的优势。我们提出了一种新颖的多任务学习架构,该架构利用通过相关性引导注意力和自注意力进行的成对跨任务交换来增强所有任务的整体表示学习。我们在三个多任务设置中进行了大量的实验,展示了我们的方法与合成和真实世界基准测试中具有竞争力的基线相比的优势。此外,我们将我们的方法扩展到新颖的多任务无监督域适应设置。我们的代码可在https://github.com/cv-rits/DenseMTL 获取。
本文提出了一种受哈密顿力学启发的新方法,用于分析和改进人工智能系统中的多跳推理。我们提出了一种新颖的框架,该框架将嵌入空间中的推理链映射到哈密顿系统,从而使我们能够利用经典物理学的强大分析工具。我们的方法定义了一个哈密顿函数,该函数平衡推理的进展(动能)与当前问题的相关性(势能)。利用该框架,我们分析了来自多跳问答任务的大量推理链数据集,揭示了区分有效推理和无效推理的有趣模式。我们表明,有效的推理链具有较低的哈密顿能量,并且以最佳地权衡获取更多信息和回答正确问题的方式进行。此外,我们还演示了该框架在指导人工智能系统内创建更高效的推理算法方面的应用。我们的结果不仅为有效推理的本质提供了新的见解,而且为理解和改进人工智能的物理学启发方法开辟了令人兴奋的可能性。
在强化学习中,多臂老虎机(MAB)问题已在推荐系统、医疗保健和金融等多个领域得到应用。传统的多臂老虎机算法通常假设奖励分布是平稳的,这限制了它们在具有非平稳动态特性的现实场景中的有效性。本文通过引入和评估为非平稳环境设计的新的Bandit算法来解决这一限制。首先,我们提出了自适应折扣汤普森采样(ADTS)算法,该算法通过放松折扣和滑动窗口机制来增强适应性,从而更好地响应奖励分布的变化。然后,我们通过引入组合自适应折扣汤普森采样(CADTS)算法将这种方法扩展到投资组合优化问题,该算法解决了组合Bandit中的计算挑战并改进了动态资产配置。此外,我们提出了一种名为Bandit网络的新型架构,该架构集成了ADTS和CADTS的输出,从而减轻了股票选择中的计算限制。通过使用真实的金融市场数据进行大量实验,我们证明了这些算法和架构在适应动态环境和优化决策过程方面的潜力。例如,与经典的投资组合优化方法(如资本资产定价模型、等权重、风险平价和马科维茨模型)相比,所提出的Bandit网络实例表现出优越的性能,其中最佳网络的样本外夏普比率比性能最佳的经典模型高出20%。
本文介绍了一种名为“游戏化对抗性提示(Gamified Adversarial Prompting,GAP)”的框架,该框架利用众包收集高质量数据,用于大型多模态模型的视觉指令微调。GAP将数据收集过程转化为一个引人入胜的游戏,激励玩家提供细致入微、极具挑战性的问题和答案,以针对模型知识中的不足之处。我们的贡献包括:(1)一种从人类那里捕捉问答对的方法,直接解决模型知识中的弱点;(2)一种评估和奖励玩家的方法,成功激励他们提供高质量的提交;(3)一个可扩展的游戏化平台,在短短几周内成功地从超过50,000名参与者那里收集了这些数据。我们的GAP实现显著提高了小型多模态模型(MiniCPM-Llama3-V-2.5-8B)的准确性,将其在我们的数据集上的GPT评分从0.147提高到0.477,接近大型GPT-4V设定的基准。此外,我们证明了使用MiniCPM-Llama3-V-2.5-8B生成的数据也提高了其在其他基准上的性能,并展现出跨模型的优势。具体来说,相同的数据提高了QWEN2-VL-2B和QWEN2-VL-7B在相同多个基准上的性能。
我们通过研究基于规则的系统复杂性如何影响训练模型预测这些规则的能力,来探索人工智能系统中智能行为的涌现。我们的研究重点是一维元胞自动机(ECA),这是一种简单而强大的系统,能够产生从简单到高度复杂的各种行为。通过在不同的ECA上训练不同的大型语言模型(LLM),我们评估了规则行为的复杂性与LLM展现的智能(体现在其下游任务的性能上)之间的关系。我们的研究结果表明,规则的复杂性越高,模型展现的智能性就越高,这体现在其推理和象棋走子预测任务上的表现。均匀和周期性系统,以及通常高度混沌的系统,都会导致较差的下游性能,这突出了有利于智能的复杂性的最佳点。我们推测,智能源于预测复杂性的能力,而创造智能可能只需要接触复杂性。