arXiv:2409.13759v1 公告类型: 新 摘要: 本文介绍了针对虾养殖的4种食物分配实验。这些分配基于自动喂食器的位置。其中三种情况应用于实际,第四种情况则是食物同时均匀地灌溉在作物上。在第一阶段,三种分配情况的模拟成功地调整到现实,虾的生长曲线趋势与历史数据曲线相关。第二阶段,实验了基于食物量、生物量密度和食物分配的16种配置。模拟采用了遗传算法概念来改进种群,并使用模糊逻辑作为代理评估技术,以决策模拟环境中物理化学参数的质量。这些交互的结果显示,模拟的总养殖时间从22周减少到14周。
arXiv:2409.13754v1 公告类型: 新论文 摘要: 先前的研究表明,对于许多现实世界的问题,POMDPs可以通过在线算法快速且接近最优地解决。然而,在一个重要的问题集合中,当代理收集信息与需要使用该信息之间存在较大时间延迟时,这些解决方案未能充分考虑信息的价值。因此,即使信息收集行动在最佳策略中至关重要,现有解决方案也会忽略这些行动,导致代理做出次优决策。在本研究中,我们开发了一种新颖的解决方案,通过引入一种新的算法来纠正这一问题,该算法通过在POMCP算法中加入熵来改进现有的在线规划,更好地反映信息收集行动的价值。我们在走廊问题中测试了这一解决方案。结果表明,我们的新算法显著优于POMCP。
arXiv:2409.13730v1 公告类型: 新提交 摘要: 多模态大型语言模型(MLLMs)通过整合文本和视觉信息,在复杂场景中实现视觉理解,展示了在各种任务中的显著能力。尽管已有多个基准旨在评估MLLMs从视觉问答到复杂问题解决的任务,但大多数基准主要集中在数学或一般视觉理解任务上。这揭示了当前基准中的一个关键差距,即往往忽视了其他关键科学学科,如物理和化学的纳入。为了填补这一空白,我们精心构建了一个全面的基准,名为VisScience,用于评估数学、物理和化学三个学科的多模态科学推理能力。该基准包含3000个问题,来自K12教育——涵盖小学到高中——均匀分布在三个学科中,每个学科1000个问题。VisScience中的问题涵盖了21个不同的学科,并分为五个难度级别,提供了每个学科内广泛的主题范围。通过VisScience,我们对25个代表性MLLMs在科学推理中的表现进行了详细评估。实验结果表明,闭源MLLMs通常优于开源模型。最佳表现包括Claude3.5-Sonnet在数学中达到53.4%的准确率,GPT-4o在物理中达到38.2%,Gemini-1.5-Pro在化学中达到47.0%。这些结果突显了MLLMs的优势和局限性,指出了未来改进的方向,并强调了开发能够有效应对多模态科学推理多样需求的模型的重要性。
arXiv:2409.02370v3 公告类型: 替换-交叉 摘要: 大型语言模型 (LLMs) 最近展示了其在语言理解方面的非凡能力。然而,如何全面评估 LLMs 的情感能力仍然是一个挑战。本文研究了 LLMs 在文本模式中检测和响应情感的能力。随着 LLMs 在各种应用中的集成日益增加,理解其对情感语调的敏感性变得至关重要,因为这可以影响用户体验和情感驱动任务的效能。我们进行了一系列实验,评估了几个著名 LLMs 在识别和适当响应积极、消极和中性情感方面的表现。模型输出在各种情感基准上进行分析,并与人类评估进行比较。我们的发现表明,尽管 LLMs 显示出对情感的基本敏感性,但它们在准确性和一致性方面存在显著差异,强调了在训练过程中进一步改进以更好地捕捉微妙情感线索的必要性。例如,在我们的发现中,在某些情况下,模型可能会错误地将强烈的积极情感分类为中性,或未能识别文本中的讽刺或反讽。这种错误分类突显了情感分析的复杂性以及模型需要改进的领域。另一个方面是,不同的 LLMs 可能在相同的数据集上表现不同,这取决于它们的架构和训练数据集。这种差异呼吁对影响性能差异的因素进行更深入的研究,以及如何优化这些因素。
时间序列预测(TSF)在电力转换、医疗监控和作物生长等各种应用中起着至关重要的作用。尽管深度学习方法在TSF方面取得了进展,但其预测长期序列的能力仍然有限。这一限制源于未能同时考虑变量内和变量间的变化。为了应对这一挑战,我们引入了Fi$^2$VBlock,该模块利用频率域视角来捕捉变量内和变量间的变化。通过频率变换模块转换到频率域后,设计了实部和虚部之间的频率交叉注意力,以获得增强的频率表示并捕捉变量内的变化。此外,采用Inception块来整合信息,从而捕捉不同变量之间的相关性。我们的主干网络Fi$^2$VTS通过连接多个Fi$^2$VBlock,采用残差架构,从而防止退化问题。理论上,我们证明了Fi$^2$VTS在时间和内存复杂度上实现了显著降低,每个Fi$^2$VBlock的计算复杂度从$\mathcal{O}(L^2)$降至$\mathcal{O}(L)$。在三个基准数据集上的实证评估表明,与最新的最先进方法相比,Fi$^2$VTS在总体相对均方误差(MSE)上减少了30%,在总体相对平均绝对误差(MAE)上减少了22%。实现代码可在\url{https://github.com/HITshenrj/Fi2VTS}获取。
arXiv:2402.04870v3 公告类型: 替换 摘要: 克利福德代数是实数、复数和四元数的自然推广。迄今为止,在知识图谱嵌入的背景下,仅研究了形式为 $Cl_{p,q}$ 的克利福德代数(即不含幂零基向量的代数)。我们提出考虑具有二阶幂零指数的幂零基向量。在这些空间中,记为 $Cl_{p,q,r}$,允许推广基于对偶数的方法(这些方法无法使用 $Cl_{p,q}$ 建模),并捕捉实体嵌入中实部和复部之间缺乏高阶交互的模式。我们设计了两种新模型来发现参数 $p$、$q$ 和 $r$。第一个模型使用贪心搜索来优化 $p$、$q$ 和 $r$。第二个模型基于使用神经网络计算的输入知识图谱嵌入来预测 $(p, q, r)$。我们在七个基准数据集上的评估结果表明,幂零向量有助于更好地捕捉嵌入。与现有技术的比较表明,我们的方法在所有数据集上相对于验证数据上的 MRR 表现更优。我们还展示了贪心搜索足以发现接近最优的 $p$、$q$ 和 $r$ 值。
arXiv:2409.13430v2 公告类型: 交叉 摘要: 基于视觉的三维占据预测在深度估计方面受到单目视觉固有限制的显著挑战。本文介绍了CVT-Occ,一种利用时间融合通过时间上体素的几何对应关系来提高三维占据预测准确性的新方法。通过沿每个体素的视线采样点并整合这些点从历史帧中的特征,我们构建了一个成本体积特征图,用于细化当前体积特征以提高预测结果。我们的方法利用历史观测中的视差线索,并采用数据驱动的方法来学习成本体积。我们通过在Occ3D-Waymo数据集上的严格实验验证了CVT-Occ的有效性,该方法在三维占据预测中优于最先进的方法,且计算成本增加最小。代码已在\url{https://github.com/Tsinghua-MARS-Lab/CVT-Occ}发布。
arXiv:2409.13153v2 公告类型: 交叉 摘要: 人工智能(AI)的显著进步,主要由深度神经网络驱动,正面临计算轨迹不可持续、鲁棒性有限和缺乏可解释性等挑战。为了开发下一代认知AI系统,神经符号AI作为一种有前途的范式出现,它融合了神经和符号方法,以增强可解释性、鲁棒性和可信度,同时促进从更少的数据中学习。最近的神经符号系统在具有推理和认知能力的人机协作场景中展示了巨大的潜力。本文旨在理解神经符号AI的工作负载特性和潜在架构。我们首先系统地分类神经符号AI算法,然后在CPU、GPU和边缘SoC上从运行时、内存、计算操作符、稀疏性和系统特性等方面进行实验评估和分析。我们的研究表明,神经符号模型在现成硬件上存在效率低下的问题,这是由于向量符号和逻辑操作的内存绑定性质、复杂的流控制、数据依赖性、稀疏性变化和有限的扩展性。基于分析结果,我们提出了跨层优化解决方案,并展示了一个向量符号架构的硬件加速案例研究,以提高神经符号计算的性能、效率和扩展性。最后,我们从系统和架构的角度讨论了神经符号AI的挑战和潜在未来方向。
现有的视觉语言理解基准测试主要由处于常规背景中的物体图像组成。因此,最近的多模态大型语言模型仅通过依赖背景语言偏见就能在浅层视觉理解上表现良好。因此,在这些基准测试中的优异表现并不一定意味着强大的视觉理解能力。本文中,我们发布了JourneyBench,这是一个全面的人工标注的生成图像基准测试,旨在评估模型在五个任务中的细粒度多模态推理能力:互补多模态思维链、多图像视觉问答、虚构图像描述、带有幻觉触发器的视觉问答以及带有样本特定干扰项的细粒度检索。与现有基准不同,JourneyBench明确要求在非寻常的虚构场景中进行细粒度多模态推理,其中语言偏见和整体图像概要不足以应对。我们在JourneyBench上对最先进的模型进行了基准测试,并分析了多个细粒度维度的性能。所有五个任务的结果表明,JourneyBench对即使是最好的模型也极具挑战性,这表明模型的视觉推理能力并不如它们最初表现的那样强大。我们讨论了这些发现的影响,并提出了进一步研究的途径。
arXiv:2409.12903v2 公告类型: 替换-交叉 摘要: 语言模型的预训练阶段通常从随机初始化的参数开始。随着当前模型扩展的趋势,训练大量参数可能会非常缓慢且成本高昂。相比之下,小型语言模型的训练成本较低,但它们往往无法达到大型模型的准确性。在本文中,我们探讨了一个有趣的想法,将这两种不同的模式联系起来:我们能否开发一种方法,使用较小的预训练模型来初始化大型语言模型?这种初始化是否会在训练时间和最终准确性方面带来任何好处?在本文中,我们介绍了HyperCloning,一种可以将预训练语言模型的参数扩展到更大模型并增加隐藏维度的方法。我们的方法确保更大模型保留较小模型的功能。因此,更大模型在训练开始之前已经继承了较小模型的预测能力和准确性。我们证明,训练这种初始化模型在预训练大型语言模型所需的GPU小时数方面显著节省。