粉末床熔融(PBF)是一种新兴的金属增材制造(AM)技术,能够快速制造复杂几何形状。然而,诸如气孔和球化等缺陷可能会发生,导致结构不一致,从而影响零件的机械性能。这已成为质量保证的一个关键挑战,因为某些缺陷的性质在加工过程中是随机的,且从外部不可见。为了解决这一问题,可以部署基于机器学习(ML)建模的数字孪生(DT)进行AM过程监控和控制。熔池是过程监控中最常见的物理现象之一,通常通过高速摄像机观察。一旦标记和预处理,熔池图像就用于训练ML模型,以应用于过程异常检测和打印质量评估等DT应用。然而,由于AM设置的广泛变化性,包括AM机器和监控仪器,DT的可重用性受到限制。使用从一个设置收集的数据集训练的ML模型在应用于其他设置时,性能通常会受到影响。本文提出了一种在不同AM设置之间进行知识转移的管道,以增强AM DT的可重用性。源数据集和目标数据集分别从美国国家标准与技术研究院和成功大学收集,使用不同的相机、材料、AM机器和工艺参数。所提出的管道包括四个步骤:数据预处理、数据增强、域对齐和决策对齐。与仅使用源数据集训练的模型相比,该管道在没有目标数据集任何标记训练数据的情况下,将熔池异常检测的准确性提高了31%。
arXiv:2409.11232v2 公告类型: 替换-交叉 摘要: 在本手稿中,我分析了OpenAI O1-preview模型在解决随机K-SAT实例(K$\in {2,3,4}$)时的性能,其中$\alpha=M/N$,$M$是子句的数量,$N$是可满足问题的变量数量。我展示了该模型可以调用外部SAT求解器来解决这些实例,而不是直接求解。尽管使用了外部求解器,模型仍将错误的赋值作为输出。此外,我提出并展示了一种分析方法,以量化OpenAI O1-preview模型在输出布尔可满足性问题的赋值时,是否表现出智能的火花,还是仅仅进行随机猜测。
在面向任务的对话系统领域,一个强大的意图检测机制必须能够有效处理现实场景中遇到的格式错误的话语。本研究提出了一种针对大型语言模型(LLMs)的新型微调框架,旨在增强分布内(ID)意图分类和分布外(OOD)意图检测,该框架利用从ID类名派生的原型进行语义匹配。通过利用LLMs的高度可区分表示,我们采用基于多样性的提示微调方法为每个ID类构建语义原型。我们在一个具有挑战性的OOD情境中严格测试了我们的框架,其中ID和OOD类在语义上接近但又有区别,称为\emph{近}OOD检测。为了全面评估,我们将我们的方法与流行的微调方法进行了基准测试。实验结果表明,我们的方法在少样本ID意图分类和近OOD意图检测任务中表现出色。
数学长期以来通过自然语言传达,主要是为了人类理解。随着机械化数学和证明助手的兴起,理解非正式数学文本的需求日益增长,然而大多数现有基准仅关注英语,忽视了其他语言。本文介绍了RoMath,一个罗马尼亚数学推理基准套件,包含三个数据集:RoMath-Baccalaureate、RoMath-Competitions和RoMath-Synthetic,涵盖了广泛的数学领域和难度级别,旨在改进非英语语言模型并促进多语言AI的发展。通过聚焦于罗马尼亚语,一种资源匮乏且具有独特语言特征的语言,RoMath解决了以英语为中心的模型的局限性,并强调了超越简单自动翻译的专用资源的需求。我们基准测试了几个开放权重语言模型,突出了为弱势语言创建资源的重要性。我们公开了代码和数据集。
这是我的硕士学位论文的第二部分,比较了在使用逗号分隔值(CSV)和Parquet数据集格式进行回归机器学习模型训练时,默认浮点数(32位)和Nvidia混合精度(16位和32位)的能耗。实验使用了与第一部分相同的定制PC,该PC专用于分类测试和分析,并选择了不同的机器学习超参数,如批次大小、神经元和周期,来构建深度神经网络(DNN)。基准测试使用了DNN的默认超参数值作为参考,而实验则采用了不同的设置组合。结果记录在Excel中,并选择了描述性统计来计算各组之间的平均值,并通过图表进行比较。使用混合精度结合特定超参数的结果是积极的。与基准测试相比,优化回归模型使能耗降低了7到11瓦特。回归结果表明,虽然混合精度可以改善能耗,但我们必须仔细考虑超参数。批次大小和神经元数量较多会负面影响能耗。然而,这项研究需要推断统计,特别是ANOVA和T检验,来比较均值之间的关系。结果显示,回归测试中的均值之间没有统计显著性,并接受了H0假设。因此,选择不同的机器学习技术和Parquet数据集格式不会改善计算能耗和整体机器学习的碳足迹。然而,更大规模的集群GPU实施可以显著增加样本量,这是一个重要因素,并可能改变统计分析的结果。
arXiv:2409.10585v2 公告类型: 替换-交叉 摘要: 预测周围代理的未来轨迹对于自动驾驶车辆确保安全、高效和舒适的路线规划至关重要。尽管模型集成在各个领域提高了预测准确性,但由于预测的多模态特性,其在轨迹预测中的应用有限。本文提出了一种基于多个模型预测的新型采样方法,用于轨迹预测。我们首先表明,基于预测概率的传统采样可能会因模型间缺乏对齐而降低性能。为解决这一问题,我们引入了一种新方法,通过将问题框架化为具有可变损失函数的风险最小化问题,从一组神经网络中生成最优轨迹。通过使用最先进的模型作为基础学习器,我们的方法构建了多样且有效的集成,用于最优轨迹采样。在nuScenes预测数据集上的广泛实验表明,我们的方法超越了当前最先进的技术,在排行榜上取得了顶尖成绩。我们还提供了关于集成策略的综合实证研究,提供了对其有效性的见解。我们的研究结果突显了先进集成技术在轨迹预测中的潜力,显著提高了预测性能,并为更可靠的预测轨迹铺平了道路。
arXiv:2409.09564v2 公告类型: 替换-交叉 摘要: 当前,受到视觉-语言模型(VLMs)成功的启发,越来越多的研究人员致力于改进VLMs,并取得了令人鼓舞的成果。然而,大多数现有方法集中在优化连接器和增强语言模型组件上,而忽视了对视觉编码器本身的改进。相比之下,本文提出了文本引导的LLaVA(TG-LLaVA),通过文本引导视觉编码器来优化VLMs,提供了一种新的正交优化方向。具体而言,受人类行为中固有的目的驱动逻辑启发,我们使用可学习的潜在嵌入作为桥梁来分析文本指令,并将分析结果添加到视觉编码器中作为指导,从而对其进行精炼。随后,另一组潜在嵌入从高分辨率局部补丁中提取额外的详细文本引导信息作为辅助信息。最终,在文本的指导下,视觉编码器能够提取与文本相关的特征,类似于人类在考虑问题时关注图像中最相关的部分。这导致生成更好的答案。在各种数据集上的实验验证了所提出方法的有效性。值得注意的是,无需额外的训练数据,我们的方法相较于其他同期方法,能够为基线(LLaVA-1.5)带来更多益处。此外,所提出的方法在不同设置下持续带来改进。
arXiv:2409.08479v2 公告类型: 替换-交叉 摘要: 检索增强生成(RAG)系统在信息检索中的性能受到所处理文档特征的显著影响。本研究显示,教科书的结构化性质、文章的简洁性以及小说的叙事复杂性,需要不同的检索策略。对多种文档分割方法的比较评估表明,递归字符分割器在保持上下文完整性方面优于基于令牌的分割器。引入了一种新的评估技术,利用开源模型生成全面的问题-答案对数据集,模拟现实检索场景以提高测试效率和指标可靠性。评估采用加权评分指标,包括序列匹配器、BLEU、METEOR和BERT分数,以评估系统的准确性和相关性。这种方法为评估RAG系统的精确性建立了精细标准,未来研究将聚焦于优化块和重叠大小,以提高检索的准确性和效率。
多模态大语言模型(MLLMs)在图像描述、视觉问答和推理等多个基准测试中被评估。然而,这些基准测试往往包含过于简单或无信息的样本,使得难以有效区分不同MLLMs的性能。此外,在多个基准测试中评估模型会带来显著的计算负担。为了解决这些问题,我们提出了LIME(Less Is More for MLLM Evaluation),这是一个经过精心筛选和高效设计的基准测试,通过半自动化的流程构建。该流程过滤掉无信息的样本,并通过专注于需要基于图像理解的任务来消除答案泄露。我们的实验表明,LIME减少了76%的样本数量和77%的评估时间,同时更有效地区分了模型。值得注意的是,我们发现传统的自动评估指标如CIDEr不足以评估MLLMs的描述性能,而排除描述任务得分能更准确地反映模型的整体性能。所有代码和数据可在https://github.com/kangreen0210/LIME获取。
本研究提出了一种综合方法,用于建模和预测巴西亚马逊地区由AQUA_M-T卫星检测到的历史活跃火点时间序列。该方法采用混合循环神经网络(RNN)模型,结合长短期记忆(LSTM)和门控循环单元(GRU)架构,以预测每日检测到的活跃火点的月累积量。数据分析显示,随着时间的推移,存在一致的季节性,每年的最大值和最小值往往在同一时期重复出现。主要目标是验证通过机器学习技术,预测结果是否能捕捉到这种固有的季节性。该方法涉及仔细的数据准备、模型配置和使用两个种子的交叉验证进行训练,确保数据对测试集和验证集都具有良好的泛化能力。结果表明,结合LSTM和GRU的模型在预测性能上表现出色,展示了其在捕捉复杂时间模式和建模观测时间序列方面的有效性。这项研究显著推动了深度学习技术在环境监测中的应用,特别是在预测活跃火点方面。所提出的方法突显了其适应其他时间序列预测挑战的潜力,为机器学习和自然现象预测领域的研究和发展开辟了新的机会。关键词:时间序列预测;循环神经网络;深度学习。