arXiv 论文列表

作者: Akshay Kudva, Wei-Ting Tang, Joel A. Paulson

arXiv:2502.14121v1 宣布类型: cross 摘要: 设计现代工业系统需要在多个竞争目标之间进行平衡，例如盈利性、韧性和可持续性，同时考虑到技术、经济和环境因素之间的复杂相互作用。多目标优化（MOO）方法常用于处理这些权衡，但在选择合适的算法来解决这些问题时往往不清楚，尤其是在系统表示从完全基于方程（白盒）到完全基于数据（黑盒）的变化时更为明显。虽然灰色箱MOO方法试图弥合这一差距，但它们通常会对系统结构施加刚性假设，要求模型符合求解器的潜在结构假设，而不是使求解器适应感兴趣系统自然表示。在本章中，我们通过利用网络表示引入了一种统一点灰色箱MOO的方法，提供了一种通用且灵活的框架来建模由共享各种输入和输出的功能节点组成的相互连接系统。具体来说，我们提出了一种新的贝叶斯优化启发式算法——MOBONS，它可以有效地优化一般函数网络，包括具有循环依赖关系的网络，从而能够建模反馈回路、循环流和多尺度模拟——而现有方法无法捕捉到这些特性。此外，MOBONS 能够处理约束条件、支持并行评估，并保留贝叶斯优化的采样效率，同时利用网络结构以提高可扩展性。我们通过两个案例研究展示了MOBONS的有效性，其中一个案例研究涉及可持续过程设计。通过在通用图表示下实现高效的MOO，MOBONS有望显著增强更盈利、更有韧性和更可持续的工程系统设计。

发布时间: 2/21/2025

查看原文

通用过度参数化深度学习网络的零损失保证和显式最小化器

作者: Thomas Chen, Andrew G. Moore

arXiv:2502.14114v1 类型: cross 摘要: 我们确定了在监督学习背景下，对于 $\mathcal{L}^2$ 成本和通用训练数据，过参数化深度学习（DL）网络保证零损失可实现性的充分条件。我们提供了一种明确的构造零损失极小值的方法，而无需使用梯度下降。另一方面，通过分析训练雅可比矩阵的秩损失条件，指出深度增加可能会损害梯度下降算法的成本最小化效率。我们的结果阐明了在欠参数化与过参数化深度学习之间实现零损失的二分法的关键方面。

发布时间: 2/21/2025

查看原文

基于对象的绑定在对比式语言-图像预训练中

作者: Rim Assouel, Pietro Astolfi, Florian Bordes, Michal Drozdzal, Adriana Romero-Soriano

arXiv:2502.14113v1 摘要类型: cross 摘要: 近年来，视觉语言模型(VLM)的发展受到了对比模型（如CLIP）的推动，这些模型学会了将视觉信息与其对应的文字描述关联起来。然而，这些模型在理解包含多个物体及其空间关系的复杂组合场景方面存在一定局限性。为了解决这些挑战，我们提出了一种新的方法，这种方法不同于依赖于设计困难负样本增强的常用策略。相反，我们的工作侧重于将归纳偏置整合到预训练的CLIP-like模型中，以提高其组合理解能力，而不使用任何额外的困难负样本。为此，我们引入了一个绑定模块，将从文本描述中获取的场景图与槽结构化图像表示连接起来，从而在两种模态之间促成结构化的相似性评估。我们还利用关系作为文本条件下的视觉约束，从而更有效地捕捉物体及其上下文关系之间的复杂互动。我们的模型不仅增强了基于CLIP的模型在多物体组合理解方面的性能，还为更准确和样本高效的复杂场景图像-文本匹配铺平了道路。

发布时间: 2/21/2025

查看原文

探索语义关系：语言模型在抽象常识推理中的挑战

作者: Cole Gawin, Yidan Sun, Mayank Kejriwal

arXiv:2502.14086v1 类型: cross 摘要: 大型语言模型（LLMs）在生成类人文本和解决中等复杂度的推理任务，如问答和数学问题求解方面取得了显著性能。然而，它们在需要更深层次认知技能的任务，如常识理解和抽象推理方面的能力尚待深入探索。在本文中，我们系统地使用ConceptNet知识图谱评估了LLMs的抽象常识推理能力。我们提出了两种提示方法：指令提示，模型基于提供的定义预测可能的语义关系；少量样本提示，模型使用示例作为指导来识别关系。我们使用gpt-4o-mini模型进行的实验表明，在指令提示中，当对多种关系进行排名时可以获得一致的表现，但当模型被限制只预测一种关系时，性能显著下降。在少量样本提示中，当从五个关系中选择而不是从整个集合中选择时，模型的准确性显著提高，尽管有明显的某些关系的偏见。这些结果表明，在商业使用的LLMs中，即使与人类水平的理解相比，抽象常识推理能力仍然存在显著差距。然而，这些发现也强调了基于选择性检索的精细提示工程的前景，以获得更好的性能。

发布时间: 2/21/2025

查看原文

基于生成AI和数字孪生的个性化教育：应用于工业4.0 workforce发展的VR、RAG和零-shot情感分析

作者: Yu-Zheng Lin, Karan Petal, Ahmed H Alhamadah, Sujan Ghimire, Matthew William Redondo, David Rafael Vidal Corona, Jesus Pacheco, Soheil Salehi, Pratik Satam

arXiv:2502.14080v1 交叉公告类型摘要：第四次工业革命（4IR）技术，如云计算、机器学习和人工智能，提高了生产效率，但引入了劳动力培训和重新技能培训方面的挑战。鉴于目前劳动力短缺的情况，特别是在边缘化社区如代表性不足的少数群体（URM）中，这些人常常缺乏获得高质量教育的机会，这些问题显得尤为重要。为应对这些挑战，本研究提出了一种基于生成人工智能的个性化导师gAI-PT4I4，旨在个性化4IR体验式学习。gAI-PT4I4利用情感分析评估学生理解情况，借助生成人工智能和有限自动机定制学习体验。该框架整合了低保真度的数字孪生技术，用于基于虚拟现实（VR）的培训，包括一个交互式导师，这是一种提供实时语音和文本指导的生成人工智能助手。它使用零样本情感分析与大规模语言模型（LLM）和提示工程相结合，实现了86%的准确率，在分类学生与教师互动为正面或负面方面。此外，检索增强生成（RAG）能够基于特定领域的知识提供个性化的学习内容。为了动态适应培训，有限自动机将练习划分为逐步增加难度的状态，要求任务执行准确率达到80%才能进行进度。22名志愿者的实验评估显示，准确率超过80%，从而缩短了培训时间。最后，本文还提出了多保真度数字孪生模型，将数字孪生的复杂度与布卢姆分类法和基里克汉匹克模型对齐，提供了一个可扩展的教育框架。

发布时间: 2/21/2025

查看原文

DiffExp：文本到图像扩散模型中奖励微调的有效探索方法

作者: Daewon Chae, June Suk Choi, Jinkyu Kim, Kimin Lee

arXiv:2502.14070v1 类型: cross 摘要: 对于将奖励最大化作为目标微调文本到图像扩散模型已被证明可以有效提升模型性能。然而，奖励微调方法经常由于在线样本生成缓慢而收敛缓慢。因此，获取具有强烈奖励信号的多样化样本对于提高样本效率和总体性能至关重要。在本文中，我们引入了DiffExp，这是一种简单且有效的探索策略，用于文本到图像模型的奖励微调。我们的方法采用了两种关键策略：(a) 动态调整无条件引导的比例以增强样本多样性，以及 (b) 随机权重文本提示中的短语以利用高质量的奖励信号。我们展示了这些策略在在线样本生成过程中显著提高了探索，从而提高了最近的奖励微调方法（如DDPO和AlignProp）的样本效率。

发布时间: 2/21/2025

查看原文

自动驾驶赛车道检测的数据集和基线模型

作者: Shreya Ghosh, Yi-Huan Chen, Ching-Hsiang Huang, Abu Shafin Mohammad Mahdee Jameel, Chien Chou Ho, Aly El Gamal, Samuel Labi

arXiv:2502.14068v1 Announce Type: cross 摘要：赛车相关的研究面临着一个重大挑战，即缺乏包含对应注释的原始图像的公开数据集，以用于下游任务。本文介绍了一个新型数据集RoRaTrack，该数据集包含赛车场景下多摄像头图像的标注数据，用于赛道检测。数据是在印第安纳州的一个赛车赛道上，在与印第安纳自主挑战赛（IAC）的合作下，在Dallara AV-21赛车上收集的。RoRaTrack解决了由高速引起的模糊、摄像头的颜色反转以及赛道上缺乏车道标记等常见问题。因此，我们提出了一种基于生成对抗网络（GAN）的基本模型RaceGAN，该模型有效地解决了这些挑战。所提出的模型在赛道检测方面相较于当前最先进的机器学习模型表现出更优的性能。该工作的数据集和代码可在github.com/RaceGAN获取。

发布时间: 2/21/2025

查看原文

三重奏：用于3D磁共振成像的视觉基础模型

作者: Shansong Wang, Mojtaba Safari, Qiang Li, Chih-Wei Chang, Richard LJ Qiu, Justin Roper, David S. Yu, Xiaofeng Yang

arXiv:2502.14064v1 宣告类型: cross 摘要：视觉基础模型(VFMs)是在广泛的图像数据集上进行预训练，以学习适用于多种类型数据的一般表示。这些模型可以随后针对特定的下游任务进行微调，从而在一系列应用场景中大幅提升性能。然而，目前声称适用于各种放射学任务的视觉基础模型大多是在3D计算机断层扫描(CT)上进行预训练，这得益于3D CT数据库的广泛可用性。CT和磁共振成像(MRI)在成像原理、信号特征和数据分布方面的显著差异可能阻碍其在MRI特定应用中的实际性能和通用性。在这里，我们提出了一种针对3D MRI的视觉基础模型——Triad。Triad采用了广泛使用的自动编码器架构，从131,170个3D MRI体素中学习稳健的表示，并使用器官独立的成像描述来限制视觉模态的语义分布。上述预训练数据集称为Triad-131K，是目前最大的3D MRI预训练数据集。我们使用25个下游数据集，在两个数据模态（领域内和领域的）设置下，分别对器官/肿瘤分割、器官/癌症分类和医疗图像配准这三个任务进行了评估。通过使用Triad预训练权重初始化模型，nnUNet-Triad在17个数据集中相比nnUNet-Scratch提高了6.88%的分割性能。Swin-B-Triad在五个数据集上的分类任务中相比Swin-B-Scratch提高了3.97%。SwinUNETR-Triad在两个数据集上的配准任务中相比SwinUNETR-Scratch提高了4.00%。我们的研究表明，在上游和下游任务的数据模态和器官一致时，预训练可以最大化性能。

发布时间: 2/21/2025

查看原文

EfficientPose 6D：高效可靠的6D物体姿态估计

作者: Zixuan Fang, Thomas P\"ollabauer, Tristan Wirth, Sarah Berkei, Volker Knauthe, Arjan Kuijper

arXiv:2502.14061v1 Announce Type: cross 摘要：在需要实时反馈的工业应用中，例如质量控制和机器人操作，对高速度和高精度的姿态估计需求依然至关重要。尽管在姿态估计速度和精度方面取得了进步，但在动态环境中找到计算效率和精度之间的平衡仍然是一个重大挑战。当前大多数算法在估计时间上缺乏可扩展性，特别是在处理多样化的数据集时，最先进的（SOTA）方法通常速度过慢。本研究专注于基于GDRNPP开发快速且可扩展的姿态估计器，以在准确性和鲁棒性方面达到或超过当前标准，特别是针对实时场景中效率-准确性权衡问题。我们提出了AMIS算法，根据特定应用在推理时间和精度之间的权衡来调整利用的模型。我们进一步在四个主要基准数据集（LM-O、YCB-V、T-LESS和ITODD）上展示了基于AMIS模型选择的有效性。

发布时间: 2/21/2025

查看原文

通过稀疏自编码器驱动的多样性和数据选择语言模型微调

作者: Xianjun Yang, Shaoliang Nie, Lijuan Liu, Suchin Gururangan, Ujjwal Karn, Rui Hou, Madian Khabsa, Yuning Mao

arXiv:2502.14050v1 类型: cross 摘要: 当前的预训练大型语言模型通常需要指令调优以与人类偏好对齐。然而，由于数据收集量大和模型迭代速度快，指令调优数据往往在数量上已经饱和，使得核心集数据选择变得重要但未被充分探索。另一方面，现有的以质量为导向的数据选择方法，如LIMA（NeurIPS 2023 [周等, 2024]）和AlpaGasus（ICLR 2024 [陈等, 2024]），一般忽略了数据多样性和复杂性同等重要的问题。在本文中，我们旨在设计一个具有多样性的数据选择策略，并创造性地提出使用稀疏自编码器来应对数据多样性的度量挑战。此外，稀疏自编码器还可以为模型行为提供更多的可解释性并解释，例如选择最长响应的惊人的效果（ICML 2024 [赵等, 2024]）。通过有效数据选择，我们实验证明，在我们选择的数据上训练的模型在模型能力上可以胜过其他方法，降低训练成本，并且可能会获得更多对模型行为的控制。

发布时间: 2/21/2025

查看原文