LLM2D

arXiv 论文列表

作者: Bo Ai, Liu Dai, Nico Bohlinger, Dichen Li, Tongzhou Mu, Zhanxin Wu, K. Fay, Henrik I. Christensen, Jan Peters, Hao Su
arXiv:2505.05753v1 通用型:cross 摘要:在机器人学和人工智能领域,开发能够在多样化的任务、环境和物理体现中操作的通用代理是一个宏伟挑战。在本工作中,我们重点关注体现轴,并研究体现缩放定律——增加载体数量的训练可以提高对未见过的载体的泛化能力。以机器人的运动为实验平台,我们生成了一个包含约1,000个不同载体的数据集,涵盖了类人机器人、四足机器人和六足机器人,并对随机子集进行训练,以处理各种观察和行动空间。我们发现,增加训练载体的数量可以提高对未见过的载体的泛化能力,在小型固定载体集上扩展示载体比数据缩放更具有效力。值得注意的是,我们在整个数据集上训练的最佳策略能够在现实世界中零样本迁移至新的载体,如Unitree Go2和H1。这些结果代表了向通用体体现知智能迈出的一步,有可能对可配置机器人的自适应控制、结构与控制的共同设计等领域产生相关性。
发布时间: 5/12/2025
查看原文
作者: Yiming Niu, Jinliang Deng, Lulu Zhang, Zimu Zhou, Yongxin Tong
arXiv:2505.05738v1 类型: cross 摘要:准确且高效的多变量时间序列(MTS)预测对于交通管理和天气预测等应用至关重要,这些应用依赖于捕捉长范围的时间依赖性和实体间的交互。现有的方法,尤其是基于Transformer架构的方法,会在所有时间步骤上计算成对依赖,导致计算复杂性随输入长度呈二次增长。为克服这些挑战,我们提出了一种名为FOCUS(Forecasting with Offline Clustering Using Segments)的新颖的MTS预测方法,该方法通过离线聚类提取原型来简化长范围依赖性的建模。这些原型封装了数据底层现实系统中的高级事件,总结了相似时间片段的关键特征。在在线阶段,FOCUS动态适应这些模式,捕捉输入片段与高级事件之间的依赖性,从而使预测既准确又高效。通过在离线聚类阶段识别原型,FOCUS将在线阶段长范围依赖性的建模计算复杂性降低到线性增长。跨多个基准的广泛实验表明,FOCUS在显著降低计算成本的同时达到了最先进的准确性。
发布时间: 5/12/2025
查看原文
作者: Wooyoung Jeong, Hyun Jae Park, Seonghun Jeong, Jong Wook Jang, Tae Hoon Lim, Dae Seoung Kim
arXiv:2505.05710v1 属性: cross 摘要: 超光谱图像提供了丰富的光谱细节,但由于其在空间和光谱域中的高维度,提出了独特的挑战。我们提出了基于Transformer的基础模型HyperspectralMAE,它采用了一种双重掩码策略:在预训练过程中,我们随机遮挡50%的空间补丁和50%的光谱带宽。这迫使模型学习能够重建两个维度缺失信息的表示。为了编码光谱顺序,我们引入了基于波长的可学习谐波傅里叶位置嵌入。重建目标结合了均方误差(MSE)和光谱角匹配(SAM),以平衡像素级别的准确性和光谱形状的保真度。 最终模型包含大约 \(1.8 \times 10^{8}\) 个参数,并生成768维的嵌入,这使得它具备足够的迁移学习能力。我们在两个大型超光谱数据集中预训练了HyperspectralMAE——NASA EO-1 Hyperion(大约1600个场景,大约\(3 \times 10^{11}\)像素光谱)和DLR EnMAP Level-0(大约1300个场景,大约\(3 \times 10^{11}\)像素光谱),并在印度针叶林基准上对其进行了微调,用于土地覆盖分类。HyperspectralMAE在印度针叶林上达到了最先进的迁移学习精度,证实了双重掩码的预训练能够产生稳健的光谱-空间表示。这些结果表明,双重掩码和波长感知嵌入可以促进超光谱图像重建及其后续分析。
发布时间: 5/12/2025
查看原文
作者: Julia Shuieh, Prasann Singhal, Apaar Shanker, John Heyer, George Pu, Samuel Denton
arXiv:2505.05704v1 宣告类型: cross 摘要:监督和基于偏好的微调技术已经成为将大型语言模型(LLMs)与用户意图和正确性标准对齐的流行方法。然而,现实世界的训练数据中常常存在虚假的相关性——这些虚假的相关性可能源于偏差、数据集中的结构或其它“捷径”特征——这些虚假的相关性可能损害模型的性能或泛化能力。在本文中,我们在多种合成任务和虚假相关性条件下系统地评估了三种后训练算法——监督微调(SFT)、直接偏好优化(DPO)和KTO(凯恩曼-特维斯基优化)。我们的任务涵盖了数学推理、指令约束以及文档导向的问题回答。我们改变了虚假相关性的程度(10% vs. 90%)并探讨了两种形式的结构:特征歧义和分发狭窄。我们的结果表明,模型在高度虚假相关的情况下通常但并不总是表现下降。偏好导向的方法(DPO/KTO)在数学推理任务中表现出相对较高的鲁棒性。相比之下,SFT在复杂且情境密集的任务中保持着更强的性能。这些发现表明,没有一种后训练策略在所有情景下都能普遍表现最好;最佳选择取决于目标任务的类型以及虚假相关性的性质。
发布时间: 5/12/2025
查看原文
arXiv:2505.05683v1 类别: cross 摘要:本研究介绍了一种基于web的交互式健康风险预测工具,旨在使用机器学习模型评估糖尿病风险。基于2015年CDC BRFSS数据集构建,该研究评估了包括逻辑回归、随机森林、XGBoost、LightGBM、KNN和神经网络在内的模型,在原始、SMOTE和欠采样策略下进行评估。LightGBM结合欠采样取得了最佳召回率,使其成为风险检测的理想选择。该工具集成了SHAP和LIME来解释预测,并使用皮尔逊分析突出显示共病的相关性。基于Dash的用户界面使用户能够方便地与模型预测、个性化建议和特征洞察进行交互,支持数据驱动的健康意识。
发布时间: 5/12/2025
查看原文
作者: Alexander Most, Joseph Winjum, Ayan Biswas, Shawn Jones, Nishath Rajiv Ranasinghe, Dan O'Malley, Manish Bhattarai
arXiv:2505.05666v1 交叉公告类型 摘要:检索增强生成(RAG)已成为通过将响应与外部文档对接来提高大型语言模型(LLMs)的可靠性和实用性的流行技术。传统的RAG系统依赖光学字符识别(OCR)首先将扫描文档转换为文本。然而,即使是最先进的OCR也可能在退化或复杂的文档中引入错误。最近的视觉-语言方法,如ColPali,提出直接对文档进行视觉嵌入,从而消除了OCR的需求。本研究对比了基于视觉的RAG系统(ColPali)与更传统的依赖OCR的管道(利用Llama 3.2(90B)和Nougat OCR)在不同文档质量下的表现。除了传统的检索准确性指标,我们还引入了一个语义答案评估基准来评估端到端的问答性能。研究表明,虽然基于视觉的RAG在它已微调的文档上表现良好,但基于OCR的RAG更能有效地推广到不同质量的未见文档。我们强调了计算效率和语义准确性之间的关键权衡,并为RAG从业人员在生产环境中选择依赖OCR和基于视觉的文档检索系统提供了实用指导。
发布时间: 5/12/2025
查看原文
作者: Neeloy Chakraborty, John Pohovey, Melkior Ornik, Katherine Driggs-Campbell
arXiv:2505.05665v1 类别: cross 摘要:大规模语言模型(LLMs)已经在规划、控制和预测等决策任务中展示了跨领域的泛化能力,但它们倾向于产生不安全和不希望的输出,这带来了风险。我们认为,在安全关键场景中检测这些失败是必要的。现有的黑盒方法通常通过识别多个样本之间的不一致来检测幻觉。这些方法通常会引入提示扰动,如打乱细节顺序或生成对抗性输入,他们的直觉是自信的模型应该产生稳定输出。我们首先进行了一项人工案例研究,表明其他形式的干扰(例如,添加噪声或移除传感器细节)会导致LLMs在驾驶环境中产生幻觉。然后,我们提出了一个使用自适应压力测试(AST)结合蒙特卡洛树搜索(MCTS)来高效搜索提示扰动空间的新方法。我们的AST公式使得能够发现导致语言模型高度不确定的场景和提示。通过在多种场景中生成MCTS提示扰动树,我们展示了离线分析可以用于运行时自动生成影响模型不确定性的提示,并为LLM提供实时信任评估信息。
发布时间: 5/12/2025
查看原文
作者: Mohamed-Khalil Bouzidi, Christian Schlauch, Nicole Scheuerer, Yue Yao, Nadja Klein, Daniel G\"ohring, J\"org Reichardt
arXiv:2505.05638v1 交叉类型: 摘要:受运动预测比赛和基准测试的推动,近年来出现了越来越多基于学习的预测模型,许多模型具有数百万个参数,专注于通过微米级提高开环预测精度。然而,这些基准测试未能评估这些改进是否能在自主驾驶堆栈中实现更好的性能。在本工作中,我们系统地评估了最先进的运动预测器和运动规划器之间的相互作用。我们的结果表明,更高的开环精度并不总是与更好的闭环驾驶行为相关,而其他因素,如预测的时间一致性以及规划器的兼容性,也起着关键作用。此外,我们研究了这些模型的缩小版本,并令人惊讶地发现,在某些情况下,具有多达86%更少参数的模型在闭环驾驶性能上可与甚至更优越。我们的代码可在 https://github.com/continental/pred2plan 获取。
发布时间: 5/12/2025
查看原文
作者: Aarti Ghatkesar, Uddeshya Upadhyay, Ganesh Venkatesh
arXiv:2505.05626v1 交叉类型 摘要:实现视觉和语言的深层对齐仍然是多模态大型语言模型(MLLMs)面临的一个核心挑战。这些模型往往无法充分利用视觉输入,而是依赖于强大的语言先验。我们的方法首先洞察了MLLMs内部如何构建对图像区域的视觉理解,然后介绍了增强这种能力的技术。具体来说,我们探索了既加深模型对视觉内容的理解又能确保这些视觉洞察积极引导语言生成的技术。我们通过详细上游分析展示了结果模型在预测视觉依赖性标记以及在具有视觉挑战性任务上取得10个点的进步方面具备的优越多模态理解能力。
发布时间: 5/12/2025
查看原文
arXiv:2505.05625v1 类型: 交叉学科 摘要:从复杂化学反应中估计反应速率常数对于推进详细化学研究至关重要。然而,现实世界大气化学系统的固有刚性带来了严重挑战,导致训练不稳定和不良收敛,进而阻碍了基于学习的方法有效估算反应速率常数。为了解决这个问题,我们提出了一种用于化学反应建模的刚性物理导向神经常微分方程框架 (SPIN-ODE)。我们的方法引入了一个三阶段优化过程:首先,一个潜在的神经常微分方程学习化学浓度与其时间导数之间的连续可微轨迹;其次,一个显式的化学反应神经网络 (CRNN) 根据所学习的动力学提取底层的速率系数;最后,使用神经 ODE 求解器进一步微调 CRNN,以进一步提高速率系数的估算。在合成数据集和新提出的实际数据集上的广泛实验验证了我们方法的有效性和鲁棒性。作为首个研究化学速率系数发现中的刚性神经常微分方程的工作,我们的研究为将神经网络与详细化学相结合提供了有前途的方向。
发布时间: 5/12/2025
查看原文