LLM2D

arXiv 论文列表

作者: Delin Qu, Haoming Song, Qizhi Chen, Yuanqi Yao, Xinyi Ye, Yan Ding, Zhigang Wang, JiaYuan Gu, Bin Zhao, Dong Wang, Xuelong Li
arXiv:2501.15830v3 Announce Type: replace-cross 摘要:在本文中,我们认为空间理解是机器人操作的关键,并提出SpatialVLA来探索适用于机器人基础模型的有效空间表示。具体而言,我们引入了Ego3D位置编码,将其3D信息注入视觉-语言-动作模型的输入观察中,并提出了自适应动作网格,以自适应离散的动作网格表示空间机器人动作,从而促进跨越不同机器人环境和任务的学习和迁移的空间动作知识。SpatialVLA首先基于拥有110万个真实世界机器人演示的视觉语言模型进行预训练,以学习适用于多个机器人环境和任务的一般性操作策略。在预训练后,SpatialVLA可以直接应用于以零样本的方式执行大量任务。在仿真和实际机器人中的优越结果证明了其推断复杂机器人运动轨迹的优势及其强大的领域内多任务泛化能力。我们进一步展示了所提出的自适应动作网格为预训练的SpatialVLA模型提供了新的有效方式,以适应新的仿真和实际机器人设置,其中预学的动作网格重新离散化以捕获新设置中的机器人特定空间动作移动。广泛的评估结果表明了其在分布内泛化和分布外适应能力的卓越表现,突出了所提出的空间感知表示对通用机器人策略学习的关键益处。所有细节和代码将开源。
发布时间: 2/3/2025
查看原文
arXiv:2501.14288v2 通知类型: 替换-交叉 摘要:大规模语言模型(LLMs)的快速发展使得检测AI生成的文本成为一个越来越关键的挑战。传统方法往往无法捕捉人类和机器生成内容之间的细腻语义差异。因此,我们提出了一种基于语义相似性分析的新型方法,利用一种多层架构,结合预训练的DeBERTa-v3-large模型、双向LSTMs和线性注意力池化,以捕捉局部和全局语义模式。为了提高性能,我们采用了高级输入和输出增强技术,如区域级上下文集成和宽输出配置。这些技术使模型能够学习更多区分性的特征,并在多种领域中泛化。实验结果表明,这种方法比传统方法更有效,证明了其在AI生成的文本检测和其他文本比较任务中的有用性。
发布时间: 2/3/2025
查看原文
作者: Yan Chen, Qinxun Bai, Yiteng Zhang, Shi Dong, Maria Dimakopoulou, Qi Sun, Zhengyuan Zhou
arXiv:2501.13394v2 通知类型: replace-cross 摘要: 设计能够在复杂环境中高效探索的智能代理一直是强化学习中的一个基本挑战。虽然已有许多工作证明基于随机价值函数的技术在单个代理上是有效的,但从理论角度看,将随机化注入一个代理社会以同时探索环境的效果仍然不清楚。我们在本文中建立的理论结果对此问题给出了肯定的答案。我们将并发学习框架应用到带聚合状态表示的随机化最小二乘值迭代(RLSVI)算法中。我们展示了在有限和无限时间框架中的最坏情况下的多项式遗憾界。在两种设置中,每个代理的遗憾界以最优速率$\Theta\left(\frac{1}{\sqrt{N}}\right)$下降,突显了并发学习的优势。我们的算法与文献[@russo2019worst]和[@agrawal2021improved]相比,显示出显著更低的空间复杂度。我们将空间复杂度减少了$K$倍,同时最坏情况下的遗憾界仅增加了$\sqrt{K}$倍,与文献[@agrawal2021improved, russo2019worst]相比。此外,我们还进行了数值实验以验证我们的理论发现。
发布时间: 2/3/2025
查看原文
arXiv:2501.10150v2 宣告类型: replace-cross 摘要: 弱化偏见,例如语言模型对性别刻板印象的依赖,是创建可靠且有用的语言技术所需的 crucial 努力。削弱偏见的关键在于确保模型保留其多功能性,包括其解决语言任务和公平表示各种性别的能力。为了解决这一问题,我们提出了一个简化的通过模型适应实现双重弱化算法 (2DAMA)。新型双重弱化能够在削弱刻板印象偏见的同时保留语言模型编码的所需事实性别信息。我们表明,2DAMA 有效地减少了英语中的性别偏见,并且是第一个帮助减少翻译中刻板印象倾向的方法之一。所提出的方法的关键优势在于保留了事实上的性别线索,这些线索在各种自然语言处理任务中都非常有用。
发布时间: 2/3/2025
查看原文
作者: Santiago del Rey, Adri\`a Medina, Xavier Franch, Silverio Mart\'inez-Fern\'andez
arXiv:2501.08402v2 通知类型: 替换-交叉 摘要:深度学习(DL)系统在软件工程中带来了独特的挑战,尤其是在确保正确性和资源效率方面。虽然深度学习模型在特定任务上表现出色,但构建深度学习系统仍然是必要的。必须谨慎评估持续改进所需的努力、成本以及潜在的边际收益递减,因为软件工程师常常面临在某个系统相对于其质量属性达到最佳状态时停止细化的决定性时刻。本文经验性地探讨了MLOps实践(如监控和实验跟踪)在创建透明且可再现的实验环境中的作用,这些环境能够使团队评估和证明设计决策对质量属性的影响。此外,我们报告了在深度学习模型及其在更大系统中的集成设计过程中嵌入领域知识以应对质量挑战的经验。研究发现提供了关于领域知识和MLOps的益处以及在深度学习项目中何时应限制进一步优化的战略考虑的实际见解,以最大化整个系统的质量和可靠性。
发布时间: 2/3/2025
查看原文
作者: Wentao Xu, Wenlu Fan, Shiqian Lu, Tenghao Li, Bin Wang
arXiv:2501.06274v2 宣布类型:替换交叉 摘要:在线政治 discourse 中虚假信息和假新闻的兴起对民主进程和公众参与提出了重大挑战。尽管有揭穿努力旨在抵消虚假信息并促进基于事实的对话,这些讨论往往涉及语言有毒性和情感极化。我们审查了超过 8600 万条揭穿推文和超过 400 万条 Reddit 揭穿评论,以研究语言有毒性、悲观主义和社会极化在揭穿努力中的关系。我们集中在对 2016 和 2020 年美国总统选举以及“QAnon”阴谋理论的讨论上,我们的分析揭示了三个关键发现:(1) 边缘参与者(1 级用户)在有毒言论形成中发挥了不成比例的作用,受较低的社区问责制和情感表达驱动; (2) 平台机制显著影响了极化现象,Twitter 放大了党派差异,而 Reddit 由于其结构化和社区驱动的互动,总体上具有更高的毒性; (3) 语言毒性与悲观主义之间存在负相关关系,增加互动可以减少毒性,尤其是在 Reddit 上。我们展示了平台架构影响用户互动的信息复杂性,Twitter 促进集中且统一的讨论,而 Reddit 则鼓励多样且复杂的交流。我们的研究结果强调了用户互动模式、平台动态和情感表达对于塑造揭穿话语极化的重要性。这项研究为政策制定者和平台设计师提供了减轻有害影响、促进更健康在线讨论的见解,并对理解数字环境中虚假信息、仇恨言论和政治极化具有重要意义。
发布时间: 2/3/2025
查看原文
作者: Satchel Grant
arXiv:2501.06164v3 通报类型: 替换-交叉 摘要: 我们何时可以说两个神经系统是相同的?这个问题的答案取决于目标,通常通过代表相似性分析(RSA)和中心核对齐(CKA)等关联方法来解决。我们如何针对功能相关的相似性进行目标瞄准,以及如何孤立特定的因果方面?在本工作中,我们引入了模型对齐搜索(MAS)这一方法,用于探讨分布式表示的因果性。该方法学习可在两个分布式网络表示的子空间之间实现自由信息交换的可逆线性变换。我们首先展示了该方法可以用于在不同训练种子的网络之间转移特定因果变量的值,例如计数任务中的项目数量。然后,通过比较在结构上不同的任务上训练的不同类型的数字表示,来研究数字认知中的开放问题。接着,我们比较了MAS与现有的因果相似性方法之间的差异,并最后引入了一个反事实潜在辅助损失函数,即使在我们无法对其中一个模型进行因果访问的情况下,该函数也有助于形成因果相关的对齐。
发布时间: 2/3/2025
查看原文
作者: Kunpeng Xu, Lifei Chen, Shengrui Wang
arXiv:2501.01480v3 通知类型: replace-cross 摘要:在时间序列分析领域,处理概念漂移的现象构成了一个重大挑战。概念漂移——其特征是时间序列数据统计属性的变化——影响了传统分析模型的可靠性和准确性。特别是在变量之间相互作用至关重要的共演化场景中,这一点尤为明显。本文提出了一种名为CORAL的简单而有效的方法,将时间序列建模为一个演化的生态系统,以学习概念漂移的表示。CORAL利用核诱导的自我表示学习生成表示矩阵,该矩阵包含了共演化时间序列的内在动态。该矩阵作为识别和适应概念漂移的关键工具,通过观察其时间变化来发挥作用。此外,CORAL通过模式演化分析有效地识别当前趋势并提供新兴趋势的见解。我们在多个数据集上的实证评估表明,CORAL在处理概念漂移的复杂性方面具有有效性。这种方法在共演化时间序列分析的理论领域引入了新的视角,增强了在动态数据环境中适应性和准确性,并且可以很容易地集成到大多数深度学习骨干网络中。
发布时间: 2/3/2025
查看原文
作者: Zehong Wang, Zheyuan Zhang, Tianyi Ma, Nitesh V Chawla, Chuxu Zhang, Yanfang Ye
arXiv:2412.16441v2 宣布类型: replace-cross 摘要:基础模型旨在通过在大规模数据集上进行预训练来创建通用、跨任务和跨领域的机器学习模型,以捕捉共享模式或概念,例如图像中的轮廓、颜色、纹理和边缘,或者文本中的标记、单词和句子。然而,在图结构化数据上识别跨任务的一般性特征仍然是一个重大挑战,因为基于图的不同任务需要不同的归纳偏差,这阻碍了图基础模型的发展。为了解决这一挑战,我们提出了在图上学习跨任务一般性的新方法。具体而言,我们提出任务树作为基本学习实例,以在图上对任务空间(节点、边、图)进行对齐。然后,我们进行了理论分析,以检查它们的稳定性、可迁移性和泛化能力。我们的研究结果表明,当图神经网络(GNN)使用重构目标在多样化的任务树上进行预训练时,它会获得可迁移的知识,从而通过适当的微调样本集合有效地适应下游任务。为了实证验证这一方法,我们基于任务树开发了一个预训练的图模型,称为基于任务树的图一般性标识器(GIT)。大量的实验表明,单个预训练的GIT模型可以通过微调、上下文学习或零样本学习有效地适应五个领域中超过30个不同图的任务。我们的数据和代码可在 https://github.com/Zehong-Wang/GIT 获取。
发布时间: 2/3/2025
查看原文
作者: Romain Hardy, Sung Eun Kim, Du Hyun Ro, Pranav Rajpurkar
arXiv:2412.15264v3 宣告类型: replace-cross 摘要:AI生成的放射学报告越来越多地被采用,这迫切需要稳健的方法来检测幻觉—虚假或无根据的陈述,这些陈述可能会影响患者的护理。我们提出了一种名为ReXTrust的新框架,用于在AI生成的放射学报告中进行细粒度幻觉检测。我们的方法利用大型视觉-语言模型中的隐藏状态序列,生成找到级别的幻觉风险评分。我们对MIMIC-CXR数据集的部分子集进行了ReXTrust的评估,并证明了与现有方法相比的出色性能,总找点的AUC ROC为0.8751,临床相关的找点的AUC ROC为0.8963。我们的结果显示,利用模型隐藏状态的白盒方法可以为医疗AI系统提供可靠的幻觉检测,有可能提高自动化放射学报告的安全性和可靠性。
发布时间: 2/3/2025
查看原文