LLM2D

arXiv 论文列表

作者: Zezhou Chen, Zhaoxiang Liu, Kai Wang, Kohou Wang, Shiguo Lian
arXiv:2504.18027v1 交叉公告类型 摘要:由于自然场景的复杂性,视力障碍人士很难感知周围的环境,因此他们的个人和社会活动受到了极大的限制。本文介绍了一种基于大型视觉-语言模型(LVLM)的环境感知系统,通过穿戴设备捕捉当前面对的场景,并通过设备获取分析结果,帮助他们更好地理解周围的环境。视力障碍人士可以通过长按屏幕激活LVLM输出,获取场景的全局描述;通过轻触或滑动屏幕,检索由分割模型生成的场景中物体的类别;通过双击屏幕,获取感兴趣的物体的详细描述。为了帮助视力障碍人士更准确地感知世界,本文提出了将RGB图像的分割结果作为外部知识整合到LVLM的输入中,以减少LVLM的幻觉。在POPE、MME和LLaVA-QA90上的技术实验表明,该系统相对于Qwen-VL-Chat能够提供更为准确的场景描述。探索性实验表明,该系统有助于视力障碍人士有效感知周围的环境。
发布时间: 4/28/2025
查看原文
作者: Emiliano Penaloza, Tianyue H. Zhan, Laurent Charlin, Mateo Espinosa Zarlenga
arXiv:2504.18026v1 Announce Type: cross 摘要:概念瓶颈模型(CBMs)提出通过限制模型的决策在一组可理解的人类概念上,以增强AI系统的可信度。然而,CBMs通常假设数据集包含准确的概念标签,一种在实践中经常被违反的假设,我们展示了这会导致性能显著下降(在某些情况下下降了25%)。为了解决这个问题,我们引入了概念偏好优化(CPO)目标,这是一种基于直接偏好优化的新损失函数,它有效地缓解了概念误标对CBM性能的负面影响。我们对CPO目标的一些关键属性进行了分析,表明它直接优化概念的后验分布,并将其与二元交叉熵(BCE)进行了对比,展示了CPO本质上对概念噪声的敏感性较低。我们在有噪声标签和没有噪声标签的三个实际数据集上进行了实证验证,发现CPO在所有这些情况下都优于BCE。
发布时间: 4/28/2025
查看原文
arXiv:2504.18012v1 跨模态类型: 横向 摘要: 多模态机器翻译(MMT)旨在通过利用辅助模态,如图像,来提高翻译质量。尽管大规模预训练语言和视觉模型在单模态自然语言处理任务中的进步显著,但它们在MMT中的有效性和作用尚未充分探索。在本工作中,我们系统研究了预训练编码器和解码器在多模态翻译模型中的影响。具体而言,我们分析了从从头训练到使用预训练和部分冻结组件的不同训练策略如何在统一的MMT框架下影响翻译性能。我们在英语-德语和英语-法语翻译任务中使用Multi30K和CoMMuTE数据集进行了实验。我们的结果揭示了在多模态设置中预训练起着关键但不均匀的作用:预训练解码器始终产生更流畅和准确的输出,而预训练编码器的效果则取决于图像-文本对齐的质量。此外,我们探讨了模态融合与预训练组件之间的相互作用,为未来多模态翻译系统架构设计提供指导。
发布时间: 4/28/2025
查看原文
作者: Zilin Huang, Zihao Sheng, Zhengyang Wan, Yansong Qu, Yuhao Luo, Boyue Wang, Pei Li, Yen-Jung Chen, Jiancong Chen, Keke Long, Jiayi Meng, Yue Leng, Sikai Chen
arXiv:2504.18010v1 宣告类型: cross 摘要:自主系统仿真平台的最近进展显著增强了对驾驶策略的安全和可扩展测试。然而,现有的模拟器仍然无法完全满足未来运输研究的需求,特别是在建模社会意识的驾驶代理和促进有效的人工智能协作方面。本文介绍了Sky-Drive,这是一种新型分布式多代理仿真平台,通过四项关键创新来解决这些限制:(a) 分布式架构,实现多个终端的同步仿真;(b) 多模态的人在环框架,结合各种传感器以收集丰富的行为数据;(c) 促进持续和适应性知识交流的人工智能协作机制;以及(d) 数字孪生(DT)框架,用于构建真实世界交通环境的高保真虚拟副本。Sky-Drive 支持多种应用,如自动驾驶车辆(AV)与脆弱道路用户(VRU)互动建模、人机在环培训、社会意识强化学习、个性化驾驶策略以及自定义场景生成。未来扩展将包含面向上下文的决策支持基础模型和硬件在环(HIL)测试以进行实际验证。通过连接场景生成、数据收集、算法训练和硬件整合,Sky-Drive 有潜力成为下一代社会意识和以人为中心的自主运输研究的基础平台。更多Demo视频和代码请参见:https://sky-lab-uw.github.io/Sky-Drive-website/
发布时间: 4/28/2025
查看原文
作者: Kaaustaaub Shankar, Wilhelm Louw, Bharadwaj Dogga, Nick Ernest, Tim Arnett, Kelly Cohen
arXiv:2504.17979v1 宣告类型:交叉 摘要:AI驱动的半自主航天手术对于解决长时间星际任务中的医疗挑战至关重要,在这些任务中,有限的机组人员数量和通信延迟限制了传统手术方法的应用。当前的机器人手术系统需要完全依赖外科医生的控制,这需要大量的专业知识,从而限制了其在太空中的可行性。我们提出了一种对Fuzzy Rapidly-exploring Random Tree(模糊快速扩展随机树)算法的新适应性,用于微型化辅助手术系统中两自由度机器人手臂的障碍物避免和协作控制。研究发现,使用Fuzzy Rapidly-exploring Random Tree算法在路径搜索时间上提高了743%,在路径成本上提高了43%。
发布时间: 4/28/2025
查看原文
arXiv:2504.17964v1 Announce Type: cross 摘要:本文探讨了研究生在基于网络与大型语言模型(LLMs)交互时评估机器生成的专业知识框架的形成过程。通过结合对14名研究生的调查、LLM交互记录以及深入访谈,我们识别出这些新兴专业人士评估和互动AI生成内容的模式。我们的研究发现表明,学生们构建了由三种主要因素塑造的评估框架:职业身份、验证能力以及系统导航经验。学生们并不是对LLM输出结果统一接受或拒绝,而是保护与其职业身份核心领域相关的内容,而将其他领域交给他人处理——管理者保留概念性工作,设计师确保创意过程的安全,程序员维持对核心技术专长的控制。这些评估框架还受到学生们验证不同类型内容的能力及其复杂系统导航经验的影响。这项研究为网络科学领域做出了贡献,它突显了新兴的人工智能与人类交互模式,并提出了平台如何更好地支持用户在AI中介导的网络环境评估机器生成专业知识信号方面的发展框架。
发布时间: 4/28/2025
查看原文
作者: Mateo Espinosa Zarlenga, Gabriele Dominici, Pietro Barbiero, Zohreh Shams, Mateja Jamnik
arXiv:2504.17921v1 宣告类型: cross 摘要: 在本文中,我们探讨了基于概念的模型(CMs)对离分布(OOD)输入的响应方式。CMs 是可解释的神经架构,首先预测一组高层概念(例如,条纹、黑色),然后从这些概念中预测任务标签。特别地,我们在输入为 OOD 时研究了概念干预(即人工专家在测试时纠正 CM 错误预测的概念的操作)对 CMs 任务预测的影响。我们的分析揭示了当前最先进的 CMs 的一个弱点,我们将其称为泄漏污染,这阻碍了它们在进行概念干预以应对 OOD 输入时提高其准确性。为了解决这个问题,我们引入了 MixCEM,这是一种新的 CM,能够在仅当此类信息为分布内时学习动态利用其概念中缺失的泄漏信息。我们的结果显示,在具有完整概念注释集和不具有完整概念注释集的任务中,MixCEMs 在概念干预存在和不存在的情况下均显著提高了其在分布内和 OOD 样本上的准确性,从而在强基线模型上表现出色。
发布时间: 4/28/2025
查看原文
作者: Benned Hedegaard, Ziyi Yang, Yichen Wei, Ahmed Jaafar, Stefanie Tellex, George Konidaris, Naman Shah
arXiv:2504.17901v1 类别: cross 摘要: 任务与运动规划是解决长期机器人规划问题的一种成熟方法。然而,传统的方法假设每个任务级的机器人动作或技能都可以归结为运动学运动规划。在本文中,我们应对了同时处理超出运动学考虑的闭环电机控制器和运动技能的规划挑战。我们提出了一种新的方法,该方法通过可组合交互原语(CIPs)将这些控制器整合到运动规划中,使得在分层机器人规划中能够使用各种非可组合的预学习技能。为了验证我们的任务与技能规划(TASP)方法,我们描述了在现实场景中进行的机器人实验,旨在展示CIPs如何使移动操作机器人能够有效结合运动规划和通用技能以完成复杂任务。
发布时间: 4/28/2025
查看原文
作者: Yasmine Omri, Parth Shroff, Thierry Tambe
arXiv:2504.17892v1 交叉类型: 多模态 摘要:大型多模态模型(LMMs)的指数级增长推动了跨模态推理的发展,但同时也带来了重大的计算成本。在这项工作中,我们专注于视觉语言模型。我们指出了当前视觉编码器中存在的冗余和低效性,并寻求构建一种适应性的压缩方法来处理多模态数据。在这项工作中,我们通过对基准测试和定性分析来表征各种视觉标记的选择和合并方法。具体而言,我们证明了简单的基于簇的标记聚合在标记选择和合并方面优于之前的最先进的作品,包括在视觉编码器级别进行合并和基于注意力的方法。我们指出了当前视觉编码器中的冗余性,并通过跨模态注意力可视化揭示了视觉标记选择原则的一些令人困惑的趋势。这项工作是朝着更有效地编码和处理高维数据迈出的第一步,为更具有扩展性和可持续性的多模态系统铺平了道路。
发布时间: 4/28/2025
查看原文
作者: Xu Wang, Yiquan Wang, Tin-yeh Huang
arXiv:2504.17878v1 安全类型: 横向交叉 摘要: 在即将到来的后量子时代,传统的加密系统日益容易受到量子计算攻击的威胁,这些攻击可能会破坏其数学基础。为了应对这一关键挑战,我们提出了一种名为crypto-ncRNA的生物融合型加密框架,该框架利用非编码RNA (ncRNA) 的动态折叠特性生成高熵、量子抵抗的密钥,并生成不可预测的密文。该框架采用了一种新颖的多阶段过程:将明文编码为RNA序列,使用高级算法预测和操作RNA二级结构,通过RNA分子的内在物理不可克隆性提取加密密钥。实验评估表明,尽管crypto-ncRNA的加密速度略低于AES,但在效率和可扩展性方面,它显著优于RSA,并且在NIST SP 800-22随机性测试中实现了100%的通过率。这些结果表明,crypto-ncRNA为抵御量子计算带来的不断演变威胁保护数字基础设施提供了一种有前景且稳健的方法。
发布时间: 4/28/2025
查看原文