LLM2D

arXiv 论文列表

arXiv:2504.03234v1 宣告类型: cross 摘要: 链式思考(Chain of Thought, CoT)推理能够提升语言模型的性能,但常常在解决简单问题时导致不必要的“过度思考”。我们发现,现有直接惩罚推理长度的方法未能考虑到问题复杂度的差异。我们的方法通过长度和质量的比较构建奖励,并在理论上假设同时提高解决方案的正确性和简洁性。此外,我们还进一步展示了该方法在缺乏地面真实值的模糊任务中的应用。跨多个推理基准的实验表明,我们的方法能够在保持准确性的前提下生成显著更加简洁的解释,有效地教导模型在需要时进行思考。
发布时间: 4/7/2025
查看原文
作者: Yiding Feng, Wei Tang
arXiv:2504.03211v1 Announce Type: 交叉 摘要:我们引入并研究了具有说服力的校准问题,其中主要目标是向下游代理提供关于潜在事件的可信赖预测,以使其做出期望的决策。我们采用标准的校准框架,该框架要求预测应在其自身值的基础上保持无偏性,从而代理可以直接信赖其面值。允许一个小的校准误差预算,我们旨在回答以下问题:在这一校准误差预算下,最优预测是什么,如何计算最优预测,尤其是在主要与代理之间存在激励不对齐的情况下?我们主要关注标准的 Lt-范数期望校准误差(ECE)度量。 我们通过将预测视为完美校预测的后处理版本来开发了一个通用框架。利用这一框架,我们首先描述了最优预测的结构。具体来说,当主要的效用与事件无关且对于 L1-范数 ECE 时,我们展示:(1)最优预测在真实预期结果高的情况下过于自信(在真实预期结果低的情况下则不够自信),而在中间保持完美校准;(2)不正确的预测显示了与主要效用函数的共线性结构。在算法方面,我们为一般的主要效用和一般 Lt-范数 ECE 提供了一个 FPTAS 来计算近似最优预测。此外,对于 L1-范数和 L-无穷范数 ECE,我们提供了计算精确最优预测的多项式时间算法。
发布时间: 4/7/2025
查看原文
arXiv:2504.03207v1 交叉公告类型 摘要:我们如何使用生成式AI来设计增强而非替代人类认知的工具?在这篇立场论文中,我们回顾了我们在AI辅助决策方面的研究,以从中吸取教训。我们观察到,在AI辅助决策和生成式AI中,一种流行的方法是向用户建议完整的AI生成解决方案,用户可以接受、拒绝或编辑这些方案。另一种方法是AI工具有可能提供更多逐步支持,帮助用户自己解决问题,我们称之为过程导向支持。我们描述了完整解决方案所面临的挑战,以及过程导向支持如何应对这些挑战。我们还讨论了这些发现对基于最近一项研究结果的生成式AI的应用性,该研究对比了两种方法在使用大语言模型辅助复杂决策任务方面的适用性。
发布时间: 4/7/2025
查看原文
作者: Yanming Wan, Jiaxing Wu, Marwa Abdulhai, Lior Shani, Natasha Jaques
arXiv:2504.03206v1 Announce Type: cross 摘要:有效的对话代理必须能够根据用户的需求、个性和属性个性化其行为,无论是辅助写作任务还是在教育或医疗保健等领域操作。当前的训练方法,如从人类反馈中强化学习(RLHF),优先考虑有用性和安全性,但在培养真正具有同理心、适应性和个性化的互动方面仍存在不足。传统个性化方法通常依赖于广泛的用户历史,这限制了其在新用户或情境限制用户中的有效性。为克服这些局限性,我们提出了一种方法,即将改进对话代理对用户的模型的内在动机作为额外的奖励,与多轮次的RLHF相结合。这种奖励机制激励代理主动获取用户的特征,通过优化对话以提高其用户模型的准确性。因此,策略代理可以通过获得更多信息来提供更加个性化的互动。我们将在教育和健身环境中应用该方法,其中LLM根据用户的隐藏学习风格或生活方式属性教授概念或推荐个性化策略。使用LLM模拟的用户,我们的方法在揭示用户偏好和适应用户方面优于多轮次的RLHF基线。
发布时间: 4/7/2025
查看原文
作者: Jiaxin Guo, Wenzhen Dong, Tianyu Huang, Hao Ding, Ziyi Wang, Haomin Kuang, Qi Dou, Yun-Hui Liu
arXiv:2504.03198v1 类型: cross 摘要: 从单目手术视频重建3D场景可以增强外科医生的感知能力,因此在各种计算机辅助手术任务中发挥着重要作用。然而,由于内窥镜视频固有的问题,例如动态变形和无纹理表面,实现尺度一致的重建仍然是一个开放的挑战。尽管最近取得了进展,当前的方法要么依赖于校准或仪器先验来估计尺度,要么采用像SfM那样的多阶段流水线,从而导致错误累积,并需要离线优化。在本文中,我们提出了Endo3R,这是一种统一的3D基础模型,可以在线进行单目手术视频的尺度一致重建,无需任何先验或额外优化。我们的模型通过预测全局对齐的点图、尺度一致的视频深度以及摄像机参数,统一了任务,且无需任何离线优化。我们方法的核心贡献是通过一个不确定性感知的双内存机制,将近年来的成对重建模型扩展到长期增量动态重建。该机制维护了短期动态和长期空间一致性的历史标记。值得注意的是,为了解决手术场景的高度动态性,我们通过Sampson距离测量标记的不确定性,并过滤掉具有高不确定性的标记。鉴于内窥镜数据集中的地面真实深度和摄像机姿态稀缺,我们还设计了一种自我监督机制,并引入了一种新颖的动力感知流损失机制。在SCARED和Hamlyn数据集上丰富的实验表明,我们的模型在零样本手术视频深度预测和摄像机姿态估计方面具有出色的表现,且具有在线效率。项目页面: https://wrld.github.io/Endo3R/。
发布时间: 4/7/2025
查看原文
arXiv:2504.03185v1 安全对齐类型:跨领域 摘要:泛化对齐是安全部署大型语言模型(LLMs)到现实世界NLP应用中的核心挑战。当前的对齐方法,包括基于人类反馈的强化学习(RLHF),由于其依赖于隐式、事后偏好的原因,往往不能保证在训练分布之外的约束满足。受到在调优之前先整理数据这一范式转变的启发,我们提出了一种新的安全语言对齐框架,该框架将从正面和负面示范中学习自然语言约束作为首要步骤。通过推断特定任务的奖励函数和潜在的约束函数,我们的方法促进了对新颖安全要求的适应,并在领域转换和对抗性输入下实现了稳健的泛化。我们在约束马尔可夫决策过程(CMDP)框架内形式化了该框架,并通过一个基于文本的导航环境进行了验证,展示了在危险区域发生变化时实现安全适应。我们的实验表明,在遵循安全导航路径时,域转移后的违规次数更少,并通过将学习到的约束应用于蒸馏的BERT模型实现了零违规,作为微调技术。这项工作为构建安全关键性和更泛化的LLMs提供了有希望的途径,适用于实际的NLP设置。
发布时间: 4/7/2025
查看原文
作者: Zeyang Zheng, Arman Hosseini, Dong Chen, Omid Shoghli, Arsalan Heydarian
arXiv:2504.03171v1 宣告类型: cross 摘要:城市地区电动滑板(e-scooter)的普及与交通事故和伤害的增加相一致,这主要是由于它们的小轮子、缺乏减震系统以及对不平路面的敏感性。虽然深度学习基础上的物体检测已被广泛应用于汽车安全改进,但其在电动滑板障碍物检测方面的应用尚未得到探索。本文介绍了一种针对电动滑板的新型地面障碍物检测系统,结合使用RGB摄像机和深度摄像机以增强实时道路危险检测。此外,惯性测量单元(IMU)测量线性垂直加速度以识别表面振动,从而指导选择六类障碍物:树枝、检查井盖、坑洞、松果、非方向裂缝以及截顶圆顶。所有传感器,包括RGB摄像机、深度摄像机和IMU,均集成于Intel RealSense Camera D435i中。由YOLO驱动的深度学习模型检测道路危险,并利用深度数据估计障碍物距离。在七小时的自然驾驶数据集上进行评估,该系统达到了高平均准确度均值(mAP)0.827,并展示了出色的实时性能。通过这种方案,通过先进计算机视觉和数据融合,能够有效提升电动滑板的安全性。数据集可从https://zenodo.org/records/14583718访问,项目代码托管于https://github.com/Zeyang-Zheng/Real-Time-Roadway-Obstacle-Detection-for-Electric-Scooters。
发布时间: 4/7/2025
查看原文
作者: Kexin Tian, Jingrui Mao, Yunlong Zhang, Jiwan Jiang, Yang Zhou, Zhengzhong Tu
arXiv:2504.03164v1 宣布类型:交叉 摘要:近年来,视觉-语言模型(VLMs)在自主驾驶任务中的应用已经展示了其强大的潜力。然而,它们的空间理解与推理能力——自主驾驶的关键能力——仍然存在显著的局限性。值得注意的是,现有的基准并没有系统性地评估VLMs在驾驶场景中的空间推理能力。为了填补这一空白,我们提出了NuScenes-SpatialQA,这是首个基于真实数据构建的问题-答案(QA)基准,专门设计用来评估VLMs在自主驾驶中的空间理解和推理能力。该基准基于NuScenes数据集构建,通过一个自动化的3D场景图生成管道和一个问题-答案生成管道构建而成。该基准全面评估了VLMs在多个维度上的空间理解和推理性能。利用这一基准,我们进行了广泛的实验,涵盖了各种VLMs,包括通用模型和空间增强模型,提供了对其在自主驾驶中的空间能力的首次全面评估。令人惊讶的是,实验结果表明,空间增强的VLM在定性问题-答案中表现更好,但在定量问题-答案中并不表现出竞争优势。总的来说,VLMs在空间理解和推理方面仍然面临显著的挑战。
发布时间: 4/7/2025
查看原文
作者: Abdul Mannan Mohammed, Azhar Ali Mohammad, Jason A. Ortiz, Carsten Neumann, Grace Bochenek, Dirk Reiners, Carolina Cruz-Neira
arXiv:2504.03147v1 人机团队类型:交叉 摘要:人工智能(AI)和机器学习(ML)的 Recent 发展为人类与自主系统团队协作(HAT)提供了新的机会,应用于任务、使命以及持续协调的活动中。主要挑战是使人类能够保持对自主资产的意识和控制,同时建立信任并支持共享的上下文理解。为了解决这一问题,我们提出了一种实时人类数字孪生(HDT)架构,该架构整合了大型语言模型(LLMs)用于知识报告、回答和建议,并体现在可视化的用户界面中。 该系统采用元认知方法,以实现与人类队友期望相一致的个性化、上下文相关响应。HDT 行为和表现上都极为现实,从训练到部署再到行动后的评审,都整合在任务生命周期中。我们的架构包括语音识别、上下文处理、AI 驱动的对话、情绪建模、唇同步以及多模态反馈。我们描述了系统设计、性能指标,并提出了未来开发更适应性和现实性的 HAT 系统的方向。
发布时间: 4/7/2025
查看原文
作者: Junkai Zhang, Bin Li, Shoujun Zhou, Yue Du
arXiv:2504.03135v1 Announce Type: cross 摘要:医学视觉问答(Med-VQA)使用医学影像回答临床问题,辅助诊断。设计MedVQA系统在辅助临床诊断和提高诊断准确性方面具有深远的重要性。在此基础上,层次化医学视觉问答通过将医学问题组织成层次结构并进行级别特定的预测来处理细微差异。近年来,许多研究提出了层次化的MedVQA任务并建立了数据集,然而仍存在一些问题:(1)不完善的层次化建模导致不同层次间语义碎片化;(2)过度依赖基于Transformer的跨模态自注意力融合方法中的隐式学习,这在医学场景中掩盖了关键的局部语义关联。为解决这些问题,本研究提出了HiCA-VQA方法,包括两个模块:层次化提示用于细粒度医学问题和层次化答案解码器。层次化提示模块预先对齐层次化的文本提示与图像特征,以引导模型根据问题类型关注特定的图像区域,而层次化解码器则分别对不同层次的问题进行预测,以在不同粒度上提升准确性。该框架还包含一个交叉注意力融合模块,其中图像作为查询,文本作为键值对。在Rad-Restruct基准上的实验表明,HiCA-VQA框架在回答层次化的细粒度问题方面比现有最先进的方法表现更好。本研究为层次化视觉问答系统提供了一条有效途径,推动了医学影像理解的发展。
发布时间: 4/7/2025
查看原文