arXiv 论文列表

CurricuVLM：通过基于视觉-语言模型的个性化安全关键课程学习实现安全自主驾驶

作者: Zihao Sheng, Zilin Huang, Yansong Qu, Yue Leng, Sruthi Bhavanam, Sikai Chen

arXiv:2502.15119v1 宣布类型: cross 摘要：确保自主驾驶系统的安全性仍然是一个核心挑战，特别是在处理罕见但可能灾难性的安全关键场景方面。尽管现有的研究已经探讨了生成用于自主车辆（AV）测试的安全关键场景，但将这些场景有效纳入政策学习以提高安全性的工作还很有限。此外，开发适应自主车辆行为模式演变和性能瓶颈的训练课程表的方法仍很少被探索。为了解决这些挑战，我们提出了CurricuVLM，这是一种新颖的框架，利用视觉语言模型（VLMs）使自主驾驶代理的个性化课程学习成为可能。我们的方法独特地利用了VLMs的多模态理解能力来分析代理行为、识别性能弱点，并动态生成定制的训练场景以适应课程的调整。通过综合分析带有叙述描述的安全驾驶情况，CurricuVLM进行深入推理来评估AV的能力并识别关键行为模式。然后，框架合成针对这些识别出的限制量身定制的训练场景，从而实现有效的和个性化的课程学习。对Waymo Open Motion数据集的广泛实验表明，CurricuVLM在常规和安全关键场景中均优于最先进的基线，其导航成功率、驾驶效率和安全性指标均表现出更优的性能。进一步的分析表明，CurricuVLM可以作为一种通用方法，可以与各种RL算法集成以增强自主驾驶系统。代码和演示视频可在 https://zihaosheng.github.io/CurricuVLM/ 获取。

发布时间: 2/24/2025

查看原文

评估单个学生在学习平台上的集中度：一种机器学习增强的EEG基框架

作者: Zewen Zhuo, Mohamad Najafi, Hazem Zein, Amine Nait-Ali

arXiv:2502.15107v1 类型:交叉摘要：本研究介绍了一种专门的流水线，旨在通过训练定制的机器学习模型来分类在线学习会话中个体学生的精神集中状态。文中详细阐述了获取和预处理EEG数据的协议，以及从五个EEG信号带（α、β、θ、δ和γ）中提取五十个统计特征的方法。在特征提取之后，进行了一项全面的特征选择过程，以优化个人分析的数据输入。此外，研究还探讨了超参数微调的好处，以提高学生集中状态分类的准确性。EEG信号通过配备有五个电极（TP9、AF7、AF8、TP10和一个参考电极NZ）的Muse头带（Gen 2）从学生处获取，使用基于计算机的e学习平台上的教育内容进行互动。采用定制的学生数据的随机森林模型，我们实现了卓越的分类性能，在基于计算机的学习环境中测试准确率为97.6%，在虚拟现实环境中为98%。研究结果强调了本方法在提供在线教育活动中学生集中状态的个性化见解方面的有效性。

发布时间: 2/24/2025

查看原文

分析神经元，而非嵌入：理解大模型表示与人类认知对齐的情况和位置

作者: Masha Fedzechkina, Eleonora Gualdoni, Sinead Williamson, Katherine Metcalf, Skyler Seto, Barry-John Theobald

arXiv:2502.15090v1 宣告类型: cross 摘要: 现代大型语言模型（LLMs）在某些任务上取得了令人印象深刻的性能，但在其他任务上却表现出明显非人类的行为。这引发了这样一个问题：LLMs学习到的表示与人类的表示有多大的对齐程度。在本工作中，我们介绍了一种研究表示对齐的新方法：我们采用激活引导研究中的方法来识别负责特定概念（例如，“猫”）的神经元，然后分析相应的激活模式。我们的发现表明，LLMs的表示与从行为数据推断出的人类表示高度对齐。值得注意的是，这种对齐程度超过了先前工作中人类与模型对齐研究中的词嵌入所展现的程度。此外，我们的方法还使我们能够更精细地了解LLMs如何表示概念。具体来说，我们展示了LLMs以反映可为人类理解的层级关系来组织概念（例如，“动物”-“狗”）。

发布时间: 2/24/2025

查看原文

保留用处的核选择以实现平衡遗忘

作者: Vaidehi Patil, Elias Stengel-Eskin, Mohit Bansal

arXiv:2502.15082v1 交叉公告类型摘要：用户规范或法律框架通常要求将信息从预训练模型中删除，包括大型语言模型（LLMs）。这需要从已经训练好的模型中删除或“忘记”一组数据点，通常会导致模型在其他数据点上的性能下降。因此，在移除信息与保持模型其他功能之间必须达到平衡，无法平衡这种权衡会导致删除效果不佳或无法使用的模型。为了解决这一问题，我们提出了UPCORE（保持功能的数据核心选择方法），这是一种通用的数据选择框架，用于减轻遗忘过程中的附带损害。我们发现模型损害与模型在忘记集合上的表示差异相关，因此选择性地修剪忘记集合以移除离群值，从而在删除后最小化模型的性能下降。我们在三种标准遗忘方法上评估UPCORE，始终在删除效果和模型保存之间取得更好的平衡。为了更好地评估这种权衡，我们引入了一个新的度量标准，测量标准度量的面积下曲线（AUC）。我们发现UPCORE在标准度量和AUC上都取得了改进，受益于核心选择和修剪点之间的正面迁移，同时减少了忘记集合对外部点的负面影响。

发布时间: 2/24/2025

查看原文

幻觉修正能改善视频-语言对齐吗?

作者: Lingjun Zhao, Mingyang Xie, Paola Cascante-Bonilla, Hal Daum\'e III, Kwonjoon Lee

arXiv:2502.15079v1 宣传类型: 交叉摘要: 大型视觉-语言模型 often 生成与其视觉输入无关的幻觉内容。虽然先前的工作侧重于减轻幻觉，我们反而探索将幻觉矫正作为训练目标，以提高视频-语言对齐。我们引入了 HACA，这是一种自训练框架，旨在纠正描述与视频内容不一致时的幻觉。通过识别并纠正不一致性，HACA 提升了模型在时空推理中对视频和文本表示进行对齐的能力。我们的实验结果表明，在视频字幕绑定和文本到视频检索任务中存在一致的改进，证明了受幻觉矫正启发的任务是提高视觉和语言对齐的有效策略。

发布时间: 2/24/2025

查看原文

面向硬件的静态量化方法用于视频扩散变换器

作者: Sanghyun Yi, Qingfeng Liu, Mostafa El-Khamy

arXiv:2502.15077v1 Announce Type: 交叉摘要：自SORA表现出令人印象深刻的性能以来，用于视频生成的扩散变换器引起了广泛的研究兴趣。已在GPU上通过动态量化技术展示了这些生成AI模型的有效部署。然而，资源有限的设备无法支持动态量化，需要对模型进行静态量化，以便在AI处理器上高效部署。在本文中，我们提出了一种新的方法，用于在不依赖于动态量化技术的情况下对OpenSora[opensora]进行后训练量化，这是一种视频扩散变换器。我们的方法采用静态量化，实现的视频质量与FP16和动态量化ViDiT-Q方法相当，通过CLIP和VQA指标进行衡量。特别是在每个时间步骤中，我们使用逐步骤校准数据来充分提供后训练的静态量化模型，同时采用通道级量化权重和张量级量化激活。进一步应用平滑量化技术，可以利用静态量化模型获得高质量的视频输出。广泛的实验结果表明，静态量化可以成为视频扩散变换器的一种可行替代方案，提供一种在不牺牲性能的情况下更具效率的方法。

发布时间: 2/24/2025

查看原文

大规模使用大型语言模型进行罕见病差异诊断：从腹腔放线菌病到威尔森病

作者: Elliot Schumacher, Dhruv Naik, Anitha Kannan

arXiv:2502.15069v1 交叉公告类型摘要：大型语言模型（LLMs）在疾病诊断方面展示了令人印象深刻的性能。然而，它们在识别更罕见的疾病方面的效果，尤其是在这些疾病本身更难诊断的情况下，仍然存在疑问。随着LLMs在医疗健康领域应用的增加，罕见疾病的表现变得尤为重要。特别是在初级医疗提供者仅凭患者的对话就需要进行罕见疾病的诊断，以便采取适当的下一步行动的情况下，这一点尤其重要。为此，设计了多种临床决策支持系统来帮助识别罕见疾病，但这些系统的实用性受限，因为它们缺乏对常见疾病的了解和使用上的难度。在本文中，我们提出了一种名为RareScale的方法，将LLMs的知识与专家系统相结合。我们使用专家系统和LLM共同模拟罕见疾病的对话。这些数据用于训练一个罕见疾病候选预测模型。这个较小模型的候选者然后作为额外输入提供给黑盒LLM，进行最终的鉴别诊断。因此，RareScale能够在罕见和常见诊断之间取得平衡。我们对超过575种罕见疾病进行了结果展示，从Abdominal Actinomycosis（腹膜肉状菌病）开始，一直到Wilson's Disease（威尔逊病）结束。我们的方法在Top-5准确率方面显著改进了黑盒LLM的基线性能，超过了17%。我们还发现，我们的候选生成性能很高（例如，在生成的gpt-4o对话上达到88.8%）。

发布时间: 2/24/2025

查看原文

基于神经形态的音频分类基础调研

作者: Amlan Basu, Pranav Chaudhari, Gaetano Di Caterina

arXiv:2502.15056v1 交叉公告类型摘要：音频分类在监视、医疗监控和环境分析等多种应用中至关重要。传统方法往往依赖于复杂的信号处理算法和手工构建的特征，这些方法可能无法完全捕捉到音频模式的复杂性。受人脑结构和功能启发的神经形态计算为音频分类任务提供了有前途的替代方案。本文综述了当前基于神经形态的音频分类的前沿状态。它深入探讨了神经形态系统的关键组成部分，如脉冲神经网络(SNNs)、忆阻器和神经形态硬件平台，强调了它们在音频分类中的优势。此外，综述探讨了在神经形态音频分类中采用的各种方法和策略，包括基于事件的处理、基于脉冲的学习和生物启发式特征提取。它分析了这些方法如何解决传统音频分类方法的局限性，特别是在能效、实时处理和对环境噪音的鲁棒性方面的局限性。此外，该论文对不同的神经形态音频分类模型和基准进行了比较分析，评估了它们的性能指标、计算效率和可扩展性。本文为研究人员、工程师和实践者提供了一本全面指南，旨在促进神经形态音频分类领域进一步的创新和进步。

发布时间: 2/24/2025

查看原文

使用视觉检索增强生成减少医疗多模态大语言模型的幻觉

作者: Yun-Wei Chu, Kai Zhang, Christopher Malon, Martin Renqiang Min

arXiv:2502.15040v1 交叉公告类型摘要：多模态大型语言模型（MLLMs）在视觉和文本任务中展现了令人印象深刻的性能。然而，幻觉仍然是一个主要挑战，尤其是在像医疗保健这样的领域，细节至关重要。在本文中，我们展示了如何通过支持视觉RAG（V-RAG）来增强MLLMs，这是一种结合检索到的图像中的文本和视觉数据的检索增强生成框架。我们在MIMIC-CXR胸部X射线报告生成和Multicare医学图像字幕生成数据集上展示了视觉RAG如何提高实体探针的准确性，该探针询问一个医学实体是否由图像支持。我们展示了这种改进不仅适用于频繁出现的实体，也适用于较少有积极训练数据的罕见实体。下游，我们使用实体探针和V-RAG来纠正幻觉并生成更临床准确的X射线报告，获得更高的RadGraph-F1分数。

发布时间: 2/24/2025

查看原文

DEFT：不同分支的离散弹性杆的可微分分支模型用于实时模拟分叉的DLOs

作者: Yizhou Chen, Xiaoyue Wu, Yeheng Zong, Anran Li, Yuzhen Chen, Julie Wu, Bohao Zhang, Ram Vasudevan

arXiv:2502.15037v1 交叉通知类型：摘要：自主线束组装要求机器人以高精度和可靠性操作复杂的分支电缆。在自动化这一过程中，一个关键挑战是如何预测这些柔软且分支结构在操作过程中的行为。如果没有准确的预测，机器人很难可靠地规划或执行组装操作。尽管现有的研究已经在建模单线Deformable Linear Objects (DLOs)方面取得了进展，但将这些方法扩展到分支Deformable Linear Objects (BDLOs)面临基础性的挑战。BDLO中的连接点创建了复杂的力相互作用和拉伸传播模式，仅通过将多个单线DLO模型连接起来是无法充分捕捉的。为了解决这些问题，本文提出了一种名为Differentiable discrete branched Elastic rods for modeling Furcated DLOs in real-Time (DEFT)的新颖框架，该框架结合了可微物理模型和学习框架，以：1) 准确建模BDLO动力学，包括连接点上的动态传播和BDLO中间的抓取，2) 实现高效的实时推理计算，和3) 使计划能够展示高超的BDLO操作。一系列全面的实地实验表明，在准确性和计算速度以及泛化能力方面，DEFT相比最先进的替代方案表现出优越性。项目页面：https://roahmlab.github.io/DEFT/。

发布时间: 2/24/2025

查看原文