arXiv 论文列表

作者: Yongting Hu, Yuxin Lin, Chengliang Liu, Xiaoling Luo, Xiaoyan Dou, Qihao Xu, Yong Xu

arXiv:2503.19329v1 交叉类型：cross 摘要：多视角糖尿病视网膜病变（DR）检测最近被认为是有希望的方法，用于解决单视角DR中存在的不完整病灶问题。然而，由于病灶的大小和位置变化多样且分散，这一问题仍然颇具挑战性。此外，现有的多视角DR方法通常会合并多个视角的信息，而不考虑这些视角之间病灶信息的相关性和冗余性。因此，我们提出了一种新颖的方法，以克服难以学习的病灶信息和不充分的多视角融合的挑战。具体来说，我们引入了一个两分支网络，以获得局部病灶特征及其全局依赖关系。小波变换的高频分量被用来利用病灶边缘信息，然后通过全局语义进行增强，以促进难以学习的病灶的学习。此外，我们提出了一种跨视角融合模块，以提高多视角融合的效果并减少冗余。在大规模公开数据集上的实验结果表明了我们方法的有效性。代码已在https://github.com/HuYongting/WGLIN 开源。

发布时间: 3/26/2025

查看原文

重实质胜于重风格：评估主动对话辅导代理

作者: Vidya Srinivas, Xuhai Xu, Xin Liu, Kumar Ayush, Isaac Galatzer-Levy, Shwetak Patel, Daniel McDuff, Tim Althoff

arXiv:2503.19328v1 交叉公告类型摘要：尽管自然语言处理（NLP）研究在对话任务方面取得了进展，但许多方法主要集中于单一轮次的响应，这些响应具有明确定义的目标或评估标准。相比之下，辅导提出了独特的挑战，初始目标未定义，通过多轮互动逐渐演变，具有主观的评估标准和混合主动对话。在本文中，我们描述并实现了五个具有不同对话风格的多轮次辅导代理，并通过用户研究对其进行评估，收集了155次对话的首人反馈。我们发现用户高度重视核心功能，而缺乏核心功能的风格化组件则被视为负面。通过对用户反馈与健康专家和语言模型的三方评估进行比较，我们揭示了评估方法间的显著不一致。我们的研究结果为对话辅导代理的设计和评估提供了见解，并有助于改善以用户为中心的NLP应用。

发布时间: 3/26/2025

查看原文

LRSCLIP：一种用于对齐遥感图像与长文本的基础模型

作者: Weizhi Chen, Jingbo Chen, Yupeng Deng, Jiansheng Chen, Yuman Feng, Zhihao Xi, Diyou Liu, Kai Li, Yu Meng

arXiv:2503.19311v1 宣传类型: cross 摘要：本文旨在解决处理长文本的技术瓶颈以及在遥感视觉语言基础模型(VLFM)中由不足的短文本信息引起的“幻觉”问题。我们提出了一种新的视觉语言基础模型LRSCLIP和一个多模态数据集LRS2M。主要贡献如下：(1) 通过整合多源遥感数据并采用大规模语言模型标注策略，我们构建了LRS2M数据集，该数据集包含了200万张图文对，首次提供了短文本和长文本，从而解决了现有数据集在语义粒度限制方面的问题；(2) LRSCLIP架构的设计基于Long-CLIP的KPS模块，该模块扩展了CLIP的文本处理能力，并通过双文本损失加权机制实现了细粒度的跨模态特征对齐。实验结果显示，在零样本长文本跨模态检索任务中，LRSCLIP的检索准确性相较于Long-CLIP基线提高了10%-20%。在零样本短文本跨模态检索任务中，LRSCLIP相较于当前最佳模型GeoRSCLIP，在RSITMD上的Text to Image R@1、Image to Text R@1和mR分别提高了0.17%、0.67%和0.92%，在RSICD上分别提高了0.04%、2.93%和1.28%。在零样本图像分类任务（平均准确率=75.75%）和语义定位任务（Rmi=0.7653）中，LRSCLIP均实现了最先进的性能。这些结果验证了LRSCLIP在细粒度语义理解和全局特征匹配上的双重优势。本研究为遥感多模态学习提供了新的基准模型和数据支持。相关代码已开源，可在https://github.com/MitsuiChen14/LRSCLIP获取。

发布时间: 3/26/2025

查看原文

自适应小波滤波器作为实用的纹理特征放大器用于OCT帕金森病筛查

作者: Xiaoqing Zhang, Hanfeng Shi, Xiangyu Li, Haili Ye, Tao Xu, Na Li, Yan Hu, Fan Lv, Jiangfan Chen, Jiang Liu

arXiv:2503.19292v1 交叉公告类型摘要：帕金森病（PD）是一种全球范围内的常见神经退行性疾病。眼睛的视网膜是大脑的延伸，并且在PD筛查中具有巨大的潜力。最近的研究表明，在光学共焦断层扫描（OCT）图像中，可以从视网膜层提取的纹理特征可以作为PD诊断的生物标志物。频率域学习技术可以通过分解包含丰富纹理特征的频率成分来增强深度神经网络（DNN）的特征表示能力。此外，以前的工作还未充分利用纹理特征进行OCT中的自动PD筛查。受以上分析的启发，我们提出了一种新颖的自适应小波滤波器（AWF），作为一种实际的纹理特征放大器，以充分利用纹理特征的优势，并通过频率域学习增强DNN在PD筛查性能中的作用。具体而言，AWF首先通过通道混合器增强纹理特征表示的多样性，然后通过精心设计的自适应小波过滤器标记混合器强调具有信息性的重要纹理特征表示。通过将AWFs与DNN主干结合，构造了AWFNet用于自动PD筛查。此外，我们通过挖掘每个类别的样本预测概率和类频率先验的潜力，引入了一种新颖的平衡置信损失（BC Loss），以进一步提高AWFNet在PD筛查性能和可信度方面的表现。广泛的实验表明，与现有的方法相比，我们的AWFNet和BC在PD筛查性能和可信度方面具有明显的优势。

发布时间: 3/26/2025

查看原文

不再神秘莫测： temporal-feature 跨注意力机制揭秘临床预测建模

作者: Yubo Li, Xinyu Yao, Rema Padman

arXiv:2503.19285v1 Announce Type: cross 摘要：尽管深度学习模型在临床预测任务中表现出色，但可解释性仍然是一个重要的挑战。受变压器架构的启发，我们引入了时间-特征交叉注意机制（TFCAM），这是一种新颖的深度学习框架，旨在捕捉临床特征随时间动态交互，从而提高预测准确性和可解释性。在包含1,422名慢性肾病患者的实验中，预测进展至终末期肾病，TFCAM在与LSTM和RETAINT基线相比时表现出色，实现了AUROC为0.95和F1分数为0.69。除了性能提升外，TFCAM还通过识别关键的时间周期、对特征重要性进行排名以及量化特征如何在影响预测前随时间相互影响，提供了多级解释性。我们的方法解决了深度学习在医疗保健中的“黑箱”局限性，为临床医生提供了透明的疾病进展机制见解，同时维持了最先进的预测性能。

发布时间: 3/26/2025

查看原文

CubeRobot：通过视觉语言模型在鲁米克魔方 manipulation 中实现语言 grounding

作者: Feiyang Wang, Xiaomin Yu, Wangyu Wu

arXiv:2503.19281v1 声明类型: cross 摘要：证明魔方定理代表了人类空间想象和逻辑推理的一个重要里程碑。传统的魔方机器人依赖于复杂的视觉系统和固定的算法，往往难以适应复杂的动态场景。为克服这一限制，我们引入了CubeRobot，这是一种为了解决3x3魔方而特制的多模态视觉-语言模型（VLM），赋予了实体代理多模态的理解和执行能力。我们使用了包含多个层级任务（总共43个子任务）的CubeCoT图像数据集，这些任务即便是人类也无法处理，涵盖了各种魔方状态。我们引入了一种双重循环的VisionCoT架构和Memory Stream，这是一种从VLM生成的规划查询中提取任务相关特征的范式，从而使CubeRobot能够独立进行规划、决策、反思和分离管理高、低层级的魔方任务。此外，在低层级魔方修复任务中，CubeRobot的准确率达到100%，与中层级任务的100%准确率相同，并在高层级任务中达到了80%的准确率。

发布时间: 3/26/2025

查看原文

逻辑学习器：命题逻辑证明引导练习的工具

作者: Amogh Inamdar, Uzay Macar, Michel Vazirani, Michael Tarnow, Zarina Mustapha, Natalia Dittren, Sam Sadeh, Nakul Verma, Ansaf Salleb-Aouissi

arXiv:2503.19280v1 类型: cross 摘要：命题逻辑的研究是计算理论的基础，也是本科计算机科学课程的核心内容。学习解决逻辑证明需要反复的指导性练习，但本科学生往往缺乏在一个无评判环境中即时获得辅导的机会。在此项工作中，我们强调了对本科数学教育中引导性练习工具的需求，并概述了高效练习工具应具备的特性。据此，我们开发了LogicLearner，一个用于引导逻辑证明练习的网页应用。LogicLearner 包含一个逐步尝试逻辑证明的界面和一个自动证明求解器，可以在需要时生成解决方案。我们将在两学期的本科离散数学课程中将LogicLearner 作为练习工具进行试点，并在学生调查中收到了关于易用性和教学价值的强烈正面反馈。据我们所知，LogicLearner 是唯一提供即时、无评判反馈的逻辑证明端到端练习环境的学习工具。

发布时间: 3/26/2025

查看原文

基于上下文的语义分割：通过大型语言模型增强像素级理解以实现高级视觉应用

作者: Ben Rahman

arXiv:2503.19276v1 交叉公告类型：交叉摘要：语义分割在像素级图像理解方面取得了显著进展，但在捕捉对象间的上下文和语义关系方面仍存在局限性。当前模型，如卷积神经网络（CNN）和基于Transformer的架构，擅长识别像素级特征，但在区分语义相似的对象（例如，医院场景中的“医生”和“护士”）或理解复杂的上下文情景（例如，在自动驾驶中区分奔跑的儿童和普通行人）方面表现不佳。为了解决这些限制，我们提出了一种新的上下文感知语义分割框架，该框架结合了大规模语言模型（LLMs）和最先进的视觉主干架构。我们的混合模型利用Swin Transformer进行稳健的视觉特征提取，并利用GPT-4通过文本嵌入丰富语义理解。引入了一种跨注意力机制，以对齐视觉和语言特征，使模型能够更有效地进行上下文推理。此外，使用图神经网络（GNN）建模场景内的对象关系，捕捉传统模型忽略的依赖关系。在基准数据集（如COCO、Cityscapes）上的实验结果显示，我们的方法在像素级精度（mIoU）和上下文理解（mAP）方面均优于现有方法。这项工作填补了视觉与语言之间的差距，为包括自动驾驶、医学成像和机器人技术在内的智能和上下文感知视觉系统铺平了道路。

发布时间: 3/26/2025

查看原文

NeoRL-2：接近真实世界的离线强化学习基准，包含扩展的现实场景

作者: Songyi Gao, Zuolin Tu, Rong-Jun Qin, Yi-Hao Sun, Xiong-Hui Chen, Yang Yu

arXiv:2503.19267v1 宣告类型: cross 摘要: 无环境访问的强化学习（RL）旨在利用历史数据进行学习，而无需访问环境（这通常是昂贵的）。为了促进无环境访问RL的研究，我们之前引入了NeoRL，其中强调了现实世界任务产生的数据集往往是保守且有限的。在将无环境访问RL应用于各个领域多年后，我们还识别出了其他现实世界中的挑战。这些挑战包括部署的控制系统生成的极其保守的数据分布、由于高延迟转换引起的动作效果延迟、由于转换过程中的不可控变异性产生的外部因素，以及在决策过程中难以评估的全局安全约束。这些挑战在之前的基准测试中被严重忽视，但在现实世界的任务中却经常出现。为了解决这一问题，我们构建了扩展的近实时无环境访问RL基准（NeoRL-2），其中包括7个从7个模拟任务中提取的数据集及其对应的评估模拟器。最新的无环境访问RL方法的基准测试结果表明，当前的方法往往难以超越数据收集行为策略，突显了需要更有效的方法。我们希望NeoRL-2能够加速强化学习算法在实际应用中的发展。基准测试项目页面可在https://github.com/polixir/NeoRL2获取。

发布时间: 3/26/2025

查看原文

大型语言模型的语言盲点

作者: Jiali Cheng, Hadi Amiri

arXiv:2503.19260v1 类型: cross 摘要：大型语言模型（LLMs）是当今许多AI应用程序的基础。尽管它们在生成连贯文本方面表现出色，但对于执行细粒度的语言注释任务（如检测名词或动词，或识别在输入文本中的更复杂的句法结构，例如子句）的能力仍然存在疑问。这些任务需要对输入文本进行精确的句法和语义理解，而当LLMs在特定的语言结构上表现不佳时，这引发了对其在详细语言分析方面的可靠性的担忧，以及它们（即便正确）的输出是否真正反映了对输入的理解。在这篇论文中，我们通过对最近的LLMs在细粒度语言注释任务上的表现进行实证研究，发现最近的LLMs在解决语言查询方面效果有限，并且往往难以处理复杂语言输入。我们展示了最具能力的LLM（Llama3-70b）在检测语言结构时会犯出显著的错误，如错误识别嵌入的子句，无法识别动词短语，以及将复杂的名词短语与子句混淆。我们的结果为未来LLM设计和开发提供了洞察。

发布时间: 3/26/2025

查看原文