arXiv 论文列表

作者: Shervin Minaee, Tomas Mikolov, Narjes Nikzad, Meysam Chenaghlu, Richard Socher, Xavier Amatriain, Jianfeng Gao

arXiv:2402.06196v3 公告类型: 替换-交叉摘要：由于自2022年11月发布ChatGPT以来，通用语言模型（LLMs）在广泛自然语言任务中的出色表现引起了广泛关注。根据扩增定律（scaling laws）[kaplan2020scaling,hoffmann2022training]，LLMs的广泛语言理解和生成能力是在海量文本数据上训练数十亿模型参数而获得的。虽然LLMs的研究领域非常新，但其在许多不同方面迅速发展。本文回顾了其中一些最突出的LLMs，包括三种流行的LLM系列（GPT、LLaMA、PaLM），并讨论了它们的特点、贡献和局限性。我们还概述了用于构建和增强LLMs的技术。然后，我们概述了为LLM训练、微调和评估准备的流行数据集，回顾了广泛使用的LLM评估指标，并比较了几种流行LLMs在一组代表性基准上的性能。最后，我们通过讨论开放的挑战和未来的研究方向为论文做总结。

发布时间: 3/25/2025

查看原文

信用风险遇上大型语言模型：从P2P贷款描述中构建风险指标

作者: Mario Sanz-Guerrero, Javier Arroyo

arXiv:2401.16458v3 公告类型：替换交叉摘要：点对点（P2P）借贷通过在线平台将借款人和贷款人连接起来，但存在显著的信息不对称问题，因为贷款人往往缺乏足够的数据来评估借款人的信用状况。本文通过利用BERT，一种以其捕捉文本中语境细微差别能力而闻名的大语言模型（LLM），来生成基于借款人贷款描述的风险评分，解决了这一挑战。我们使用来自Lending Club平台的数据集对BERT进行了微调，以区分违约和未违约贷款。生成的BERT风险评分随后作为额外特征集成到用于贷款批准阶段的XGBoost分类器中，决策者在该阶段的信息有限，难以指导其决策。这种集成提高了预测性能，平衡准确率和AUC均有所改善，突显了文本特征在补充传统输入方面的重要性。此外，我们发现加入BERT评分改变了分类模型对传统输入变量的利用方式，这些变化因贷款用途而异。这些发现表明，BERT在贷款描述中识别出了具有意义的模式，涵盖了借款人特定特征、具体用途和语言属性。然而，LLMs的固有不透明性和潜在偏见强调了需要透明框架以确保符合监管要求并培养信任。总体而言，本研究表明LLM衍生见解与传统特征在信用风险建模中的交互方式，开启了增强这些模型可解释性和公平性的新路径。

发布时间: 3/25/2025

查看原文

促进 Segment Anything 模型向高精度二分类图像分割方向发展

作者: Xianjie Liu, Keren Fu, Yao Jiang, Qijun Zhao

arXiv:2401.00248v3 Announce Type: replace-cross 摘要：Segment Anything Model (SAM) 在计算机视觉的基础模型方面代表了一项重大突破，提供了一个大规模图像分割模型。然而，尽管 SAM 在零样本性能方面表现出色，其分割掩膜在准确界定物体边界方面仍缺乏细微的细节。因此，探索是否有方法改进 SAM 以实现高度准确的物体分割，也就是二分类图像分割（DIS）任务，既有趣又富有价值。为了解决这一问题，我们提出了 DIS-SAM，该模型将 SAM 进一步提升到具有极高细节精度的 DIS。DIS-SAM 是一个专门针对高精度分割设计的框架，保持了 SAM 可提示的设计。DIS-SAM 采用两阶段方法，通过将 SAM 与一个改进的高级网络相结合，该网络之前设计用于处理无提示的 DIS 任务。为了更好地训练 DIS-SAM，我们通过修改原始掩膜注释采用了一种地面真值增强策略。

发布时间: 3/25/2025

查看原文

胆囊跟踪20：一种用于手术工具的多视角跟踪数据集

作者: Chinedu Innocent Nwoye, Kareem Elgohary, Anvita Srinivas, Fauzan Zaid, Jo\"el L. Lavanchy, Nicolas Padoy

arXiv:2312.07352v2 通告类型: replace-cross 摘要：在手术视频中进行工具跟踪对于推进计算机辅助干预措施至关重要，如技能评估、安全区域估算和人机协作。然而，缺乏富含上下文的数据集限制了人工智能在此领域的应用。现有的数据集依赖于过于通用的跟踪建模，无法捕捉到手术特定的动力学，例如工具离开摄像头视野或退出体外。这导致了临床相关性较弱的轨迹，并且缺乏针对实际手术应用的灵活性。在这些数据集上训练的方法通常在视觉挑战（如烟雾、反射和出血）方面表现不佳，进一步暴露出当前方法的局限性。我们介绍了CholecTrack20，这是一个专门针对手术程序的多类、多工具跟踪数据集。该数据集以三种视角重新定义了跟踪建模：(i) 术中，(ii) 体内，和(iii) 可见性，从而实现可适应且具有临床意义的工具轨迹。数据集包含20个完整的手术视频，每秒框架标注一次，产生了超过35000帧和65000个标注的工具实例。标注信息包括空间位置、类别、身份、操作者、阶段以及场景视觉挑战。在CholecTrack20上对最先进的方法进行基准测试揭示了显著的性能差距，目前的方法未能达到临床转化所需的准确性（<45% HOTA）。这些发现强调了开发更高级且直观的跟踪算法的需求，并确立了CholecTrack20作为开发稳健的人工智能辅助手术系统的基础。

发布时间: 3/25/2025

查看原文

SupReMix: 监督对比学习在医学成像回归中的 Mixup 应用

作者: Yilei Wu, Zijian Dong, Chongyao Chen, Wangchunshu Zhou, Juan Helen Zhou

arXiv:2309.16633v4 宣告类型: replace-cross 摘要：在医学图像分析中，回归在计算机辅助诊断中起着至关重要的作用。它使从结构影像预测年龄、心脏功能量化和从PET扫描中测量分子成为可能。尽管深度学习在这些任务中表现出潜力，但大多数方法仅专注于优化回归损失或模型架构，忽视了学习特征表示的质量，这对稳健的临床预测至关重要。直接将设计用于分类的表示学习技术应用于回归往往会导致潜在空间中的片段表示，从而导致次优性能。在本文中，我们argue认为由于忽视了两个关键方面——序数意识性和难例性，对比学习在医学图像回归中的潜力被低估了。为了应对这些挑战，我们提出了面向医学成像回归的带Mixup的监督对比学习（SupReMix）。它在嵌入级别将包含锚点的混合（锚点与一个独特的负样本的混合）作为难负例配对，并将锚点排他混合（两个独特的负样本的混合）作为难正例配对。这种策略通过整合更丰富的序数信息来构建更难的对比配对。通过在涵盖MRI、X射线、超声和PET模态的六个数据集上的理论分析和广泛实验，我们展示SupReMix促进了连续有序的表示，显著提高了回归性能。

发布时间: 3/25/2025

查看原文

MF-CLIP：将CLIP作为无框对抗攻击的替代模型

作者: Jiaming Zhang, Lingyu Qiu, Qi Yi, Yige Li, Jitao Sang, Changsheng Xu, Dit-Yan Yeung

arXiv:2307.06608v3 安全公告类型：替换交叉摘要：深度神经网络（DNNs）对对抗攻击的脆弱性给其在关键安全应用中的部署带来了重大挑战。尽管已经进行了广泛的研究来应对各种攻击场景，但在对手没有先验知识的情况下，即对手无法访问目标模型的训练数据的无箱攻击设置中，这种情况仍然相对未被充分探索，尽管其实际相关性不容忽视。本文进行了一项系统性的研究，探讨了如何利用大规模的视觉语言模型（VLMs），特别是在其中使用CLIP，作为执行无箱攻击的替代模型。我们的理论和实证分析揭示了执行无箱攻击的一个关键限制，即直接将原始CLIP作为替代模型应用时其不足之处在于缺乏足够的区分能力。为了解决这一限制，我们提出了MF-CLIP：一种新颖的框架，通过带有边缘感知的特征空间优化来增强CLIP作为替代模型的有效性。在多种架构和数据集上的全面评估表明，MF-CLIP在无箱攻击中显著推进了当前最先进的水平，在标准模型上的表现优于现有基线15.23%，在对抗训练模型上的表现也提高了9.52%。我们将在开源以促进该方向上的可重复性和未来研究。

发布时间: 3/25/2025

查看原文

跨领域原型随机预训练在强化学习中的应用

作者: Xin Liu, Yaran Chen, Haoran Li, Boyu Li, Dongbin Zhao

arXiv:2302.05614v5 宣布类型: 替换-交叉摘要：本文已提交给IEEE，可能用于可能的出版。版权可能在未通知的情况下转移，之后本文可能不再可访问。无监督的跨域强化学习（RL）预训练在具有挑战性的连续视觉控制中显示出巨大的潜力，但也带来了巨大的挑战。在本文中，我们提出了一种新的、高效且有效的自监督跨域RL预训练框架，即**C**ross-domain **R**andom **P**re-**T**raining with **pro**totypes（CRPTpro）。CRPTpro解耦了数据采样和编码器预训练，提出了解耦的随机收集方法以轻松快速地生成合格的跨域预训练数据集。此外，我们提出了一种新颖的原型自监督算法，用于在不同领域中预训练一个通用的视觉编码器。在不需要微调的情况下，跨域编码器可以应用于在不同领域定义的不同下游任务，无论是已见过的任务还是未见过的任务。与近期的先进方法相比，CRPTpro在下游策略学习上表现更好，而不需要额外对探索代理进行数据采集的训练，大大减少了预训练的负担。我们在八个具有挑战性的连续视觉控制领域进行了广泛的实验，包括平衡控制、机器人移动和操作。CRPTpro在11/12个跨域下游任务上显著优于次优的Proto-RL(C)，仅使用54.5%的墙钟预训练时间，展示了最先进的预训练性能，并大幅提高了预训练效率。

发布时间: 3/25/2025

查看原文

VisEscape：一个用于评估虚拟逃脱房间中探索驱动决策能力的基准测试

作者: Seungwon Lim, Sungwoong Kim, Jihwan Yu, Sungjae Lee, Jiwan Chung, Youngjae Yu

arXiv:2503.14427v2 公告类型：替换摘要：逃脱房间提供了一种独特的认知挑战，需要探索驱动的规划：玩家应该积极搜索其环境，根据新发现不断更新知识，并将不相关的线索连接起来，以确定哪些元素与他们的目标相关。受这一想法的启发，我们引入了VisEscape，这是一个包含20个虚拟逃脱房间的基准，专门设计用于在这些具有挑战性的条件下评估AI模型，其中成功不仅取决于解决孤立谜题，还取决于迭代构建和细化动态变化环境的空间-时间知识。在VisEscape上，我们观察到即使是最先进的多模态模型通常也无法逃脱房间，它们在进度和轨迹上的表现差异很大。为了解决这一问题，我们提出了VisEscaper，该模型有效地整合了记忆、反馈和ReAct模块，在平均效率上比基线智能体提高了3.7倍，且在效率上提高了4.9倍。

发布时间: 3/25/2025

查看原文

向导引方法的迈进：面向LLM的室内导航

作者: Alberto Coffrini, Mohammad Amin Zadenoori, Paolo Barsocchi, Francesco Furfari, Antonino Crivello, Alessio Ferrari

arXiv:2503.11702v3 宣告类型: 替换摘要：室内导航因其复杂的设计布局、缺乏GPS信号以及无障碍问题而面临独特的挑战。现有的解决方案往往难以实现实时适应性和针对用户的具体需求。在这项工作中，我们探讨了大型语言模型（LLM），即ChatGPT，从室内地图图像生成自然的、情境相关的导航指令的潜力。我们在不同的真实世界环境中设计并评估了测试案例，分析了LLM在解释空间布局、处理用户约束以及规划高效路径方面的有效性。我们的研究结果表明，LLM在支持个性化室内导航方面的潜力，平均正确指示率为50.54%，最高可达77.78%。结果似乎并不依赖于布局的复杂性或预期路径的复杂性，而是取决于兴趣点的数量和视觉信息的丰富程度，这些因素对性能产生了负面影响。

发布时间: 3/25/2025

查看原文

带自动停止条件的约束多保真贝叶斯优化

作者: Zahra Zanjani Foumani, Ramin Bostanabad

arXiv:2503.01126v2 宣布类型: 替换摘要: 贝叶斯优化（BO）在关键应用中越来越多地被用于以最小的成本找到最优设计。尽管贝叶斯优化以其样本高效性而著称，但在依赖昂贵的高保真数据的情况下，仍然可能会导致高成本。尤其是在受约束的搜索空间中，贝叶斯优化不仅要优化，还需确保其可行性，这一点尤为明显。贝叶斯优化文献中的相关问题之一是没有系统化的停止准则。为了解决这些挑战，我们开发了一个约束条件下的成本意识多保真贝叶斯优化（CMFBO）框架，其目标是在利用低成本低保真数据来源的同时，确保可行性以最小化总体采样成本。在我们的案例中，约束条件可能会在不同的数据源之间变化，甚至可能是黑盒函数。我们还引入了一个系统化的停止准则，该准则解决了与贝叶斯优化收敛性评估长期存在的问题相关的问题。我们的框架在 GitHub 上可用，是通过 GP+ Python 包提供的，并在此验证了其有效性，具体应用了多个基准问题。

发布时间: 3/25/2025

查看原文