arXiv 论文列表

作者: Jiseon Kim, Jea Kwon, Luiz Felipe Vecchietti, Alice Oh, Meeyoung Cha

arXiv:2504.10886v1 宣告类型: cross 摘要：在实际应用中部署具有自主性的大型语言模型（LLMs）引发了关于这些模型将如何表现的关键问题。特别是，在面对道德两难选择时，它们的决定将如何与人类一致？本研究探讨了LLM驱动的决策与人类判断在道德机器实验各种情境下的对齐情况，包括反映不同社会经济背景的角色。我们发现，LLM的道德决策在不同角色之间存在显著差异，显示出在关键任务中道德决策的变化幅度大于人类。我们的数据还表明了一种有趣的现象，即政治角色主导了LLM决策的方向和程度。我们讨论了在涉及道德决策的应用中部署这些模型的伦理影响和风险。

发布时间: 4/16/2025

查看原文

PuzzleBench: 一个用于解谜的完全动态评估框架大型多模态模型

作者: Zeyu Zhang, Zijian Chen, Zicheng Zhang, Yuze Sun, Yuan Tian, Ziheng Jia, Chunyi Li, Xiaohong Liu, Xiongkuo Min, Guangtao Zhai

arXiv:2504.10885v1 宣布类型: cross 摘要：大型多模态模型（LMMs）在多种多模态任务中展现了令人印象深刻的性能，实现了各种评估基准上的不断增长的性能。然而，现有的基准通常是静态的，并且常常与预训练数据集重叠，导致固定的复杂性约束和严重的数据污染问题。同时，手动标注的数据集劳动密集型、耗时且容易受到人类偏见和不一致性的影响，导致可靠性和可重现性问题。为了解决这些问题，我们提出了一种完全动态的多模态评估框架，名为开放式视觉谜题生成（OVPG），该框架旨在自动在解谜任务中生成新鲜、多样且可验证的评估数据。具体而言，OVPG 管道包括原始材料采样模块、视觉内容生成模块和谜题规则设计模块，确保每个评估实例都是原始的、高度随机化的且具有唯一解的，从而连续适应 LMM 的不断发展的能力。基于 OVPG，我们构建了 PuzzleBench，这是一个动态且可扩展的基准，包含 11,840 个 VQA 样本。它包括六个精心设计的谜题任务，针对视觉识别、逻辑推理和语境理解三个核心 LMM 能力。PuzzleBench 与迅速过时的静态基准不同，它通过 OVPG 和丰富的开放式谜题设计，支持持续的数据集刷新，从而无缝适应 LMM 的不断发展的能力。

发布时间: 4/16/2025

查看原文

将可逆UNets与可逆注意力模块结合以实现内存高效扩散模型

作者: Karan Jain, Mohammad Nayeem Teli

arXiv:2504.10883v1 公告类型: cross 摘要: 近期，扩散模型已经在许多图像生成任务中取得了最先进的性能。然而，大多数模型需要大量的计算资源才能达到这一水平。在医学图像合成的应用中尤为明显，因为医学数据集如CT扫描、MRI、电子显微镜等具有三维特性。在这篇论文中，我们提出了一种新的架构，用于针对高维度医学数据集的单GPU内存高效训练扩散模型。所提出的模型是通过使用可逆的UNet架构和可逆的注意力模块构建的。这带来了以下两个贡献：1. 去噪扩散模型，从而使内存使用量与数据集的维度无关，2. 减少训练过程中的能耗。虽然这种新模型可以应用于多种图像生成任务，但我们在3D BraTS2020数据集上展示了其内存效率，与尖端技术相比，在训练过程中峰值内存消耗最多可减少15%，同时保持了图像质量。

发布时间: 4/16/2025

查看原文

大型语言模型指导的特征发现改善了视觉内容可信度感知的预测与解释

作者: Yilang Peng, Sijia Qian, Yingdan Lu, Cuihua Shen

arXiv:2504.10878v1 型别: cross 摘要: 在当今以视觉为主的社交媒体环境中，预测视觉内容的感知可信度并了解人类判断的驱动力对于对抗虚假信息至关重要。然而，由于视觉特征的多样性和丰富性，这些任务具有挑战性。我们提出了一种由大语言模型(LLM)启发的特征发现框架，该框架利用多模态LLM（如GPT-4o）来评估内容的可信度并解释其推理过程。我们使用特定提示提取并量化可解释的特征，并将这些特征整合到机器学习模型中以提高可信度预测。我们在八项科学、健康和政治主题的4,191条视觉社交媒体帖子上进行了测试，使用了5,355名众包工人的可信度评分。我们的方法在R2上比零样本GPT预测高出13个百分点，并揭示了关键特征，如信息具体性和图像格式。我们讨论了这些方法对虚假信息缓解、视觉可信度以及LLM在社会科学中的作用的影响。

发布时间: 4/16/2025

查看原文

视觉-语言模型能理解并解释行人的动态手势吗？试点数据集及朝着指示性非言语命令合作性自动驾驶车辆的探索

作者: Tonko E. W. Bossen, Andreas M{\o}gelmose, Ross Greer

arXiv:2504.10873v1 类型: cross 摘要：在自动驾驶领域，正确解释交通手势（TGs），例如权威人物发出命令或指示的手势，或是行人向驾驶员发出的手势信号，对于确保所有道路使用者的交通安全和舒适环境至关重要。本研究探讨了最先进的视觉语言模型（VLMs）在零样本解释中的能力，重点关注它们在交通场景中描述和分类人类手势的能力。我们创建并公开分享了两个定制数据集，包含正式和非正式的交通手势，例如“停止”、“倒车”、“招手”等。这些数据集分别为“执行交通手势（ATG）”和“野生指示性交通手势（ITGI）”。它们用自然语言标注了行人的身体位置和手势。我们使用三种方法评估模型，利用专家生成的手势描述句作为基线和对照：(1) 句子相似度，(2) 动作分类，以及 (3) 姿态序列重建相似度。结果显示，当前的VLMs在手势理解方面存在困难：句子相似度平均值低于0.59，分类F1分数仅为0.14-0.39，远低于专家基线的0.70。虽然姿态重建展现了潜力，但需要更多的数据和优化的评价指标才能可靠。我们的研究发现，尽管一些最新的VLMs能够解释零样本的人类交通手势，但没有任何一个模型准确且稳健到可以信赖的程度，这突显了该领域进一步研究的必要性。

发布时间: 4/16/2025

查看原文

超越下一个词预测：变压器是具有上下文敏感性的语言生成器

作者: Phill Kyu Rhee

arXiv:2504.10845v1 交叉类型公告摘要：以Transformer为动力的大型语言模型（LLMs）展示了类似人类的智能能力，但它们的内在机制仍然 poorly understood。本文提出了一个新颖的框架，将LLMs解释为生成概率性的左上下文敏感语言（CSLs）生成器。我们假设Transformer可以有效地分解为三个基本组成部分：上下文窗口、注意力机制和自回归生成框架。这种分解使得能够开发出更加灵活和可解释的计算模型，超越了传统上将注意力和自回归视为不可分割过程的观点。我们认为，下一个标记的预测可以被视为左CSL生成规则的概率性和动态近似，提供了简单标记预测如何产生类似人类智能输出的直观解释。鉴于所有CSLs都是左上下文敏感的（Penttonen, 1974），我们得出结论认为，Transformer以概率性的方式近似了CSLs，而CSLs被广泛认为是模拟人类智能的模型。这种解释弥合了形式语言理论与Transformer观察到的生成能力之间的差距，为未来的生成AI理论和应用奠定了基础。我们对Transformer架构的全新视角将加深对LLMs及其未来潜力的理解。

发布时间: 4/16/2025

查看原文

重新思考针对大语言模型的理论共情基准：朝着用户中心视角的方向

作者: Qiaosi Wang, Xuhui Zhou, Maarten Sap, Jodi Forlizzi, Hong Shen

arXiv:2504.10839v1 类型: cross 摘要：过去几年见证了研究界涌现的研究，将旨在为人类设计的视角理论（Theory-of-Mind, ToM）任务应用于评估语言模型（LLM）的ToM能力，以此作为评估LLM社会智能的一种指标。然而，这种做法存在诸多局限性。借鉴现有心理学和人工智能领域的文献，我们总结了这些理论、方法和评估局限性，并指出某些问题在最初用于评估人类ToM的ToM任务中是固有的，而当这些任务被借用以评估LLM的ToM能力时，这些问题不仅持续存在，还会进一步加剧。从人机交互（Human-Computer Interaction, HCI）的角度来看，这些局限促使我们重新思考ToM在ToM基准测试中的定义和标准，采取一种更动态、交互的方式，以考虑用户在这些评估中对LLM的偏好、需求和体验。最后，我们概述了朝着这一方向的潜在机会和挑战。

发布时间: 4/16/2025

查看原文

上行辅助联合信道估测和CSI反馈：一种基于深度联合源-信道编码的方法

作者: Yiran Guo, Wei Chen, Bo Ai

arXiv:2504.10836v1 宣告类型: 交叉摘要: 在频分双工(FDD)多输入多输出(MIMO)无线通信系统中，获得下行链路信道状态信息(CSI)对于最大化空间资源利用和提高系统频谱效率至关重要。在传统的模块化通信框架下，基于AI的CSI反馈架构的各个模块分别设计(包括信道估计(CE)、CSI压缩和反馈)，导致性能次优。本文提出了一种通过深度学习实现上行链路辅助联合CE和CSI反馈的方法，以缓解在传统模块化通信框架下的单独训练模块之间分布偏见引起的性能下降。所提出网络采用深度联合源信道编码(DJSCC)架构，以缓解传统分开源信道编码遇到的悬崖效应。此外，我们利用上行链路CSI作为辅助信息，通过利用FDD系统上下行链路部分互惠性，增强CSI重构准确性，而不引入额外开销。通过全面的消融和可扩展性实验，验证了上行链路CSI作为辅助信息的有效性以及端到端多模块联合训练架构的必要性。

发布时间: 4/16/2025

查看原文

面向空间意识和最优忠实概念解释

作者: Shubham Kumar, Dwip Dalal, Narendra Ahuja

arXiv:2504.10833v1 交叉类型公告摘要：后验、无监督的概念基础解释方法（U-CBEMs）是生成深度神经网络决策过程语义解释的有前景工具，可应用于模型改进和理解。解释必须忠实于模型，这是至关重要的，但我们发现先前的忠实度度量存在一些限制，这些限制阻碍了准确评估；最显著的是，先前的度量只考虑了存在的概念集，而没有考虑到这些概念的空间分布情况。我们通过引入一种具有空间意识的替代模型和两个新的忠实度度量来解决这些限制，称为Surrogate Faithfulness（SF）评价方法。使用SF，我们生成了Optimally Faithful（OF）解释，其中寻找最大化忠实度的概念。我们的实验表明：（1）将空间意识添加到先前的U-CBEMs中，在所有情况下都能提高忠实度；（2）OF相比先前的U-CBEMs产生了显著更为忠实的解释（错误率提高了30%或更高）；（3）OF学习的概念在目标外数据上泛化良好，并且对于对抗性示例更具鲁棒性，而先前的U-CBEMs则难以应对。

发布时间: 4/16/2025

查看原文

CLASH: 从多个角度评估语言模型在判断高 stakes 棋局中的能力

作者: Ayoung Lee, Ryan Sungmo Kwon, Peter Railton, Lu Wang

arXiv:2504.10823v1 声明类型：交叉摘要：在涉及冲突价值观的高风险困境中导航对人类来说已经具有挑战性，遑论对于AI而言。然而，关于评估大型语言模型（LLM）在这些情况下的推理能力的研究工作，主要局限于日常生活场景。为了弥补这一差距，这项工作首先介绍了CLASH（基于角色视角的LLM评估在高风险情境中），这是一个精心策划的数据集，包含345个高影响力困境以及3,795个多样价值观的个人视角。特别是，我们设计CLASH的方式旨在支持研究以往工作中缺失的基于价值观的决策过程的关键方面，包括理解决策矛盾和心理不适，以及捕捉角色视角中价值观的阶段性变化。通过基准测试10个开放和封闭的前沿模型，我们揭示了几个关键发现。（1）即使是最强的模型，如GPT-4o和Claude-Sonnet，在识别应当感到矛盾的情况时准确率也不足50%，而在清晰明确的情景中表现则显著更佳。（2）虽然LLM能够合理预测由人类标注的心理不适，但它们在理解涉及价值观转变的视角方面存在不足，这表明需要LLM能够在复杂的价值观上进行推理。（3）我们的实验还揭示了LLM的价值偏好与其针对特定价值观的可引导性之间的显著相关性。（4）最后，当LLM从第三方视角进行价值推理时，它们展示了比第一人称设定更高的可引导性，尽管某些价值观双组合仅从第一人称框架中受益。

发布时间: 4/16/2025

查看原文