arXiv 论文列表

作者: Jonathan Kim, Anna Podlasek, Kie Shidara, Feng Liu, Ahmed Alaa, Danilo Bernardo

arXiv:2502.04381v1 Announce Type: cross 摘要：大规模语言模型（LLMs）已在医学问答（QA）基准测试中达到了人类级别的准确性。然而，它们在应对开放性临床情景方面的局限性最近已被证明，这引发了关于LLM在多种多样的实际医疗任务中推理的稳健性和普适性的担忧。为了探索LLM在临床问题解决中可能出现的失败模式，我们介绍了医学抽象与推理语料库（M-ARC）。M-ARC通过设计来利用Einstellung效应——由先前经验产生的思维固定现象，旨在针对LLM在诱导偏差方面偏向于从训练数据中进行僵化的模式匹配，而不是进行灵活的推理。我们发现，包括当前最先进的o1和Gemini模型在内的LLMs在M-ARC上的表现远不如医生，经常表现出缺乏常识性医学推理以及倾向于编造答案的倾向。此外，不确定性估计分析表明，尽管准确率有限，LLMs仍显现出对答案的过度自信。M-ARC揭示的LLM医学推理的失败模式强调了在临床环境中部署这些模型时必须谨慎。

发布时间: 2/10/2025

查看原文

多样性作为一种奖励：在混合的领域未确定数据上微调LLMs

作者: Zhenqing Ling, Daoyuan Chen, Liuyi Yao, Yaliang Li, Ying Shen

arXiv:2502.04380v1 Announce Type: cross 摘要：使用多样化的数据集 fine-tuning 大型语言模型（LLMs）对于提升其在各个领域的整体性能至关重要。在实际场景中，现有的方法往往难以处理其领域标签缺失、不精确或未规范化数据，而基于数据选择的方法则通常难以平衡多领域的性能。为解决这些挑战，本文通过经验构建对比数据池和从理论上解释跨域和同域多样性来研究数据多样性的角色。基于这些见解，我们提出了一种新方法，赋予 LLM 双重身份：一个输出模型，用于基于多样性的奖励认知性地探测和选择数据；以及一个输入模型，通过选择的数据进行调整。广泛的实验表明，当应用于各种先进的 LLMs 时，所提出的方法显著提升了对于未确定领域的数据和一系列基础下游任务的性能。我们发布了代码，希望这一研究能够为理解数据多样性和推进基于反馈的数据-模型联合开发提供启示。

发布时间: 2/10/2025

查看原文

大型语言模型能够捕捉到视频游戏的参与度吗？

作者: David Melhart, Matthew Barthet, Georgios N. Yannakakis

arXiv:2502.04379v1 声称类型: cross 摘要: 默认的预训练大型语言模型（LLMs）在观察视频时能否成功检测到人类情感？为了解决这个问题，我们首次全面评估了流行LLMs在多模态提示下，通过文本和视频帧序列标注和成功预测视频连续情感注释的能力。特别是在本文中，我们测试了LLMs在GameVibe语料库中20款第一人称射击游戏的240分钟标注视频片段中，在游戏参与度变化上的正确标签能力。我们进行了超过2,400次实验，以调查LLM架构、模型大小、输入模态、提示策略和地面实况处理方法对参与度预测的影响。我们的研究发现，在多个领域中，LLMs确实展示了类似人类的表现，但它们在捕捉由人类提供的连续体验注释方面通常表现不佳。我们探讨了一些导致整体表现较差的部分原因，突出了LLMs超过预期的情况，并为通过LLMs进一步探索自动化情感标注绘制了路线图。

发布时间: 2/10/2025

查看原文

MapFusion：一种新型的多模态地图构建的BEV特征融合网络

作者: Xiaoshuai Hao, Yunfeng Diao, Mengchuan Wei, Yifan Yang, Peng Hao, Rong Yin, Hui Zhang, Weiming Li, Shu Zhao, Yu Liu

arXiv:2502.04377v1 宣告类型: cross 摘要：地图构建任务在为自动驾驶系统提供精确且全面的静态环境信息方面发挥着至关重要的作用。主要传感器包括相机和LiDAR，配置根据成本-性能考虑可以是仅相机、仅LiDAR或相机与LiDAR的融合。虽然融合方法通常表现最佳，但现有方法往往忽略了模态之间的交互，并依赖于简单的融合策略，这些方法会遇到对齐不当和信息丢失的问题。为了解决这些问题，我们提出了MapFusion，这是一种用于地图构建的新颖多模态Bird's-Eye View (BEV)特征融合方法。具体来说，为了解决相机和LiDAR BEV特征之间的语义对齐问题，我们引入了Cross-modal Interaction Transform (CIT)模块，该模块能够在两个BEV特征空间之间实现交互，并通过自注意力机制增强特征表示。此外，我们提出了有效的Dual Dynamic Fusion (DDF)模块，可以自适应地从不同模态中选择有价值的信息，从而最大限度地利用不同模态间的固有信息。而且，MapFusion设计得简单且即插即用，可以轻松集成到现有管道中。我们分别在高分辨率（HD）地图构建和BEV地图分割两个地图构建任务上评估了MapFusion，以展示其多样性和有效性。与现有的最先进方法相比，MapFusion在nuScenes数据集上的HD地图构建任务上实现了3.6%的绝对改进，在BEV地图分割任务上实现了6.2%的绝对改进，这表明我们方法的优势。

发布时间: 2/10/2025

查看原文

代 meeting 同行：在我们 behalf 上评估语言模型的会议参加能力

作者: Lingxiang Hu, Shurun Yuan, Xiaoting Qin, Jue Zhang, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

arXiv:2502.04376v1 宣告类型: 交叉摘要: 在当代的工作场所中，会议对于交流想法和确保团队协调是必不可少的，但往往会面临时间消耗、日程冲突和参与不高效的挑战。近日，大型语言模型（LLMs）在自然语言生成和推理方面的强大能力得到了证明，引发了这样一个问题：LLMs 是否能够有效地安排会议参与者？为了探索这个问题，我们开发了一个基于LLM的会议参与者系统，并创建了一个基于真实会议记录的全面基准。我们的评估显示，GPT-4/4o 在活跃参与和谨慎参与策略之间保持了平衡的表现。相比之下，Gemini 1.5 Pro 更倾向于谨慎参与，而 Gemini 1.5 Flash 和 Llama3-8B/70B 则表现出更多的活跃倾向。总体而言，约 60% 的响应至少涵盖了真实情况中的一项关键点。然而，为进一步减少无关或重复的内容，并提高对常见于实际环境中的转录错误的容忍度，仍需做出改进。另外，我们还在实际环境中实现了该系统，并收集了演示的真实反馈。我们的研究结果强调了利用LLMs作为会议参与者增的潜力和挑战，并提供了有关其在缓解会议负担方面的实际应用的宝贵见解。

发布时间: 2/10/2025

查看原文

基于图的谣言检测的对比token级解释

作者: Daniel Wai Kit Chin, Roy Ka-Wei Lee

arXiv:2502.04366v1 交叉公告类型: 摘要：社交媒体的广泛使用加速了信息的传播，但同时也促进了有害谣言的传播，这些谣言可以扰乱经济，影响政治结果，并加剧公共卫生危机，例如COVID-19大流行。虽然基于图神经网络（GNN）的方法在自动化谣言检测方面显示出了巨大的潜力，但它们往往缺乏透明度，使其预测难以解释。现有的图解释技术在解决高维文本嵌入在GNN模型中特征维度之间的依赖关系所带来的独特挑战方面做得不足。在这篇论文中，我们引入了对比性标记层相关传播（CT-LRP）这一新颖的框架，旨在增强基于GNN的谣言检测的解释性。CT-LRP通过提供标记级别的解释来扩展当前的图解释方法，这些解释具有更高的粒度和解释性。我们在三个公开可用的谣言检测数据集上训练的多种GNN模型上评估了CT-LRP的有效性，结果显示它始终能够生成高保真的、有意义的解释，为更稳健和可信赖的谣言检测系统铺平了道路。

发布时间: 2/10/2025

查看原文

基于AI的温差视频分析在隐私保护医疗保健中的应用：一个检测出生时间的研究案例

作者: Jorge Garc\'ia-Torres, {\O}yvind Meinich-Bache, Siren Rettedal, Kjersti Engan

arXiv:2502.04365v1 交叉类型：无摘要：约有10%的新生婴儿需要一些帮助才能开始呼吸，5%需要适当的通气。因此，在出生后尽快启动干预措施至关重要。对出生时间（Time of Birth，ToB）的准确记录对于记录和提高新生儿复苏效果至关重要。然而，目前的临床实践依赖于手工记录出生时间，通常精确到分钟。在这项研究中，我们提出了一种基于AI、利用热成像进行自动出生时间检测的视频系统，该系统通过避免使用可识别的视觉数据，保护了医疗保健提供者和母亲的隐私。我们的方法在性能评估中实现了91.4%的精确率和97.4%的召回率，在热视频片段中检测出生时间。此外，该系统在测试案例中成功识别了96%的出生时间，与手动标注相比的绝对中位偏差为1秒。该方法提供了一种可靠的解决方案，以提高出生时间记录的可靠性并改善新生儿复苏的结果。

发布时间: 2/10/2025

查看原文

迷失在编辑中？AIGC来源的$\lambda$指南针

作者: Wenhao You, Bryan Hooi, Yiwei Wang, Euijin Choo, Ming-Hsuan Yang, Junsong Yuan, Zi Huang, Yujun Cai

arXiv:2502.04364v1 类型：跨领域摘要：最近在扩散模型方面的进展推动了文本引导图像编辑工具的增长，这些工具能够实现精确和迭代的内容修改。然而，随着这些工具变得越来越易获取，它们也带来了重大的误用风险，突显了确保内容真实性与可追踪性的稳健归属方法的迫切需求。尽管这些工具具有巨大的创造性潜力，但它们在归属方面也带来了显著的挑战，特别是在对抗性设置中，可以通过多层编辑来掩盖图片的来源。我们提出了LambdaTracer，这是一种新颖的潜在空间归属方法，能够稳健地识别和区分真实的输出与篡改的输出，而无需对生成器或编辑管道进行任何修改。通过适应性校准重构损失，LambdaTracer 能够在各种不同的迭代编辑过程中保持有效性，无论是通过如InstructPix2Pix和ControlNet这类文本引导编辑工具自动化，还是通过如Adobe Photoshop这类编辑软件手动编辑。广泛的经验表明，我们的方法在区分恶意编辑的图像方面始终优于基线方法，提供了在开放且快速发展的AI生态系统中保护所有权、创造力和可信度的实际解决方案。

发布时间: 2/10/2025

查看原文

LLMs可以容易地被指令干扰迷惑

作者: Yerin Hwang, Yongil Kim, Jahyun Koo, Taegwan Kang, Hyunkyung Bae, Kyomin Jung

arXiv:2502.04362v1 Announce Type: cross 摘要：尽管大型语言模型（LLMs）在指令遵循任务中表现出色，但在被要求忽略某些指令时，这种优势可能会变成一种漏洞。指令遵循任务通常包含明确的任务描述和包含目标数据的输入文本。然而，当输入本身类似于指令时，即使有明确的提示来区分任务指令和输入，也可能出现混淆。我们称这种现象为指令干扰。在本文中，我们介绍了一个新的基准测试，名为DIM-Bench，专门用于评估LLMs在指令干扰下的表现。该基准测试对实际指令干扰实例进行了分类，并在重写、校对、翻译和风格转换这四项指令任务，以及推理、代码生成、数学推理、偏见检测和问答这五项输入任务上评估了LLMs。我们的实验结果表明，即使是最先进的LLMs也容易受到指令干扰的影响，在这种情况下经常无法准确地遵循用户意图。

发布时间: 2/10/2025

查看原文

基于行为的VR生物识别的2D视频中预测3D运动

作者: Mingjun Li, Natasha Kholgade Banerjee, Sean Banerjee

arXiv:2502.04361v1 交叉类型: cross 摘要: 使用传统凭证（如PIN、密码或多因素认证）的传统VR应用，在医疗、教育和金融等领域中，如果恶意人员获取了用户凭证，或者用户将凭证交给同盟者，这些应用面临被攻破的风险。最近，一些利用VR头显（HMD）和手控制器在用户与VR交互过程中动作的用户认证方法已经出现，这些方法将用户的动作表示为VR生物特征签名。基于行为的方法的一个基本局限是，当前设备上的HMD和控制器跟踪无法执行全身关节articulation的跟踪，从而丢失了由用户articulation封装的关键签名数据。在这篇论文中，我们提出了一种方法，该方法使用从参与者右侧获取的二维身体关节（包括肩部、肘部、手腕、髋部、膝盖和踝关节），并通过外部二维摄像头获得这些关节数据。通过基于Transformer的深度神经网络，我们的方法利用未被VR设备跟踪的二维身体关节数据来预测右手控制器的过去和未来的三维行动轨迹，从而增加认证中的三维知识。我们的方法提供了最小的等错误率（EER）为0.025，且在使用单一单位的三维轨迹作为输入的先前工作中，最大EER下降了0.040。

发布时间: 2/10/2025

查看原文