arXiv 论文列表

超越剧本：在医疗保健领域测试LLMs以实现真实的患者沟通风格

作者: Anna Bodonhelyi, Christian Stegemann-Philipps, Alessandra Sonanini, Lea Herschbach, M\'arton Sz\'ep, Anne Herrmann-Werner, Teresa Festl-Wietek, Enkelejda Kasneci, Friederike Holderried

arXiv:2503.22250v1 交叉类型: cross 摘要：有效的病人沟通在医疗保健中至关重要，但传统的医学培训往往缺乏对多样性和具有挑战性的个人互动动态的接触。为解决这一缺口，本研究提议使用大型语言模型（LLMs）来模拟真实的病人沟通风格，特别是源自Satir模型的“告发者”和“辩解者”两种人物角色，同时确保多语言适用性，以适应不同的文化背景并提高医疗专业人员的可访问性。通过利用先进的提示工程序列，包括行为提示、作者注释和顽固机制，我们开发了虚拟病人（VPs），这些虚拟病人具备细腻的情感和对话特征。医疗专业人员对这些VPs进行了评估，他们在5点李克特量表（从1到5）上对其真实性进行了评分（告发者：$3.8 \pm 1.0$；辩解者：$3.7 \pm 0.8$），并正确识别了他们的沟通风格。情感分析揭示了不同的特征：告发者表现出痛苦、愤怒和痛苦，而辩解者则表现出深思与冷静，这与预先定义的详细病人描述（包括病史）一致。情感评分（从0到9的尺度）进一步验证了这些沟通风格的差异，告发者采用消极的语气（$3.1 \pm 0.6$），辩解者则更加中立（$4.0 \pm 0.4$）。这些结果强调了LLMs复制复杂沟通风格的能力，为医学教育带来了变革性的潜力。通过这种方法，培训人员可以获得现实的、可调整的病人互动经验，从而提高同理心和诊断能力。我们的研究倡导使用人工智能驱动的工具作为可扩展、成本效益高的解决方案，以培养细致的沟通技能，为未来医疗教育的创新奠定了基础。

发布时间: 3/31/2025

查看原文

WeatherMesh-3：快速准确的全球天气预报

作者: Haoxing Du, Lyna Kim, Joan Creus-Costa, Jack Michaels, Anuj Shetty, Todd Hutchinson, Christopher Riedel, John Dean

arXiv:2503.22235v1 宣告类型: cross 摘要: 我们介绍了WeatherMesh-3 (WM-3)，这是一种基于变换器的全球天气预报系统，既提高了准确性和计算效率。我们引入了以下进步：1) 一种潜在卷出（latent rollout），能在潜在空间中进行任意长度的预测，无需中间编码或解码；和 2) 一种模块化架构，灵活地利用混合视角处理器，并编码多个实时分析，从而创建混合初始条件。WM-3在单个RTX 4090上以12秒生成0.25度分辨率的14天全球预报。这代表了与传统数值天气预报（NWP）方法相比超过100,000倍的速度提升，同时在准确率上也取得了显著改进，在均方根误差（RMSE）方面比运营模型高出37.7%，并且仅需一个消费级GPU即可部署。我们希望WM-3能够使天气预报民主化，通过提供一个易于使用的轻量级模型供运营使用，同时推动基于机器学习的天气预测性能边界。

发布时间: 3/31/2025

查看原文

基于熵驱动的不确定性的过程奖励建模

作者: Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Wu Ning, Huacong Xu, Qian Chen, Yuxian Wang, Peishuo Su, Mofan Peng, Zijie Chen, Yitong Li

arXiv:2503.22233v1 类别: cross 摘要: 本文提出了熵驱动统一过程奖励模型 (EDU-PRM)，这是一种新型框架，在大幅降低训练成本的同时，近似达到了最先进的过程监督性能。EDU-PRM 引入了一种由熵引导的动态步长分割机制，使用 logit 分布熵动态定位生成 tokens 时的高不确定性区域。这种自我评估能力能够在无需手动细粒度注解的情况下提供精确的步骤级反馈，解决了过程监督中的一个关键挑战。在 Qwen2.5-72B 模型上使用仅 7,500 个由 EDU-PRM 生成的训练查询，其准确度与完整的 Qwen2.5-72B-PRM（71.1% vs. 71.6%）接近，相较于先前方法实现了 98% 的查询成本降低。这项工作确立了 EDU-PRM 作为一种用于可扩展过程奖励模型训练的高效方法。

发布时间: 3/31/2025

查看原文

MFH：用于软件验证的多面向启发式算法选择方法

作者: Jie Su, Liansai Deng, Cheng Wen, Rong Wang, Zhi Ma, Nan Zhang, Cong Tian, Zhenhua Duan, Shengchao Qin

arXiv:2503.22228v1 宣告类型: cross 摘要: 目前，有许多验证算法可用于提高软件系统的可靠性。选择合适的验证算法通常需要领域专业知识和大量的劳动力。因此，需要一个自动化的算法选择器。然而，现有的选择器要么依赖于机器学习策略，要么依靠手动设计的启发式方法，这些问题包括对高质量带有算法标签的样本的依赖以及可扩展性受限。在本文中，我们提出了一种用于软件验证的自动化算法选择方法，称为MFH。我们的方法利用验证器在产生正确结果时通常会实施某些适当算法的启发式，并且验证器支持的算法间接反映了哪些算法可能是适用的。具体而言，MFH 将语义保持转换后的程序的代码属性图(CPG)嵌入到预测模型中，以增强预测模型的鲁棒性。此外，我们的方法将选择任务分解为预测可能适用的算法和匹配最合适的验证器的子任务。另外，MFH 还引入了一个反馈循环，用于提高模型的预测准确性。我们对20个验证器和超过15,000个验证任务进行了评估。实验结果表明，MFH 的有效性，即使在训练过程中没有提供真实的算法标签，其预测准确率仍达到了91.47%。此外，引入10个新验证器时，预测准确率仅下降0.84%，表明提出的方法具有很强的可扩展性。

发布时间: 3/31/2025

查看原文

学习指令来调优视觉指令

作者: Zhihan Zhou, Feng Hong, Jiaan Luo, Jiangchao Yao, Dongsheng Li, Bo Han, Ya Zhang, Yanfeng Wang

arXiv:2503.22215v1 交叉公告类型：跨领域摘要：我们提出LIT，这是视觉指令调优（VIT）的一种进步。虽然VIT为多模态大语言模型（MLLMs）提供了有前景的多模态能力，但当前的VIT设计选择往往导致过拟合和捷径学习，这可能会降低性能。这一差距源于过度强调指令跟随能力，而忽视了主动理解视觉信息。受到这一启发，LIT采用了一种简单而有效的方法，通过将损失函数纳入指令和响应序列中。这无缝地扩展了训练数据，并使MLLMs不再过度依赖语言先验。基于这一优势，LIT在综合多模态基准测试中实现了高达9%的相对改进，无需额外的训练数据，并且计算开销可以忽略不计。令人惊讶的是，LIT在基本视觉能力方面表现出色，图像Captioning性能最高可提高18%，同时也在一定程度上缓解了MLLMs的幻觉现象。

发布时间: 3/31/2025

查看原文

在制作之前卖掉它：以个性化AI生成商品革新电子商务

作者: Jianghao Lin, Peng Du, Jiaqi Liu, Weite Li, Yong Yu, Weinan Zhang, Yang Cao

arXiv:2503.22182v1 宣布类型：交叉摘要：电子商务颠覆了零售行业，但其传统的业务流程仍然效率低下，产品设计和制造库存涉及到大量的时间和资源成本。本文介绍了阿里云部署的一种新型系统，该系统利用AI生成的商品（AIGI）来解决这些挑战，通过个性化文本到图像生成技术进行电子商务产品设计。AIGI使了一种新的商业模式“卖之前先做设计”，商家可以根据文本描述设计时尚商品并生成逼真的图像。只有在商品收到一定数量的订单后，商家才开始生产它们，这大大减少了对物理原型的依赖，并大大缩短了上市时间。对于这样一个有前途的应用，我们明确了潜在的关键科学挑战，即捕捉用户群体层面的个性化偏好，针对多个生成的商品候选图像。为此，我们提出了一个用于扩散模型的个性化群体偏好对齐框架（即PerFusion）。我们首先设计了基于特征交叉的个性化插件的PerFusion奖励模型来进行用户偏好估计。然后，我们开发了具有个性化自适应网络的PerFusion，以建模用户的多样化偏好，同时推导出群体层面的偏好优化目标，以捕捉多个候选商品之间的比较行为。离线和在线实验都证明了我们提出的算法的有效性。与由人工设计的商品相比，AI生成的商品在点击率和转化率上分别实现了超过13%的相对改进，验证了AI生成的商品对电子商务平台的革命性潜力。

发布时间: 3/31/2025

查看原文

基于e-person架构和框架的人机共冒险关系模式

作者: Kanako Esaki, Tadayuki Matsumura, Yang Shao, Hiroyuki Mizuno

arXiv:2503.22181v1 宣布类型：交叉学科摘要：本文提出了一种e-person架构，用于构建统一且增量发展的AI伦理。e-person架构将通过与他人的协作认知和行动减少不确定性作为伦理的一体化基础。通过沿两个轴分类和定义不确定性——（1）第一人称、第二人称和第三人称视角，以及（2）基于信息深度的推理难度——我们支持AI伦理的一体化和增量发展。此外，我们基于自由能量原理提出了e-person框架，将减少不确定性视为脑功能的一体化原则，旨在实现e-person架构，并基于所提议的框架展示了我们的先前工作和未来挑战。

发布时间: 3/31/2025

查看原文

AdaRank：自适应排名裁剪以增强模型融合

作者: Chanhyuk Lee, Jiho Choi, Chanryeol Lee, Donggyun Kim, Seunghoon Hong

arXiv:2503.22178v1 类型：交叉摘要：模型合并已成为将独立微调模型统一到集成框架中的有希望的方法，显著提高了多任务学习中的计算效率。最近，已经引入了几种基于SVD的技术，利用低秩结构来增强合并，但它们对这种手动设计的秩选择的依赖往往会导致任务间干扰和次优性能。在本文中，我们提出了一种新的模型合并框架AdaRank，该框架能够自适应地选择任务向量中最有利的奇异方向来合并多个模型。我们通过实验表明，任务向量的主要奇异成分可能会与其他任务产生关键干扰，并且在不同任务和层之间进行简单的截断会损害性能。相反，AdaRank 动态剔除导致干扰的奇异成分，并通过在测试时通过熵最小化学习来为每个任务向量提供最优的信息量。我们的分析表明，这种方法可以减轻任务间的有害重叠，实证结果表明，AdaRank 在各种后端和任务数量下都能够实现最先进的性能，将微调模型之间的性能差距缩小到几乎1%。

发布时间: 3/31/2025

查看原文

PharmAgents：构建一个由大型语言模型代理组成的虚拟制药领域

作者: Bowen Gao, Yanwen Huang, Yiqiao Liu, Wenxuan Xie, Wei-Ying Ma, Ya-Qin Zhang, Yanyan Lan

arXiv:2503.22164v1 Announce Type: cross 摘要：新型小分子药物的发现仍然是一个关键的科学挑战，对治疗疾病和促进人类健康具有深远的意义。传统药物开发——特别是小分子治疗药物的开发——是一个极其复杂、资源密集型且耗时的过程，需要多学科的协作。近年来，人工智能（AI）的突破，特别是大型语言模型（LLMs）的兴起，为简化和加速这一过程提供了变革性的机会。在本文中，我们介绍了PharmAgents，这是一个由基于LLM的多智能体协作驱动的虚拟制药生态系统。PharmAgents通过集成具备专门机器学习模型和计算工具的可解释的LLM驱动智能体，模拟药物发现的全部工作流程——从靶点发现到预临床评估。通过结构化的知识交流和自动优化，PharmAgents识别潜在的治疗靶点，发现有前景的先导化合物，增强结合亲和力和关键分子特性，并进行体外毒性分析和合成可行性分析。此外，该系统支持可解释性、智能体交互和自演化，使它能够基于先前的经验改进未来的药物设计。通过展示LLM驱动的多智能体系统在药物发现中的潜力，这篇工作建立了一种新的自主、可解释和可扩展的制药研究范式，并为全面的药物生命周期管理提出了未来扩展的可能性。

发布时间: 3/31/2025

查看原文

自视角理论心智推理基准测试：从自视角视频出发

作者: Yuxuan Li, Vijay Veerabadran, Michael L. Iuzzolino, Brett D. Roads, Asli Celikyilmaz, Karl Ridgeway

arXiv:2503.22152v1 宣告类型: cross 摘要: 我们引入了EgoToM，这是一个新的视频问答基准，将心智理论（ToM）评估扩展到了以自我为中心的领域。使用因果心智理论模型，我们为Ego4D数据集生成了多选视频问答实例，以评估预测摄像机佩戴者的目标、信念和下一步行动的能力。我们研究了人类和最先进的多模态大型语言模型（MLLMs）在这三个相互关联的推理问题上的表现。我们的评估表明，在从以自我为中心的视频中推断目标方面，MLLMs达到了与人类相当的准确性。然而，在推断摄像机佩戴者当前的信念状态以及与未见的视频未来最一致的未来行动时，MLLMs（包括我们测试的参数超过100亿的最大的模型）未能达到人类的表现水平。我们认为，我们的结果将影响重要一类以自我为中心的数字助手的设计，这些助手配备了合理的用户内心状态模型。

发布时间: 3/31/2025

查看原文