arXiv 论文列表

作者: Ziyuan Huang, Kevin Huggins, Srikar Bellur

arXiv:2505.04664v1 类型: cross 摘要: 本研究提出了PNN-UNet方法，用于构建能够在3D医学图像数据中复制扁形动物神经系统（PNN）结构的深度神经网络。扁形动物通常具有由两个神经索组成的脑结构，其中大脑充当协调器，而神经索在生物的神经系统中执行不同的功能。因此，PNN-UNet由一个Deep-UNet和一个Wide-UNet作为神经索组成，一个密集连接的自编码器承担大脑的角色。这种独特的架构比单一的整体结构（UNet）和模块化网络（Ensemble-UNet）更具有优势。我们在有无数据增强的3D MRI海马体数据集上的结果表明，PNN-UNet在图像分割任务中优于基线UNet以及几种其他UNet变体。

发布时间: 5/9/2025

查看原文

基于多模态推理推进对话诊断人工智能

作者: Khaled Saab, Jan Freyberg, Chunjong Park, Tim Strother, Yong Cheng, Wei-Hung Weng, David G. T. Barrett, David Stutz, Nenad Tomasev, Anil Palepu, Valentin Li\'evin, Yash Sharma, Roma Ruparel, Abdullah Ahmed, Elahe Vedadi, Kimberly Kanada, Cian Hughes, Yun Liu, Geoff Brown, Yang Gao, Sean Li, S. Sara Mahdavi, James Manyika, Katherine Chou, Yossi Matias, Avinatan Hassidim, Dale R. Webster, Pushmeet Kohli, S. M. Ali Eslami, Jo\"elle Barral, Adam Rodman, Vivek Natarajan, Mike Schaekermann, Tao Tu, Alan Karthikesalingam, Ryutaro Tanno

arXiv:2505.04653v1 交叉公告类型摘要：大规模语言模型（LLMs）在进行诊断对话方面展示了巨大的潜力，但评估主要局限于语言互动，无法满足远程医疗服务的实际要求。即时通讯平台允许临床医生和患者在医疗咨询过程中无缝上传和讨论多模态医疗信息，但LLMs在处理此类数据的同时保持高效诊断对话的其他属性的能力仍不清楚。在这里，我们通过一种新能力来增强Articulate Medical Intelligence Explorer（AMIE）的对话诊断和管理性能，即收集和解释多模态数据，并在咨询过程中精确地对其做出推理。依托Gemini 2.0 Flash，我们的系统实现了一个状态感知对话框架，在这个框架中，对话流程由反映患者状态和演变诊断的中间模型输出动态控制。通过不确定性引导后续问题，以制定结构化的多模态病史采集过程，模拟经验丰富的临床医生。我们在使用类似于智能手机皮肤照片、心电图和临床文件的PDF等多模态资源的105个评估场景中，将AMIE与初级保健医生（PCPs）进行了随机、盲法、基于OSCE的研究比对，患者演员参与了基于聊天的咨询过程。我们的评估标准评估了多模态能力和其他临床相关方面，如病史采集、诊断准确性、管理推理、沟通和同理心。专科评估结果显示，在9个模态和32个非模态方面中，AMIE优于PCPs（包括诊断准确性）。研究结果显示多模态对话诊断AI取得了明显的进展，但实际应用仍需进一步研究。

发布时间: 5/9/2025

查看原文

多模态文本到图像生成模型的基准测试与推荐

作者: Kapil Wanaskar, Gaytri Jena, Magdalini Eirinaki

arXiv:2505.04650v1 宣告类型: cross 摘要: 本文介绍了一个开源的统一基准和评估框架，用于文本到图像生成模型，特别关注元数据增强提示的影响。利用DeepFashion-MultiModal数据集，我们通过一组全面的定量指标来评估生成输出，包括加权得分、基于CLIP（对比语言图像预训练）的相似度、LPIPS（学习感知图像补丁相似度）、FID（弗雷切特入射距离）以及检索基措施，以及定性分析。我们的结果显示，结构化的元数据丰富极大地提升了跨多种文本到图像架构的视觉真实感、语义保真度和模型稳健性。虽然它不是传统意义上的推荐系统，但我们的框架可以根据评估指标来为模型选择和提示设计提供任务特定的建议。

发布时间: 5/9/2025

查看原文

重新思考多模态情感分析：一种高准确度的简化融合架构

作者: Nischal Mandal, Yang Li

arXiv:2505.04642v1 文本分类类型：交叉摘要：多模态情感分析是情感计算中的一个关键任务，其目标是通过整合来自语言、音频和视觉信号的线索来理解人类情绪。虽然许多近期的方法利用了复杂的注意力机制和分层架构，但我们提出了一种轻量级但有效的基于融合的深度学习模型，专门用于话语级情绪分类。我们使用包括对齐文本、音频衍生的数值特征和视觉描述的基准IEMOCAP数据集，设计了一个使用全连接层和随后的dropout正则化的模态特定编码器。模态特定的表示随后通过简单的串联融合，并通过密集融合层来捕获跨模态交互。这种简化的架构避免了计算开销，同时保持了性能，实现了六类情绪分类精度92%。我们的方法证明，在仔细的特征工程和模块化设计下，更简单的融合策略可以在资源受限的环境中优于或匹配合更为复杂的模型。

发布时间: 5/9/2025

查看原文

使用差分模型进行语言翻译和语音转换以适应不同口音的语音到语音任务

作者: Abhishek Mishra, Ritesh Sur Chowdhury, Vartul Bahuguna, Isha Pandey, Ganesh Ramakrishnan

arXiv:2505.04639v1 Announce Type: cross 摘要：语音到语音翻译（S2ST）旨在将一种语言的口头输入转换为另一种语言的口头输出，通常专注于语言翻译或音调适应。然而，有效的跨文化沟通需要同时处理两个方面：内容翻译和将说话者的音调适应为目标语言的语境。在本工作中，我们提出了一种同时进行语音翻译和声音转换的统一方法，而当前文献中这一任务尚未得到充分探索。我们的方法将问题重新表述为条件生成任务，根据音素生成目标语音，并由目标语音特征引导。利用扩散模型的强大生成能力，我们通过根据源语音转录进行条件控制并生成代表目标语音的梅尔频谱图来适应文本到图像的扩散策略，这些梅尔频谱图具有所期望的语音和音调特征。这种集成框架能够同时优化翻译和音调适应，相对于传统的流水线方法，提供了一个更高效且更有效的模型。

发布时间: 5/9/2025

查看原文

自适应令牌边界：将人类分块机制集成到多模态LLMs中

作者: Dongxing Yu

arXiv:2505.04637v1 交叉类型:跨模态摘要：最近在多模态大规模语言模型（MLLMs）方面的进展展示出了处理多种数据类型的非凡能力，然而，人类认知过程与计算方法在多模态信息整合方面仍存在显著差异。本研究系统地探讨了人类跨模态分块机制与MLLMs的标记表示方法之间的相似之处。通过比较人类在视觉-语言任务中的表现模式与模型行为，我们证明了传统的静态标记化方案根本上限制了当前模型模拟人类信息处理的动态和上下文敏感性的能力。我们提出了一种基于认知科学原理的动态跨模态标记化框架，它结合了适应性边界、分层表示和对齐机制。定量评估表明，我们的方法在基准任务上优于最先进的模型（视觉问答任务上的+7.8%，复杂场景描述任务上的+5.3%），并且表现出更贴近人类的错误模式和注意力分布。这些发现有助于理解人类认知与人工智能之间的关系，并提供了发展更具认知合理性的AI系统的实证证据。

发布时间: 5/9/2025

查看原文

从方言差距到身份映射：应对说话人验证中的变异性

作者: Abdulhady Abas Abdullah, Soran Badawi, Dana A. Abdullah, Dana Rasul Hamad, Hanan Abdulrahman Taher, Sabat Salih Muhamad, Aram Mahmood Ahmed, Bryar A. Hassan, Sirwan Abdolwahed Aula, Tarik A. Rashid

arXiv:2505.04629v1 交叉公告类型：cross 摘要：本文探讨了在多名族方言中识别库尔德语讲者所面临的复杂性和困难。由于库尔德语及其多种方言（包括库尔曼济、索拉尼和哈瓦拉米）在音韵和词汇上的巨大差异，这为语音识别系统带来了特殊的挑战。本文研究了构建能够准确识别多名族方言中讲者的强大语音识别系统的难点。为了提高这些系统的准确性和可靠性，本文还提出了一些解决方案，如复杂的机器学习方法、数据扩增策略以及构建详细的方言特定语料库。结果表明，为每个方言量身定制的策略与跨方言训练大大提高了识别性能。

发布时间: 5/9/2025

查看原文

它有多社交化？多用户多轮社交代理任务中LLMs能力的基准

作者: Yusen Wu, Junwu Xiong, Xiaotie Deng

arXiv:2505.04628v1 类别: cross 摘要: 扩展大型语言模型（LLMs）在社会生活中的应用，而不仅仅作为辅助助手与一个人交流，这需要LLMs具备在复杂社会场景中独立参与多用户、多轮次社交代理任务的能力。然而，当前还未有可用的基准系统地衡量这一能力。为填补这一缺口，我们首先引入了一个基于社会学原则的代理任务层次框架。同时，我们提出了一个新颖的基准，称为“它有多社交”（我们在此后简称其为HSII），旨在评估LLMs在综合社交代理任务中的社会能力。HSII包括四个阶段：格式解析、目标选择、目标切换对话和稳定对话，这些阶段共同评估LLMs在现实社会互动场景（HSII数据集）中的沟通和任务完成能力。该数据集逐步从新闻数据集中提取。我们通过聚类对该数据集进行消融研究。此外，我们还研究了思维链（Chain of Thought，COT）方法对提升LLMs社会表现的影响。由于COT需要更多的计算成本，我们进一步引入了一个新的统计度量标准，COT复杂性，以衡量具有COT的某些LLMs在特定社交任务中的效率，并在准确性与效率之间寻求更好的权衡。我们实验的多种结果表明，我们的基准非常适合评估LLMs的社会技能。

发布时间: 5/9/2025

查看原文

面向生成模型驱动的推荐系统综合性评估的研究

作者: Yashar Deldjoo, Nikhil Mehta, Maheswaran Sathiamoorthy, Shuai Zhang, Pablo Castells, Julian McAuley

arXiv:2504.06667v1 交叉公告类型: cross 摘要: 由生成模型驱动的推荐系统（Gen-RecSys）超越了经典项目的排名，通过生成开放性内容，同时为用户提供了更丰富的体验，但也带来了新的风险。一方面，这些系统可以通过动态解释和多轮对话增强个性化和吸引力。另一方面，它们可能会进入未知领域，虚构不存在的项目，放大偏见，或泄露个人信息。传统的准确性度量无法全面捕捉这些挑战，因为它们无法衡量事实准确性、内容安全性或与用户意图的一致性。本文做出了两项主要贡献。首先，我们将Gen-RecSys的评估挑战分为两类：(i) 由生成输出加剧的现有问题（例如，偏见、隐私）和(ii) 完全新的风险（例如，项目虚幻化、矛盾的解释）。其次，我们提出了一种全面的评估方法，包括基于场景的评估和多指标检查，涵盖了相关性、事实依据、偏见检测和政策合规性。我们的目标是提供一个指导框架，使研究人员和实践者能够全面评估Gen-RecSys，确保有效的个性化和负责任的部署。

发布时间: 5/9/2025

查看原文

对话过程模型重设计

作者: Nataliia Klievtsova, Timotheus Kampik, Juergen Mangler, Stefanie Rinderle-Ma

arXiv:2505.05453v1 宣言类型: 新摘要：随着大型语言模型（LLMs）的近期成功，人工智能增强的企业流程管理系统的想法变得越来越可行。他们的一项重要特点是能进行对话式的操作，允许人类与LLM有效互动，以执行关键的流程生命周期任务，如流程模型的设计和重新设计。然而，目前大多数研究主要集中在单次指令的执行和结果的评估上，而不是用户和LLM之间的持续互动。在这项工作中，我们旨在探索使用LLM赋能领域专家以迭代和有效的方式创建和重新设计流程模型的可能性。提出的对话式流程模型重新设计（CPD）方法接收一个流程模型和用户以自然语言提出的重新设计请求作为输入。与仅仅是让LLM进行修改不同，LLM被用于（a）从文献中识别流程变化模式，（b）重新阐述变化请求以与识别的模式（即，意义）相一致（即，预期措辞），然后（c）将变化的意义应用到流程模型。这种多步骤的方法允许可解释和可重复的变化。为了确保CPD方法的可行性，并找出LLM能否处理文献中的模式，我们进行了广泛评估。结果显示，一些模式对LLM和用户来说难以理解。在研究范围内，我们展示了用户需要支持清楚地描述变化。总体而言，评估结果显示，根据完备性和正确性的标准，LLM能够很好地处理大多数变化。

发布时间: 5/9/2025

查看原文