arXiv 论文列表

作者: Deeksha Varshney, Keane Ong, Rui Mao, Erik Cambria, Gianmarco Mengaldo

arXiv:2504.19066v1 类别: cross 摘要：准确评估极端天气事件对于研究和政策制定至关重要，但在世界许多地区，局部和细粒度的数据依然稀缺。这一数据缺口限制了我们分析极端天气事件潜在结果和影响的能力，妨碍了有效的决策。大型语言模型（LLMs）可以处理大量的非结构化文本数据，提取有意义的见解，并生成综合多源信息的详细评估。此外，LLMs 可以无缝地将他们的通用语言理解转移到较小的模型中，使这些模型保留关键知识并在特定任务上进行微调。在本文中，我们提出了一种名为极端天气推理感知对齐（EWRA）的方法，该方法通过将从 LLMs 中推导出的结构化推理路径引入小型语言模型（SLMs）来增强小型语言模型，以及一个包含极端天气事件相关新闻文章的巨大数据集 ExtremeWeatherNews。EWRA 和 ExtremeWeatherNews 一起形成了专注于解决三个关键极端天气任务的整体框架 ClimaEmpact：物理脆弱性/影响分类、主题标签和情绪分析。通过在 ExtremeWeatherNews（及其为 SLM 对齐专门使用的衍生数据集 ExtremeAlign）上对 SLMs 进行高级推理策略的对齐，EWRA 提高了 SLMs 生成符合实际和领域特定响应的能力，以进行极端天气分析。我们的结果显示，提出的这种方法指导 SLMs 产生符合领域的响应，其性能超过了专门任务模型，并为极端天气分析提供了增强的实际应用性。

发布时间: 4/29/2025

查看原文

医学文本中的幻觉与关键信息提取：开源大型语言模型的全面评估

作者: Anindya Bijoy Das, Shibbir Ahmed, Shahnewaz Karim Sakib

arXiv:2504.19061v1 Announce Type: cross 摘要：临床总结在医疗保健中至关重要，因为它能够将复杂的医疗数据提炼成易于理解的信息，从而增强患者的理解和护理管理能力。大型语言模型（LLMs）因其先进的自然语言理解能力，已经在自动化和提高此类总结的准确性方面显示出巨大的潜力。这些模型特别适用于医疗/临床文本的总结，其中准确和简洁的信息传递至关重要。在本文中，我们研究了开源LLMs在从出院报告中提取关键事件（如住院原因、住院期间的重大事件和关键后续行动）方面的有效性。此外，我们还评估了这些模型生成的总结中各种类型幻觉的频度。检测幻觉至关重要，因为它直接影响信息的可靠性，可能影响患者的护理和治疗结果。我们进行全面的数值模拟，以严格评估这些模型的性能，进一步探查提取内容在临床总结中的准确性和忠实度。

发布时间: 4/29/2025

查看原文

面向角色动画的生成AI：技术、应用及未来方向综述

作者: Mohammad Mahdi Abootorabi, Omid Ghahroodi, Pardis Sadat Zahraei, Hossein Behzadasl, Alireza Mirrokni, Mobina Salimipanah, Arash Rasouli, Bahar Behzadipour, Sara Azarnoush, Benyamin Maleki, Erfan Sadraiye, Kiarash Kiani Feriz, Mahdi Teymouri Nahad, Ali Moghadasi, Abolfazl Eshagh Abianeh, Nizi Nazar, Hamid R. Rabiee, Mahdieh Soleymani Baghshah, Meisam Ahmadi, Ehsaneddin Asgari

arXiv:2504.19056v1 类型: 交叉摘要: 生成式人工智能正在重塑艺术、游戏，特别是动画领域。近期在基础模型和扩散模型方面的突破大幅降低了制作动画内容的时间和成本。角色是动画的核心组件，涉及动作、情感、手势和面部表情。近期几个月内进度和广度的快速发展使保持该领域的连贯观点变得困难，促使了整合性回顾的需求。与早期仅孤立地处理化身、手势或面部动画的回顾不同，本文综述提供了对所有主要生成式人工智能角色动画应用的整体、全面视角。我们首先探讨了面部动画、表情渲染、图像合成、化身创建、手势建模、动作合成、对象生成和纹理合成的最新状态。我们强调了每个领域的领先研究、实用部署、常用数据集和新兴趋势。为了帮助新人，我们还提供了一个全面的背景部分，介绍了基础模型和评估指标，使读者能够掌握进入该领域的知识。我们讨论了现存的挑战，并规划了未来的研究方向，为人工智能驱动角色动画技术的发展提供路线图。本综述旨在为进入生成式人工智能动画或相关领域的研究者和开发人员提供资源。相关资源可在以下链接获取：https://github.com/llm-lab-org/Generative-AI-for-Character-Animation-Survey。

发布时间: 4/29/2025

查看原文

AI推荐与非工具性图像担忧

作者: David Almog

arXiv:2504.19047v1 共享类型: 交叉摘要: 人们越来越热衷于通过各自优势合作来利用人类和AI的潜力。然而，在实践中，这种承诺往往无法实现。本文通过一项在线实验，识别出非工具性的图像担忧是个人未能充分利用AI推荐的关键原因。我展示了即使这些感知没有经济后果，参与者对他人如何看待自己的担忧也导致他们忽视AI建议，从而降低任务表现。

发布时间: 4/29/2025

查看原文

增强蜗牛植入信号编码的缩放点积注意机制

作者: Billel Essaid, Hamza Kheddar, Noureddine Batel

arXiv:2504.19046v1 类型: cross 摘要: 耳蜗植入物（CIs）通过直接使用电信号刺激听觉神经，在严重至极重度的感觉神经性听力损失个体中恢复听力方面发挥着重要作用。虽然传统的编码策略，如先进的组合编码器（ACE），已被证明有效，但它们受到适应性和精确性的限制。本文研究了使用深度学习（DL）技术为CIs生成电图的可能性，提出了我们的模型作为一种先进的替代方案。我们通过使用短时客观可懂度（STOI）指标评估重建音频信号的可懂度，将我们的模型与ACE策略进行了比较。结果表明，我们的模型实现了0.6031的STOI分值，接近ACE策略的0.6126分值，并且在灵活性和适应性方面可能具有潜在优势。本研究强调了将人工智能（AI）纳入CI技术的好处，如增强的个性化和效率。

发布时间: 4/29/2025

查看原文

电子离子对撞机中快速模拟切伦科夫探测器的生成模型

作者: James Giroux, Michael Martinez, Cristiano Fanelli

arXiv:2504.19042v1 宣布类型: cross 摘要：深度学习（DL）在实验核物理和粒子物理学中的集成推动了模拟和重建工作流的重大进展。然而，传统的模拟框架，如Geant4，在Cherenkov探测器上仍然计算密集型，尤其是在模拟光学光子通过复杂几何结构和反射表面的传输时，会形成一个主要瓶颈。为了解决这个问题，我们提出了一种独立的快速模拟工具，用于Detection of Internally Reflected Cherenkov Light（内部反射切伦科夫光探测）探测器，特别是在未来 Electron-Ion Collider（EIC）中的 High-Performance DIRC（高性能 DIRC）。我们的框架集成了专门为加速粒子识别（PID）任务设计的一系列生成模型，通过提供相对于基于完整Geant4的模拟的可扩展且GPU加速的替代方案来加速PID任务。我们的模拟包旨在增强可访问性，使得DL研究人员和物理学家能够高效生成高保真大规模数据集，而无需依赖复杂的传统模拟堆栈。这种灵活性支持了新的DL驱动PID方法的研发和评估。此外，这种快速模拟流水线是实现EIC范围内依赖于几乎无限模拟样本的PID策略的关键一步，覆盖了高产DIRC的整个接受范围。

发布时间: 4/29/2025

查看原文

通过属性驱动的综合嵌入和GAN选择性改进分子生成

作者: Nandan Joshi, Erhan Guven

arXiv:2504.19040v1 Announce Type: cross 摘要：药物发现和化学工程等领域对具有定制性质的分子的需求不断增长，推动了分子设计计算方法的发展。基于机器学习的从头分子生成方法最近引起了广泛关注。本文介绍了一种基于变换器的向量嵌入生成器，结合修改后的生成对抗网络（GAN），用于生成具有所需性质的分子。嵌入生成器利用了一种新型的分子描述符，将 Morgan 指纹与全局分子属性相结合，使变换器能够捕捉局部官能团和更广泛的分子特性。修改后的 GAN 生成器损失函数确保生成具有特定所需性质的分子。变换器在将分子描述符回译为 SMILES 字符串时达到了94%的重构准确率，验证了所提出的嵌入在生成任务中的实用性。该方法通过使用带有气味和非气味化合物标签的数据集生成新型气味分子得到了验证。通过修改范围损失函数，GAN 仅生成气味分子。这项工作强调了将新颖的向量嵌入与变换器以及修改后的 GAN 架构结合以加速定制分子发现的潜力，提供了一个强大的工具，适用于各种分子设计应用。

发布时间: 4/29/2025

查看原文

VISUALCENT：使用动态质心表示的视觉人体分析

作者: Niaz Ahmad, Youngmoon Lee, Guanghui Wang

arXiv:2504.19032v1 交叉类型: cross 摘要: 我们引入了VISUALCENT，这是一个统一的人体姿态和实例分割框架，旨在克服多人大规模视觉人类分析的一般化和可扩展性限制。VISUALCENT 利用基于质心的自底向上的关键点检测范式，并通过结合 Disk Representation 和 KeyCentroid 的 Keypoint Heatmap 来识别最优关键点坐标。在统一的分割任务中，定义一个显式关键点为称为 MaskCentroid 的动态质心，以便在人类身体运动快速变化或严重遮挡的环境中快速将像素聚类到特定的人类实例。在COCO和OCHuman数据集上的实验结果证明了VISUALCENT在精度和实时性能方面的优势，并在mAP分数和每秒执行帧率上优于现有方法。该项目的实现可在项目页面上获得。

发布时间: 4/29/2025

查看原文

通过迁移学习提高预训练 YAMNet 的语音命令检测能力

作者: Sidahmed Lachenani, Hamza Kheddar, Mohamed Ouldzmirli

arXiv:2504.19030v1 类型: cross 摘要: 本文解决了在各种智能应用程序中提升用户交互质量所需提高的语音命令识别系统精确度和效率的需求。本研究利用坚固的预训练 YAMNet 模型和迁移学习，开发了一种显著提高语音命令识别的方法。我们调整并训练了一个 YAMNet 深度学习模型，以有效地从音频信号中检测和解释语音命令。利用广泛标注的 Speech Commands 数据集（speech_commands_v0.01），本方法展示了迁移学习在准确识别预定义语音命令集方面的实际应用。该数据集经过精心扩充，并战略性地提取特征以提高模型性能。结果，最终模型的识别准确率达到了 95.28%，突显了高级机器学习技术对语音命令识别的影响。这一成就标志着在音频处理技术方面的重大进展，并为未来该领域的研究设立了新基准。

发布时间: 4/29/2025

查看原文

科学文本分类的进展：数据集扩展和硬投票的微调模型

作者: Zhyar Rzgar K Rostam, G\'abor Kert\'esz

arXiv:2504.19021v1 Announce Type: cross 摘要：高效文本分类对于处理不断增加的学术出版物至关重要。本研究探讨了在Web of Science（WoS-46985）数据集上对预训练语言模型（PLMs）进行微调，包括BERT、SciBERT、BioBERT和BlueBERT，以用于科学研究文本分类的方法。为了提高性能，我们通过在WoS数据库中执行七个有针对性的查询来扩充数据集，每类检索1,000篇文章，使其与WoS-46985的主要类别对齐。PLMs为这些未标记数据预测标签，通过硬投票策略结合预测以提高准确性和信心。通过扩展数据集进行微调，并使用动态学习率和早期停止显著提升了分类准确性，尤其是在专门领域。SciBERT和BioBERT等领域特定模型始终优于BERT等通用模型。这些发现强调了数据集扩充、推断驱动的标签预测、硬投票和微调技术在创建稳健和可扩展的自动化学术文本分类解决方案方面的有效性。

发布时间: 4/29/2025

查看原文