LLM2D

arXiv 论文列表

作者: Zhen Chen, Xingjian Luo, Jinlin Wu, Long Bai, Zhen Lei, Hongliang Ren, Sebastien Ourselin, Hongbin Liu
arXiv:2409.12467v2 消息类型: replace-cross 摘要:手术阶段识别对于帮助外科医生理解手术视频至关重要。现有的研究更多地关注在线手术阶段识别,利用前一帧来预测当前帧。尽管取得了很大的进步,但他们将任务表述为一系列帧分类,这导致了整个手术过程缺乏全局上下文和不一致的预测。此外,除了在线分析之外,准确的离线手术阶段识别在回顾性分析方面也具有重大的临床需求,现有的在线算法并未全面分析整个视频,从而限制了离线分析的准确性。为克服这些挑战并增强在线和离线推断能力,我们提出了一种通用的手术阶段定位网络,命名为 SurgPLAN++,基于时间检测的原则。为了确保对手术过程的全局理解,我们为 SurgPLAN++ 设计了一种阶段定位策略,通过阶段提案来预测整个视频中的阶段片段。对于在线分析,在生成高质量的阶段提案时,SurgPLAN++ 采用一种数据增强策略,通过镜像、中心复制和下采样将流媒体视频扩展为伪完整视频。对于离线分析,SurgPLAN++ 利用其全局阶段预测框架,在每次在线推断步骤中连续细化先前的预测,从而显著提高阶段识别的准确性。我们进行了广泛的实验来验证其有效性,我们的 SurgPLAN++ 在在线和离线模式下均表现出了出色的效果,超过了最先进的方法。源代码可在 https://github.com/franciszchen/SurgPLAN-Plus 获取。
发布时间: 2/17/2025
查看原文
arXiv:2409.09641v4 宣布类型: 交叉替换 摘要:由于 minimally verbal autistic (MVA) 孩子通过少量的话语和非言语提示与父母交流,父母往往难以鼓励孩子表达微妙的情感和需求,并理解他们细微的信号。我们介绍了一种基于平板电脑、由人工智能中介的交流系统 AACessTalk,该系统有助于 MVA 孩子与父母之间的有意义的交流。AACessTalk 为父母提供实时指导,使其能够与孩子进行对话,并相应地向孩子推荐情境词汇卡片。通过为期两周的 11 个 MVA 孩子和家长的部署研究,我们探讨了 AACessTalk 如何促进日常对话练习和相互参与。我们的研究表明,所有参与者都表现出高参与度,导致对话频率增加和轮流发言次数增多。此外,AACessTalk 也鼓励父母探索自己的互动策略,赋予孩子在沟通中更多的自主权。我们讨论了为父母与 MVA 孩子的互动设计平衡交流动态的技术的含义。
发布时间: 2/17/2025
查看原文
作者: Fabrizio Gilardi, Sabrina Di Lorenzo, Juri Ezzaini, Beryl Santa, Benjamin Streiff, Eric Zurfluh, Emma Hoes
arXiv:2409.03500v3 通知类型: 替换-交叉 摘要:人工智能的进步使其在许多领域得到应用,包括新闻媒体,这使得理解公众对AI生成新闻的接受程度变得尤为重要。这项事先注册的研究探讨了(i) AI辅助和AI生成的新闻文章与人类生成的新闻文章的质量感知,(ii) 是否披露AI在生成这些新闻文章中的角色影响人们对它们的关注程度,以及(iii) 这种意识是否会改变人们未来阅读AI生成的文章的意愿。我们对599名瑞士参与者进行了一项调查实验,这些参与者评估了记者撰写(对照组)、由AI重写(AI辅助组)或完全由AI撰写的(AI生成组)新闻文章的可信度、可读性和专业性。结果显示,所有文章都被认为具有同等质量。在进行角色披露后,治疗组的参与者表示比对照组的参与者更愿意继续阅读这些文章。然而,他们并没有表现出在未来更多阅读AI生成的新闻文章的意愿。这些结果表明,新闻媒体中使用AI的厌恶感并非主要源于对其质量的感知不足,通过披露使用AI,记者可能会引发更短时期的参与。
发布时间: 2/17/2025
查看原文
作者: Yang Liu, Xichou Zhu, Zhou Shen, Yi Liu, Min Li, Yujun Chen, Benzi John, Zhenzhen Ma, Tao Hu, Zhi Li, Zhiyang Xu, Wei Luo, Junhui Wang
arXiv:2409.02370v4 公告类型: 交叉替换 摘要:大型语言模型(LLMs)最近展示了其在语言理解方面的非凡能力。然而,如何全面评估LLMs的情感能力仍然是一项挑战。本文探讨了LLMs在文本模态中检测和应对情感的能力。随着LLMs在各种应用中的整合日益增多,理解它们对情感语气的敏感性变得尤为重要,因为这会影响用户体验和基于情感的任务的效果。我们进行了一系列实验,以评估几个主要LLMs在识别和适当地应对正向、负向和中性情感方面的能力。模型的输出在各种情感基准上进行分析,并与人类评估进行比较。我们的发现表明,尽管LLMs显示出对情感的基本敏感性,但在准确性和一致性方面存在巨大差异,强调了在训练过程中需要进一步改进以更好地捕捉细微的情感线索。例如,在我们的一些发现中,模型可能错误地将强烈正向情感分类为中性,或者未能识别文本中的讽刺或反语。这些分类错误突显了情感分析的复杂性和模型需要改进的领域。另一个方面是,不同的LLMs在相同的数据集上可能有不同的表现,这取决于它们的架构和训练数据集。这种差异性需要更加深入地研究哪些因素导致了性能差异以及如何进行优化。
发布时间: 2/17/2025
查看原文
作者: Zijian Zhao, Tingwei Chen, Zhijie Cai, Xiaoyang Li, Hang Li, Qimei Chen, Guangxu Zhu
arXiv:2408.10919v4 Announce Type: replace-cross 摘要:近年来,由于其众多好处,如隐私保护、低成本和穿墙能力,Wi-Fi感知受到了广泛关注。该领域进行了大量研究,集中在手势识别、人员识别和跌倒检测等方面。然而,许多基于数据的方法在遇到域迁移问题时遇到了挑战,即模型在训练数据不同的环境中表现不佳。这个问题的一个主要原因是对Wi-Fi感知数据集的限制,这使得模型学会过多的相关信息并过度拟合训练集。不幸的是,跨不同场景收集大规模的Wi-Fi感知数据集是一项具有挑战性的任务。为了解决这个问题,我们提出了一种名为CrossFi的siamese网络方法,这种方法在本体域场景和跨域场景(包括少样本、零样本场景)中表现优异,甚至在测试集包含新类别的情况下也能在少样本新类别场景中工作。CrossFi的核心组件是一个称为CSi-Net的样本相似性计算网络,它通过使用注意力机制捕捉相似性信息,而不是简单地计算距离或余弦相似性来改进siamese网络结构。在此基础上,我们开发了一个额外的Weight-Net,它可以为每个类别生成一个模板,从而使我们的CrossFi能够在不同场景中工作。实验结果表明,我们的CrossFi在各种场景中均实现了最佳性能。在手势识别任务中,我们的CrossFi在本体域场景中的准确率为98.17%,在一次样本跨域场景中的准确率为91.72%,在零样本跨域场景中的准确率为64.81%,在一次样本新类别场景中的准确率为84.75%。我们的模型代码已公开发布在https://github.com/RS2002/CrossFi。
发布时间: 2/17/2025
查看原文
作者: Syed Rifat Raiyan, Zibran Zarif Amio, Sabbir Ahmed
arXiv:2408.10360v5 宣布类型: replace-cross 摘要: 手影戏,也称为影画或纤影术,是一种通过在平面上投射手影来创造活生生的生物幻觉的戏剧艺术和叙述形式。技艺高超的表演者通过手部位置、手指动作和灵巧的手势来创造这些剪影,使其看起来像动物和物体的影子。由于缺乏表演者以及人们娱乐标准的变化,这种艺术形式正处于灭绝边缘。为促进其保存并将其传播给更广泛的受众,我们介绍了${\rm H{\small A}SP{\small E}R}$,一个包含15,000张手影戏图像的新数据集,这些图像来自专业和业余手影表演者视频中的15个类别。我们提供了数据集的详细统计分析,并使用多种预训练图像分类模型建立了基线。我们的研究发现,跳跃连接卷积模型在性能上明显优于基于注意力的变压器架构。我们还发现,适合移动应用和嵌入式设备的轻量级模型,如MobileNetV2,在性能上表现相当出色。我们认为,这样的低延迟架构在开发纤影术教学工具方面可能非常有用,并创建了一个原型应用程序以探索这一假设。在保持表现最好的模型ResNet34的核心地位的同时,我们进行了综合的特征空间、可解释性和错误分析,以深入了解其决策过程。据我们所知,这是第一次采用计算机视觉方法来保存这种濒临灭绝的艺术形式的研究工作。我们的代码和数据将会公开。
发布时间: 2/17/2025
查看原文
作者: Zhao Li, Yang Liu, Chuan Zhou, Xuanwu Liu, Xuming Pan, Buqing Cao, Xindong Wu
arXiv:2407.16115v2 通知类型: replace-cross 摘要:分享经济的概念已经获得了广泛认可,在这种背景下,共享电动自行车电池(SEB)已经成为社会关注的焦点。尽管受到欢迎,用户对SEB剩余电池范围的期望与实际情况之间仍存在显著差异,导致用户在紧急情况下倾向于寻找可用的ESB。为应对这一挑战,将物联网人工智能(AIoT)和电池更换服务结合起来已成为可行的解决方案。在本文中,我们提出了一种名为SEB-Transformer的新颖结构变换器模型,专门用于预测SEB的电池范围。该场景被概念化为一个动态异构图,涵盖了用户和自行车之间的交互,提供了一个全面的分析框架。此外,我们将图结构融入SEB-Transformer中,以结合平均结构相似性来估计剩余电动自行车电池范围,从而提高预测准确性。通过应用我们模型的预测,我们能够实时动态调整用户的最适宜骑行路线,同时考虑到充电站的战略位置,从而优化用户体验。在实际数据集上的实验证明,我们的模型相对于九种竞争基准模型具有明显的优越性。这些通过AIoT驱动的创新不仅弥合了用户期望与电池范围物理限制之间的差距,还显著提高了SEB服务的操作效率和可持续性。通过这些进步,共享电动自行车生态系统正在发展,朝着更可靠、用户友好和可持续的出行方式迈进。
发布时间: 2/17/2025
查看原文
作者: Angie Boggust, Hyemin Bang, Hendrik Strobelt, Arvind Satyanarayan
arXiv:2407.12543v2 宣告类型: 替换-交叉 摘要:虽然可解释性方法可以识别模型学到的概念,但它们忽略了构成模型抽象概念之间关系,这些关系影响了模型将新数据推广的能力。为了评估模型是否学习了与人为齐心的抽象,我们引入了抽象对齐这一方法,以比较模型行为与形式化的人类知识。抽象对齐将特定领域的知识外化为一个抽象图,即一组相关概念,跨越多个抽象层次。使用抽象图为基准,抽象对齐通过确定模型行为中由人类抽象解释的不确定性比例来衡量对齐程度。通过在整个数据集中累积抽象对齐结果,用户可以测试对齐假设,例如模型已学习的人类概念以及反复出现的分歧点。在专家评估中,抽象对齐区分了看似相似的错误,提高了现有模型质量度量的明确性,并发现了当前人类抽象概念的改进之处。
发布时间: 2/17/2025
查看原文
作者: Ye Liu, Jiajun Zhu, Xukai Liu, Haoyu Tang, Yanghai Zhang, Kai Zhang, Xiaofang Zhou, Enhong Chen
arXiv:2407.08952v2 通知类型: replace-cross 摘要: 少-shot 假新闻检测(FS-FND)旨在在资源极度匮乏的情况下区分不准确的新闻与真实新闻。由于假新闻在社交媒体上的广泛传播和其负面影响,这一任务引起了越来越多的关注。大型语言模型(LLMs)在丰富的先验知识和出色的上下文学习能力的帮助下展示了竞争力。然而,现有的方法面临着诸多限制,如理解模糊性和信息稀缺性,这些限制严重削弱了LLMs的潜力。为了解决这些短处,我们提出了一种双视角知识引导的假新闻检测(DKFND)模型,旨在从内部和外部两个视角增强LLMs。具体而言,DKFND 首先通过检测模块识别每篇新闻文章的知识概念。随后,DKFND 创造性地设计了一个调查模块,以检索与当前新闻相关的重要内部和外部信息,然后是另一个评估模块,评估这些信息的相关性和可信度。最后,一个决定模块进一步推导出两个独立的预测并获得最终结果。在两个公开数据集上的广泛实验表明,我们提出的方法在低资源设置中尤为有效。
发布时间: 2/17/2025
查看原文
作者: Ivan Rodkin, Yuri Kuratov, Aydar Bulatov, Mikhail Burtsev
arXiv:2407.04841v2 通知类型: 替换-交叉 摘要:本文解决了为非常长的序列创建需要每个时间步骤处理新信息所需时间恒定的神经架构的挑战。我们的方法,关联循环记忆变换器(ARMT),基于变换器自我注意力处理局部上下文,并通过在长上下文中存储特定任务信息的段级循环来实现信息的存储。我们证明,ARMT 在关联检索任务中优于现有替代方案,并在最近的BABILong 多任务长上下文基准测试中取得了新的性能记录,通过回答包含超过 5000 万词元的单一事实问题,准确率为 79.9%。训练和评估的源代码可在 Github 上获得。
发布时间: 2/17/2025
查看原文