LLM2D

arXiv 论文列表

作者: Josep Lumbreras, Ruo Cheng Huang, Yanglin Hu, Mile Gu, Marco Tomamichel
arXiv:2505.09456v1 Announce Type: 横向 摘要:我们研究了一种利用顺序访问未知纯量子比特状态的 $N$ 份副本,将尽可能多的能量转移到电池中的工作提取协议。核心挑战是设计交互以在以下两个目标之间最优地平衡:利用手中量子比特最优地给电池充电,以及通过获取更多有关量子比特的信息,以提高后续轮次中的能量收集。这里,我们利用强化学习中的探索-利用权衡来开发适应性策略,这些策略使得能量耗散仅按 $N$ 的多项对数阶进行放大。这代表了与当前基于完备状态 tomography 的协议相比的指数级改进。
发布时间: 5/15/2025
查看原文
作者: Paul Tschisgale, Holger Maus, Fabian Kieser, Ben Kroehs, Stefan Petersen, Peter Wulff
arXiv:2505.09438v1 交叉类型: cross 摘要: 大型语言模型(LLMs)现在已广泛应用,且已到达各个教育水平的学习者。这一发展引发了对其使用可能绕过关键学习过程并损害既定评估形式完整性的担忧。在物理教育中,由于问题解决在教学和评估中起着核心作用,因此理解LLMs在物理问题解决方面的特殊能力变得至关重要。这种理解对于制定负责任且教学合理的LLMs整合策略至关重要。因此,本研究比较了一种通用目的型LLM(GPT-4o,使用不同引导技术)和一种推理优化模型(o1-preview)与德国物理奥林匹克竞赛参与者在一组明确定义的奥林匹克问题上的问题解决表现。除了评估生成解决方案的正确性外,该研究还分析了LLM生成解决方案的特性优势和局限性。研究发现表明,两种测试的LLMs(GPT-4o和o1-preview)在奥林匹克类型的问题解决上表现出先进的能力,平均来说优于人类参与者。不同的引导技术对GPT-4o的表现影响甚微,而o1-preview几乎始终优于GPT-4o和人类基准。基于这些发现,该研究讨论了物理教育中终结性评估和形成性评估的设计含义,包括如何保持评估的完整性以及支持学生批判性地与LLMs互动。
发布时间: 5/15/2025
查看原文
arXiv:2505.09436v1 宣告类型: cross 摘要:大型语言模型(LLMs)在客户体验管理(CXM)中,尤其是在联络中心运营方面,拥有巨大的潜力。然而,在复杂运营环境中的实际应用评估受到数据稀缺性(由于隐私问题)和现有基准限制的阻碍。现有基准通常缺乏现实性,未能包含深入的知识库(KB)集成、现实世界的噪音或超越对话流畅性的关键运营任务。为了弥合这一差距,我们引入了CXMArena,这是一个面向运营CXM场景中评估AI的新颖且大规模合成基准数据集。鉴于联络中心特征的多样性,我们开发了一种可扩展的以LLM为基础的流水线,模拟品牌的CXM实体,这些实体构成了我们数据集的基础,例如包含产品规格、问题分类和联络中心对话的知识文章。这些实体通过受控的噪声注入(参考领域专家意见)和严格的自动验证,紧密地体现了现实世界的数据分布。在此基础上,我们发布了CXMArena,提供专门针对五项重要运营任务的基准测试:知识库优化、意图预测、代理质量合规、文章搜索和集成工具的多轮响应生成。我们的基线实验强调了基准测试的难度:即使是最先进的嵌入和生成模型,在文章搜索上的准确率也只有68%,而标准嵌入方法在知识库优化上的F1分数只有0.3,凸显了当前模型面临的重大挑战,这需要复杂的流水线和解决方案,而不仅仅是传统的技术。
发布时间: 5/15/2025
查看原文
作者: Yili He, Yan Zhu, Peiyao Fu, Ruijie Yang, Tianyi Chen, Zhihua Wang, Quanlin Li, Pinghong Zhou, Xian Yang, Shuo Wang
arXiv:2505.09435v1 交叉通知类型: 摘要:在内窥镜图像-文本结肠镜检查记录上进行预训练为提高内窥镜图像分析提供了巨大的潜力,但面临一些挑战,包括非信息性背景图像、复杂的医学术语和含糊的多病灶描述。我们介绍了Endo-CLIP,这是一种新颖的自监督框架,用于增强用于该领域的对比语言-图像预训练(CLIP)。Endo-CLIP的三阶段框架——清洗、调适和统一——通过以下方式解决了这些挑战:(1)去除背景帧,(2)利用大型语言模型提取临床属性以进行细粒度对比学习,(3)使用患者级别的交叉注意来解决多息肉的模糊性。大量的实验表明,Endo-CLIP在零样本和少样本息肉检测和分类方面显著优于最先进的预训练方法,为更准确和临床相关的内窥镜分析铺平了道路。
发布时间: 5/15/2025
查看原文
arXiv:2505.09407v1 交叉类型: cross 摘要: 基于云的多语言翻译服务,如谷歌翻译和微软翻译器,在翻译能力上达到最先进的水平。这些服务本质上使用了如GRU、LSTM、BERT、GPT、T5或类似的编码器-解码器架构作为主干,借助注意力机制运行大型多语言语言模型。同时,新一代自然语言系统,例如ChatGPT和DeepSeek,在自然语言处理的多个任务中已经展现出了巨大的潜力。然而,它们也具备出色的多语言翻译能力。这些模型使用经典计算领域作为后台。QEDACVC(量子编码器-解码器注意力卷积变分电路)是一种替代方案,它探索了量子计算领域,而不是经典计算领域,来研究和展示多语言机器翻译。QEDACVC引入了量子编码器-解码器架构,通过量子卷积、量子池化、量子变分电路和量子注意力作为软件修改,在量子计算硬件上模拟和运行。当在OPUS数据集上对英语、法语、德语和印地语语料库进行多语言翻译训练时,QEDACVC达到了82%的准确率。
发布时间: 5/15/2025
查看原文
作者: Chen-Yu Liu, Kuan-Cheng Chen, Yi-Chien Chen, Samuel Yen-Chi Chen, Wei-Hao Huang, Wei-Jia Huang, Yen-Jui Chang
arXiv:2505.09395v1 交叉公告类型 摘要:台风路径预测对于灾害准备至关重要,但由于大气动力学的复杂性和深度学习模型所需的资源需求,仍然计算密集。Quantum-Train(QT)是一种混合量子-经典框架,利用量子神经网络(QNNs)在训练过程中生成独有的可训练参数,从而在推理时无需使用量子硬件。在QT在多个领域取得成功的基础上,包括图像分类、强化学习、洪水预测和大型语言模型(LLM)微调,我们引入了量子参数适应(QPA)以实现高效的台风预报模型学习。QPA与基于注意力的多卷积GRU模型集成,使得训练参数更加高效同时保持预测准确性。本文代表了量子机器学习(QML)首次应用于大规模台风路径预测,提供了一种可扩展且能效高的气候建模方法。我们的结果显示,QPA可以显著降低可训练参数的数量,同时保持性能,通过混合量子-经典学习使高性能预测更加 accessible 和可持续。
发布时间: 5/15/2025
查看原文
作者: Huakun Liu, Hiroki Ota, Xin Wei, Yutaro Hirao, Monica Perusquia-Hernandez, Hideaki Uchiyama, Kiyoshi Kiyokawa
arXiv:2505.09393v1 Announce Type: cross 摘要:稀疏穿戴式惯性测量单元(IMU)由于能够估计3D人体运动而受到欢迎。然而,诸如姿态不确定性、数据漂移以及对不同体型的有限适应性等问题依然存在。为了解决这些问题,我们提出了UMotion,这是一种基于不确定性驱动、在线融合所有状态估计的3D人体形状和姿态估计框架,该框架配备了六个集成的、安装在体内的超宽带(UWB)距离传感器和IMU。UWB传感器通过测量节点间的距离来推断空间关系,在结合人体测量数据的情况下,有助于解决姿态不确定性及体型变化的问题。不幸的是,IMU容易出现漂移,而UWB传感器会受到人体遮挡的影响。因此,我们开发了一种紧密耦合的无迹卡尔曼滤波器(UKF)框架,该框架融合了传感器数据中的不确定性以及基于个体体型估计的人体运动。UKF通过实时对齐IMU和UWB测量值与不确定的人体运动约束,迭代地优化它们的测量值,从而为每一项测量提供最优估计。在合成数据集和真实世界数据集上的实验表明,UMotion在稳定传感器数据和提高姿态准确性方面优于当前最先进的方法。
发布时间: 5/15/2025
查看原文
作者: Xiaoyang Yu, Xiaoming Wu, Xin Wang, Dongrun Li, Ming Yang, Peng Cheng
arXiv:2505.09385v1 分类类型: cross 摘要:联邦语义分割通过协作学习在图像中实现像素级分类,同时保持数据隐私。然而,现有的研究在解决异质性问题时,特别是领域转移问题时,常见地忽略了语义空间内的细粒度类关系,从而导致了类表示之间的模糊性。为克服这一挑战,我们提出了一种新的联邦分割框架FedSaaS,该框架通过类一致性来优化。具体而言,我们引入了类示例作为本地和全局类表示的标准。在服务器端,上传的类示例被用于建模类原型,监督客户端全局分支,确保与全局水平表示的一致性。在客户端,我们引入了对抗机制,以协调全局分支和局部分支的贡献,从而实现一致输出。此外,双方都采用了多级对比损失,以强制两个级别表示在同一语义空间中的一致性。在多个驾驶场景分割数据集上的广泛实验表明,我们的框架在性能上优于现有最先进的方法,显著提高了平均分割准确性,并有效解决了类一致性表示问题。
发布时间: 5/15/2025
查看原文
作者: Zhengyan Sheng, Jinghao He, Liping Chen, Kong Aik Lee, Zhen-Hua Ling
arXiv:2505.09382v1 类型:跨领域研究 摘要:音色是指一个人的嗓音的独特品质或特性,这种品质或特性使其在人类听觉感知中与其他人的嗓音区分开来。2025年声音音色属性检测(VtaD)挑战专注于以对比的方式解释音色属性。在此次挑战中,人类对音色的印象通过一组感官描述符进行阐述,包括明亮、粗糙、柔软、磁性等。音色是从特定描述符维度内两个嗓音的强度对比中进行解释的。2025年声音音色属性检测挑战于5月开始,并将于2025年10月在江苏省镇江市举办的NCMMSC2025会议上 culminates 为一项特别提案。
发布时间: 5/15/2025
查看原文
作者: Qinghui Liu, Jon Nesvold, Hanna Raaum, Elakkyen Murugesu, Martin R{\o}vang, Bradley J Maclntosh, Atle Bj{\o}rnerud, Karoline Skogen
arXiv:2505.09380v1 交叉领域公告类型 摘要:背景:在放射科临床部署AI工具存在诸多挑战和机遇。本研究描述了一种名为NeoMedSys的放射学软件平台,可以实现AI模型的高效部署和优化。我们评估了NeoMedSys在实际临床环境中运行三个月的可行性和有效性,并重点关注了针对颅内出血(ICH)检测的内部开发AI模型(VIOLA-AI)性能的改进。 方法:NeoMedSys集成了部署、测试和优化AI模型的工具,包括基于网络的医学影像查看器、标注系统和全院放射学信息系统。在挪威最大的急诊科( site-1)疑似创伤性脑损伤(TBI)患者和疑似中风患者( site-2)的临床病例中进行了实用调查。我们评估了VIOLA-AI在遇到新数据并进行预先计划的模型再训练时的ICH分类性能。性能指标包括灵敏度、特异性、准确性和受试者操作特征曲线下面积(AUC)。 结果:NeoMedSys促进了AI模型的迭代改进,显著提高了其诊断准确性。自动出血检测和分割在接近实时的情况下进行了审查,以促进VIOLA-AI的再训练。迭代的完善过程使得分类灵敏度有了显著提高,从79.2% 提升到90.3%,而特异性也达到了89.3%(从80.7%)。对整个样本的出血检测ROC分析显示,曲线下面积(AUC)达到0.949(从0.873)。模型改进阶段与显著的性能提升相关,突显了实时放射科医生反馈的价值。
发布时间: 5/15/2025
查看原文