arXiv 论文列表

PerfCam：使用3D 高斯点绘和视觉模型的生产线数字孪生技术

作者: Michel Gokan Khan, Renan Guarese, Fabian Johnson, Xi Vincent Wang, Anders Bergman, Benjamin Edvinsson, Mario Romero, J\'er\'emy Vachier, Jan Kronqvist

arXiv:2504.18165v1 宣告类型: cross 摘要: 我们介绍了PerfCam，这是一个开源的概念证明（PoC）数字孪生框架，它结合了摄像机和传感数据、3D Gaussian散点图技术和计算机视觉模型，用于工业生产线中的数字孪生、对象跟踪和关键绩效指标（KPIs）提取。通过利用3D重建和卷积神经网络（CNNs），PerfCam 提供了一种半自动的对象跟踪和空间映射方法，能够捕获实时KPIs，如可用性、性能、OEE（整体设备效率）以及生产线上输送机的速度。我们通过在制药行业的实际测试生产线上部署PerfCam，验证了其有效性，并公开发布了一个数据集，以支持该领域的进一步研究和开发。结果表明，PerfCam 通过其精确的数字孪生能力提供了可操作的见解，突显了它作为开发智能制造环境中可使用数字孪生的有效工具的价值以及提取操作分析的能力。

发布时间: 4/28/2025

查看原文

离线学习可控多样行为

作者: Mathieu Petitbois, R\'emy Portelas, Sylvain Lamprier, Ludovic Denoyer

arXiv:2504.18160v1 宣告类型: cross 摘要: 仿真实验学习（IL）技术旨在复制特定任务中的人类行为。尽管由于其有效性与效率，仿真实验学习已经受到了重视，但传统的方法通常专注于专家收集的数据集，以生成单一高效的策略。最近，已经提出了扩展方法，以处理具有多种行为的数据集，主要关注在转换级别上学习多样策略或在轨迹级别上进行熵最大化的操作。尽管这些方法可能导致多种行为，但它们可能不足以重现示范的实际多样性，或者无法实现受控轨迹生成。为克服这些缺点，我们提出了一种基于两个关键特征的方法：a) 时间一致性，确保在整个episode中的一致行为，而不仅仅是在转换级别上；b) 可控性，通过构建行为的潜在空间，允许用户根据需求选择性地激活特定行为。我们在一系列多样的任务和环境中将我们的方法与最先进的方法进行了比较。项目页面: https://mathieu-petitbois.github.io/projects/swr/

发布时间: 4/28/2025

查看原文

EDU-NER-2025: 用XLM-RoBERTa with X（ formerly Twitter）识别乌尔都教育文本中的命名实体

作者: Fida Ullah, Muhammad Ahmad, Muhammad Tayyab Zamir, Muhammad Arif, Grigori sidorov, Edgardo Manuel Felipe River\'on, Alexander Gelbukh

arXiv:2504.18142v1 交叉公告类型：cross 摘要：命名实体识别（NER）在各种自然语言处理（NLP）任务中发挥着至关重要的作用，通过从无结构数据中识别和分类命名实体（NEs）到预定义的类别（如人物、组织、地点、日期和时间）中。虽然在高资源语言和通用领域存在大量的研究，但特别是在教育等特定领域，乌尔都语的命名实体识别（NER）仍然显著地被忽略了。这主要是由于缺乏针对教育内容的标注数据集，限制了现有模型准确识别与学术角色、课程名称和机构术语相关的实体的能力，突显了在该领域急需针对的资源。据我们所知，目前在乌尔都语领域中没有这样的数据集。为实现这一目标，本研究做出了三项关键贡献。首先，我们创建了一个手动标注的数据集，命名为EDU-NER-2025，该数据集包含13个与教育领域相关的最关键实体。其次，我们详细描述了我们的标注过程和指南，并讨论了EDU-NER-2025数据集的标注挑战。第三，我们应对并分析了在正式乌尔都文本中常见的关键语言挑战，如形态复杂性和歧义性。

发布时间: 4/28/2025

查看原文

评价评价指标——幻觉检测的幻象

作者: Atharva Kulkarni, Yuan Zhang, Joel Ruben Antony Moniz, Xiou Ge, Bo-Hsiang Tseng, Dhivya Piraviperumal, Swabha Swayamdipta, Hong Yu

arXiv:2504.18114v1 Announce Type: cross 摘要：幻觉是语言模型可靠性和广泛应用的重大障碍，但对其准确测量仍然是一个持续的挑战。虽然已经提出了许多针对特定任务和领域的一系列度量标准来评估忠实性和事实性问题，但这些度量标准的稳健性和泛化性仍然未经检验。在本文中，我们在4个数据集、来自5个家族的37个语言模型以及5种解码方法上大规模实证评估了6组不同的幻觉检测度量标准。我们的广泛研究揭示了当前幻觉评估中令人担忧的差距：这些度量标准经常与人类判断不一致，对问题采取了过于短视的看法，并且在参数扩展时显示出不一致的增益。令人鼓舞的是，基于LLM的评估，特别是使用GPT-4，取得了最好的整体结果，模式搜索型解码方法似乎可以减少幻觉，尤其是在知识导向的环境中。这些发现强调了需要更稳健的度量标准来理解和量化幻觉，并提出更好的策略来缓解这些问题。

发布时间: 4/28/2025

查看原文

从较少的数据中学习：SINDy 替代模型在RL中的应用

作者: Aniket Dixit, Muhammad Ibrahim Khan, Faizan Ahmed, James Brusey

arXiv:2504.18113v1 宣传类型：交叉摘要：本文介绍了一种使用稀疏非线性动力学辨识（Sparse Identification of Nonlinear Dynamics，SINDy）算法在强化学习（Reinforcement Learning，RL）中开发代理环境的方法。我们通过在 OpenAI Gym 环境中进行广泛的实验证明了该方法的有效性，特别是在 Mountain Car 和 Lunar Lander 环境中的表现。结果表明，基于 SINDy 的代理模型能够准确捕捉这些环境的内在动力学，同时将计算成本降低 20-35%。在 Mountain Car 中仅进行了 75 次交互，在 Lunar Lander 中进行了 1000 次交互，我们实现了状态级别的相关性超过 0.997，Mountain Car 速度的均方误差低至 3.11e-06，Lunar Lander 位置的均方误差低至 1.42e-06。在这些代理环境中训练的 RL 代理所需总步数较少（Mountain Car 为 65,075，而原始环境需要 100,000；Lunar Lander 为 801,000，而原始环境需要 1,000,000），同时能达到与在原始环境中训练的代理相当的性能，表现出相似的收敛模式和最终性能指标。本文为基于模型的 RL 提供了一种生成准确可解释代理环境的有效方法，从而推动了该领域的进步。

发布时间: 4/28/2025

查看原文

基于提示调优的大模型应用与优化以评估事实核查价值

作者: Yinglong Yu, Hao Shen, Zhengyi Lyu, Qi He

arXiv:2504.18104v1 类别: cross 摘要: 针对全球化和信息化背景下逐渐严峻的虚假信息问题，本文提出一种基于提示调谐的事实查证价值估计分类方法。我们从方法论层面构建了一个基于提示调谐的事实查证价值估计模型。通过将设计好的提示模板应用到大规模语言模型上，我们建立了上下文学习，并利用提示调谐技术提高确定声明是否有事实查证价值的准确性，尤其是在处理有限或未标记数据时。通过在多个公开数据集上的广泛实验，我们证明了所提出的方法在事实查证价值估计分类任务中超越或匹配了包括经典预训练模型BERT在内的多种基准方法，以及最新的流行大型模型如GPT-3.5和GPT-4。实验表明，基于提示调谐的方法在F1分数和准确性等评估指标上表现出一定的优势，从而有效验证了其在事实查证价值估计任务中的有效性和先进性。

发布时间: 4/28/2025

查看原文

随机集大型语言模型

作者: Muhammad Mubashar, Shireen Kudukkil Manchingal, Fabio Cuzzolin

arXiv:2504.18085v1 宣告类型: cross 摘要：大型语言模型（LLMs）已知能够生成高质量的测试和回答我们的查询。但我们要不要完全信任这些生成的文本？在本文中，我们研究了LLMs中不确定性量化的问题。我们提出了一种新颖的随机集合大型语言模型（RSLLM）方法，该方法预测的是令牌空间上的有限随机集合（相信函数），而不是像经典LLMs那样预测概率向量。为了实现这一点，我们还提出了一种基于层次聚类的方法，用于提取并利用一组称为“焦点”子集的令牌，这些子集上的相信预测被定义，而不是使用所有可能的令牌集合，从而使方法在可扩展性的同时保持有效。RS-LLMs通过与预测相信函数相关的置信集的大小，编码了其生成过程中的主观不确定性，这种不确定性由训练数据集的大小和多样性引起。提出的方法在CoQA和OBQA数据集上使用Llama2-7b、Mistral-7b和Phi-2模型进行评估，并在正确性方面显示出优于标准模型的结果，同时展示了在估计其预测的第二级不确定性以及检测其幻觉方面的潜力。

发布时间: 4/28/2025

查看原文

通过结构意识化随机小批量处理实现高效的GNN训练

作者: Vignesh Balaji, Christos Kozyrakis, Gal Chechik, Haggai Maron

arXiv:2504.18082v1 宣传类型: cross 摘要: 图神经网络(GNNs)使得在现实世界的图上进行学习成为可能，而批量训练已成为训练GNNs的事实标准，因为它可以处理非常大的图并提高收敛性。当前的批量构建策略在很大程度上忽略了GNN训练的效率考虑。具体来说，现有的批量处理技术采用随机化方案以提高准确性和收敛性。但是，这些随机化方案往往不考虑图的结构性质（例如，社区结构），导致在GNN训练过程中出现高度不规则的内存访问模式，使得对片上GPU缓存的利用不充分。另一方面，尽管基于纯图结构的确定性批量处理在运行时间性能上很快，但缺乏随机性会同时损害最终模型的准确性和训练收敛速度。在本文中，我们提出了社区结构感知随机批量处理(COMM-RAND)，这是一种新型方法，它弥补了上述极端之间的差距。COMM-RAND 在批量构建过程中允许实践者在纯粹的随机性和纯图结构意识之间探索空间，从而在相似的准确度下实现显著更高效的GNN训练。我们在四个流行的图学习基准上评估了COMM-RAND。COMM-RAND 将GNN训练时间缩短了最多2.76倍（平均1.8倍），同时准确度与流行的随机批量处理方法相比仅相差1.79%（平均0.42%）。

发布时间: 4/28/2025

查看原文

使用持续预训练和推理偏好优化稳定医疗大语言模型的推理

作者: Wataru Kawakami, Keita Suzuki, Junichiro Iwasawa

arXiv:2504.18080v1 宣布类型: 交叉摘要: 大型语言模型（LLMs）在医学领域展现出潜力，但在临床上的应用却因事实准确性问题、语言特定的限制（例如，日语）以及最关键的是，当需要生成推理解释时的可靠性问题而受到阻碍——这是实现信任的前提。本文介绍了一种名为Preferred-MedLLM-Qwen-72B的720亿参数模型，专门优化用于日本医学领域，同时实现了高准确性和稳定的推理能力。我们采用两阶段微调过程对Qwen2.5-72B基础模型进行优化：首先，通过综合日语医学语料库的持续预训练（CPT）培养了深厚的领域知识。其次，采用基于偏好的方法进行推理偏好优化（RPO），增强了可靠推理路径的生成能力，同时保持了高的答案准确性。在日语医学执照考试基准测试（IgakuQA）上的评估表明，Preferred-MedLLM-Qwen-72B达到了最先进的性能（准确率为0.868），超越了强产权模型如GPT-4o（准确率为0.866）。更重要的是，与基准模型或仅进行CPT的模型不同，这两种模型在被要求提供解释时表现出了显著的准确性下降（分别在IgakuQA上最多达到11.5%和3.8%），而我们的模型在这些情况下仍然保持了其高水平的准确性（0.868）。这突显了RPO在稳定生成推理方面的效果。这项工作强调了在提高准确性的同时，优化可靠解释的重要性。我们发布了Preferred-MedLLM-Qwen-72B模型权重，以促进对可信的专门化、高风险应用环境中语言模型的研究。

发布时间: 4/28/2025

查看原文

面向统计异构性的分布式光伏解耦的隐私保护个性化联邦学习

作者: Xiaolu Chen, Chenghao Huang, Yanru Zhang, Hao Wang

arXiv:2504.18078v1 类别：交叉学科摘要：全球分布式光伏（PV）安装的迅速扩张，其中许多是户内系统，已经显著挑战了能源管理和电网操作，因为不可观测的光伏发电进一步复杂化了供需平衡。因此，从净负荷中估计这一发电量，即光伏解耦，是至关重要的。鉴于隐私问题和需要大规模的训练数据集，联邦学习成为一种有潜力的方法，但由于消费者在地理和行为上的差异导致的统计异质性给光伏解耦带来了新的挑战。为克服这些挑战，提出了一种基于个性化联邦学习（PFL）的隐私保护分布式光伏解耦框架。所提出的方法采用了两层框架，结合了局部和全局建模。在局部层面，设计了一种基于变压器的光伏解耦模型，用于表示当地的光伏条件。采用了一种新颖的自适应局部聚合机制，以减轻统计异质性对局部模型的影响，提取对局部模型有益的全局信息部分。在全局层面，中央服务器聚合来自多个数据中心上传的信息，同时保护隐私并促进跨中心的知识共享。在实际数据上的实验表明，该提出的框架具有更高的准确性和鲁棒性，优于基准方法。

发布时间: 4/28/2025

查看原文