arXiv:2503.23205v1 宣告类型: cross
摘要: 知识图谱完成(KGC)旨在通过推理补充知识图谱(KGs)中的缺失信息,以解决其固有的不完整性问题。传统基于结构的方法虽然有效,但由于需要进行密集嵌入学习,并且需要为每次预测中的KG中的所有实体进行评分,因此面临显著的计算需求和扩展性挑战。最近使用语言模型如T5和BERT的基于文本的方法通过将KG三元组转换为文本以进行推理,缓解了这些问题。然而,它们往往未能充分利用上下文信息,主要集中在实体的邻域上,忽视了关系的上下文。为了解决这一问题,我们提出了一种KGC-ERC框架,该框架结合了两种类型的上下文,以增强生成语言模型的输入,并提高其推理能力。此外,我们引入了一种采样策略,在输入标记约束条件下有效选择相关上下文,这优化了上下文信息的利用,并可能提高模型性能。在Wikidata5M、Wiki27K和FB15K-237-N数据集上的实验结果显示,KGC-ERC在预测性能和扩展性方面优于或匹配了最先进的基线模型。
arXiv:2503.23204v1 类别: 交叉学科
摘要:多语言自然语言生成(NLG)由于低资源语言缺乏训练数据而具有挑战性。然而,一些低资源语言在全球范围内有数千万的使用者,因此改善这些语言的NLG工具变得非常重要。表到文本的NLG是对模型推理能力的优秀衡量标准,但在多语言环境下非常具有挑战性。系统输出往往无法与源表中的数据相关联或忠实反映。类似于问题-答案(QA)蓝图的中间计划技术在摘要任务中提高了可追溯性。本研究探讨了QA蓝图是否能使多语言表到文本输出更忠实于输入表。本文扩大了包含非洲语言的挑战性多语言表到文本数据集TaTA,并加入了QA蓝图。然后对带有和不带有蓝图的序列到序列语言模型进行了微调。结果显示,对于仅在英语示例上进行微调和评估的模型,QA蓝图可以提高性能,但在多语言环境下却没有显示出增益。这主要是因为自动翻译蓝图时的准确性问题,特别是在生成训练数据时,并且模型未能紧密依赖它们生成的蓝图。进行了详细的分析以探讨为何会出现这种挑战。
arXiv:2503.23199v1 宣布类型: cross
摘要: 目前,视觉里程计和激光雷达里程计在某些典型环境中的位姿估计表现良好,但它们仍然无法在高速下恢复定位状态或减少累积漂移。为了解决这些问题,我们提出了一种新型的基于激光雷达的定位框架,在包含多传感器信息的3D点云地图中实现了高精度的鲁棒定位。该系统将全局信息与基于激光雷达的里程计整合,以优化定位状态。为了提高鲁棒性并使定位能够快速恢复,本文利用离线点云地图作为先验知识,并提出了一种新的注册方法以加快收敛速度。该算法在不同数据集的各种地图上进行了测试,其鲁棒性和准确性均优于其他定位算法。
arXiv:2503.23175v1 类型:跨领域
摘要:近年来,有若干研究认为,大型语言模型(LLMs)可以用于缓解网络安全领域的数据洪流问题,通过提高网络安全威胁情报(CTI)任务的自动化水平。本文提出了一个评估方法,该方法不仅允许在零样本学习、少量样本学习和微调的情况下测试LLMs在CTI任务上的表现,还能量化它们的一致性和置信水平。我们使用三个最先进的LLMs和一个包含350份威胁情报报告的数据集进行实验,并提供了有关依赖LLMs进行CTI可能带来的安全风险的新证据。我们展示了LLMs在处理真实大小的报告时,无法保证足够的性能,同时还表现出不一致性和过度自信。少量样本学习和微调只能部分改善结果,这引起了人们对在缺乏标注数据集且置信度是关键因素的CTI场景中使用LLMs的可能性的怀疑。
arXiv:2503.23157v1 类型: cross
摘要: 文本到SQL是一个具有挑战性的任务,涉及到多个推理密集型子任务,包括自然语言理解、数据库模式理解以及精确的SQL查询生成。现有方法通常依赖于手工设计的推理路径,这些路径的归纳偏置可能会限制它们的整体效果。受近期增强推理模型如DeepSeek R1和OpenAI o1的成功启发,这些模型能够有效利用基于奖励的自我探索来增强推理能力和泛化能力,我们提出了一组特定于文本到SQL任务的新型部分奖励。我们的奖励集包括模式链接、AI反馈、n-gram相似度和语法检查,这些设计明确地解决了强化学习(RL)中普遍存在的奖励稀疏问题。利用群组相对策略优化(GRPO),我们的方法明确鼓励大型语言模型(LLMs)发展能够准确生成SQL查询所需的内在推理技能。通过不同规模的模型,我们展示了使用我们提出的奖励进行仅RL训练的一致比监督微调(SFT)具有更高的准确度和更强的泛化能力。值得注意的是,我们的14B参数量训练的RL模型在BIRD基准测试中分别比o3-mini和Gemini-1.5-Pro-002高出4%和3%。这些结果突显了我们在文本到SQL任务中使用部分奖励进行RL训练框架的有效性,能够提升准确度和推理能力。
arXiv:2503.23153v1 交叉领域公告类型:新技术
摘要:关于对话代理(CAs)在促进老年人健康方面的研究,已有大量的文献。鉴于广泛而多样的研究,需要进行一项全面的回顾,总结主要发现并提出未来研究方向,而很少有文献是从人机交互(HCI)视角进行回顾的。在这项研究中,我们对现有的关于CAs用于老年人健康的文献进行了综述。通过系统回顾72篇论文,本研究回顾了之前研究中老年人的特征,并分析了参与者对CAs在健康方面体验和期望。我们发现:(1)过去的研究对聊天机器人和语音助手的兴趣越来越浓厚,并将CA应用于老年人健康的多个角色;(2)老年人主要由于各种原因对CAs在健康方面表现出低接受度,如不稳定的效果、损害独立性以及隐私担忧;(3)老年人期望CAs能够支持多种功能、使用自然语言交流、个性化以及让用户完全控制。我们还基于发现讨论了相应的意义。
arXiv:2503.23147v1 交叉类型
摘要:数字孪生技术帮助从业者在虚拟环境中模拟、监控和预测不良结果,从而避免现场模拟演习的成本和风险。基于虚拟现实(VR)的数字孪生技术在监测安全核设施中的人类生活方式(POL)时尤其有用,在这类设施中,现场模拟演习既危险又昂贵,几乎不可能进行。然而,这些设施的高度安全状态可能会限制建模人员部署人类活动传感器以收集数据。在橡树岭国家实验室(ORNL)的安全核反应堆设施部署防止内部威胁或破坏的安全设施数字孪生系统MetaPOL时,遇到了这一问题。为了解决这一挑战,我们使用了基于准据证据的对象代理模型(ABM),根据设施人员的生活方式生成合成移动轨迹。这些合成轨迹随后被用于训练用于预测下一位置和停留时间的深度神经网络代理,以驱动虚拟环境中的非玩家角色(NPC)。在本研究中,我们评估了此技术在MetaPOL中建立NPC移动的有效性,以及在正常运行和模拟紧急响应情境中区分NPC移动的能力。结果表明,使用多层感知器进行下一位置预测和混合密度网络进行停留时间预测以预测生成的轨迹是成功的。此外,我们发现,在正常运行状态下,由深度神经网络驱动的虚拟环境中的NPC移动与模拟紧急响应场景下的移动存在显著差异。
arXiv:2503.23145v1 宣告类型: cross
摘要: 归纳程序合成,或通过示例编程,要求从输入输出示例中合成函数,并将其推广到未见过的输入。虽然由自然语言引导的大型语言模型代理在编程任务中表现出了希望,但在进行归纳程序合成方面的能力尚未得到充分探索。现有的评估协议依赖于静态的示例集和保留测试,当合成的函数不正确时,无法提供反馈,也无法反映例如反向工程等现实场景。我们提出了CodeARC,一种代码抽象和推理挑战,这是一个新的评估框架,其中代理通过使用新输入查询隐藏的目标函数、合成候选函数,并利用差分测试预言家迭代改进其解决方案,参与到互动过程中。这种互动设置鼓励代理根据反馈执行函数调用和自我纠正。我们构建了第一个大规模的一般用途归纳程序合成基准,其中包含1114个函数。在评估的18个模型中,o3-mini表现出最佳的成绩,成功率为52.7%,突显了该任务的难度。对精心选择的合成轨迹进行微调LLaMA-3.1-8B-Instruct可以获得高达31%的相对性能提升。CodeARC为评估基于LLM的程序合成和归纳推理提供了一个更加现实和具有挑战性的测试平台。
arXiv:2503.23128v1 公告类型:交叉
摘要:音乐相似性检索对于管理及探索流媒体平台中大量集合的相关内容至关重要。本文提出了一种新颖的跨模态对比学习框架,该框架利用开放的文本描述性质来引导音乐相似性建模,克服了传统单模态方法在捕捉复杂音乐关系方面的局限性。为了克服高质量文本-音乐配对数据稀缺的问题,本文引入了一种结合在线抓取和基于LLM的提示的双重数据获取方法,其中精心设计的提示利用了LLM的全面音乐知识以生成丰富语境的描述。通过对华为音乐流媒体平台进行广泛实验,客观指标、主观评估以及实际A/B测试结果显示,提出的框架在现有基准上实现了显著的性能改进。
arXiv:2503.23125v1 交叉公告类型
摘要:视觉世界是基本组成性的。视觉场景由物体及其关系的组合定义。因此,对于计算机视觉系统来说,反映和利用这种组成性以实现稳健且泛化的场景理解是至关重要的。尽管在通用多模态生成模型的发展方面取得了重大进展,包括文本到图像模型和多模态视觉语言模型,但尚不清楚这些系统是否能够准确地生成和解释涉及多个物体及其关系的场景。在本工作中,我们评估了当前一代文本到图像(DALL-E 3)和多模态视觉语言模型(GPT-4V、GPT-4o、Claude Sonnet 3.5、QWEN2-VL-72B 和 InternVL2.5-38B)的组合视觉处理能力,并将这些系统的性能与人类参与者进行了比较。结果表明,这些系统在解决组合性和关系任务方面表现出一定的能力,相较于上一代多模态模型显示了显著的进步,但在整体性能方面仍远低于人类参与者的水平,特别是在涉及多个(>5个)物体和多种关系的复杂场景方面。这些结果强调了进一步向前迈进以实现对视觉场景的组合理解的必要性。