arXiv 论文列表

作者: Moritz Willig, Tim Nelson Tobiasch, Florian Peter Busch, Jonas Seng, Devendra Singh Dhami, Kristian Kersting

arXiv:2410.13054v2 宣告类型: replace-cross 摘要：大多数机器学习中的因果性工作假设因果关系由恒定的背景过程驱动。然而，代理行为的灵活性或环境过程中的转折点可以改变系统定性的动态。结果，新的因果关系可能会出现，而现有的关系则会改变或消失，导致因果图的变化。为了分析这些因果图上的定性变化，我们提出了元因果状态的概念，它根据等效的定性行为将经典因果模型分组成簇，并合并特定机制参数化。我们展示了如何从观察到的代理行为中推断出元因果状态，并讨论了从未标记数据中分离这些状态的方法。最后，我们将分析转向动态系统的应用，显示元因果状态也可以源自内在的系统动态，因此构成的不仅仅是一个上下文依赖的框架，其中机制仅作为外部因素的结果而出现。

发布时间: 4/18/2025

查看原文

使用大型语言模型理解知识图谱以推荐系统为目标

作者: Ziqiang Cui, Yunpeng Weng, Xing Tang, Fuyuan Lyu, Dugang Liu, Xiuqiang He, Chen Ma

arXiv:2410.12229v3 公告类型：替换交叉摘要：近年来，知识图谱（KGs）的引入显著推进了推荐系统的发展，通过促进项目之间潜在关联的发现。然而，现有的方法仍然面临一些限制。首先，大多数KGs遭受事实缺失或范围有限的问题。其次，现有方法将KG中的文本信息转换为ID，导致不同项目之间自然语义联系的损失。第三，现有方法难以捕捉全局KG中的高级联系。为解决这些限制，我们提出了一种名为CoLaKG的新方法，利用大型语言模型（LLMs）改进基于KG的推荐。LLMs的广泛知识和出色的推理能力使我们的方法能够补充KG中的缺失事实，并通过强大的文本理解能力更好地利用语义信息。具体而言，CoLaKG在局部和全局两个级别从KG中提取有用信息。通过使用以项目为中心的子图提取和提示工程，它可以准确理解局部信息。此外，通过基于语义的检索模块，每个项目都可以从整个知识图谱中获取相关的项目信息，有效利用全局信息。此外，通过表示融合模块和检索增强表示学习模块，局部和全局信息分别有效地整合到推荐模型中。在四个真实数据集上的广泛实验表明了我们方法的优势。

发布时间: 4/18/2025

查看原文

基于因果视角评估文本到图像合成中的语义变异性

作者: Xiangru Zhu, Penglei Sun, Yaoxian Song, Yanghua Xiao, Zhixu Li, Chengyu Wang, Jun Huang, Bei Yang, Xiaoxiao Xu

arXiv:2410.10291v4 宣告类型: replace-cross 摘要：文本到图像（T2I）合成中准确地理解和可视化人类指令至关重要。然而，当前模型难以捕捉词序变化引起的语义变化，而现有评价方法依赖于间接指标如文本-图像相似性等，无法可靠地评估这些挑战。这往往使得复杂或不常见的语言模式的性能不佳被频繁词汇组合所掩盖。为了解决这些不足，我们提出了一种新的指标称为SemVarEffect和一个名为SemVarBench的基准，旨在评估输入和输出之间语义变化之间的因果关系在T2I合成中的表现。语义变化通过两种类型的语言重新排列实现，同时避免可预测的字面变化。实验表明，CogView-3-Plus和Ideogram 2表现最佳，得分为0.2/1。对象关系的语义变化不如属性为人所理解，得分为0.07/1，相比之下为0.17-0.19/1。我们发现，UNet或Transformer中的跨模态对齐在处理语义变化方面发挥了关键作用，这是以往关注文本编码器时所忽视的因素。我们的工作建立了有效的评估框架，促进了T2I合成社区对人类指令理解的探索。我们的基准和代码可在 https://github.com/zhuxiangru/SemVarBench 获取。

发布时间: 4/18/2025

查看原文

Presto! 加速音乐生成的步骤和层蒸馏

作者: Zachary Novack, Ge Zhu, Jonah Casebeer, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan

arXiv:2410.05167v2 通知类型: 代替交叉摘要：尽管在基于扩散的方法从文本生成音乐 (TTM) 方面取得了进展，但高效、高质量的生成仍然是一个挑战。我们介绍了 Presto!，一种通过减少采样步骤和每步骤成本来加速基于分数的扩散变换器推理的方法。为了减少步骤，我们开发了一种新的基于 EDM 家族扩散模型的分数基于的分布匹配蒸馏（DMD）方法，这是第一个基于 GAN 的 TTM 蒸馏方法。为了减少每步骤的成本，我们开发了一种简单但强大的改进方法，它是对最近的层蒸馏方法的改进，通过更好地保留隐藏状态方差来提高学习效果。最后，我们将步骤和层蒸馏方法结合起来，形成一种双管齐下的方法。我们独立评估了我们的步骤和层蒸馏方法，并表明两者都达到了最佳性能。我们的综合蒸馏方法可以生成高质量且具有更好多样性的输出，将基模型加速 10-18 倍（32 秒单声道/立体声 44.1kHz 的延迟为 230/435ms，比同类最佳方案快 15 倍）——据我们所知，这是最快的高质量 TTM。可以在此处找到声音示例：https://presto-music.github.io/web/。

发布时间: 4/18/2025

查看原文

探索权衡之道：从边缘到巨人的大型语言模型中的量化方法、任务难度与模型尺寸之间的trade-offs

作者: Jemin Lee, Sihyeong Park, Jinse Kwon, Jihun Oh, Yongin Kwon

arXiv:2409.11055v2 宣告类型: replace-cross 摘要：量化技术因其成为大规模和小型语言模型低成本部署的有前景解决方案而受到关注。然而，大部分先前的工作主要集中在困惑度或基本知识任务上，并且缺乏对最近的模型如Llama-3.3的全面评估。在本文中，我们对从1B到405B参数的指令调优模型进行了全面评估，并应用了四种量化方法跨13个数据集进行测试。我们的发现表明：（1）量化模型通常超过较小的FP16基线，但往往在指令遵循和幻觉检测方面遇到困难；（2）FP8在各种任务中始终是最可靠的选择，而在权重量化中AWQ往往优于GPTQ；（3）在4位量化下，小型模型可能会遭受严重的准确率下降，而70B规模的模型保持稳定的性能；（4）值得注意的是，并非所有难度大的任务都会经历最大的准确率损失，这表明量化放大了模型固有的弱点，而不仅仅是与任务难度相关；（5）基于LLM的评判者（MT-Bench）在编码和STEM任务中表现出显著的性能下降，尽管推理有时会有所改善。

发布时间: 4/18/2025

查看原文

ValueCompass：衡量人类与大语言模型上下文价值对齐的框架

作者: Hua Shen, Tiffany Knearem, Reshmi Ghosh, Yu-Ju Yang, Nicholas Clark, Tanushree Mitra, Yun Huang

arXiv:2409.09586v2 宣告类型: replace-cross 摘要：随着人工智能系统的不断进步，确保这些系统与广泛的人群和社会价值观保持一致变得越来越重要。但如何捕捉基本的人类价值观，并评估人工智能系统与这些价值观的一致程度呢？我们引入了ValueCompass这一框架，该框架基于心理学理论和系统性回顾，用于识别和评估人类与人工智能系统的对齐情况。我们将ValueCompass应用于测量人类和大型语言模型（LLMs）在四个真实场景中的价值观对齐情况：协作写作、教育、公共服务和医疗保健。我们的研究发现，人类和LLMs之间存在着令人担忧的价值观不一致，例如，人类频繁支持的“国家安全”等价值观，却被LLMs广泛拒绝。我们还观察到不同场景下的价值观存在差异，这突显了情境感知型人工智能对齐策略的必要性。本研究提供了有关人类-人工智能对齐设计空间的宝贵见解，并为开发负责任地反映社会价值观和伦理的人工智能系统奠定了基础。

发布时间: 4/18/2025

查看原文

人类机器人协作的相关性

作者: Xiaotong Zhang, Dean Huang, Kamal Youcef-Toumi

arXiv:2409.07753v4 宣布类型：替换交叉摘要：受人类能够有选择地关注相关信息的能力启发，本文引入了相关性，这是一种新颖的人机协作（HRC）中的维度降低过程。我们的方法包含一个持续运行的感知模块，评估场景中的提示充足性，并应用一个灵活的公式和计算框架。为了准确且高效地量化相关性，我们开发了一个基于事件的框架，该框架持续感知场景，并选择性地触发相关性判定。在这个框架内，我们开发了一种概率方法，该方法考虑了多种因素，并基于一种新颖的场景结构表示。仿真结果表明，相关性框架和方法能够准确预测一般HRC设置的相关性，精度为0.99，召回率为0.94，F1分为0.96，对象比例为0.94。相关性可以在HRC的多个领域广泛应用于通过将普通的计划任务时间提高79.56%来准确提升任务规划时间，通过将对象检测器的感知延迟降低最多26.53%来降低感知延迟，通过最多13.50%提高HRC的安全性，并通过减少80.84%的HRC查询数量来减少查询数量。实际演示展示了相关性框架能够智能而无缝地协助人类完成日常任务的能力。

发布时间: 4/18/2025

查看原文

近的，远的：块排序增强视觉基础模型的场景理解

作者: Valentinos Pariza, Mohammadreza Salehi, Gertjan Burghouts, Francesco Locatello, Yuki M. Asano

arXiv:2408.11054v3 公告类型: replace-cross 摘要: 我们引入了NeCo: 崭块邻近一致性，这是一种新颖的自监督训练损失，它在学生模型和教师模型之间强制执行块级别的最邻近一致性。与仅提供二进制学习信号（即，“吸引”和“排斥”）的对比方法相比，这种方法得益于排序空间密集特征相对于参考块的更精细的学习信号。我们的方法利用了在预训练表示基础上的可微排序，例如DINOv2-registered，以启动学习信号并进一步改进它们。这种预训练后的密集排序在各种模型和数据集上取得了优越的性能，尽管只需要单个GPU上的19小时。该方法生成高质量的密集特征编码器，并建立了几个新的最先进成果，例如，在ADE20k和Pascal VOC上的非参数上下文语义分割分别提高了5.5%和6%，在COCO-Things和-COCO-Stuff上的线性分割评估分别提高了7.2%和5.7%，以及在SPair-71k上的多视图一致性三维理解提高了1.5%以上。

发布时间: 4/18/2025

查看原文

PhishLang：一种使用MobileBERT的实时全客户端钓鱼检测框架

作者: Sayak Saha Roy, Shirin Nilizadeh

arXiv:2408.05667v3 宣布类型: 替换-交叉摘要：在本文中，我们介绍了PhishLang，这是第一个基于轻量级集成框架的完全客户端反欺诈框架，该框架利用先进语言模型来分析网站源代码和URL的上下文特征。与依赖静态特征的传统启发式或机器学习方法，以及难以适应不断演变的威胁的深度学习模型不同，我们的方法利用了MobileBERT，这是一种快速且内存高效的BERT架构变体，以捕捉指示欺诈攻击的细微特征。为了进一步提高检测准确性，PhishLang采用了一种多模态集成方法，结合了URL和源代码检测模型。这种架构通过使一个模型在另一个模型失败时能够补偿，或在两种模型都提供模糊推断时能够起作用，确保了稳健性。因此，PhishLang能够检测常规和规避型欺诈威胁，包括零日攻击，其性能优于流行的反欺诈工具，同时还无需依赖外部黑名单，并通过确保浏览器历史记录完全本地并保密，保护用户隐私。我们发布了PhishLang作为Chromium浏览器扩展，并也将该框架开源以帮助研究社区。

发布时间: 4/18/2025

查看原文

ToolSandbox：一个状态ful、对话式、交互式的评估基准，用于评估LLM工具使用能力

作者: Jiarui Lu, Thomas Holleis, Yizhe Zhang, Bernhard Aumayer, Feng Nan, Felix Bai, Shuang Ma, Shen Ma, Mengyu Li, Guoli Yin, Zirui Wang, Ruoming Pang

arXiv:2408.04682v2 工具辅助类型: 替换-交叉摘要: 最近的大语言模型(LLMs)进展激发了对工具辅助LLM解决实际挑战的研究兴趣，这要求对工具使用能力进行全面评估。尽管先前的工作要么基于无状态的Web服务（RESTful API），基于单轮用户提示进行评估，要么基于离策对话轨迹进行评估，ToolSandbox包括有状态工具执行、工具之间的隐式状态依赖、内置用户模拟器支持在策对话评估以及针对任意轨迹的中间和最终里程碑的动态评估策略。我们展示了开源和专有模型之间的显著性能差距，并证明了在ToolSandbox中定义的复杂任务如状态依赖、规范化和信息不足，即使是最先进的LLM也无法轻松应对，提供了工具使用LLM能力的新见解。ToolSandbox评估框架已发布在 https://github.com/apple/ToolSandbox

发布时间: 4/18/2025

查看原文