arXiv 论文列表

作者: Jiaoyan Chen, Olga Mashkova, Fernando Zhapa-Camacho, Robert Hoehndorf, Yuan He, Ian Horrocks

arXiv:2406.10964v2 公告类型: 重置摘要：本体在表示领域知识和元数据方面被广泛应用，并在信息系统、语义网、生物信息学以及其他许多领域中发挥着越来越重要的作用。然而，本体直接支持的逻辑推理在学习、逼近和预测方面仍然相当有限。一个直接的解决方案是将统计分析和机器学习结合起来。为了实现这一目标，自动学习本体知识的向量表示，即本体嵌入，已经得到了广泛的研究。尽管发表了大量关于本体嵌入的研究论文，但缺乏系统综述阻碍了研究人员对该领域的全面理解。为了填补这一空白，我们撰写了一篇综述论文，首先介绍了不同类型本体语义，并正式定义了本体嵌入及其忠实性性质。基于此，它系统地对超过80篇相关论文进行了分类和分析，根据所涉及的本体类型和技术解决方案，包括几何建模、序列建模和图传播。这篇综述还介绍了本体嵌入在本体工程、机器学习增强和生命科学中的应用，介绍了新库mOWL，并讨论了挑战和未来方向。

发布时间: 2/14/2025

查看原文

基于LLM、推理和规划支持在API存在下的不完整用户查询

作者: Sudhir Agarwal (Intuit Inc.), Anu Sreepathy (Intuit Inc.), David H. Alonso (Intuit Inc.), Prarit Lamba (Intuit Inc.)

arXiv:2405.12433v3 宣告类型: 替换摘要: 近期大规模语言模型（LLMs）的可用性促进了针对各种终端用户任务的语言界面开发。这些终端用户任务通常可以通过协调一组给定的API来完成。实际上，自然语言任务请求（用户查询）往往不完整，即它们可能不包含API所需的所有信息。虽然LLMs在自然语言处理（NLP）任务上表现出色，但在填补缺失信息或协调API方面时常出现困难或挣扎。我们提出的方法的关键思想是结合逻辑推理和经典AI规划，以及使用LLM来准确回答用户的查询，包括识别和收集这些查询中的任何缺失信息。该方法使用LLM和ASP（回答集编程）求解器通过ASP的中间表示将用户查询转换为计划领域定义语言（PDDL）的表示。我们引入了一个特殊的API "get_info_api" 用于收集缺失信息。我们以支持API之间数据流的方式将所有API建模为PDDL操作。然后，该方法使用经典的AI规划器生成API调用的编排（包括对get_info_api的调用）来回答用户查询。我们的评估结果显示，在包含完整和不完整单目标和多目标查询的数据集中，我们的方法显著优于纯LLM方法，在大多数情况下实现了超过95%的成功率，其中的多目标查询可能或可能不需要API之间的数据流。

发布时间: 2/14/2025

查看原文

大规模视觉-语言模型的图像推理与描述认知评估基准

作者: Xiujie Song, Mengyue Wu, Kenny Q. Zhu, Chunhao Zhang, Yanyi Chen

arXiv:2402.18409v4 通告类型: 替换摘要: 尽管大型视觉-语言模型（LVLMs）近期取得了成功，但它们的认知能力几乎未被全面测试。受人类认知测试中广泛使用的Cookie Theft任务启发，我们提出了一种新的评估基准，用于通过富含语义的图像来评估LVLMs的高阶认知能力。该基准包括251张图像及其全面注释，定义了八种推理能力，并包含图像描述任务和视觉问答任务。对知名LVLMs的评估结果显示，LVLMs在认知能力方面与人类之间仍然存在显著差距。

发布时间: 2/14/2025

查看原文

对抗确认偏差：实体对齐的统一伪标签框架

作者: Qijie Ding, Jie Yin, Daokun Zhang, Junbin Gao

arXiv:2307.02075v2 公告类型: 替换摘要：实体对齐（EA）旨在识别不同知识图（KGs）中指代同一现实身份的等效实体对。为了系统地应对基于伪标签的实体对齐中的确认偏差，我们提出了一种统一的伪标签框架用于实体对齐（UPL-EA），该框架明确消除了伪标签错误，以提高实体对齐的准确性。UPL-EA 包含两个互补的组件：(1) 基于运筹学（OT）的伪标签使用离散的 OT 模型作为一种有效的方法，以便更准确地确定两个 KG 之间实体的对应关系，并减轻错误匹配的负面影响。进一步设计了一个简单但非常有效的标准来在每次迭代中推导出满足一对一对应关系的伪标签实体对。(2) 跨迭代伪标签校准在多个连续迭代中进行操作，通过减少局部伪标签选择的变异来进一步提高伪标签的精度率，并具备理论保证。这两个组件分别设计来消除通过我们分析识别出的 I 类和 II 类伪标签错误。校准后的伪标签随后被用于增强先前对齐种子以加强后续模型训练用于对齐推断。UPL-EA 在消除伪标签错误方面的有效性得到了理论上的支持和实验证明。实验结果表明，我们的方法在有限的先前对齐种子的情况下可以实现竞争力的表现。

发布时间: 2/14/2025

查看原文

大型语言模型的创造力研究

作者: Giorgio Franceschelli, Mirco Musolesi

arXiv:2304.00008v5 通知类型: 更新摘要：大型语言模型（LLMs）正在颠覆人工智能的多个领域。最显著的应用之一是创意写作，例如诗歌或讲故事：生成的输出通常令人惊讶地质量高。然而，一个自然的问题出现了：LLMs 真正可以被认为是创造性的吗？在这篇文章中，我们首先从创造力理论的视角分析LLMs的发展，探讨关键的开放问题和挑战。特别是，我们重点讨论了Margaret Boden在其工作中提出的价值、新颖性和惊奇性维度。然后，我们考虑了不同的经典视角，即产品、过程、压力和人物。我们讨论了一组“简单”和“复杂”的机器创意问题，并在LLMs的背景下介绍了它们。最后，我们从法律和伦理的角度探讨了这些技术的社会影响，特别关注创意产业，分析了它们提供的机会和所引发的挑战，以及相关潜在风险。

发布时间: 2/14/2025

查看原文

作业车间调度的分解策略与多轮ASP求解

作者: Mohammed M. S. El-Kholany, Martin Gebser, Konstantin Schekotihin

arXiv:2205.07537v4 宣布类型: 替换摘要: 工厂调度问题是组合优化领域一个广为人知且具有挑战性的问题，其中共享同一台机器的任务需要按照顺序排列，以便可以尽可能早地完成包含的任务。在本文中，我们研究了将问题分解成时间窗口的方法，通过多轮Answer Set Programming(ASP)求解来依次调度和优化这些操作。从计算角度来看，分解的目标是将高度复杂的调度任务分割成更容易管理的子问题，这些子问题具有均衡的操作数量，以便在运行时间内找到高质量甚至是优化的局部解。我们设计并研究了各种分解策略，涉及到时间窗口的数量和大小以及选择操作的方法。此外，我们还将时间窗口的重叠和压缩技术纳入迭代调度过程中，以克服仅在窗口范围内进行部分调度而导致的优化限制。在不同JSP基准数据集上的实验表明，通过多轮ASP求解进行依次优化在严格的时间限制内能产生明显更好的调度结果。特别是，我们将初始解分解成时间窗口后发现，可以提高解的质量。

发布时间: 2/14/2025

查看原文

扩散语言模型的理论优势与局限性

作者: Guhao Feng, Yihan Geng, Jian Guan, Wei Wu, Liwei Wang, Di He

arXiv:2502.09622v1 类型：交叉摘要：扩散语言模型已成为一种有前途的文本生成方法。人们自然地认为这种方法可以成为自回归模型的高效替代品，因为每次扩散步骤中可以并行采样多个令牌。然而，其效率-准确性权衡尚未得到充分理解。在本文中，我们对广泛使用的扩散语言模型类型——掩码扩散模型（MDM）——进行了严格的理论分析，并发现其有效性很大程度上取决于目标评估指标。在轻度条件下，我们证明，当使用困惑度作为度量标准时，MDM在采样步骤中可以实现接近最优的困惑度，无论序列长度如何，这表明效率可以在不牺牲性能的情况下实现。然而，当我们使用序列错误率——这对于理解序列的“正确性”（例如，推理链的正确性）非常重要——时，我们表明必须将采样步骤线性扩展到序列长度，以获得“正确”的序列，从而消除了MDM相对于自回归模型的效率优势。我们的分析建立了理解和掌握MDM的优点和限制的第一个理论基础。所有理论发现都得到了实证研究的支持。

发布时间: 2/14/2025

查看原文

MME-CoT: 多模态模型中思维链在推理质量、稳健性和效率方面的基准测试

作者: Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanwei Li, Yu Qi, Xinyan Chen, Liuhui Wang, Jianhan Jin, Claire Guo, Shen Yan, Bo Zhang, Chaoyou Fu, Peng Gao, Hongsheng Li

arXiv:2502.09621v1 类别: cross 摘要: 使用链式思维（CoT）回答问题显著增强了大型语言模型（LLMs）的推理能力，但其对大型多模态模型（LMMs）的影响仍缺乏系统的评估和深入的研究。在本文中，我们引入了MME-CoT，这是一个专门的基准测试，评估LMMs的CoT推理性能，涵盖了六个领域：数学、科学、光学字符识别（OCR）、逻辑、时空和一般场景。作为该领域首个全面的研究，我们提出了一套全面的评估套件，其中包括三个新颖的指标，以在细腻的层面上评估推理质量、鲁棒性和效率。利用精心挑选的高质量数据和独特的评估策略，我们对最先进的LMMs进行了深入分析，揭示了一些关键见解：1）具有反思机制的模型展示了更优质的CoT质量，其中Kimi k1.5的表现优于GPT-4o，显示出最高质量的结果；2）CoT提示往往降低LMM在感知密集型任务中的性能，表明可能存在潜在有害的过度思考行为；3）尽管CoT质量很高，具有反思机制的LMM们在常规响应和自我纠正阶段都表现出显著的低效性。我们希望MME-CoT能成为推动LMMs多模态推理发展的基础。项目主页: https://mmecot.github.io/

发布时间: 2/14/2025

查看原文

探索在3D LMMs中无编码器架构的潜力

作者: Yiwen Tang, Zoey Guo, Zhuhao Wang, Ray Zhang, Qizhi Chen, Junli Liu, Delin Qu, Zhigang Wang, Dong Wang, Xuelong Li, Bin Zhao

arXiv:2502.09620v1 声明类型: cross 摘要：编码器无.DrawLine的架构在2D视觉领域已有初步探索，但在3D理解场景中的有效应用仍是一个未解之谜。在本文中，我们首次全面探讨了编码器无绘制的3D大型多模态模型（LMMs）克服基于编码器的3D LMMs面临的挑战的潜力。这些挑战包括无法适应变化的点云分辨率和编码器提取的点特征无法满足大型语言模型（LLMs）的语义需求。我们确定了移除编码器并使LLM承担3D编码角色的关键方面：1）我们提出了预训练阶段的LLM嵌入语义编码策略，探索各种点云自我监督损失的效果，并提出了混合语义损失以提取高级语义；2）我们在指令调优阶段引入了层次几何聚合策略。这将归纳偏置集成到LLM的早期层中，以专注于点云的局部细节。最终，我们提出了第一个编码器无3D LMM——ENEL。我们7B模型与当前最先进的模型ShapeLLM-13B相媲美，在分类、描述和VQA任务中分别取得了55.0%、50.92%和42.7%的结果。我们的结果表明，编码器无架构在3D理解领域取代基于编码器的架构具有高度的前景。代码已发布在 https://github.com/Ivan-Tang-3D/ENEL

发布时间: 2/14/2025

查看原文

DexTrack：从人类参考迈向广泛适用的灵巧操作神经追踪控制

作者: Xueyi Liu, Jianibieke Adalibieke, Qianwei Han, Yuzhe Qin, Li Yi

arXiv:2502.09614v1 交叉公告类型摘要：我们致力于从人类参考中开发一种通用的神经跟踪控制器，用于灵巧操作。该控制器旨在管理灵巧的机器人手部，使其能够对通过人类-物体动力学定义的各种目的进行操作。由于灵巧操作的复杂接触动力学以及适应性、通用性和鲁棒性的需求，开发这样的控制器变得相当复杂。当前的强化学习和轨迹优化方法往往由于依赖于特定任务的奖励或精细的系统模型而难以实现。我们提出了一种方法，即精心策划大规模成功的机器人跟踪示范，包括人类参考和机器人动作的成对数据，用于训练神经控制器。利用数据飞轮，我们迭代提高控制器的性能，以及成功的跟踪示范的数量和质量。我们利用可用的跟踪示范，并仔细将强化学习和模仿学习结合起来，以在动态环境中提高控制器的性能。与此同时，为了获得高质量的跟踪示范，我们通过一种同调优化方法单独优化每个轨迹的跟踪，利用学习到的跟踪控制器。同调优化类似于思维链的方法，有助于解决复杂的轨迹跟踪问题，增加示范的多样性。我们通过在仿真和现实世界中训练通用的神经控制器并进行评估，展示了我们的成功。我们的方法在成功率方面相对于领先基准提高了10%以上。关于该项目的网站有动画结果展示，网址为https://meowuu7.github.io/DexTrack/。

发布时间: 2/14/2025

查看原文