LLM2D

arXiv 论文列表

作者: Chrisantha Fernando, Dylan Banarse, Simon Osindero
arXiv:2504.06611v1 类型: cross 摘要: 本文探索了内在共知动机的本质,假设人类即使在没有外部奖励的情况下,也有一种基本的愿望去理解他人,并希望被他人理解。通过感知交叉范式的模拟,我们探讨了强化学习代理的各种内在奖励函数的效果。理解的驱动力被实现为一种类似主动推理的拟真好奇心奖励,而被理解的驱动力则通过模仿、影响/可模仿性以及对另一个体的次反应时间的预期的内在奖励来实现。结果表明,尽管单独的好奇心奖励并不能导致对社交互动的偏好,但强调相互理解的奖励确实能够驱动代理优先进行互动。我们证明,这种内在动机可以在仅有一个代理因另一个代理的行为而获得外部奖励的任务中促进合作。
发布时间: 4/10/2025
查看原文
作者: Sujay Khandagale, Bhawna Juneja, Prabhat Agarwal, Aditya Subramanian, Jaewon Yang, Yuting Wang
arXiv:2504.06609v1 Announce Type: cross 摘要:现代搜索引擎采用多阶段架构以高效地提供个性化结果。关键阶段包括检索、预排序、全排序和融合,这些阶段将数十亿个项目细化为最佳选择。预排序阶段对于在评分和过滤数十万个项目到几千个项目的任务中至关重要,尽管通常缺乏捕捉复杂交互的能力,但它在很大程度上依赖于两种塔模型以实现计算效率。虽然查询-项目交叉交互特征对于全排序至关重要,但将它们整合到预排序模型中会面临效率相关的挑战。在本文中,我们引入了InteractRank,这是一种基于Pinterest的新颖两塔预排序模型,它在预排序模型中使用了稳健的交叉交互特征。通过在评分函数中结合基于历史用户参与的查询-项目交互以及两塔点积,InteractRank在保持低延迟和计算成本的情况下显著提高了预排序性能。在Pinterest的实际A/B实验中,与BM25基准相比,InteractRank将在线参与度指标提高了6.5%,与基础的两塔模型相比则提高了3.7%。我们还强调了InteractRank的其他组成部分,例如实时用户序列建模,并通过离线裁剪研究分析了它们的贡献。InteractRank的代码可在https://github.com/pinterest/atg-research/tree/main/InteractRank 获取。
发布时间: 4/10/2025
查看原文
作者: William De Michele, Abel Armas Cervantes, Lea Frermann
arXiv:2504.06600v1 类型: cross 摘要:业务流程是组织运营的基础,但由于手动流程分析耗时,流程优化仍然具有挑战性。我们的论文利用大型语言模型(LLMs)自动化增值分析,这是一种旨在识别流程中未增值步骤的定性过程分析技术。到目前为止,这项技术主要依赖手动操作,耗时且带有主观性。我们的方法提供了一种更为有原则的方法,该方法分为两个阶段:首先,将高层次的活动分解为详细步骤,以实现细粒度分析;其次,进行增值分析,根据精益原则对每个步骤进行分类。这种方法可以在维持对定性分析所必需的语义理解的同时,系统地识别浪费。我们使用50个业务流程模型开发了这种方法,并为此收集并发布了手动的参考标签。我们的评估比较了零样本基线与更结构化的提示,结果显示(a)结构化提示的一致性优势,以及(b)两个任务上的有前途的表现。我们讨论了LLMs在定量过程分析中增强人类专业知识的潜力,同时减少了手动方法中固有的时间和主观性。
发布时间: 4/10/2025
查看原文
作者: Joochan Kim, Minjoon Jung, Byoung-Tak Zhang
arXiv:2504.06580v1 类型: cross 摘要:动作识别模型在理解指导视频方面取得了令人瞩目的成果。然而,它们经常依赖于特定数据集的动作序列,而不是真正的视频理解,我们将其定义为顺序偏见。为了解决这一问题,我们提出两种有效视频操作方法:动作遮蔽(Action Masking),即将频繁共现的动作帧进行遮蔽;序列打乱(Sequence Shuffling),即随机化动作段落的顺序。通过全面的实验,我们证明当前模型在遇到非标准动作序列时表现出显著的性能下降,突显了它们对抗顺序偏见的脆弱性。我们的发现强调了重新思考评估策略以及开发能够超越固定动作模式泛化的模型的重要性。
发布时间: 4/10/2025
查看原文
作者: Rahul Singh Maharjan, Marta Romeo, Angelo Cangelosi
arXiv:2504.06578v1 Announce Type: cross 摘要:视觉情感分析或识别由于越来越关注图像如何传达丰富的语义以及激发人类感知中的情感,而引起了极大的关注。然而,与传统视觉任务相比,视觉情感分析提出了独特的挑战,尤其是在通用视觉特征与它们引起的不同情绪状态之间的复杂关系方面,这种关系被称为情感差距。研究人员使用深度表示学习方法来应对从整个图像中提取通用特征的挑战。然而,现有的大多数方法忽视了亮度、色彩鲜艳度、场景理解以及面部表情等特定情感属性的重要性。通过本文,我们介绍了A4Net,这是一个深度表示网络,通过利用四个关键属性来弥合情感差距:亮度(属性1)、色彩鲜艳度(属性2)、场景上下文(属性3)和面部表情(属性4)。通过融合和联合训练所有属性识别和视觉情感分析的各个方面,A4Net旨在更好地洞察图像中的情感内容。实验结果证明了A4Net的有效性,展示了其在多样化的视觉情感数据集上与最新方法相比的竞争力。此外,A4Net生成的激活图可视化展示了其在不同视觉情感数据集上泛化的能力。
发布时间: 4/10/2025
查看原文
作者: Judy Hanwen Shen, Carlos Guestrin
arXiv:2504.06549v1 类别: cross 摘要: 能够自动化认知任务的基础模型代表了一场技术变革,但它们的社会影响仍然不清楚。这些系统承诺带来了令人兴奋的进步,但也有可能将公式化的、同质化的和潜在误导性的合成内容泛滥到我们的信息生态系统中。因此,在这些风险最为显著的实际应用场景中开发基准测试至关重要。通过使用200万语言模型用户提示进行主题分析,我们发现创意组合任务是用户寻求帮助的一个常见类别,这些任务需要日常的创造力。我们的细粒度分析揭示了当前基准测试与这些任务使用模式之间的不匹配。最关键的是,我们认为当前缺乏充分评估的应用场景可能会导致负面的下游影响。本文立场认为,关注创意组合任务的基准测试是理解AI生成内容社会危害的必要步骤。我们呼吁提高使用模式的透明度,以指导开发能够有效衡量具有创意思维能力的模型的进展和影响的新基准测试。
发布时间: 4/10/2025
查看原文
arXiv:2504.06542v1 交叉类型:公告 摘要:我们提出了一种新的符号推理引擎,它可以高效地为SQL查询$P_1, \cdots, P_n$生成一个输入$I$,使得在$I$上的输出满足给定的性质(用SMT表达)。这在不同的上下文中都非常有用,例如反驳两个SQL查询的等价性以及澄清一组查询。我们的第一个想法是对每个$P_i$进行推理,即$P_i$的部分输入-输出行为。这种方法既使我们的方法具有语义意识又简化了方法,但这本身是不完整的(因为固定的近似可能会错过某些感兴趣的行为)。因此,我们的第二个想法是对一个表达性较强的近似家族进行搜索(这些近似共同涵盖了所有感兴趣的程序行为),从而使我们的方法变得完整。我们在一个名为Polygon的工具中实现了这些想法,并对其进行了多次基准测试(涵盖SQL等价反驳和查询澄清两个任务)。我们的评估结果表明,Polygon在所有先前的技术中表现显著更优。
发布时间: 4/10/2025
查看原文
作者: Daniel Tcheurekdjian, Joshua Klasmeier, Tom Cooney, Christopher McCann, Tyler Fenstermaker
arXiv:2504.06538v1 类型: cross 摘要: 我们介绍了OPAL(操作物理代理与语言),这是一种新颖的视觉-语言-行动架构,它通过拓扑约束引入了流匹配方法,用于机器人控制。为此,我们进一步引入了拓扑注意力。我们的方法将行动序列建模为具有非平凡约束的拓扑结构表示。实验结果表明,我们的OPAL在10项复杂操作任务中表现出色,优于以往的方法,包括Octo、OpenVLA和${\pi}$0。 我们的架构在无需特定任务微调的情况下实现了显著的零样本性能改进,并将推理计算需求减少了42%。我们拓扑方法提供的理论保证使得长期行动序列更加连贯。我们的结果突显了通过从基本物理定律中推导来限制机器人学习问题搜索空间的潜力,并展示了如何使用拓扑注意力将因果理解嵌入到变压器架构中。
发布时间: 4/10/2025
查看原文
作者: Happy Buzaaba, Alexander Wettig, David Ifeoluwa Adelani, Christiane Fellbaum
arXiv:2504.06536v1 Announce Type: cross 摘要:大规模语言模型(LLMs)在广泛自然语言应用中取得了令人印象深刻的成果。然而,它们在识别低资源语言方面往往存在困难,特别是非洲语言,在大型训练语料库中这些语言的代表性不足。在本文中,我们探讨了如何将LLMs适应低资源非洲语言。我们发现,将非洲语言的精挑细选数据与高质量的英语教育文本结合,可以生成一种训练混合,显著提高模型在这些语言上的性能。在具有挑战性的IrokoBench数据集上,我们的模型在大小相当的基线中始终表现出最佳性能,特别是在知识密集型多项选择题(AfriMMLU)方面。此外,在跨语言问答基准AfriQA上,我们的模型比基础模型高出超过10%。为了更好地理解训练期间英语数据的作用,我们将2亿词中的一个子集翻译成斯瓦希里语,并进行分析,结果表明这些数据的内容主要负责了出色的性能。我们发布了我们的模型和数据,以鼓励未来对非洲语言的研究。
发布时间: 4/10/2025
查看原文
作者: Zhouyang Liu, Ning Liu, Yixin Chen, Jiezhong He, Dongsheng Li
arXiv:2504.06533v1 类型: cross 摘要: 图编辑距离(GED)是图检索中一个重要的相似性度量,它量化了通过编辑操作将一个图转换为另一个图所需的成本,并通过自定义操作成本提供了灵活性。近年来,基于学习的方法通过矢量空间中表示之间的距离来近似GED。然而,这些方法往往难以处理由于忽略这些成本对确定最优图映射的影响而带来的不同操作成本。此外,它们依赖于孤立的节点距离作为指导,需要进行低效的反应式映射细化。为了解决这些问题,我们提出了图编辑网络(GEN),这是一种灵活计算GED的新基于学习的方法。通过识别现有方法在捕获GED灵活性方面的局限性,我们引入了一个简单且原理性强的解决方案,在建立映射之前整合操作成本。为了提高匹配效率,我们提出了一个策略,从图形的角度主动优化指导。该策略将初始指导初始化为每个节点的对齐难度,并通过难度传播机制捕捉图内和跨图之间的匹配相互依赖性,从而做出更有信息的决策。结果,GEN 在单一步骤中选择最优匹配,从而减少了昂贵的细化需求。在真实世界和合成数据集上的结果表明,GEN 具有效率、时间效率和适应性,与最先进的模型相比,可实现高达 37.8% 的错误率降低和 72.7% 的推理时间减少,同时在成本设置和图形大小变化时表现出良好的鲁棒性。
发布时间: 4/10/2025
查看原文