arXiv 论文列表

节能减排：成本适应性自一致性推理difficulty-adaptive self-consistency for cost-efficient reasoning

作者: Xinglin Wang, Shaoxiong Feng, Yiwei Li, Peiwen Yuan, Yueqi Zhang, Chuyi Tan, Boyuan Pan, Yao Hu, Kan Li

arXiv:2408.13457v3 宣布类型: 替换-交叉摘要：自我一致性（SC），一种广泛使用的链式推理解码策略，在各种多步推理任务中表现出显著的提升，但却由于多次采样的预定大小而带来高昂的成本。它的变种，自适应自我一致性（ASC）和早期停止自我一致性（ESC），根据一组预采样的后验分布动态调整采样数量，从而在最小影响性能的情况下减少了SC的成本。然而，这两种方法并没有利用关于问题难度的先验信息。这通常会导致对于容易回答的问题进行不必要的重复采样，因为这些问题单次尝试就能准确回答，从而浪费资源。为了应对这一问题，我们提出了一种难度自适应自我一致性（DSC），该方法从先验和后验的角度利用批查询的难度信息，以自适应地分配推理资源，进一步减少SC的整体成本。为了证明DSC的有效性，我们在三个流行的推理任务类别上进行了广泛实验：算术、常识和符号推理，在六个基准上展示了实验结果。实证结果表明，与强大的基线ASC和ESC相比，DSC在成本上显著超越它们，同时在性能上保持可比性。

发布时间: 2/13/2025

查看原文

CogLM：大型语言模型的认知发展跟踪

作者: Xinglin Wang, Peiwen Yuan, Shaoxiong Feng, Yiwei Li, Boyuan Pan, Heda Wang, Yao Hu, Kan Li

arXiv:2408.09150v3 通知类型: 替换-交叉摘要：皮亚杰的认知发展理论（PTC）认为，认知层次的发展构成了人类在各种能力上学习的基础。随着大型语言模型（LLMs）在广泛的任务中显示出了非凡的能力，我们对当前LLMs的认知层次产生了兴趣：它们已经发展到何种程度，又是如何实现这种发展的。为此，我们在PTC的基础上构建了一个基准评估工具CogLM（语言模型的认知能力评估），用于评估LLMs的认知层次。CogLM包含了1,220道题，这些问题涵盖了10种认知能力，由超过20位的人类专家精心设计，为LLMs的认知层次提供了一个全面的测试平台。通过使用CogLM对多个主流LLMs进行广泛的实验，我们发现：（1）在我们的测试框架中，先进的LLMs（如GPT-4）展示了与20岁人类相似的认知能力。（2）参数大小和优化目标是影响LLMs认知层次的两个关键因素。（3）下游任务的性能与认知能力水平呈正相关。这些发现填补了LLMs认知能力研究的空白，从认知角度追踪了LLMs的发展，并指导了它们未来的进化方向。

发布时间: 2/13/2025

查看原文

基于大型语言模型的束预测

作者: Yucheng Sheng, Kai Huang, Le Liang, Peng Liu, Shi Jin, Geoffrey Ye Li

arXiv:2408.08707v2 通知类型: 替换-交叉摘要：在这封信中，我们利用大规模语言模型（LLMs）开发了一种高性能和稳健的波束预测方法。我们将毫米波（mmWave）波束预测问题视为一个时间序列预测任务，其中历史观察结果通过交叉变量注意机制进行聚合，然后使用可训练的分词器转换为基于文本的表示。通过利用提示作为前缀（PaP）技术来增强上下文信息，我们的方法能够利用LLMs的力量来预测未来的最优波束。仿真结果表明，基于LLM的方法在预测准确性和稳健性方面优于传统的基于学习的模型，强调了LLM在增强无线通信系统方面的显著潜力。

发布时间: 2/13/2025

查看原文

COAST: 通过通信代理基于数据合成增强大模型的代码调试能力

作者: Weiqing Yang, Hanbin Wang, Zhenghao Liu, Xinze Li, Yukun Yan, Shuo Wang, Yu Gu, Minghe Yu, Zhiyuan Liu, Ge Yu

arXiv:2408.05006v3 宣告类型: 交叉替换摘要：代码调试是软件开发中的一个重要阶段，对于确保大型语言模型（LLMs）在代码生成任务中的可靠性和性能至关重要。人类调试通常遵循一个多阶段过程，包括错误定位、错误识别、代码修复和代码识别。然而，现有的代码调试基准主要侧重于代码修复阶段，这仅提供了一种有限的视角来评估LLMs的调试能力。本文介绍了DEBUGEVAL，这是一个全面的基准，通过模拟多阶段的人类调试过程来评估LLMs的调试能力。通过在DEBUGEVAL上的评估，我们观察到7B规模的模型始终逊色于其规模更大的同类模型，突显了它们在理解代码语义方面的局限性。在这种情况下，我们提出了基于通信代理的数据合成（COAST）框架，该框架采用多代理系统生成高质量的监督微调（SFT）训练数据。实验结果表明，COAST生成的数据优于人工策划和GPT-4生成的数据，使7B规模的LLMs的调试性能与GPT-3.5相匹敌。所有数据和代码均在https://github.com/NEUIR/COAST上提供。

发布时间: 2/13/2025

查看原文

无监督的鲁棒跨语言实体对齐通过带实体和关系文本的邻居三元组匹配

作者: Soojin Yoon, Sungho Ko, Tongyoung Kim, SeongKu Kang, Jinyoung Yeo, Dongha Lee

arXiv:2407.15588v5 交叉语言实体对齐 (EA) 类型: 替换交叉摘要：跨语言实体对齐 (EA) 允许将多个知识图谱 (KGs) 跨语言集成，提供用户无缝访问多样和全面的知识。现有方法主要是监督学习方法，面临着获取标记实体对的挑战。为了解决这个问题，近期的研究转向了自监督和无监督框架。尽管这些方法在实践中表现出有效性，但它们仍然存在一些局限性：(1) 关系传递：主要集中在实体上，忽视了关系的语义信息，(2) 同构假设：假设源图和目标图之间的同构性，这会导致噪声并降低对齐精度，(3) 噪声脆弱性：容易受到实体文本特征中的噪声的影响，尤其是在遇到不一致的翻译或词外 (Out-of-Vocabulary, OOV) 问题时。本文提出了 ERAlign，一种无监督且鲁棒的跨语言 EA 管道，通过基于关系和实体语义文本特征的邻居三元组匹配策略同时进行实体级和关系级对齐。其修正步骤通过基于邻居三元组匹配融合实体级和关系级对齐结果以迭代提高结果。额外的验证步骤检查实体的邻居三元组作为线性化的文本。该“对齐-验证”管道严格评估对齐结果，即使在实体文本特征有噪声的情况下也能实现近乎完美的对齐。我们大量的实验证明，ERAlign 的鲁棒性和通用性提高了 EA 任务的准确性和有效性，对知识导向的应用具有重要的贡献。

发布时间: 2/13/2025

查看原文

基于规则的聊天机器人表示方法

作者: Dan Friedman, Abhishek Panigrahi, Danqi Chen

arXiv:2407.10949v2 宣告类型: 替换-交叉摘要：变压器可能使用什么样的内部机制来进行流畅、自然的对话？之前的工作通过构建展示了变压器如何解决各种合成任务，例如排序列表或识别形式语言，但在将其扩展到对话场景方面仍不清楚。在本文中，我们提出使用ELIZA，一个经典的规则基聊天机器人，作为基于变压器的聊天机器人的形式和机械分析的背景。ELIZA使我们能够正式建模对话的关键方面，包括局部模式匹配和长时间对话状态跟踪。我们首先提出了一个基于变压器的理论构造，该构造实现了ELIZA聊天机器人。在先前构造的基础上，特别是用于模拟有限状态自动机的构造，我们展示了如何通过组合和扩展更简单的机制来生成更复杂的行为。接着，我们对基于合成生成的ELIZA对话进行了一系列实证分析。我们的分析说明了这些模型倾向于偏好什么样的机制——例如，模型更偏好归纳头机制而非基于位置的精确复制机制；并且，使用中间生成来模拟递归数据结构，类似于隐式的草稿纸或思维链。总体而言，通过明确将神经聊天机器人与可解释的符号机制联系起来，我们的结果为对话代理的机械分析提供了一个新的框架。

发布时间: 2/13/2025

查看原文

AdapTable：通过Shift-Aware不确定性校准器和标签分布处理程序用于表格式数据的测试时自适应

作者: Changhun Kim, Taewon Kim, Seungyeon Woo, June Yong Yang, Eunho Yang

arXiv:2407.10784v4 宣告类型: replace-cross 摘要：在实际应用场景中，表格数据常常会遭受分布偏移，这对机器学习模型的性能构成威胁。尽管分布偏移的出现频率和重要性都很高，但由于表格数据本身固有的挑战，处理表格领域的分布偏移仍然被严重忽视。在这一点上，测试时适应(TTA)提供了一种有前景的解决方案，它可以在不访问源数据的情况下，使模型适应目标数据，这对于隐私敏感的表格领域至关重要。然而，现有的TTA方法要么1)忽视了表格分布偏移的特性，常常涉及标签分布偏移，要么2)对模型施加了架构上的限制，导致其缺乏适用性。鉴于此，我们提出了AdapTable，一个针对表格数据的新型TTA框架。AdapTable分为两个阶段：1) 使用感知分布偏移的不确定性校准器校准模型预测，2) 使用标签分布处理程序调整这些预测，以匹配目标标签分布。我们通过理论分析和在各种分布偏移场景下的广泛实验验证了AdapTable的有效性。我们的结果表明，AdapTable能够有效处理各种真实的分布偏移，相较于HELOC数据集，在某些情况下可实现高达16%的性能提升。

发布时间: 2/13/2025

查看原文

基于置信度的预测性能估计算法在模型监控中的应用

作者: Juhani Kivim\"aki, Jakub Bia{\l}ek, Jukka K. Nurminen, Wojtek Kuberski

arXiv:2407.08649v2 宣告类型: 替换交叉摘要：在将机器学习模型部署到生产环境中后，其预测性能需要进行监控。理想情况下，这种监控可以通过将模型的预测与真实标签进行比较来实现。为了做到这一点，真实标签必须在推理之后相对迅速地可用。然而，在许多情况下，真实标签只能在重大延迟之后才可用，最糟糕的情况下则完全不可用。在这种情况下，直接监控模型的预测性能是不可能的。最近，已经开发出了一些在没有真实标签的情况下估计模型预测性能的新型方法。许多这些方法利用了模型的信心或其它的不确定性估计，并且将这些方法与一个简单的基线方法——平均信心（AC）方法——进行了实验性比较，而AC方法是通过给定一组预测的信心分数的平均值来估计模型的准确性。然而，到目前为止，AC方法的理论性质尚未被充分探索。在本文中，我们试图通过回顾AC方法来填补这一空白，并证明在某些一般假设下，它是具有许多期望性质的无偏且一致的模型准确性估计器。我们还通过实证将这种基线估计器与其他更复杂估计器进行了比较，并展示出在许多情况下，AC方法能够战胜其他估计方法，尽管不同估计方法的相对质量强烈依赖于具体的应用场景。

发布时间: 2/13/2025

查看原文

通过序列建模解决脱机强化学习中的数据损坏问题

作者: Jiawei Xu, Rui Yang, Shuang Qiu, Feng Luo, Meng Fang, Baoxiang Wang, Lei Han

arXiv:2407.04285v3 通知类型: replace-cross 摘要：通过离线强化学习（RL）从离线数据集中学习策略有望在避免在线交互中的不安全和高昂成本的情况下扩展数据驱动的决策制定。然而，来自传感器或人类收集的现实世界数据通常包含噪声和错误，给现有的离线 RL 方法带来了重大挑战，尤其是当现实世界数据受限时。我们的研究揭示了先前专注于根据时间差学习进行离线 RL 方法适应的研究，在数据受限且受到污染的情况下仍然效果不佳。相反，我们发现像决策变换器这样的基本序列建模方法在数据污染的情况下表现出色，即使没有专门的修改也是如此。为了充分利用序列建模的潜力，我们通过引入三种简单而有效的鲁棒技术提出了Robust Decision Transformer (RDT)：嵌入dropout以提高模型对错误输入的鲁棒性，高斯加权学习以减轻污染标签的影响，以及迭代数据校正以从源头消除受污染的数据。在MuJoCo、Kitchen和Adroit任务上的大量实验表明，在各种数据污染场景下，RDT 的性能优于以往的方法。此外，RDT 在结合训练时的数据污染和测试时的观察扰动的更具有挑战性的设置中也表现出显著的鲁棒性。这些结果突显了序列建模在学习受噪声或污染的离线数据集方面的潜力，从而促进离线 RL 在现实世界场景中的可靠应用。我们的代码可在 https://github.com/jiawei415/RobustDecisionTransformer 获得。

发布时间: 2/13/2025

查看原文

基于少量标注的机器人实例分割抓取算法

作者: Moshe Kimhi, David Vainshtein, Chaim Baskin, Dotan Di Castro

arXiv:2407.01302v2 宣告类型: replace-cross 摘要：机器人操作物体的能力很大程度上依赖于其视觉感知能力。在场景拥挤且物体高度可变的领域中，大多数方法都需要大量的标注数据，这些数据是经过复杂的手动标注来训练高效模型的。一旦部署，模型需要在新的领域中泛化到不熟悉的新物体具有挑战性，这意味着模型必须随着其领域的发展而进化。为了解决这一问题，我们提出了一种结合半监督学习（SSL）和交互学习（LTI）的新框架，使模型能够在观察场景变化时进行学习，并利用视觉一致性，即使在时间间隔存在差异的情况下，也不需要经过特定设计的交互序列数据。因此，我们的方法通过自我监督利用部分标注数据，并通过生成的伪序列利用未标注的静止图像中的时间上下文。我们在两个常见基准 ARMBench mix-object-tote 和 OCID 上验证了我们的方法，达到了最先进的性能。值得注意的是，在 ARMBench 中，我们达到了 $\text{AP}_{50}$ 为 $86.37$，比现有工作提高了近 $20\%$，在极低标注的情况下也取得了显著成果，在仅使用 $1\%$ 的标注数据的情况下，$\text{AP}_{50}$ 分数达到了 $84.89$，而在 ARMBench 的完全标注对照组中，这一数值仅为 $72$。

发布时间: 2/13/2025

查看原文