arXiv 论文列表

作者: Zifan Lang, Guixia Liu, Geng Sun, Jiahui Li, Zemin Sun, Jiacheng Wang, Victor C. M. Leung

arXiv:2502.09038v1 宣布类型: 新兴摘要: 本文提出了一种基于分布式波束成形的无人机辅助转发系统，以提升物联网(IoT)中的信息年龄(AoI)。具体来说，无人机在传感器节点(SNs)和远程基站(BS)之间收集和转发数据。然而，飞行延迟增加了AoI并降低了网络性能。为缓解这一问题，我们采用了分布式波束成形来扩展通信范围、降低飞行频率并确保持续的数据转发和高效的能量利用。然后，我们通过联合优化无人机轨迹和通信调度来制定一个优化问题，目的是最小化AoI和无人机能耗。该问题是非凸的且具有高动态性，因此我们提出了一种基于深度强化学习(DRL)的算法来解决该问题，从而提高算法的稳定性和加速收敛速度。仿真实验结果显示，所提出的算法有效解决了该问题并优于其他基准算法。

发布时间: 2/14/2025

查看原文

Transformer电路机理揭密：自我影响是模型推理的关键

作者: Lin Zhang, Lijie Hu, Di Wang

arXiv:2502.09022v1 宣布类型: 新增摘要：基于转换器的语言模型已经取得了显著的成功，但由于其内部推理机制受到复杂非线性相互作用和高维操作的影响，仍然存在很大的不透明性。尽管以往的研究表明这些模型隐式地编码了推理结构，但对于它们如何在复杂任务中使用特定的多步思维过程解决这些问题，仍然是不清楚的。为了解决这一差距，我们提出了一种新的机制性可解释性框架SICAF，旨在追踪和分析语言模型在多步推理任务中使用的推理策略。通过使用电路分析和自我影响函数，我们量化了推理过程中每个词的重要性演变，从而映射出模型用于推理的路径。将SICAF应用于GPT-2模型的间接宾语识别(IOI)预测任务，我们展示了内部电路如何揭示出与人类可解释性相一致的推理过程，为模型内部逻辑提供了新的见解。

发布时间: 2/14/2025

查看原文

不同iable神经符号推理范式的保证潜力

作者: Luke E. Richards, Jessie Yaros, Jasen Babcock, Coung Ly, Robin Cosbey, Timothy Doster, Cynthia Matuszek

arXiv:2502.08932v1 宣布类型: 新摘要: 要创建可使用且可部署的人工智能(AI)系统，在多种不同条件下保证其性能至关重要。很多时候，部署的机器学习系统需要通过神经符号程序和人工神经网络感知联合进行更多经典的逻辑和推理。虽然许多先前的研究仅集中于系统的一个组件，要么是单独的神经网络，要么是整个企业系统，来单独保证其安全性，但很少有研究关注整合的神经符号系统的安全性。在这项工作中，我们评估了端到端完全可微分的神经符号系统，这是一种新兴方法，用于创建数据高效且更可解释的模型。我们使用Scallop，一个端到端的神经符号库，在图像和音频领域内的分类和推理任务中进行了这一研究。我们评估了端到端的保障性，包括对抗鲁棒性、校准、用户性能平等以及解决方案的可解释性，用于发现未对齐的解决方案。我们发现，端到端的神经符号方法通过实验结果提供了独特的保障机会，但并非在所有方面都如此。我们发现，当定义了算术操作且输入空间维度高时，这类神经符号模型在保证性方面优于完全神经网络的对手，因为它们在学习鲁棒推理操作方面困难重重。我们确定了神经符号模型的可解释性与其捕捉导致了更大对抗性脆弱性的捷径之间的关系，尽管性能平等。最后，我们发现数据效率的承诺通常仅在类不平衡的推理问题中成立。

发布时间: 2/14/2025

查看原文

内部奖励模型的一致性改善了自我奖励的语言模型

作者: Xin Zhou, Yiwen Guo, Ruotian Ma, Tao Gui, Qi Zhang, Xuanjing Huang

arXiv:2502.08922v1 宣布类型: 新摘要: 对大型语言模型（LLMs）进行与人类偏好的对齐对于它们在实际应用中的部署至关重要。近期关于自奖励语言模型的研究表明，LLM 可以使用其内部奖励模型（例如 LLM-as-a-Judge）\cite{yuanself} 来生成偏好数据，从而在无需大量人工标注的情况下提升对齐性能。然而，我们发现同一LLM内的不同内部奖励模型往往会生成不一致的偏好。这种不一致性对自动生成的偏好数据的可靠性提出了质疑，阻碍了整体对齐性能，并强调了进一步研究以确保可靠的和一致的对齐需求。为解决这一局限性，我们提出了自一致内部奖励（SCIR）这一新型框架，旨在提升训练过程中内部奖励模型之间的一致性。在每次训练步骤中，我们从多个预定义的内部奖励模型中收集偏好预测，并通过不一致性惩罚机制来确保一致性和可靠性，从而提高这些内部奖励模型的可靠性。我们仅选择具有一致预测的数据进行偏好优化，以确保偏好数据的质量。通过采用自一致内部奖励，我们的方法显著改善了LLM的对齐性能和奖励建模能力，相较于基线方法表现出了明显的优越性。

发布时间: 2/14/2025

查看原文

强化大语言模型是一个形式定理证明器

作者: Zhiling Luo

arXiv:2502.08908v1 通知类型: 新颖摘要: 为了利用大型语言模型在定理形式化和证明中的优势，我们提出了一种强化学习框架，通过滚动推出下一个策略并将其与预期的策略进行比较，逐次优化预训练的语言模型。实验结果表明，这种方法有助于实现比直接微调语言模型更高的准确性。

发布时间: 2/14/2025

查看原文

MIH-TCCT：通过事件驱动的文本-代码循环训练减轻LLM中的一致性幻觉

作者: Xinxin You, Xien Liu, Qixin Sun, Huan Zhang, Kaiyin Zhou, Shaohui Liu, GuoPing Hu, ShiJin Wang, Si Liu, Ji Wu

arXiv:2502.08904v1 宣告类型: 新摘要: 近期利用合成数据集的方法旨在解决大型语言模型（LLMs）中的不一致幻觉问题；然而，这些方法主要针对特定任务，限制了其普适性。受编码训练模型在逻辑密集领域中出色表现的启发，我们提出了一种新颖的框架，该框架利用基于事件的文本生成相应的代码，并采用循环训练方法有效地将代码的逻辑一致性传递给自然语言。我们的方法显著减少了三种领先LLMs和两类自然语言任务中不一致幻觉的发生，同时保持整体性能的稳定。该框架有效减轻了幻觉现象，无需对下游任务进行适应，展示了其普适性并为解决不一致幻觉的挑战提供了新的视角。

发布时间: 2/14/2025

查看原文

数字孪生技术中的数据传感器融合以增强家庭环境的能力

作者: Benjamin Momoh, Salisu Yahaya

arXiv:2502.08874v1 宣告类型: 新摘要: 本文探讨了在数字孪生技术中集成数据传感器融合的方法，以增强家庭环境的能力，特别是在冠状病毒 pandemic 和其经济影响带来的挑战背景下。研究强调了数字转型不仅适应，而且在第四次工业革命中减轻这些中断的关键作用。使用 Wit Motion 传感器，收集了步行、工作、坐和躺等活动的数据，传感器测量加速度计、陀螺仪和磁力计。研究结合了网络物理系统、物联网、人工智能和机器人技术，以强化数字孪生的能力。该论文比较了多种传感器融合方法，包括特征级融合、决策级融合和卡尔曼滤波融合，以及支持向量机（SVM）、梯度提升（GBoost）和随机森林（Random Forest）等机器学习模型，以评估模型的效用。结果显示，传感器融合显著提高了这些模型的准确性和可靠性，因为它弥补了单个传感器的局限性，尤其是磁力计。尽管在理想条件下具有更高的准确性，但将多个传感器的数据整合确保了在现实世界设置中更一致和可靠的成果，从而建立了一个稳健的系统，可以在实际情况中自信地应用。

发布时间: 2/14/2025

查看原文

关机并不无忧

作者: Sven Neth

arXiv:2502.08864v1 宣布类型: 新增摘要: Hadfield-Menell等人（2017）提出了Off-Switch Game模型，这是一种人类与人工智能合作的模型，在这种模型中，因为人工智能 agent 对人类的偏好不确定，所以它们总是将决定权给予人类。我解释了两个为什么 AI agent 可能不会遵循这种行为的原因。首先，AI agent 可能不重视学习。其次，即使 AI agent 重视学习，它们也不一定能准确地学会我们的实际偏好。

发布时间: 2/14/2025

查看原文

EnigmaEval：长期多模态推理挑战的基准测试

作者: Clinton J. Wang, Dean Lee, Cristina Menghini, Johannes Mols, Jack Doughty, Adam Khoja, Jayson Lynch, Sean Hendryx, Summer Yue, Dan Hendrycks

arXiv:2502.08859v1 通知类型: 新摘要: 随着语言模型掌握现有推理基准，我们需要新的挑战来评估它们的认知边界。拼图比赛事件是丰富的问题库，其中包含了多种多样的复杂推理和知识能力测试问题，使之成为评估前沿语言模型的独特测试平台。我们介绍了EnigmaEval数据集，这是一个源自拼图比赛和活动的问题和解决方案集，旨在测试模型进行隐式知识合成和多步骤演绎推理的能力。与现有推理和知识基准不同，拼图解决挑战要求模型发现看似无关的信息之间的隐藏联系，以揭示解决方案路径。该基准包含1184个不同复杂度的拼图——每个通常需要熟练解谜团队数小时至数天才能完成——并且具有明确、可验证的解决方案，便于高效评估。最先进的语言模型在这类拼图上表现出极低的准确性，甚至低于其他困难基准如人类最终考试，揭示了模型在面对需要非结构化和横向推理的问题时的不足之处。

发布时间: 2/14/2025

查看原文

使用机器学习模型估计因果概率

作者: Shuai Wang, Ang Li

arXiv:2502.08858v1 宣告类型: 新颖摘要: 因果概率在现代决策中起着关键作用。本文解决了使用机器学习模型预测小数据子人群因果概率的挑战。Tian 和 Pearl 首次定义并推导出了三种基本的因果概率的紧界：必要性和充分性概率（PNS）、充分性概率（PS）和必要性概率（PN）。然而，估计这些概率需要每个子人群的特定实验和观察分布，而这通常在有限的总体数据中不可用或难以获得。我们假设每个子人群的因果概率由其特征决定。为了估计数据不足的子人群的因果概率，我们提出使用机器学习模型，这些模型可以从数据充足的子人群中获得见解。我们的多个机器学习模型的评估表明，在有足够的总体数据并选择了合适的机器学习模型和激活函数的情况下，PNS 可以有效地预测。通过模拟研究，我们展示了使用来自大约 2000 个子人群的数据，我们的多层感知机（MLP）模型使用 Mish 激活函数，在预测 32,768 个子人群的 PNS 时实现了约 0.02 的平均绝对误差（MAE）。

发布时间: 2/14/2025

查看原文