arXiv:2504.13183v1 共享类型: cross
摘要:人工智能(AI)对话代理在心理健康领域拥有广阔的应用前景,尤其是在帮助缺乏心理健康支持服务的边缘化社区方面。使用移动电话随时随地获得类似心理咨询师的建议的全天候心理健康同伴听起来很有吸引力。然而,同样需要谨慎,并需要调查其可行性。在接受这项快速变化的技术之前,应当探索、总结和综合其可行性的研究,以了解现状,并为我们提供一个框架,该框架可以在整个开发和部署过程中指导我们。在研究AI对话代理的可行性时,必须考虑不同的视角,包括心理健康专业人员的视角。文献可以提供有关他们观点的见解,包括机会、担忧和影响。心理健康专业人士是该领域的专家,他们有独特的观点,这些观点应该被理解和考虑。这项系统文献综述将探讨心理健康专业人员对AI对话代理的态度以及影响其采用和推荐该技术以增强其服务和治疗的因素。本文综述将采用TAM3框架进行探讨。
arXiv:2504.13837v1 公告类型: 新
摘要: 可验证奖励的强化学习(RLVR)最近在增强大型语言模型(LLM)的推理能力方面取得了显著的成果,尤其是在数学和编程任务中。普遍认为,RLVR使得LLM能够持续自我提升,从而获得超越基底模型能力的新推理能力。然而,在这项研究中,我们通过使用较大的k值来重新审视这一假设,测量pass@\textit{k}指标,以探索模型在广泛范围的模型家族和基准测试中的推理能力边界。令人惊讶的是,实际上RL并没有引发根本性的新推理模式。虽然RL训练的模型在较小的k值(例如,k=1)下优于其基底模型,但在较大的k值下,基底模型可以实现与RL版本相当甚至更高的pass@$k$分数。RL训练模型生成的推理路径已经包含在基底模型的采样分布中,这表明RL训练模型中表现出的大部分推理能力实际上已经被基底模型所获得。进一步的分析表明,RL训练通过偏向模型输出分布以更可能产生奖励的路径从而更高效地采样正确答案,提高了模型的性能。但这也会导致与基底模型相比,推理能力边界变窄。在使用RLVR训练的视觉推理任务中也观察到类似的结果。此外,我们发现蒸馏可以真正地为模型引入新的知识,这与RLVR不同。这些发现凸显了RLVR在推进LLM推理能力方面的重要局限性,要求我们从根本上重新思考RL训练对推理LLM的影响以及需要一种更好的范式。项目页面: https://limit-of-RLVR.github.io
arXiv:2504.13707v1 宣布类型: 新
摘要:随着大型语言模型(LLMs)的一般能力不断提高和智能代理应用的日益普及,潜在的欺骗风险迫切需要系统评价和有效监督。不同于现有的通过模拟游戏或提供有限选择进行的评估,我们引入了OpenDeception,这是一种具有开放场景数据集的新型欺骗评估框架。OpenDeception通过检查LLM代理的内部推理过程,共同评估其欺骗意图和能力。具体而言,我们构建了五种常见的应用场景,其中LLMs与用户进行密集交互,每个场景由十个来自真实世界的不同且具体的场景组成。为避免伦理问题和高风险的欺骗性互动带来的成本,我们提议通过代理模拟来模拟多轮对话。对OpenDeception中十一款主流LLM的广泛评估突显了在LLM代理中迫切需要应对欺骗风险和安全问题的必要性:这些模型的欺骗意图比例超过80%,而欺骗成功率超过50%。此外,我们观察到,能力更强的LLMs更有可能表现出欺骗行为,这要求更加强调抑制欺骗行为的努力。
arXiv:2504.13644v1 宣告类型: 新
摘要:大型语言模型(LLMs)的一般能力的进展使其能够用于信息检索,并作为自动化决策系统中的组件。在这些模型中诚实地表现概率推理可能是确保这些任务中值得信赖、可解释和有效的性能的关键。尽管先前的研究表明LLMs能够进行复杂的推理和准确的概率不确定性量化,但我们发现当前这类模型的版本缺乏提供理性且连贯的概率信念表示的能力。为了证明这一点,我们引入了一个具有不确定真值的声明新数据集,并应用多种成熟的不确定性量化技术来衡量LLMs遵守概率推理基本性质的能力。
arXiv:2504.13631v1 宣告类型: 新
摘要: 多模态知识图谱(MMKGs)已在各个领域广泛应用于知识表示。然而,现有的MMKGs远少于所需数量,其构建面临着诸多挑战,特别是在确保为知识图谱增强选择高质量的相关图像方面。为解决这些挑战,我们提出了一种从常规知识图谱构建MMKGs的框架。此外,为了生成与给定知识图谱上下文更相关的高质量图像,我们设计了一种名为Visualizable Structural Neighbor Selection (VSNS)的邻居选择方法。该方法由两个模块组成:Visualizable Neighbor Selection (VNS) 和 Structural Neighbor Selection (SNS)。VNS 模块过滤难以可视化的关系,而 SNS 模块选择最能捕捉实体结构特征的邻居。为了评估生成图像的质量,我们在两个数据集MKG-Y和DB15K上进行了定性和定量评估。实验结果表明,使用VSNS方法选择邻居生成的图像质量更高且更相关于知识图谱。
arXiv:2504.13554v1 通告类型: 新
摘要: 以人工智能(AI)驱动的卷积神经网络增强了低海拔无人驾驶飞机(UAV)和地面计算节点(GCNs)在未知环境中执行救援、检查和监控任务的能力。然而,它们对计算能力的高需求常常超过了单个UAV的能力,导致系统不稳定,进一步受到GCNs有限且动态资源的加剧影响。为了解决这些挑战,本文提出了一种涉及UAV、地面嵌入式机器人(GER)和高空平台(HAP)的新合作框架,通过UAV-to-GER(U2G)和UAV-to-HAP(U2H)通信实现资源共享,为UAV卸载任务提供计算服务。具体而言,我们将UAV中任务分配和探索优化的多目标最优化问题表述为一个动态长期最优化问题。我们的目标是在确保系统长期稳定的同时,最小化任务完成时间和能量消耗。为此,我们首先采用Lyapunov最优化技术将原始问题,带有稳定约束的问题,转换为每时段确定性问题。然后,我们提出了一种名为HG-MADDPG的算法,它结合了匈牙利算法和基于生成扩散模型(GDM)的多智能体深度确定性策略梯度(MADDPG)方法。我们首先引入匈牙利算法作为探索区域选择的方法,增强UAV与环境互动的效率。然后,我们创新性地将GDM和多智能体深度确定性策略梯度(MADDPG)结合,以优化任务分配决策,如任务卸载和资源分配。仿真结果表明,与基线方法相比,所提出的方法在任务卸载效率、延迟减少和系统稳定性方面取得了显著改进。
arXiv:2504.13517v1 公告类型: 新
摘要: 随着电动汽车(EV)充电需求的增长,城市规划者面临着在最优位置提供充电基础设施的挑战。例如,在长途旅行中出现的里程焦虑以及居民充电站分布不足是许多城市面临的主要问题。为了实现合理的充电需求估计和部署,我们基于澳大利亚新南威尔士州(NSW)现有的电动汽车行程数据,结合了多个增强推荐充电站地理可行性的因素。我们的系统整合了电动汽车行程数据、地理数据(如路线数据和地方政府区域LGA边界),以及诸如火灾和洪水风险、兴趣点POI等特征。我们通过可视化结果直观地展示了数据驱动、多源融合系统的研究发现,并通过案例研究进行评估。这项工作的结果可以提供一个讨论平台,以便开发新的见解,为未来电动汽车充电站的位置提供指导建议。
arXiv:2504.13443v1 宣布类型: 新
摘要: 去中心化的AI代理网络,如Gaia,允许个人在其自己的计算机上运行自定义的LLM,并然后向公众提供服务。然而,为了保持服务的质量,该网络必须验证各个节点是否在运行其指定的LLM。在这篇论文中,我们展示了在主要由诚实节点组成的集群中,可以通过同侪的社会共识来检测那些运行未经授权或错误LLM的节点。我们将讨论该算法以及Gaia网络的实验数据。我们还将讨论已经实现的一种主观验证系统,将其作为EigenLayer AVS,以引入财务激励和处罚来促进LLM节点的诚实行为。
arXiv:2504.13360v1 宣布类型: 新
摘要: 近期,人们越来越关注 AI 系统在解决数学问题方面的性能。已经进行了大量的测试,结论参差不齐。在本文中,我们讨论了我们在这方面的数学研究中进行的一项实验,使用了当前最突出的两种 AI 系统。实验的一个目标是了解 AI 系统如何辅助数学研究。另一个目标是通过提出改进的方向建议来支持 AI 系统的开发者。
arXiv:2504.13359v1 宣告类型:新
摘要:经济中广泛采用人工智能系统取决于其产生的经济价值能否超过其推理成本。评估这种权衡需要同时考虑性能和成本的指标。我们提出了一种基于生产理论的框架,通过结合准确性和推理成本来评估语言模型。我们引入了“cost-of-pass”概念,即生成正确解决方案的预期货币成本。然后定义“前沿成本-pass”为在可用模型或“人类专家”之间能够实现的最小成本-pass,使用专家招聘的近似成本。我们的分析揭示了不同的经济见解。首先,轻量级模型对于基本的定量任务最具成本效益,大型模型对于知识密集型任务最具成本效益,推理模型对于复杂的定量问题最具成本效益,尽管每单位成本更高。其次,过去一年跟踪这一前沿成本-pass 显示了显著的进展,特别是对于复杂的定量任务,成本大约每几个月减半。第三,为了追踪推动这一进展的关键创新,我们检查了反事实前沿:没有特定模型类的成本效率估计。我们发现,轻量级、大型和推理模型中的创新对于分别推动基本定量、知识密集型和复杂的定量任务的前沿至关重要。最后,我们评估了如多数投票和自我改进等常见推理时技术的成本降低,发现它们的边际准确性增益很少能够弥补成本。我们的研究成果强调了互补的模型级创新是成本效率的主要驱动因素,而我们提出的职业框架提供了一个有原则的工具来衡量这一进展并指导部署。