LLM2D

arXiv 论文列表

抽象思维和类比推理的能力是快速适应新环境、通过分解解决新问题以及综合知识以全面解决问题的先决条件。我们提出了 TransCoder,一种基于神经程序合成的抽象问题求解方法,并对所提出架构的生成模块做出了全面分析。TransCoder 的核心是类型化的领域特定语言,旨在促进特征工程和抽象推理。在训练过程中,我们使用未能解决任务的程序生成新任务并将其收集到一个合成数据集中。由于以这种方式创建的每个合成任务都有一个已知的关联程序(解决方案),因此模型在监督模式下对其进行训练。解决方案以透明的程序形式表示,可以检查和验证。我们使用抽象推理语料库数据集展示了 TransCoder 的性能,我们的框架为此生成了数万个带有对应解决方案的合成问题,并促进了学习的系统性进展。
发布时间: 10/8/2024
查看原文
作者: Xunjian Yin, Xinyi Wang, Liangming Pan, Xiaojun Wan, William Yang Wang
大型语言模型(LLMs)的快速发展显著增强了人工智能驱动代理在各种任务中的能力。然而,现有的代理系统,无论是基于固定流水线算法还是预定义的元学习框架,都无法搜索整个代理设计空间,因为它们受到人类设计的组件的限制,因此可能错失全局最优的代理设计。本文介绍了 Gödel Agent,一个受 Gödel 机器启发的自进化框架,它使代理能够在没有预定义例程或固定优化算法的情况下递归地自我改进。Gödel Agent 利用 LLMs 来动态修改自身的逻辑和行为,仅通过提示来引导其实现高级目标。在数学推理和复杂代理任务上的实验结果表明,Gödel Agent 的实现可以实现持续的自我改进,在性能、效率和通用性方面超越人工制作的代理。
发布时间: 10/8/2024
查看原文
本文提出了一种受哈密顿力学启发的创新方法,用于分析和改进人工智能系统中的多跳推理。我们提出了一种新颖的框架,将嵌入空间中的推理链映射到哈密顿系统,使我们能够利用经典物理学中的强大分析工具。我们的方法定义了一个哈密顿函数,该函数平衡了推理的进展(动能)和与当前问题相关的程度(势能)。利用这个框架,我们分析了一个来自多跳问答任务的大量推理链数据集,揭示了区分有效推理和无效推理的有趣模式。我们表明,有效的推理链具有较低的哈密顿能量,并且以在获取更多信息和回答正确问题之间取得最佳权衡的方式移动。此外,我们展示了该框架在指导人工智能系统内创建更高效的推理算法中的应用。我们的结果不仅为有效推理的本质提供了新的见解,而且为理解和改进人工智能的物理学启发方法开辟了令人兴奋的可能性。
发布时间: 10/8/2024
查看原文
作者: Haonan An, Zhengru Fang, Yuang Zhang, Senkang Hu, Xianhao Chen, Guowen Xu, Yuguang Fang
连接式和自动驾驶汽车(CAV)由于其扩展的感知范围和增强的传感覆盖范围而引起了广泛关注。为了解决盲点和障碍物等挑战,CAV 利用车对车 (V2V) 通信来聚合来自周围车辆的感官数据。然而,协作感知往往受到可实现的网络吞吐量和信道质量限制的约束。本文提出了一种信道感知吞吐量最大化方法,以促进 CAV 数据融合,利用自监督自动编码器进行自适应数据压缩。我们将问题表述为一个混合整数规划 (MIP) 模型,将其分解为两个子问题,以在给定链路条件下得出最佳数据速率和压缩比解决方案。然后训练自动编码器以最小化确定压缩比的比特率,并采用微调策略进一步减少频谱资源消耗。在 OpenCOOD 平台上的实验评估表明,我们提出的算法的有效性,与最先进的方法相比,网络吞吐量提高了 20.19% 以上,平均精度 (AP@IoU) 提高了 9.38%,最佳延迟为 19.99 毫秒。
发布时间: 10/8/2024
查看原文
作者: Nicholas Leisegang, Thomas Meyer, Sebastian Rudolph
KLM 方法将弱化形式的蕴涵引入经典逻辑中,用于可辩驳推理。这使得人们能够将对一般规则的例外纳入逻辑系统,并且在学习到新的矛盾信息时撤回旧的结论。立场逻辑是一组逻辑,在过去五年中被引入知识表示领域,允许将多个观点集成到同一个本体中,即使某些观点可能持有相互矛盾的信念。本文旨在将立场整合到 KLM 命题逻辑中,在一个受限的环境中。我们介绍了可辩驳受限立场逻辑 (DRSL) 的逻辑系统,并定义了其语法和语义。具体来说,我们将排名的解释和立场结构(分别为命题 KLM 和命题立场逻辑提供语义)集成在一起,以引入 DRSL 的排名立场结构。此外,我们将理性闭包的非单调蕴涵关系从命题 KLM 情况扩展到 DRSL 情况。本文的主要贡献是通过算法和语义两种方式描述 DRSL 的理性闭包,表明理性闭包可以通过单个代表性的排名立场结构来描述。最后,我们得出结论,理性闭包的语义和算法描述是等价的,并且 DRSL 下理性闭包的蕴涵检查与命题 KLM 的蕴涵检查处于同一复杂度类。
发布时间: 10/8/2024
查看原文
作者: Gustavo de Freitas Fonseca, Lucas Coelho e Silva, Paulo Andr\'e Lima de Castro
在强化学习 (RL) 中,多臂老虎机 (MAB) 问题已在推荐系统、医疗保健和金融等多个领域得到应用。传统 MAB 算法通常假设奖励分布是静止的,这限制了它们在以非静止动态为特征的现实世界场景中的有效性。本文通过介绍和评估为非静止环境设计的全新 Bandit 算法来解决这一局限性。首先,我们介绍了 *自适应折扣汤普森采样* (ADTS) 算法,该算法通过放宽折扣和滑动窗口机制来增强适应性,以便更好地响应奖励分布的变化。然后,我们将这种方法扩展到投资组合优化问题,通过引入 *组合自适应折扣汤普森采样* (CADTS) 算法,该算法解决了组合 Bandit 中的计算挑战,并改善了动态资产配置。此外,我们提出了一种名为 Bandit 网络的新架构,该架构集成了 ADTS 和 CADTS 的输出,从而减轻了股票选择中的计算限制。通过使用真实金融市场数据的广泛实验,我们证明了这些算法和架构在适应动态环境和优化决策过程方面的潜力。例如,与经典的投资组合优化方法(如资本资产定价模型、等权重、风险平价和马科维茨)相比,提出的 Bandit 网络实例表现出优越的性能,其中最佳网络的样本外夏普比率比表现最佳的经典模型高出 20%。
发布时间: 10/8/2024
查看原文
作者: Hanyang Zhao, Genta Indra Winata, Anirban Das, Shi-Xiong Zhang, David D. Yao, Wenpin Tang, Sambit Sahu
近年来,许多偏好优化算法被引入,作为直接偏好优化 (DPO) 家族的扩展。虽然这些方法成功地使模型与人类偏好相一致,但对于它们额外组件的贡献缺乏理解。此外,公平且一致的比较很少,难以辨别哪些组件真正提高了后续性能。在这项工作中,我们提出了 RainbowPO,一个统一的框架,通过将现有 DPO 方法的关键组件归类为七个广泛的方向来揭示其有效性。我们将这些组件整合到一个单一的凝聚目标中,增强每个单独元素的性能。通过大量的实验,我们证明 RainbowPO 优于现有的 DPO 变体。此外,我们提供见解,指导研究人员开发新的 DPO 方法,并帮助从业人员进行实施。
发布时间: 10/8/2024
查看原文
作者: Shengyuan Chen, Qinggang Zhang, Junnan Dong, Wen Hua, Jiannong Cao, Xiao Huang
实体对齐 (EA) 旨在通过识别等效实体对来合并两个知识图谱 (KG)。现有的方法可以分为符号模型和神经模型。符号模型虽然精确,但难以处理子结构异质性和稀疏性,而神经模型虽然有效,但通常缺乏可解释性,并且无法处理不确定性。我们提出了 NeuSymEA,一个结合了两种方法优势的概率神经符号框架。NeuSymEA 在马尔可夫随机场中对所有可能对的真值得分进行联合概率建模,并由一组规则进行调节,并使用变分 EM 算法进行优化。在 E 步中,神经模型参数化真值得分分布并推断缺失的对齐。在 M 步中,规则权重根据观察到的和推断的对齐进行更新。为了便于解释,我们在此框架之上进一步设计了一个基于路径排序的解释器,用于生成推断对齐的支持规则。基准测试表明,NeuSymEA 不仅在有效性和鲁棒性方面显著优于基线,而且还提供可解释的结果。
发布时间: 10/8/2024
查看原文
作者: Mohsen Falah Rad, Kamrad Khoshhal Roudposhti, Mohammad Hassan Khoobkar, Mohsen Shirali, Zahra Ahmadi, Carlos Fernandez-Llatas
老年人口的增长和人口金字塔的转变,增加了对医疗保健和福祉服务的需求。为了解决这一问题,以及不断上涨的医疗费用,在家养老的概念应运而生,这得益于医疗和技术解决方案的最新进展。计算机科学、通信技术和医疗保健领域的专家合作,利用生活环境中的传感器、可穿戴设备和智能手机,结合先进的数据挖掘和具有学习能力的智能系统,开发出负担得起的医疗保健解决方案,以监测、分析和预测老年人的健康状况。然而,实施智能医疗保健系统和开发分析技术需要在真实世界数据上测试和评估算法。尽管有这种需求,但符合这些要求的公开数据集却很缺乏。为了填补这一空白,我们在本文中介绍了 DAMMI 数据集,旨在为该领域的科研人员提供支持。该数据集包含通过家用传感器、智能手机数据和腕带收集的 146 天内老年人的日常活动数据。它还包含由心理学家团队提供的每日心理报告。此外,数据收集涵盖了重大事件,如 COVID-19 大流行、新年假期和斋月,为分析提供了更多机会。在本文中,我们概述了有关数据收集系统、记录的数据类型和预处理事件日志的详细信息。该数据集旨在帮助物联网和数据挖掘领域的专业人员评估和实施他们的研究想法。
发布时间: 10/8/2024
查看原文
作者: Shashank Yadav, Rohan Tomar, Garvit Jain, Chirag Ahooja, Shubham Chaudhary, Charles Elkan
本文介绍了游戏化对抗式提示 (GAP) 框架,该框架通过众包收集高质量数据,用于大型多模态模型的视觉指令微调。GAP 将数据收集过程转变为一个引人入胜的游戏,激励玩家提供细致入微、具有挑战性的问题和答案,以针对模型知识中的空白。我们的贡献包括 (1) 一种从人类那里捕获问答对的方法,该方法直接解决模型知识中的弱点,(2) 一种评估和奖励玩家的方法,成功地激励他们提供高质量的提交内容,以及 (3) 一个可扩展的游戏化平台,成功地在短短几周内从超过 50,000 名参与者那里收集了这些数据。我们对 GAP 的实现显著提高了小型多模态模型(即 MiniCPM-Llama3-V-2.5-8B)的准确性,将其 GPT 分数从 0.147 提高到 0.477,接近了由更大的 GPT-4V 设置的基准。此外,我们证明了使用 MiniCPM-Llama3-V-2.5-8B 生成的的数据也增强了其在其他基准上的性能,并表现出跨模型优势。具体而言,相同的数据提高了 QWEN2-VL-2B 和 QWEN2-VL-7B 在相同多个基准上的性能。
发布时间: 10/8/2024
查看原文