arXiv:2402.03970v2 公告类型: replace-cross
摘要:表格数据是一种广泛的数据模态,由于其在许多实际应用中的灵活性和易用性。处理表格数据的分类任务的主要启发式方法依赖于经典的机器学习技术,因为深度学习模型的优势尚未得到证明。这引发了新的深度学习范式是否能够超越经典方法的问题。最近对表格数据的研究提供了一种独特的视角,阐述了在这一领域中神经网络的局限性,并突显了梯度提升决策树(GBDT)在各种数据集上的可扩展性和鲁棒性方面的优越性。然而,新型基础模型的质量尚未得到全面评估,也未与现有的表格分类方法进行公平比较。我们的研究基于其底层学习范式对十种最先进的神经模型进行了分类,具体表明元学习基础模型在小数据集场景中优于GBDT。尽管数据集特定的神经网络通常优于基于LLM的表格分类器,但在更高的计算需求成本下,它们被一个表现出最佳性能的自动机器学习库所超越。
arXiv:2312.11752v5 宣布类型: replace-cross
摘要:扩散模型已经成为行为克隆和离线 reinforcement learning 中表示行为策略的一种流行选择。这归功于它们自然具有的优化连续空间中表达性强的分布类的能力。然而,以往的工作未能利用扩散模型的得分结构,而是利用简单的行为克隆项来训练行为策略,这在行为-批评家设置中限制了它们的能力。在本文中,我们提出了一个理论框架,将扩散模型策略的结构与学习到的 Q 函数联系起来,通过将策略得分结构与 Q 函数的动作梯度联系起来。我们关注非策略强化学习,并提出了一种基于该理论的新策略更新方法,我们称之为 Q-得分匹配。值得注意的是,该算法仅需要通过去噪模型而非整个扩散模型评估进行求导,通过 Q-得分匹配收敛的策略在连续域中是隐式多模式和探索性的。我们在模拟环境中进行了实验,以展示我们提出的方法的可行性,并将其与流行的基线方法进行了比较。源代码可在项目网站上获取:https://michaelpsenka.io/qsm。
arXiv:2312.01001v3 宣告类型: 替换-交叉
摘要:遥感技术已成为产量预测的一个有前途的工具。大多数先前的工作通过将县内所有像素的空间聚合成单一值来利用卫星图像进行县市级玉米产量预测,这可能会忽略更详细的数据提供的详细信息和有价值的见解。为此,本研究在像素级别检查每个县,并应用多种实例学习以利用县内详细信息。此外,我们的方法解决了由特征数据集和作物掩码的不一致分辨率导致的“混合像素”问题,这可能会引入噪声从而妨碍准确的产量预测。具体而言,我们使用了注意机制自动为不同的像素分配权重,这可以减轻混合像素的影响。实验结果表明,开发的模型在过去五年中在美国玉米带优于四项其他机器学习模型,并且在2022年表现出最佳性能,其决定系数(R2)值为0.84,均方根误差(RMSE)为0.83。本文从空间和时间两个维度展示了我们方法的优势。此外,通过对混合像素与注意机制之间关系的深入研究,验证了我们的方法可以捕捉关键特征信息,同时过滤掉混合像素中的噪声。
arXiv:2311.16466v4 宣布类型: 替换交叉
摘要:大型语言模型(LLMs)正在重塑消费者的决策过程,特别是在与企业的沟通中,但我们对其影响的理解仍然有限。本研究探讨了LLMs对2015年至2024年提交给消费者金融保护局的消费者投诉的影响,记录了使用LLMs起草投诉的情况,并评估了从金融机构获得救济的可能性。我们分析了超过100万条投诉,并发现ChatGPT发布后LLMs的使用显著增加。我们发现,使用LLMs与消费者从金融机构获得救济的可能性增加有关。为了研究这种关系,我们采用了工具变量方法来缓解LLMs采用中的内生性问题。尽管工具变量表明可能存在因果联系,但它们无法完全捕捉所有未观察到的异质性。为了进一步确立这种因果关系,我们进行了受控实验,这些实验支持了LLMs能够增强消费者叙述的清晰度和说服力,从而增加获得救济的可能性。我们的研究结果表明,促进LLMs的使用权可以帮助企业更好地理解消费者关切,使消费者之间的竞争更加公平。这突显了促进技术可及性政策的重要性,使所有消费者能够有效地表达他们的关切。
arXiv:2307.00677v5 宣告类型: replace-cross
摘要:基于密度的聚类算法自它能够识别由低密度区域分隔的任意形状的聚类以来一直是最流行的聚类算法。然而,一个未被低密度区域分割的高密度区域可能包含属于多个聚类的不同结构。据我们所知,所有之前基于密度的聚类算法都无法检测到这种结构。在本文中,我们提供了一种新的基于密度的聚类方案来解决这一问题。这是首个能够检测未被低密度区域分割的高密度区域中细致结构的聚类算法,从而扩展了聚类的应用范围。该算法采用二级导向差分、层次结构、标准化密度,以及自适应系数,称为基于标准化密度和自适应机制的二级导向差分与层次结构聚类方案,简称 SDC-HSDD-NDSA。我们在合成数据集和真实数据集上进行了实验,以验证该算法的有效性、鲁棒性以及粒度无关性,并将该方案与 Python 包 Scikit-learn 中的无监督算法进行了比较。结果表明,在多种情况下,我们的算法优于之前的算法,尤其是在聚类内部具有规则结构的情况下表现尤为显著。例如,在使用ARI和NMI标准评估的八个无噪声合成数据集结构中,之前的算法得分低于0.6和0.7,而提出的算法得分分别高于0.9和0.95。
arXiv:2502.09022v2 Announce Type: replace
摘要:基于变换器的语言模型取得了显著的成功;然而,由于非线性交互和高维操作的复杂性,它们的内部机制仍然大部分处于不透明的状态。尽管以往的研究表明这些模型隐含地嵌入了推理树,但人类在完成相同任务时通常会使用多种不同的逻辑推理机制。至于语言模型在解决此类任务时使用了哪些多步推理机制,仍然不清楚。在本文中,我们希望通过研究语言模型的机制可解释性,特别是多步推理任务的背景下,来回答这个问题。具体而言,我们使用电路分析和自我影响函数来评估推理过程中国每种子在整个过程中的重要性变化,从而使我们能够映射出模型所采用的推理路径。我们在这项方法论上应用了GPT-2模型,并将其应用于一个预测任务(IOI),并展示了底层电路揭示了模型所使用的人类可解释的推理过程。
arXiv:2502.08859v2 通知类型: 替换
摘要: 当语言模型掌握现有的推理基准时,我们需要新的挑战来评估它们的认知边界。解谜活动是丰富的问题资源库,这些问题是多样化、复杂且具有挑战性的,可以测试广泛的高度复杂的推理和知识能力,因此它们是评估前沿语言模型的独特测试平台。我们引入了EnigmaEval数据集,该数据集来源于解谜比赛和活动中的问题和解决方案,以测试模型进行隐含知识综合和多步演绎推理的能力。与现有的推理和知识基准不同,解谜挑战要求模型发现看似无关的信息之间的隐藏联系,以揭示解决方案的路径。基准包括1184个不同难度级别的谜题——每个谜题通常需要熟练的解谜者数小时到数天才能完成,并且具有明确无误、可验证的解法,使其能够进行高效的评估。最先进的语言模型在这些谜题上的准确率极低,甚至低于其他难以逾越的基准,如人类最后考试,揭示了当模型面对需要非结构化和发散性推理的问题时其存在的局限性。
arXiv:2502.07191v3 宣告类型: 替换
摘要:随着大型语言模型(LLMs)的发展,解决复杂推理任务得到了越来越多的关注。推理时计算方法(例如 Best-of-N、束搜索等)特别有价值,因为它们能够在不修改模型参数或需要额外训练的情况下提升推理性能。然而,这些技术也伴随着实施挑战,并且由于其计算复杂性和在不同任务上的效果差异,大多数现有的方法仍停留在概念验证阶段,实际应用有限。在本文中,我们调查并 benchmark 了多样化的推理时计算策略,覆盖了不同复杂度的推理任务。由于大多数当前方法依赖于提案-验证者管道,首先生成候选解决方案(例如,推理解决方案),然后基于奖励信号(例如,RLHF奖励、过程奖励)选择最优解决方案,我们的研究重点在于优化候选解决方案生成(例如,指令提示、温度和 top-p 等超参数)和奖励机制(例如,自我评估、奖励类型)。通过在各种规模的模型(例如,Llama、Qwen 和 Mistral 家族)上进行大量实验(超过 20,000 个 A100-80G GPU 小时,超过 1,000 次实验),我们的消融研究表明,之前未被重视的策略可以显著提升性能(例如,调整温度可以提高推理任务性能高达 5%)。此外,我们通过系统评估六种代表性方法在八项推理任务上的表现,建立了推理时计算的标准化基准。这些发现为未来的研究提供了更坚实的基础。代码可在 https://github.com/usail-hkust/benchmark_inference_time_computation_LL 获取。
arXiv:2501.15085v2 通知类型:替换
摘要:近年来信息技术和人工智能的进步推动了数据中心(DC)行业在全球范围内的快速扩展,伴随着对电力的巨大需求以支持DC运行。在典型的数据中心中,大约30%至40%的能量被用来冷却系统,而不是用于计算机服务器,这迫切需要开发新的适用于DC冷却系统的节能优化技术。然而,优化这样的工业系统面临着诸多挑战,包括但不限于缺乏可靠的模拟环境、历史数据有限以及严格的安全性和控制鲁棒性要求。在这项工作中,我们提出了一种基于物理信息的离线强化学习(RL)框架,以优化数据中心冷却系统的能效。所提出的方法利用专门设计的图神经网络架构模型来描述服务器机房内的复杂动态模式和物理依赖关系,并符合基本的时间反转对称性。由于其良好的行为特性和可泛化的状态-动作表示,该模型能够利用有限的实际运营数据进行高效且鲁棒的潜在空间离线策略学习。我们已经将该框架成功部署并验证在一个大型生产数据中心,用于其空气冷却单元(ACU)的闭环控制。我们在生产环境中总共进行了2000小时的短期和长期实验。结果显示,我们的方法在数据中心冷却系统中实现了14%至21%的节能,同时没有违反任何安全或操作约束。我们的结果证明,离线RL在解决一系列数据有限、安全性关键的工业控制问题方面具有巨大的潜力。
arXiv:2501.10053v2 宣传类型:替换
摘要:利用大型语言模型(LLMs)的自主决策能力在推理任务中展现了卓越的性能。然而,尽管迭代或递归检索增强生成(RAG)技术取得了成功,但在面对复杂问题时,这些方法往往受限于单一的解决方案空间。在这篇论文中,我们提出了一种在RAG中集成系统分析与高效推理动作的新型思考模式,通过蒙特卡洛树搜索(MCTS)大幅激活内在的推理能力,并借助MCTS扩展特定任务的解决方案空间,我们称之为AirRAG。具体而言,我们的方法设计了五种基本的推理动作,并通过MCTS扩展到广泛的基于树的推理空间。该方法还整合了自一致性验证以探索潜在的推理路径和推理扩展定律。此外,采用了计算上最优化的策略来将更多的推理资源分配给关键动作,从而提高整体性能。实验结果表明了AirRAG的有效性,展示出在复杂问答数据集上显著的性能提升。此外,AirRAG 具有灵活性和轻量级的特点,使其易于与其他先进技术集成。