LLM2D

arXiv 论文列表

作者: Colin Sisate, Alistair Goldfinch, Vincent Waterstone, Sebastian Kingsley, Mariana Blackthorn
arXiv:2502.00048v1 公告类型: 交叉 摘要: 语境纠缠梯度映射 (CEGM) 引入了一种新的梯度优化方法,重新定义了语境嵌入和梯度更新之间的关系,以增强神经架构中的语义一致性和推理能力。通过将梯度视为动态携带语境依赖性的载体,而不是孤立的数值实体,所提出的方法填补了现有优化策略中的关键缺口。将纠缠梯度动态纳入损失正则化框架中,展示了在涉及长文本推理、语境保持和对未见过领域适应的任务中的显著改进。实验评估表明,CEGM增强的模型始终优于baseline方法,在标记级预测中准确性更高,并对噪声输入具有更强的鲁棒性。实际实现涉及对训练管道的修改,引入纠缠层和动态系数调整,无缝地与现有架构相结合。结果进一步强调了序列变换期间语义漂移的减少以及对同义句嵌入一致性改进,展示了所提出方法的稳健性和灵活性。研究结果证明了梯度纠缠对优化策略的理论进步和实际应用的广泛影响。
发布时间: 2/4/2025
查看原文
arXiv:2502.00045v1 交叉类型: cross 摘要: 市政检查是保持商品和服务质量的重要组成部分。本文旨在通过以芝加哥餐厅检查为例,探讨如何智能地安排服务检查以最大化其影响。芝加哥卫生局 (CDPH) 每年对数千家机构进行检查,失败率相当高(2023年超过3000份失败检查报告)。为了确保遵守指导方针,尽量减少对机构的干扰,以及减少检查成本,CDPH 每年为每个机构分配一个检查窗口,并保证该窗口内对其进行一次检查。这些约束条件为无固定兴趣臂 bandit (RMAB) 方法带来了挑战,目前尚无现有方法可以解决。我们开发了一种扩展的 Whittle 索引系统,可以保证动作窗口约束和频率,并且可以进一步用于优化动作窗口分配本身。简而言之,我们结合马尔可夫决策过程 (MDP) 重写和基于整数规划的前瞻策略,以满足约束条件下最大化检查的影响。我们开发了一个基于神经网络的监督学习模型,使用公共 CDPH 检查记录来模拟真实芝加哥机构的状态转换,这相比直接预测机构的失败,显示出了10%的AUC改进。我们的实验不仅证明了我们的方法在模拟中可带来高达24%或在真实数据中高达33%的奖励改进,而且还揭示了调度约束的影响。
发布时间: 2/4/2025
查看原文
arXiv:2502.00043v1 交叉类型 摘要:使用连接的自动化车辆(CAV)以缓解由CAV和人工驾驶车辆(HDV)组成的混合交通流中的交通振荡而受到推崇。本研究提出了一种自适应深度科伊曼预测控制框架(AdapKoopPC),用于调节混合交通流。首先,基于科伊曼理论设计了一种自适应轨迹预测深度网络(AdapKoopnet),用于建模HDV的跟随行为。AdapKoopnet使HDV的行为可以通过高维空间中的线性模型来表示。其次,在混合交通流平滑过程中采用模型预测控制,其中CAV的线性动态模型与AdapKoopnet的线性预测块结合,作为预测模型嵌入到AdapKoopPC中。最后,使用HighD自然驾驶数据集验证了所提出的AdapKoopnet的预测性能,并通过数值仿真验证了AdapKoopPC的控制性能。结果显示,AdapKoopnet提供的HDV预测轨迹比基线非线性模型更准确。此外,与基线模型相比,提出的AdapKoopPC在减少计算成本的同时,对缓解交通振荡表现出更有效的控制性能,尤其是在低CAV渗透率的情况下。所提出的AdapKoopPC的代码是开源的。
发布时间: 2/4/2025
查看原文
作者: Thomas Lautenbacher, Ali Rajaei, Davide Barbieri, Jan Viebahn, Jochen L. Cremer
arXiv:2502.00040v1 类别: cross 摘要: 随着各领域的电气化要求传输更多的电力,输电网的阻塞不断增加。通过变电站重新配置进行的拓扑控制可以减少阻塞,但在运行中的潜力尚未充分利用。一个挑战是将拓扑控制问题建模为与操作员的目标和约束相一致。为了解决这一挑战,本文研究了多目标强化学习(MORL)在集成电力系统拓扑控制的多个冲突目标方面的应用。我们开发了一种使用深度乐观线性支持(DOL)和多目标近端策略优化(MOPPO)的MORL方法,以生成一组帕累托最优策略,这些策略能够平衡诸如减少线路负载、拓扑偏差和切换频率等目标。初步的案例研究显示,MORL方法可以提供关于目标权衡的有价值见解,并在帕累托前沿逼近方面优于随机搜索基线。生成的多目标RL策略在 contingency 条件下防止电网故障的成功率比常用的单目标RL策略高出30%,并且在减少训练预算时也比单目标RL策略有效20%。
发布时间: 2/4/2025
查看原文
作者: William Marfo, Deepak K. Tosh, Shirley V. Moore
arXiv:2502.00036v1 类型: cross 摘要: 联邦学习(FL)能够在保护数据隐私的同时实现分散化的机器学习。本文提出了一种新颖的客户端选择框架,将差分隐私和容错性相结合。适应性的客户端选择根据性能和系统约束调整客户端的数量,并在保护隐私的同时添加噪声。该方法在用于网络异常检测的UNSW-NB15和ROAD数据集上进行了评估,与基线方法相比,准确率提高了7%,训练时间缩短了25%。容错性在不影响性能的情况下增强了稳健性。
发布时间: 2/4/2025
查看原文
作者: Connor Shorten, Charles Pierse, Thomas Benjamin Smith, Karel D'Oosterlinck, Tuana Celik, Erika Cardenas, Leonie Monigatti, Mohd Shukri Hasan, Edward Schmuhl, Daniel Williams, Aravind Kesiraju, Bob van Luijt
arXiv:2502.00032v1 交叉公告类型 摘要:大型语言模型(LLMs)的能力迅速加速,很大程度上得益于其与外部工具的集成。通过数据库查询进行查询是这些集成中最有效的,使LLMs能够访问私有或不断更新的数据。虽然函数调用是外部工具与LLMs接口的最常见方法,但将其应用于数据库查询作为工具的应用尚未得到充分探索。我们提出了一个数据库查询的工具定义,该定义统一了使用搜索查询、筛选器或两者的组合访问数据,以及使用聚合和groupby操作符对结果进行转换。为了评估其有效性,我们对5个模型家族中的8个LLM进行了研究。我们提出了一种新的管道,将Gorilla LLM框架适应于创建合成数据库模式和查询。我们主要用预测查询API与真实查询API的精确匹配来评估这些模型。在测试的模型中,Claude 3.5 Sonnet取得了最高的性能,精确匹配得分为74.3%,其次是GPT-4o mini,得分为73.7%,GPT-4o得分为71.8%。我们还按API组件使用的部分和合成用例进行了进一步分解。我们发现,LLMs在利用布尔属性上的操作方面非常有效,但在文本属性筛选器方面存在困难。在不同用例中,我们发现高性能模型如GPT-4o的稳健结果,但低性能模型之间的性能差异显著。我们还进行了消融研究,探讨了并行工具调用、在工具调用中添加理由作为参数、每个数据库集合使用单独的工具以及结构化输出的工具调用的影响。我们的研究表明,允许LLMs通过函数调用查询数据库是有效的。我们在github.com/weaviate/gorilla 上开源了我们的实验代码和结果。
发布时间: 2/4/2025
查看原文
作者: Kamer Ali Yuksel, Hassan Sawaf
arXiv:2502.00029v1 宣告类型:交叉 摘要:财务指标如夏普比率在平衡风险和收益以评估投资表现方面至关重要。然而,传统指标在稳健性和泛化能力方面通常存在不足,尤其是在动态和波动的市场条件下。本文介绍了AlphaSharpe,这是一种利用大语言模型(LLMs)迭代进化和优化财务指标的新框架。AlphaSharpe通过采用迭代杂交、突变和评估生成了优于传统方法的增强风险-收益指标,在稳健性和与未来绩效指标的相关性方面表现更佳。本工作的主要贡献包括:(1)将LLMs用于生成和改进受特定领域知识启发的财务指标的创新方式,(2)评分机制以确保进化后的指标能够有效泛化到未见过的数据,以及(3)实证展示了3倍的预测能力,用于未来风险-收益预测。实验结果表明,AlphaSharpe指标在其优越性方面超越了现有的指标,使得它们对于资产组合经理和金融决策者具有高度相关性。该框架不仅解决了现有指标的局限性,还展示了LLMs在推动金融分析方面的能力,为制定有信息量和稳健的投资策略铺平了道路。
发布时间: 2/4/2025
查看原文
作者: Ankur Singh, Dowon Kim, Byung-Geun Lee
arXiv:2502.00027v1 交叉类型公告 摘要:数据密集型计算任务,如训练神经网络,对人工智能应用至关重要,但往往伴随着高能耗需求。一种有前景的解决方案是开发专门硬件,直接映射神经网络,利用忆阻器阵列执行并行乘积求和操作。在我们的研究中,我们引入了一种基于CMOS的忆阻电容电路,并使用cadence工具进行了验证。此外,我们还在Python中开发了该设备,以促进基于忆阻电容的加速器的设计。我们提出的框架采用忆阻电容设备的交叉阵列来训练一个能够进行数字分类和CIFAR数据集识别的神经网络。我们测试了构建的忆阻电容神经网络的非理想特性。该系统在数字识别中的训练准确率达到98.4%,在CIFAR识别中的训练准确率达到94.4%,突显了其有效性。这项研究展示了基于忆阻电容的神经网络系统在处理分类任务方面的潜力,并为神经形态计算的进一步发展奠定了基础。
发布时间: 2/4/2025
查看原文
作者: Hui Wang, Yuan Cheng, Xiaomeng Han, Zhengpeng Zhao, Dawei Yang, Zhe Jiang
arXiv:2502.00026v1 类型:交叉 摘要:大型语言模型(LLMs)的巨额计算和内存需求阻碍了其部署。浮动小数点格式(Floating Point,FP)在加速线性操作方面已经证明是有效的,而线性操作是LLM工作负载的核心。然而,随着序列长度的增长,注意力等非线性操作因其二次计算复杂度逐渐成为性能瓶颈,这些非线性操作主要采用低效的浮点格式执行,使得系统优化软件效率和硬件开销变得困难。在本文中,我们探讨了将浮动小数点格式(BFP)应用于非线性操作的局限性和潜在可能。根据我们的发现,我们提出了一种硬件-软件协同设计框架(DB-Attn),包括:(i)DBFP,一种先进的BFP版本,采用重心聚焦策略应对多种数据挑战,并采用自适应分组策略灵活共享指数。(ii)DH-LUT,一种专门用于加速使用DBFP格式的非线性操作的新查找表算法。(iii)基于DBFP的RTL级引擎实现,支持DB-Attn,并适用于FPGA和ASIC。结果显示,DB-Attn在软化LLaMA的Softmax方面提供了显著的性能提升,且几乎不损失精度,并且相对于最新设计,实现了10倍的低开销性能提升。
发布时间: 2/4/2025
查看原文
作者: Abdulaziz Ahmed, Mohammad Saleem, Mohammed Alzeen, Badari Birur, Rachel E Fargason, Bradley G Burk, Hannah Rose Harkins, Ahmed Alhassan, Mohammed Ali Al-Garadi
arXiv:2502.00025v1 类别: cross 摘要: 目的: 评估将大型语言模型(LLMs)与传统机器学习方法集成是否能同时提高急诊精神健康随访风险模型的预测准确性和临床解释性。方法: 本回顾性队列研究分析了2018年1月至2022年12月期间在美国南部一所医学院校内27,904名独特精神健康患者42,464次急诊访问的数据。主要结局和指标: 评估了两个主要结果: (1) 30天急诊返还预测准确性,(2) 通过一种新的检索增强生成(RAG)框架(该框架结合了SHAP值与上下文临床知识)来评估模型解释性。结果: 所提出的人工智能解释框架,利用LLM,实现了将复杂的模型预测转化为临床相关解释99%的准确率。将LLM提取的特征纳入模型提升了预测性能,将XGBoost模型的曲线下面积(AUC)从0.73提高到0.76。基于LLM的特征提取采用10-shot学习显著优于传统方法,分类主要症状(主要症状分类)的准确性达到0.882,F1分数为0.86(而传统方法的准确性范围为0.59到0.63),并展示了在多种社会人口健康(SDoH)类别中的准确性值从0.65到0.93,突显了其在从临床笔记中提取特征方面的稳健表现。结论和意义: 将LLM与传统机器学习模型结合,尽管效果温和但具有一致性地提高了急诊返回预测准确性,同时通过自动化、临床相关的解释显著增强了模型解释性。该方法提供了一个将复杂的预测分析转化为具操作性的临床洞察的框架。
发布时间: 2/4/2025
查看原文