LLM2D

arXiv 论文列表

arXiv:2505.02489v1 宣布类型: 新 摘要: 随着基础模型如 DeepSeek、Manus AI 和 Llama 4 的推出,现在很明显大型语言模型(LLMs)不再是一代生成式AI的唯一决定因素。随着许多模型现在在能力上达到了相近的水平,真正的竞赛不再关于拥有最大的模型,而是关于优化周围的生态系统,包括数据质量管理和计算效率、延迟以及评估框架。这篇综述文章深入探讨了这些关键的区别因素,以确保现代AI服务高效且盈利。
发布时间: 5/6/2025
查看原文
作者: Yunheng Zou, Austin H. Cheng, Abdulrahman Aldossary, Jiaru Bai, Shi Xuan Leong, Jorge Arturo Campos-Gonzalez-Angulo, Changhyeok Choi, Cher Tian Ser, Gary Tom, Andrew Wang, Zijian Zhang, Ilya Yakavets, Han Hao, Chris Crebolder, Varinia Bernales, Al\'an Aspuru-Guzik
arXiv:2505.02484v1 计算机化学工具类型: 新 摘要: 计算化学工具广泛用于研究化学现象的行为。然而,这些工具的复杂性可能会使其对非专家用户来说难以使用,并且即使是专家用户也会觉得具有挑战性。本文介绍了基于LLM的多智能体系统El Agente Q,该系统可以从自然语言用户提示动态生成和执行量子化学工作流。该系统基于一种新颖的认知架构,包含层次性记忆框架,能够灵活地分解任务、适应性地选择工具、后分析以及自主处理和提交文件。El Agente Q在六个大学级别的课程练习和两个案例研究中进行了基准测试,展示了稳健的问题解决性能(平均任务成功率>87%),并通过现场调试进行自适应错误处理。此外,它还支持更长时间的、多步骤任务执行以支持更复杂的流程执行,同时通过详细的操作跟踪日志保持透明性。这些能力为实现更加自主和易于使用的量子化学奠定了基础。
发布时间: 5/6/2025
查看原文
作者: Enpei Zhang, Jingyi Chai, Rui Ye, Yanfeng Wang, Siheng Chen
arXiv:2505.02462v1 公告类型:新 摘要:尽管数据在训练当代AI模型中起着关键作用,但人们认识到有价值的公开数据将在几年内耗尽,使全世界的目光转向了大规模的去中心化私人数据。然而,原始数据的隐私敏感性以及缺乏激励机制阻碍了这些有价值的数据被充分利用。为了解决这些挑战,本文提出了一种包容性和激励性的个性化联邦学习(iPFL),它通过激励具有多样化目标的数据持有者协作训练个性化模型而不泄露原始数据。iPFL通过基于图的训练优化构建了一个模型共享市场,并结合了基于博弈论原理的激励机制。理论分析表明,iPFL遵循两个关键的激励性质:个体理性和平坦性。对包括大型语言模型指令跟随任务在内的11个AI任务的实证研究表明,iPFL在经济效用上始终表现最佳,并且在基准方法上实现了更高的或相当的模型性能。我们期望我们的iPFL能够成为一种有价值的技巧,以促进在未来使用去中心化私人数据培训AI模型的同时让所有人都满意。
发布时间: 5/6/2025
查看原文
arXiv:2505.02443v1 宣言类型: 新文章 摘要: 由于COVID-19疫情推动了全球转向在线学习,人工智能已成为教育领域的重要参与者。智能辅导系统提供了一种个性化的教学新方法,取代了传统教学方法的局限性。然而,人们对人工智能辅导能否在学习过程中解决技能发展和参与度问题表示担忧。本文将通过对使用智能辅导系统前后34名学生在语言学习平台(如Santa和Duolingo)上的表现进行配对样本t检验的准实验,研究学生参与度、学术表现和对个性化语言学习体验满意度之间的关系。
发布时间: 5/6/2025
查看原文
arXiv:2505.02441v1 宣告类型: 新 摘要: 准确识别农业害虫对于作物保护至关重要,但由于害虫种类内部和之间的大量方差和细微差别,这一任务仍然具有挑战性。尽管深度学习在害虫检测方面取得了进步,但现有的大多数方法仅依赖低级视觉特征,缺乏有效的多模态集成,导致精度有限且解释性差。此外,高质量的多模态农业数据集的稀缺进一步限制了该领域的进展。为了解决这些问题,我们基于广泛使用的IP102数据集构建了两个新的多模态基准-CTIP102和STIP102,并引入了多尺度跨模态融合网络(MSFNet-CPD)以增强害虫检测的鲁棒性。我们的方法通过一个超分辨率重建模块增强视觉质量,并将原始图像和重建图像同时输入网络,以提高清晰度和检测性能。为了更好地利用语义线索,我们提出了一种图像-文本融合(ITF)模块,用于联合建模视觉和文本特征,并提出了一种图像-文本转换器(ITC),可以在多个尺度上重构细粒度细节以处理棘手的背景。此外,我们引入了一种任意组合图像增强(ACIE)策略来生成更复杂和多样化的害虫检测数据集MTIP102,从而提高模型对实际场景的泛化能力。广泛的实验表明,MSFNet-CPD在多种害虫检测基准上的一致性能优于最先进的方法。所有代码和数据集将在以下链接公开:https://github.com/Healer-ML/MSFNet-CPD。
发布时间: 5/6/2025
查看原文
作者: Yang Deng, Yaohui Liu, Rui Liang, Dafang Zhao, Donghua Xie, Ittetsu Taniguchi, Dan Wang
arXiv:2505.02439v1 宣告类型: 新 摘要: 预测潜在的暖通空调(加热、通风和空调)控制操作下室内实时温度变化的建筑热动力学模型对于优化建筑物的暖通空调控制至关重要。尽管先驱性的研究已经尝试为各种建筑环境开发此类模型,但这些模型往往需要长时间的数据收集期,并且高度依赖专家知识,这使得建模过程效率低下,并限制了这些模型的重用性。本文探讨了一种模型组合的观点,利用已开发的模型作为基础模型,以服务目标建筑环境,从而提供准确的预测并降低相关的努力。鉴于建筑数据流是非平稳的,基础模型的数量可能会增加,我们提出了一种层次强化学习(Hierarchical Reinforcement Learning, HRL)方法来动态选择和加权基础模型。我们的方法采用两层决策过程:高层关注模型选择,而低层确定所选模型的权重。我们通过离线实验和现场案例研究彻底评估了提出的方法,并且实验结果证明了我们方法的有效性。
发布时间: 5/6/2025
查看原文
作者: Baoxia Du, Hongyang Du, Dusit Niyato, Ruidong Li
arXiv:2505.02413v1 任务类型: 新 摘要: 任务导向的语义通信已经成为了提高各种通信场景性能的基本方法。尽管生成式人工智能(GenAI),如大型语言模型(LLMs)最近被应用到了语义通信的设计中,大型多模态模型(LMMs)的潜力仍未充分挖掘。在本文中,我们研究了基于LLMM的车辆AI助手,并使用了大型语言和视觉助手(LLaVA)来提出一种任务导向的语义通信框架,以促进用户和云服务器之间的高效互动。为减少计算需求并缩短响应时间,我们优化了LLaVA的图像切片,以便用户重点关注感兴趣的区域。此外,我们通过结合客观和主观的用户注意力评估图像斑块的重要性,并调整传输语义信息时的能量使用。这种策略优化了资源利用,确保了关键信息的精准传输。我们构建了一个用于交通场景的视觉问答(VQA)数据集来评估有效性。实验结果表明,我们的语义通信框架在相同信道条件下显著提高了问答准确性,特别是在信噪比(SNR)较差的环境中表现尤为出色。在12dB信噪比下,准确性可以提高13.4%,而在10dB信噪比下可以提高33.1%。
发布时间: 5/6/2025
查看原文
作者: Runquan Gui, Zhihai Wang, Jie Wang, Chi Ma, Huiling Zhen, Mingxuan Yuan, Jianye Hao, Defu Lian, Enhong Chen, Feng Wu
arXiv:2505.02322v1 宣告类型: 新 摘要:近期的进展显著提升了大型语言模型(LLMs)在处理复杂推理任务上的性能,在数学和逻辑推理等领域取得了显着的成功。然而,这些方法在处理复杂规划任务时遇到了挑战,主要原因在于推理步骤的延长、多样化的约束以及处理多个独立子任务的困难。为了解决这些挑战,我们提出了超树规划(HyperTree Planning, HTP)这一全新的推理范式,通过构建超树结构的规划大纲来实现有效的规划。超树结构允许LLMs通过灵活运用分而治之的策略进行层次化思考,有效地分解复杂的推理步骤,容纳多样化的约束,并以有条理的方式管理多个独立的子任务。我们还介绍了一种自主规划框架,该框架通过迭代细化和扩展超树结构的规划大纲来完成规划过程。实验结果表明,HTP的有效性,使用Gemini-1.5-Pro在TravelPlanner基准测试上达到了最先进的准确率,相比o1-preview性能提高了3.6倍。
发布时间: 5/6/2025
查看原文
作者: Junfeng Jiao, Jihyung Park, Yiming Xu, Lucy Atkinson
arXiv:2505.02306v1 安全类型: 新 摘要: 尽管有大量的公共安全文件和应急协议,但在危机期间,大多数个体仍然不具备解读和采取相应行动的能力。传统的应急决策支持系统(EDSS)主要是为专业人士设计的,高度依赖静态文档如PDF或SOP,这些文档在压力之下让非专业人士难以导航。这种机构知识与公众可访问性之间的差距成为有效应急准备和响应的关键障碍。 我们介绍了SafeMate,这是一个检索增强的人工智能助手,可在预备性和活跃性应急场景中为普通用户提供准确且情境相关的指导。SafeMate基于Model Context Protocol (MCP) 建立,能够动态路由用户查询至文档检索、检查列表生成和结构化总结等工具。它使用FAISS结合余弦相似度来识别来自可信来源的相关内容。
发布时间: 5/6/2025
查看原文
arXiv:2505.02279v1 通告类型: 新 摘要: 大型语言模型(LLM)驱动的自主代理需要稳健且标准化的协议来集成工具、共享情境数据并跨异构系统协调任务。临时集成难以扩展、安全且跨领域通用。本文回顾了四种新兴的代理通信协议:模型上下文协议(MCP)、代理通信协议(ACP)、代理到代理协议(A2A)和代理网络协议(ANP),每种协议针对不同的部署场景解决互操作性问题。MCP 提供了一个安全的 JSON-RPC 客户端-服务器接口,用于工具调用和带类型的数据交换。ACP 通过多部分消息和异步流式传输引入了 REST 原生消息传递,以支持多模态代理响应。A2A 通过基于能力的代理卡实现点对点任务外包,从而支持企业规模的工作流。ANP 使用去中心化的标识符(DIDs)和 JSON-LD 图谱支持开放网络代理发现和安全协作。根据比较分析,提出了一种分阶段的采用路线图:首先使用 MCP 进行工具访问,然后使用 ACP 进行多模态消息传递,A2A 进行协作任务执行,最后扩展到使用 ANP 进行去中心化的代理市场。本文为设计安全、互操作性和可扩展的 LLM 驱动代理生态系统提供了全面的基础。
发布时间: 5/6/2025
查看原文