LLM2D

arXiv 论文列表

作者: Faria Huq, Zora Zhiruo Wang, Frank F. Xu, Tianyue Ou, Shuyan Zhou, Jeffrey P. Bigham, Graham Neubig
arXiv:2501.16609v3 宣告类型: 重写 摘要:尽管网络代理研究工作着重于自动代用户执行任务的前景,但在现实世界的情境中,代理往往在处理复杂任务时表现不尽如人意,也无法准确建模用户偏好。这为人类与代理的合作提供了一个机会,以便更有效地利用代理的功能。我们提出了 CowPilot,这是一种支持自主导航和人类-代理协作网络导航以及评估框架,涵盖了任务成功率和任务效率。CowPilot 通过允许代理提出下一步行动来减少人类需要执行的步骤数量,用户则可以暂停、拒绝或将行动改为其他行动。在执行过程中,用户可以通过覆盖建议或在需要时重新获取代理控制权来与代理交错执行行动。我们在五个常见网站上进行了案例研究,发现人类-代理协作模式实现了 95% 的最高成功率,同时仅需人类执行总步骤的 15.2%。即使在任务执行过程中有人类干预,代理自己也能成功驱动多达一半的任务成功。CowPilot 可以作为跨网站进行数据收集和代理评估的一种有用工具,我们相信这将有助于研究用户和代理如何共同工作。视频演示可在 https://oaishi.github.io/cowpilot.html 查看。
发布时间: 4/8/2025
查看原文
作者: Brandon C. Colelough, William Regli
arXiv:2501.05435v2 介绍类型: 替换 摘要:背景:人工智能领域经历了周期性的增长和衰退,被称为AI夏天和冬天。目前,我们正处于第三个AI夏天,这一时期以显著的进展和商业化为特点,尤其是在符号AI和亚符号AI的整合方面,从而促成了神经符号AI的出现。 方法:该回顾研究采用了PRISMA方法论,利用了IEEE Explore、Google Scholar、arXiv、ACM和SpringerLink等数据库。纳入标准是筛选2020年至2024年间发表的同行评议论文。论文是基于其与神经符号AI的相关性进行筛选,并进一步根据是否存在相关代码库以确保可重现性。 结果:从最初的1428篇论文中,有167篇符合纳入标准并进行了详细分析。大多数研究努力集中在学习和推理(63%)、逻辑和推理(35%)以及知识表示(44%)领域。解释性和可信性相对较弱(28%),元认知是最少研究的领域(5%)。该回顾发现了显著的跨学科机遇,特别是在将解释性和可信性与其他研究领域结合方面。 结论:自2020年以来,神经符号AI研究取得了快速进展,集中在学习和推理方面。仍然存在显著的解释性、可信性和元认知差距。通过跨学科研究解决这些差距对于推动更智能、更可靠、更情境感知的人工智能系统的发展至关重要。
发布时间: 4/8/2025
查看原文
arXiv:2501.00539v2 宣告类型: 替换 摘要: MCP Solver 通过 Model Context Protocol (MCP) 将大型语言模型 (LLMs) 与符号求解器连接起来,MCP 是一种开源的 AI 系统集成标准。为 LLMs 提供形式求解和推理能力的访问权限,弥补了它们的关键不足之处,同时发挥其优势。我们的实现提供了与约束编程(Minizinc)、命题可满足性(PySAT)以及理论模态 SAT(Python Z3)的接口。该系统采用迭代验证的编辑方法,确保在修改过程中模型的一致性,并允许结构化的改进。
发布时间: 4/8/2025
查看原文
作者: Hao Du, Shang Liu, Lele Zheng, Yang Cao, Atsuyoshi Nakamura, Lei Chen
arXiv:2412.16504v2 宣告类型: 修改 摘要:微调已成为利用大型语言模型(LLMs)进行特定下游任务的关键过程,使这些模型能够在各种领域中达到最先进的性能。然而,微调过程往往涉及敏感数据,引入了利用这一阶段独特特征的隐私风险。本文提供了对微调LLMs相关隐私挑战的全面概述,重点关注各种隐私攻击,包括成员身份推断、数据提取和后门攻击。我们还回顾了在微调阶段设计的防御机制,例如差分隐私、联邦学习和知识遗忘,讨论了它们在应对隐私风险和保持模型实用性的有效性及局限性。通过识别现有研究中的关键空白,我们指出了挑战,并提出了进一步发展保护微调LLMs隐私的方法的方向,促进其在多种应用中的负责任使用。
发布时间: 4/8/2025
查看原文
arXiv:2412.06681v2 宣告类型:替换 摘要:在交通系统需求建模和仿真中,基于代理的模型和微观模拟是当前最先进的方法。然而,现有的基于代理的模型在行为现实性和资源需求方面仍存在一些限制,这限制了它们的应用范围。在本研究中,我们利用新兴的大语言模型(LLMs)和基于LLM的代理技术,提出了一种适用于交通系统的通用基于代理的大语言模型建模框架。我们认为,基于LLM的代理不仅具备作为代理的必要能力,还能为克服现有基于代理的模型的一些限制提供有前景的解决方案。我们概念框架的设计紧密地复制了交通网络中人类旅行者在决策和互动过程中的决策和特征,并通过相关研究和一个瓶颈设置中基于LLM代理的学习和调整的示例证明,所提出系统能够满足关键的决策和学习行为的标准。尽管仍需要进一步细化基于LLM的代理建模框架,但我们认为这种方法有可能改进交通系统的建模和仿真。
发布时间: 4/8/2025
查看原文
作者: Duo Wu, Jinghe Wang, Yuan Meng, Yanning Zhang, Le Sun, Zhi Wang
arXiv:2411.16313v2 宣告类型: 重写 摘要:利用大型语言模型(LLMs)进行工具规划已成为开发通用人工智能系统的一个有前途的途径,在这种途径中,LLMs根据任务描述自动调度外部工具(例如,视觉模型)来解决复杂任务。为了将这一范式推向实际应用,LLMs在工具规划时考虑工具执行成本(例如,执行时间)至关重要。不幸的是,以前的研究忽视了工具执行成本,导致生成了成本高于任务性能的昂贵计划。为了弥补这一缺口,我们提出了成本感知工具规划的大型语言模型框架(CATP-LLM),这是首次为LLMs提供了一个连贯的设计,以实现成本感知的工具规划。具体来说,CATP-LLM 接入了一种工具规划语言,以增强LLMs生成多个分支的非顺序计划,实现工具的高效并行执行和成本降低。此外,它进一步设计了一种成本感知的离线强化学习算法,以微调LLMs以优化工具规划中的性能与成本trade-off。由于缺乏公开的成本相关数据集,我们进一步介绍了OpenCATP,这是第一个用于成本感知规划评估的平台。在OpenCATP上的实验结果显示,即使使用Llama2-7B作为其骨干网络,CATP-LLM 在具有挑战性的规划任务中的平均计划性能提高了28.2%-30.2%,并且成本降低了24.7%-45.8%。代码和数据集可在 https://github.com/duowuyms/OpenCATP-LLM 获取。
发布时间: 4/8/2025
查看原文
作者: Minhua Lin, Zhengzhang Chen, Yanchi Liu, Xujiang Zhao, Zongyu Wu, Junxiang Wang, Xiang Zhang, Suhang Wang, Haifeng Chen
arXiv:2410.17462v2 通告类型: 替换 摘要: 时间序列数据在各个领域中普遍存在,包括制造业、金融和医疗保健。高质量的标注对于有效地理解时间序列并促进下游任务至关重要;然而,在关键任务领域获取这样的标注颇具挑战性。本文中,我们提出了一种名为TESSA的多智能体系统,旨在自动为时间序列数据生成通用和领域特定的标注。TESSA引入了两个智能体:一个通用标注智能体和一个领域特定标注智能体。通用智能体捕获跨多个源领域的一般模式和知识,利用时间和文本特征生成通用标注。与此同时,领域特定智能体利用目标领域的有限标注来学习领域特定术语并生成针对性的标注。对多个合成和真实世界数据集的广泛实验表明,TESSA能够有效生成高质量的标注,并优于现有方法。
发布时间: 4/8/2025
查看原文
arXiv:2410.15285v2 宣告类型: 替换 摘要: 云基础大型语言模型(LLMs)的发展已经彻底改变了人工智能辅助编程。然而,由于计算需求和沙盒限制,将这些模型整合到某些本地开发环境中(例如,苹果软件生态系统中的iOS应用、macOS)仍然具有挑战性。本文提出了CAMP,一个由本地模型组成的多模型人工智能辅助编程框架,该本地模型使用检索增强生成(RAG)从代码库中检索上下文信息,以辅助上下文感知提示构建,从而优化云模型的性能,使大型语言模型的能力能够在本地集成开发环境(IDEs)中得到增强。该方法在Copilot for Xcode中实现,这是一个针对Xcode的人工智能辅助编程工具,采用RAG模块解决软件约束,并支持自动代码完成、文档生成、错误检测和智能用户代理交互等多种生成性编程任务。通过生成代码质量和用户采用方面的客观实验和主观实验结果,该提议系统的试点成功得以证明,并标志着其对人工智能辅助编程领域的重要贡献。
发布时间: 4/8/2025
查看原文
作者: Sijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y. Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, Ion Stoica
arXiv:2410.12784v2 宣布类型: 更换 摘要: 基于大语言模型的裁判已成为一种可扩展的替代人类评估的方案,并越来越多地用于评估、比较和改进模型。然而,基于大语言模型的裁判自身的可靠性很少受到关注。随着大语言模型的先进性提高,它们的回答变得更加复杂,需要更强的裁判来评估它们。现有的基准主要集中在裁判与人类偏好的对齐上,但往往会忽略那些事实和逻辑正确性难以通过众筹的人类偏好来衡量的更具挑战性的任务。为了解决这一问题,我们提出了一种新的评估框架,用于客观评估基于大语言模型的裁判。基于此框架,我们提出了JudgeBench,这是一个基准,用于评估涵盖知识、推理、数学和编程等领域的具有挑战性的回答对。JudgeBench 利用了将现有困难数据集转换为带有客观正确性反映偏好标签的具有挑战性的回答对的新型流水线。在对一组被提示的裁判、微调过的裁判、多代理裁判以及奖励模型进行全面评估后,我们发现JudgeBench 比之前的基准提出了更大的挑战,许多强大的模型(例如,GPT-4o)的表现仅仅略好于随机猜测。总体而言,JudgeBench 提供了一个可靠的平台,用于评估不断进化的基于大语言模型的裁判。数据和代码可在 https://github.com/ScalerLab/JudgeBench 获取。
发布时间: 4/8/2025
查看原文
作者: Payam Saeedi, Mahsa Goodarzi, M Abdullah Canbaz
arXiv:2410.02820v3 通知类型: 替换 摘要: 我们在三个大型语言模型(LLMs):GPT-4o、Gemma 2 和 Llama 3.1 中调查了认知偏差的存在。该研究使用了九种已确立的认知偏差的1,500次实验来评估这些模型的响应和一致性。GPT-4o 在整体性能上表现最强。Gemma 2 在处理沉没成本谬误和期望价值理论方面表现出优势,但其在不同偏差方面的表现有所波动。Llama 3.1 始终表现不佳,依赖启发式方法,并表现出频繁的一致性和矛盾性。研究结果突显了在 LLMs 中实现稳健且可推广推理的挑战,并强调了需要进一步发展以减轻人工智能通用性(AGI)中的偏差。该研究强调了在未来的AI发展中整合统计推理和伦理考虑的重要性。
发布时间: 4/8/2025
查看原文