arXiv:2503.23350v1 宣告类型: 新
摘要: 随着网络技术的进步,它们显著地改变了人们生活的方方面面。尽管网络的重要性不言而喻,但许多在网络上完成的任务往往是重复性和耗时的,这对人们的整体生活质量产生了负面影响。为了高效地处理这些繁琐的日常任务,最有可能的方法之一是基于人工智能技术(AI技术)推进自主代理,称为AI代理,因为它们可以在没有疲劳或性能下降的情况下连续操作。在网络的背景下,利用被称为WebAgents的AI代理来自动协助人们处理繁琐的日常任务,可以显著提高生产力和效率。最近,包含数十亿参数的大型基础模型(LFMs)展示了类人语言理解与推理能力,并在执行各种复杂任务方面表现出色。这自然引出了一个问题:“大型基础模型能否被利用来开发强大的AI代理,自动处理网络任务,为用户提供重大便利?”为充分利用大型基础模型的潜力,针对根据用户指令完成日常网络任务的WebAgents的设计进行了广泛的研究,显著提高了日常生活的便利性。在本文综述中,我们全面回顾了WebAgents在三个关键方面的现有研究,包括架构、训练和可信度。此外,还探讨了几条具有前景的研究方向,以提供更深入的见解。
arXiv:2503.23339v1 通知类型: 新
摘要: 大型语言模型(LLMs)已成为分析复杂数据集的强大工具。近期研究表明,在提供包含生活方式、生物标志物和上下文的患者特定健康信息时,它们有可能生成有用且个性化的响应。随着基于LLM的健康应用的日益普及,有效的单向评估方法至关重要,这有助于在多个维度确保响应质量,包括准确性、个性化和安全性。目前,对开放文本响应的评估很大程度上依赖于人类专家。这种方法引入了人为因素,并且常常成本高昂、劳动密集,不利于大规模应用,尤其是在需要领域专业知识的复杂领域如医疗保健,其中响应评估需要考虑多方面的患者数据。在本工作中,我们引入了自适应精确布尔评判标准,这是一种通过使用一组针对性的问题来识别模型响应中的差距,从而简化人工和自动评估开放问题的评估框架。我们的方法基于在更通用评估设定中的一些最近研究,将一组复杂的评估目标与一组更精确、可由简单布尔响应回答的细粒度目标进行对比。我们在代谢健康领域验证了这一方法,代谢健康涵盖了糖尿病、心血管疾病和肥胖症。我们的结果表明,自适应精确布尔评判标准能够比传统的Likert量表在专家和非专家人类评价者之间获得更高的评定一致性,并在自动化评估中具有更高的一致性,同时所需评估时间约为Likert方法的一半。这种增强的效率,特别是在自动化评估和非专家贡献方面,为更广泛和成本效益更高的LLM评估铺平了道路。
arXiv:2503.23329v1
公告类型: 新闻
摘要: misinformation 贯穿多个领域,但针对特定领域的检测方法在应用于其他领域时表现不佳。随着大型语言模型(LLMs)的迅速发展,研究人员已经开始利用LLMs进行跨域 misinformation 检测。然而,现有的基于LLM的方法往往无法充分分析目标领域的新闻,限制了它们的检测能力。更重要的是,这些方法通常依赖于人工设计的决策规则,这些规则受限于领域知识和专家经验,从而限制了决策规则在不同领域的普适性。为了解决这些问题,我们提出了一种基于自动决策规则优化的跨域 misinformation 检测多智能体框架(MARO)。在该框架下,我们首先使用多个专家智能体来分析目标领域的新闻。随后,我们引入了一个问答反思机制,引导专家智能体进行更高质量的分析。此外,我们提出了一种基于精心设计的跨域验证任务的决策规则优化方法,以逐步增强不同领域决策规则的有效性。在常用数据集上的实验结果和深入分析表明,MARO 在现有方法的基础上实现了显著改进。
arXiv:2503.23326v1 宣布类型: 新
摘要:Monte-Carlo Tree Search (MCTS) 是一类用于顺序决策领域在线规划的基于采样的搜索算法, 并且是近年来人工智能许多进展的核心。由于模拟多种可能的未来、评估它们并确定它们之间的关系, MCTS代理的行为对于开发人员和用户来说是难以理解的, 因为此类搜索树通常非常庞大且复杂。本文介绍了我们对MCTS的决策和行为潜在解释的持续研究。MCTS的一个缺点是它构建了一个高度选择性的树, 结果可能会错过关键的移动并陷入战术陷阱。全宽度Minimax搜索构成了解决方案。我们将在多玩家MCTS的展开阶段整合浅层Minimax搜索, 并使用过程挖掘技术来解释3v3跳棋中代理的策略。
arXiv:2503.23315v1 宣布类型: 新颖
摘要: 我们引入了“设计代理”这一概念,特别是在工程应用中,特别强调我们的方法可以轻松扩展到其他工程和设计领域。我们的框架将基于人工智能的设计代理整合到传统的工程工作流程中,展示了这些专门的计算代理如何无缝地与工程师和设计师互动,增加创造力,提高效率,并大大加速整个设计周期。通过自动化和简化传统上手动完成的任务,如概念草图、造型增强、三维形状检索和生成建模、计算流体动力学(CFD)网格生成和气动仿真,我们的方法将某些传统工作流程从几周或几天缩短到几分钟。这些代理利用最先进的视觉-语言模型(VLMs)、大型语言模型(LLMs)和几何深度学习技术,提供快速迭代和全面的设计探索能力。我们基于行业的基准方法,涵盖了各种传统的汽车设计,并利用高保真气动仿真确保实际和可应用的结果。此外,我们展示了可以迅速准确预测仿真结果的设计代理,使工程师和设计师能够进行更有依据的设计优化和探索。这项研究突显了在复杂工程任务中集成先进生成式AI技术的变革潜力,为多个工程学科的更广泛采用和创新铺平了道路。
arXiv:2503.23314v1 通知类型: 新
摘要: 大规模语言模型(LLMs)通过实现动态推理和适应性,革命性地改变了自动化数据分析和机器学习。尽管近年来的方法通过多智能体系统推进了多阶段管道的发展,但它们通常依赖于固定的单路径工作流程,限制了多样策略的探索和整合,经常导致预测结果欠佳。为了解决这些挑战,我们提出了一种名为 SPIO(顺序计划整合与优化)的新框架,该框架利用 LLM 驱动的决策来协调四个关键模块(数据预处理、特征工程、建模和超参数调整)中的多智能体规划。在每个模块中,专门的规划智能体独立生成候选策略,这些策略依次传递到后续阶段,促进全面的探索。计划优化智能体通过建议多个优化计划来改进这些策略。我们进一步引入了两种变体:SPIO-S,它根据 LLM 选择最佳解决方案路径,以及 SPIO-E,它选择前 k 个候选计划并将它们集成起来以最大化预测性能。在 Kaggle 和 OpenML 数据集上的广泛实验表明,SPIO 显著优于现有最先进的方法,提供了一种稳健且可扩展的自动化数据科学任务解决方案。
arXiv:2503.23312v1 宣布类型: 新增
摘要: 会话推荐系统通过对话来细化用户需求并提供更加个性化的建议。尽管文本信息在许多领域已经足够,但像时尚或家居装饰等视觉驱动类别可能需要与颜色、风格或设计相关的详细视觉信息。为了解决这一挑战,我们提出了一种新颖的方法 LaViC(大型视觉-语言对话推荐框架),该方法将紧凑的图像表示整合到基于对话的推荐系统中。LaViC 采用两阶段过程:(1) 视觉知识自我蒸馏,该过程通过自我蒸馏方式将数百个产品图像浓缩成少量的视觉标记,显著减少了计算开销;(2) 推荐提示调优,使模型能够结合对话上下文和蒸馏后的视觉标记,提供一个统一的机制来捕捉文本和视觉特征。为了支持对具有视觉感知的对话推荐进行严格的评估,我们通过将 Reddit 对话与亚马逊产品列表对齐,构建了一个新的数据集,涵盖了多个视觉导向类别(例如,时尚、美容和家居)中的真实用户查询和产品外观。这个数据集包含了诸如视觉细节至关重要的领域中的现实场景。广泛的实验表明,LaViC 显著优于仅基于文本的对话推荐方法和开源的视觉-语言基线。此外,LaViC 达到了与知名专有基线(例如 GPT-3.5-turbo、GPT-4o-mini 和 GPT-4o)相近或更优的准确性,这证明了明确使用视觉数据捕捉产品属性的必要性,以及我们视觉-语言整合的有效性。我们的代码和数据集可在 https://github.com/jeon185/LaViC 获取。
arXiv:2503.23299v1 通知类型: 新颖
摘要:人工智能应用的数量正在增长,但并没有专门针对帮助居民解答有关城市管理预算问题的应用。这类问题虽然很多人都感兴趣,但真正理解的人却很少。在这篇研究论文中,我们提出了一种名为GRASP的定制AI聊天机器人框架,其全称为“基于检索和行动系统的生成”(Generation with Retrieval and Action System for Prompts)。与传统的信息检索系统(如通用大规模语言模型[LLMs]或网络搜索)相比,GRASP能提供更加真实和基于事实的用户预算查询答复。这些改进来自于检索辅助生成(RAG)框架("生成与检索")和主动工作流程("行动系统")的创新结合,以及提示工程技巧、市政预算领域的知识整合,以及与当地市政府官员的合作以确保答复的真实性。在测试中,我们发现我们的GRASP聊天机器人在78%的情况下能够为地方市政预算查询提供精确和准确的回答,而GPT-4o和Gemini分别只有60%和35%的准确率。GRASP聊天机器人极大地减少了公众获取对其所在城镇预算直观且正确理解所需的时间和精力,从而促进了更广泛的社区对话,提高了政府的透明度,并使市民能够做出更明智的决策。
arXiv:2503.23190v1 通告类型: 新
摘要: 加密货币通过其创新的区块链技术和价格的剧烈波动,已经重塑了金融市场,既带来了挑战也带来了机遇,为预测分析提供了新的视角。作为领先的加密货币之一,以太坊经历了显著的市场波动,使得价格预测成为一个既有吸引力又复杂的难题。本文旨在研究大型语言模型(LLMs)在预测以太坊价格方面的有效性,特别是在短期和少样本预测场景中。时间序列分析模型训练的主要挑战是数据的缺乏。我们通过利用一种新颖的方法来解决这一问题,即将现有的数十亿令牌预训练的大语言模型或图像适应以太坊价格时间序列数据的特有特征。通过彻底的实验和与传统及现代模型的比较,我们的结果表明,在预训练的大语言模型中选择性地冻结某些层可以在这个领域达到最先进的性能。这种方法在多个指标,包括均方误差(MSE)、均绝对误差(MAE)和均方根误差(RMSE)方面始终优于基准,证明了其有效性和稳健性。我们的研究不仅增加了对预训练大语言模型已有知识的贡献,还为加密货币预测领域提供了实用的见解。预训练大语言模型对以太坊价格性质的适应性表明,将其与情绪分析集成可能为进一步提高预测准确性提供一个有前景的方向。
arXiv:2503.23170v1 通知类型: 新
摘要: 随着太阳系内即将进行的样本返回任务和质谱数据的不断增加的可用性,迫切需要能够在现有天体生物学文献背景下分析这些数据并生成关于地球生命起源的合理假设的方法。从质谱数据中生成假设具有挑战性,原因包括环境污染物、光谱峰的复杂性以及与先前研究中的光谱峰进行跨匹配的困难。为了应对这些挑战,我们引入了AstroAgents,这是一种基于大型语言模型、以多智能体为基础的人工智能系统,用于从质谱数据中生成假设。AstroAgents以八个协作智能体为结构:数据分析师、规划员、三个领域科学家、收集员、文献审查员和批评家。该系统在处理质谱数据的同时,还处理用户提供的研究论文。数据分析师解释数据,规划员将特定部分分配给科学家智能体进行深入探索。然后收集员收集并去重生成的假设,文献审查员使用Semantic Scholar识别相关的文献。批评家评估假设,提供严格的改进建议。为了评估AstroAgents,一位天体生物学专家评估了从八个陨石和十个土壤样品中生成的超过一百个假设的新颖性和合理性。在这其中,36%被认为是合理的,而在这些合理假设中,66%是新颖的。项目网站: https://astroagents.github.io/