LLM2D

arXiv 论文列表

作者: Patrick Mineault, Niccol\`o Zanichelli, Joanne Zichen Peng, Anton Arkhipov, Eli Bingham, Julian Jara-Ettinger, Emily Mackevicius, Adam Marblestone, Marcelo Mattar, Andrew Payne, Sophia Sanborn, Karen Schroeder, Zenna Tavares, Andreas Tolias
随着人工智能系统变得越来越强大,安全人工智能的需求也变得越来越迫切。人类是人工智能安全的一个极具吸引力的模型:作为唯一已知的能够实现通用智能的智能体,即使在与先前经验显著偏离的条件下,人类也能稳健地执行任务,安全地探索世界,理解语用学,并能够合作以实现其内在目标。智能,当与合作和安全机制相结合时,能够推动持续进步和福祉。这些特性是大脑结构及其所实现的学习算法的函数。因此,神经科学可能掌握着目前尚未充分探索和利用的技术人工智能安全的重要钥匙。在本路线图中,我们重点介绍并批判性地评估了几条受神经科学启发的人工智能安全途径:模拟大脑的表征、信息处理和架构;通过模仿大脑数据和身体来构建强大的感觉和运动系统;利用大脑数据微调人工智能系统;利用神经科学方法提高可解释性;以及扩展认知启发式架构。我们对神经科学如何积极影响人工智能安全提出了一些具体的建议。
发布时间: 11/28/2024
查看原文
作者: Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
图形用户界面(GUI)长期以来一直是人机交互的核心,它提供了一种直观且以视觉为导向的方式来访问和交互数字系统。大型语言模型(LLM),特别是多模态模型的出现,开启了GUI自动化的新时代。它们在自然语言理解、代码生成和视觉处理方面展现了卓越的能力。这为新一代基于LLM的GUI代理铺平了道路,这些代理能够解释复杂的GUI元素并根据自然语言指令自主执行操作。这些代理代表着一种范式转变,使用户能够通过简单的会话命令执行复杂的多步骤任务。它们的应用涵盖网络导航、移动应用程序交互和桌面自动化,提供了变革性的用户体验,彻底改变了个人与软件交互的方式。这个新兴领域正在快速发展,在研究和产业方面都取得了显著进展。为了对这一趋势提供结构化的理解,本文对基于LLM的GUI代理进行了全面的综述,探讨了它们的演变历史、核心组件和先进技术。我们探讨了诸如现有的GUI代理框架、用于训练专用GUI代理的数据收集和利用、为GUI任务量身定制的大型动作模型的开发,以及评估其有效性所需的评估指标和基准等研究问题。此外,我们还考察了由这些代理驱动的新兴应用。通过详细的分析,本综述确定了关键的研究差距,并为该领域的未来发展规划了路线图。通过整合基础知识和最先进的发展成果,这项工作旨在指导研究人员和实践者克服挑战,并释放基于LLM的GUI代理的全部潜力。
发布时间: 11/28/2024
查看原文
作者: Xiang Cheng, Zhi Mao, Ying Wang, Wen Wu
本文提出一种新颖的依赖感知任务调度策略,用于动态无人机辅助联网自动驾驶汽车 (CAV)。具体来说,将由多个依赖子任务组成的 CAV 的不同计算任务合理地分配给附近的 CAV 或基站,以快速完成任务。因此,我们制定了一个联合调度优先级和子任务分配优化问题,目标是最小化平均任务完成时间。该问题旨在提高长期系统性能,并被重新表述为马尔可夫决策过程。为了解决这个问题,我们进一步提出了一种基于扩散的强化学习算法,称为基于合成 DDQN 的子任务调度,该算法可以实时做出自适应的任务调度决策。将基于扩散模型的合成经验回放集成到强化学习框架中,可以生成经验回放缓冲区中足够的合成数据,从而显著加快收敛速度并提高样本效率。仿真结果表明,与基准方案相比,该算法在减少任务完成时间方面是有效的。
发布时间: 11/28/2024
查看原文
作者: Mintaek Lim, Seokki Lee, Liyew Woletemaryam Abitew, Sundong Kim
本文探讨了增强人工智能推理能力的挑战,重点关注抽象与推理语料库 (ARC) 中的逻辑性。人类解决此类视觉推理任务是基于观察和假设,并能给出合理的解释。然而,许多先前的方法只关注网格转换,这不足以使人工智能提供合理且类似人类的解决方案。通过考虑人类解决视觉推理任务的过程,我们得出结论:思维过程很可能是溯因推理过程。因此,我们提出了一种新颖的框架,该框架将观察到的数据符号化地表示为知识图谱,并提取可用于生成解决方案的核心知识。此信息限制了解决方案的搜索空间,并有助于提供合理的中间过程。我们的方法有望通过有效缩小解决方案空间并提供基于核心知识提取的逻辑解决方案来提高 AI 在 ARC 任务上的性能。
发布时间: 11/28/2024
查看原文
作者: Miao Fan, Jizhou Huang, An Zhuo, Ying Li, Ping Li, Haifeng Wang
私人房产估值是一项极具吸引力但极具挑战性的任务,受到全世界大多数人的广泛关注。我们长期以来一直在探讨“我的房子值多少钱?”这个问题。为了回答这个问题,大多数经验丰富的机构会根据房产属性、周边人口统计数据和公共设施等因素来对房产进行估价。然而,没有人知道这些因素的确切价格,特别是可能有助于评估私人房产的公共设施的价值。在本文中,我们介绍了我们新启动的项目“垄断”(以经典的棋盘游戏命名),在这个项目中,我们提出了一种分布式方法,通过利用我们通过百度地图积累的大规模城市数据来学习公共设施(如医院等)的价格,从而重新估算私人房产的价值。具体来说,我们的方法将许多兴趣点 (POI) 组织成一个无向加权图,并将包括周边公共设施虚拟价格在内的多个因素作为自适应变量,以并行估计我们已知的房价。然后,公共设施和私人房产的价格可以根据预测损失迭代更新,直到收敛。我们已经使用中国几个大都市的大规模城市数据进行了广泛的实验。结果表明,我们的方法比几种主流方法具有显著优势。更深入的讨论进一步表明,“垄断”项目是商业智能和城市计算交叉学科领域的一个创新应用,它将有利于数千万用户的投资,并有利于政府的城市规划和税收。
发布时间: 11/28/2024
查看原文
作者: Miao Fan, Jizhou Huang, Haifeng Wang
随着移动设备的普及,Web地图服务已成为我们日常生活中不可或缺的工具。为了提供用户满意的服务,例如位置搜索,兴趣点 (POI) 数据库是基础设施,因为它存档了数十亿个与人们生活密切相关的地理位置(例如商店或银行)的多模态信息。因此,验证大规模POI数据库的正确性至关重要。为实现这一目标,许多工业公司采用志愿地理信息 (VGI) 平台,使数千名众包工人和专业地图绘制人员能够无缝地验证POI;但这样做,他们每年必须花费数百万美元。为了节省巨大的劳动力成本,我们设计了DuMapper,这是一个利用百度地图多模态街景数据进行大规模POI自动验证的系统。DuMapper以实际地点的招牌图像和坐标作为输入,生成一个低维向量,该向量可被ANN算法利用,从而在毫秒内对数据库中数十亿个存档POI进行更准确的搜索以进行验证。它可以将POI验证的吞吐量提高50倍。DuMapper自\DuMPOnline上线以来已投入生产,极大地提高了百度地图POI验证的生产力和效率。截至2021年12月31日,它在3.5年内进行了超过4.05亿次的POI验证迭代,相当于大约800名高性能专业地图绘制人员的工作量。
发布时间: 11/28/2024
查看原文
恐怖小说作家童年经历是否比其他作家更糟糕?尽管许多作家的生平细节为人所知,但定量探索这种定性假设需要大量的人力,例如筛选大量作家的传记和访谈,并反复寻找反映定性兴趣的定量特征。本文探讨了通过以下方法快速构建此类假设的潜力:(1)应用大型语言模型 (LLM) 来估计具体实体(如特定人物、公司、书籍、动物种类和国家)的属性;(2)执行现成的分析方法来揭示这些属性之间可能的关系(例如线性回归);以及为了进一步自动化,(3)应用大型语言模型来提出可能有助于支持特定定性假设的定量属性本身(例如,在正在运行的示例中,逆境童年事件的数量)。希望通过人机协作,能够更快地筛选假设。我们的实验表明,大型语言模型确实可以作为各种领域中特定实体表格数据的有用估计器,并且这种估计随着模型规模的扩大而改进。此外,初步实验表明,大型语言模型具有将感兴趣的定性假设映射到大型语言模型可以估计的相关具体变量的潜力。结论是,大型语言模型为帮助阐明其训练所基于的互联网规模数据中潜在的科学有趣模式提供了诱人的潜力。
发布时间: 11/28/2024
查看原文
作者: Amin Ibrahim, Azam Asilian Bidgoli, Shahryar Rahnamayan, Kalyanmoy Deb
随着对多目标和多目标优化算法兴趣的增长,这些算法的性能比较变得越来越重要。已经引入了大量的多目标优化算法性能指标,每个指标都基于特定方面来评估这些算法。因此,使用多个指标评估多目标结果的质量对于保证评估考虑所有质量方面至关重要。本文提出了一种新的多指标比较方法,用于根据一组性能指标对多目标/多目标优化算法的性能进行排序。我们利用帕累托最优性概念(即非支配排序算法),通过同时考虑多个性能指标作为标准/目标来创建算法的等级。因此,提出了四种不同的技术来根据算法在每个帕累托级别上的贡献对其进行排序。这种方法允许研究人员利用一组现有/新开发的性能指标来充分评估/排序多目标/多目标算法。所提出的方法具有可扩展性,并且可以在其综合方案中容纳任何新引入的指标。该方法被用于对2018年CEC竞赛中解决15个多目标测试问题的10种竞争算法进行排序。帕累托最优排序是基于10个著名的多目标性能指标进行的,并将结果与竞赛报告的最终排名进行了比较,后者是基于反向代际距离(IGD)和超体积指标(HV)度量得出的。本文提出的技术在科学和工程领域有着广泛的应用,尤其是在使用多个指标进行比较的领域,例如机器学习和数据挖掘。
发布时间: 11/28/2024
查看原文
作者: Wanyi Chen, Meng-Wen Su, Nafisa Mehjabin, Mary L. Cummings
随着大型语言模型(LLM)日益集成到车辆导航系统中,了解其路径规划能力至关重要。我们通过六个在不同环境和难度下的真实世界路径规划场景测试了三个LLM。我们的实验表明,所有LLM在所有场景中都犯了大量错误,表明它们是不可靠的路径规划器。我们建议未来的工作重点在于实施现实性检查机制、增强模型透明度以及开发更小的模型。
发布时间: 11/28/2024
查看原文
ARC-AGI是一个开放世界问题领域,其中泛化到分布外数据的能力至关重要。在程序归纳范式下,我们进行了一系列实验,揭示了各种神经引导程序归纳方法的效率和泛化特性。我们考虑了三种范式:学习网格空间、学习程序空间和学习变换空间。我们对前两种范式进行了完整的实现和实验,并保留第二种范式用于ARC-AGI提交。在识别这两种方法的优缺点后,我们提出了第三种方法作为潜在的解决方案,并进行了初步实验。
发布时间: 11/28/2024
查看原文