LLM2D

arXiv 论文列表

作者: Mrinal Rawat, Ambuje Gupta, Rushil Goomer, Alessandro Di Bari, Neha Gupta, Roberto Pieraccini
arXiv:2505.09970v1 公告类型: 新 摘要: 大语言模型(LLMs)中的 ReAct(推理+行动)能力已成为现代智能体系统的基石。最近的LLM,如DeepSeek-R1和OpenAI o1/o3,通过生成大量的中间令牌来强调推理,这有助于在生成最终输出令牌之前构建强有力的前提。在本文中,我们介绍了一种新的方法Pre-Act,它通过为给定用户输入创建一个多步骤执行计划和详细的推理来提高智能体的性能。该计划在每个步骤执行后逐步纳入先前的步骤和工具输出,直至最终响应获得前不断自我优化。我们的方法适用于both conversational and non-conversational智能体。为了全面衡量任务导向智能体的表现,我们提出了一种两级评估框架:(1) 轮次级别和(2) 整体流程。我们的轮次级别评估,在五种模型的平均结果中表明,Pre-Act 方式在 Almita 数据集上的行动召回率上比 ReAct 高出 70%。尽管这种方法对大型模型有效,但对实际应用中至关重要、而延迟和成本是关键限制的小型模型来说,它们往往难以完成智能体系统所需的复杂推理任务。为解决这一局限性,我们使用提出的 Pre-Act 方法对相对较小的模型(如 Llama 3.1,8B 和 70B)进行了微调。我们的实验结果显示,微调后的 70B 模型在 Almita(域外)数据集上的行动准确率(轮次级别)提高了 69.5%,整体完成率(整体流程级别)提高了 28%,超过了 GPT-4。
发布时间: 5/16/2025
查看原文
作者: Kevin J McNamara, Rhea Pritham Marpu
arXiv:2505.09932v1 宣布类型: 新 摘要: 人工智能(AI)的发展轨迹一直在不断加速,从原始的基于规则的系统演进成为能够进行复杂推理和交互的高级自主代理。这份白皮书记录了这一非凡的旅程,概述了关键的技术里程碑——包括提示技术的进展、训练方法、硬件能力和架构创新——这些进展汇集在一起,造就了今天的AI代理。我们认为,像OpenAI的ChatGPT插件版和xAI的Grok这样的系统,代表了AI发展的顶峰阶段,可能是我们目前所理解的“最终一代”智能。我们探讨了这些代理的能力及其底层技术,通过实际例子为基础,同时审视了其深刻的社会影响和前所未有的发展速度,表明智能现在大约每六个月翻一番。论文最后强调了在这个强劲新智能时代所带来的机遇和挑战中,需要具备智慧和远见的重要性。
发布时间: 5/16/2025
查看原文
作者: Minjung Shin, Donghyun Kim, Jeh-Kwang Ryu
arXiv:2505.09923v1 类型: 新增 摘要: 提问已成为人类和人工智能越来越重要的部分,但关于问题质量的全面评估研究仍然有限。为此,本研究定义了优质问题并提出了一个系统的评价框架。我们提出了两个关键的评价维度:适宜性(在特定情境下的社会语言能力)和有效性(在其目标实现中的策略能力)。基于这些基础维度,我们开发了一个评分系统,该系统采用量表评分法。通过融入动态的上下文变量,我们的评价框架通过半自适应标准实现了结构与灵活性的结合。该方法论利用 CAUS 和 SQUARE 数据集进行了验证,展示了框架在识别形成良好和存在问题的问题方面的能力,并能适应不同的上下文。随着我们建立一个灵活且全面的问题评价框架,本研究在将提问行为与基于提问本质的结构化分析方法整合方面迈出了重要一步。
发布时间: 5/16/2025
查看原文
arXiv:2505.09920v1 宣告类型: 新 摘要: 本文研究了使用不同的离线强化学习算法对带有太阳能渗透的微电网电压调节的应用。当由于技术或安全原因无法进行环境交互时,所提出的方法仍可以通过离线风格训练已预先收集的数据集来获得一个适用的模型,从而降低缺少在线环境交互的负面影响。实验结果表明,所提出的方法在不同离线数据集上具有可行性和有效性,包括仅包含低质量经验的数据集。
发布时间: 5/16/2025
查看原文
作者: Ziruo Yi, Ting Xiao, Mark V. Albert
arXiv:2505.09787v1 宣告类型: 新 摘要: 医学影像报告生成(RRG)的目标是从医学图像自动生产诊断报告,有望提高临床工作流程并减轻放射科医生的工作负担。虽然最近利用多模态大语言模型(MLLMs)和检索增强生成(RAG)的方法取得了出色的成果,但它们仍然面临事实不一致、幻觉和跨模态对齐不良等挑战。我们提出了一种与逐步临床推理工作流程相一致的多模态多代理框架,其中任务特定的代理处理检索、草稿生成、视觉分析、修订和综合。实验结果表明,我们的方法在自动评价指标和基于大语言模型的评估中均优于一个强大的基线方法,生成了更准确、更具结构化和可解释的报告。这项工作突显了与临床流程对齐的多代理框架在支持可解释和可信的临床AI应用方面的潜力。
发布时间: 5/16/2025
查看原文
arXiv:2505.09755v1 宣布类型: 新 摘要: 深度学习模型在胸部X光片中检测肺病理学方面显示出潜力,但由于模型决策过程不透明,其在临床中的广泛应用仍然受到限制。在之前的工作中,我们引入了ClinicXAI,一种以人为本、专家引导的概念瓶颈模型(CBM),旨在实现可解释的肺癌诊断。我们现在在此基础上进行了扩展,并介绍了XpertXAI,这是一种可泛化的专家驱动模型,保留了可由人类解释的临床概念,同时能够扩展以检测多种肺部病理学。使用基于InceptionV3的高性能分类器和公共的带有放射学报告的胸部X光片数据集,我们将XpertXAI与领先的事后解释方法和一种无监督的CBM(XCBs)进行了比较。我们通过与专家放射学家注释和医学事实进行比较来评估解释。尽管XpertXAI用于训练多种病理学,但我们的专家验证主要集中在肺癌领域。我们发现,现有的技术经常无法生成具有临床意义的解释,忽略了关键的诊断特征,并且与放射学家的判断不一致。XpertXAI不仅在预测准确性方面优于这些基线,而且还提供了更好的概念级解释,与专家推理更好地契合。尽管我们仍然专注于肺癌检测中的可解释性,但本研究展示了如何有效地将以人为本的模型设计扩展到更广泛的诊断场景,提供了一条实现临床有意义的可解释人工智能在医学诊断中的可扩展途径。
发布时间: 5/16/2025
查看原文
作者: Osher Elhadad, Reuth Mirsky
arXiv:2505.09737v1 宣布类型: 新文章 摘要:通过其行为理解代理的意图在人机交互、交互式人工智能系统和多代理协作中至关重要。这一任务,即目标识别(GR),在目标众多且不断变化的动态环境中提出了重大挑战。传统的GR方法,针对预定义的目标集,往往难以适应这些动态场景。为了解决这一局限,我们提出了通用动态GR问题——一种更广泛的GR定义——旨在使实时GR系统成为可能,并进一步推动该领域的研究。在此基础上,本文采用一种无模型的目标条件强化学习方法,使GR在各种变化的任务中能够快速适应。
发布时间: 5/16/2025
查看原文
作者: Tom\'as Capdevielle, Santiago Cifuentes
arXiv:2505.09640v1 宣告类型: 新 摘要: 给定一个分类模型和对某个输入的预测,有启发式的策略可以根据其在预测方面的相对重要性对特征进行排序。解决该任务的一种常见方法源于命题逻辑和“充足理由”的概念。通过这一概念,提出了相关和必要特征的类别,以识别输入的关键方面。本文改进了现有的选择相关和/或必要特征的技术和算法,特别是证明了在神经网络等复杂模型中可以高效地检测必要性。我们还泛化了相关性的概念并研究了相关的问题。此外,我们提出了一种新的全局概念(旨在解释一个特征是否对模型的总体行为重要,并不依赖于特定的输入),即“效用”,并证明了它与相关性和必要性有关。我们还开发了在决策树和其他更复杂模型中检测这种效用的有效算法,并在三个数据集上进行了实验以分析其实际用途。
发布时间: 5/16/2025
查看原文
arXiv:2505.09639v1 宣告类型: 新 摘要: 在数学意义上,游戏无处不在(游戏产业、经济学、国防、教育、化学、生物学,等等)。游戏中的搜索算法是用于玩这类游戏的人工智能方法。不幸的是,目前还没有对这些算法进行的任何研究来评估其性能的一般性。我们建议在两人完美信息零和游戏中解决这一缺口。此外,我们提出了一种新的搜索算法,并证明了在较短的搜索时间内,它在该大型实验中的所有游戏中表现优于所有研究的算法;而在中等搜索时间下,它在研究的22个游戏中中有17个游戏中表现优于所有研究的算法。
发布时间: 5/16/2025
查看原文
作者: Yatai Ji, Zhengqiu Zhu, Yong Zhao, Beidan Liu, Chen Gao, Yihao Zhao, Sihang Qiu, Yue Hu, Quanjun Yin, Yong Li
arXiv:2505.08765v2 任务类型: replace-cross 摘要: 城市环境中空域视觉物体搜索(Aerial Visual Object Search, AVOS)任务要求无人机使用视觉和文本线索自主搜索和识别目标对象,而无需外部指导。现有的方法在复杂的城市环境中遇到困难,主要是因为冗余的语义处理、相似对象的区分以及探索与利用之间的困境。为了弥合这一差距并支持AVOS任务,我们介绍了CityAVOS,这是首个用于自主搜索常见城市物体的标准数据集。该数据集包括六种类别、2,420个不同难度级别的任务,使UAV代理的搜索能力能够得到全面评估。为了解决AVOS任务,我们还提出了PRPSearcher(感知-推理-规划搜索者),这是一种使用多模态大型语言模型(MMLMs)驱动的全新代理方法,模拟了人类三层认知。具体而言,PRPSearcher 构建了三个专门的地图:一个基于动态语义地图增强的时空感知;一个基于语义吸引力值的目标推理的3D认知地图;一个3D不确定地图,用于平衡探索与利用的搜索。此外,我们的方法还包含了一个去噪机制,以减轻相似对象的干扰,并利用了启发式促进思考(IPT)的提示机制进行自适应动作规划。在CityAVOS上的实验结果表明,PRPSearcher 在成功率和搜索效率方面均优于现有基线(平均:+37.69%的成功率,+28.96%的搜索路径长度,-30.69%的测绘面积,-46.40%的不准确性)。尽管前景看好,但与人类的性能差距突显了AVOS任务中更好的语义推理和空间探索能力的需求。本项工作为未来在具身目标搜索方面的改进奠定了基础。数据集和源代码可从https://anonymous.4open.science/r/CityAVOS-3DF8获取。
发布时间: 5/15/2025
查看原文