arXiv:2505.00008v1 交叉类型:公告
摘要:目标:本文旨在探讨使用自然语言处理(NLP)检测、纠正和减轻医学不准确信息(包括错误、误导信息和幻觉)的潜力和挑战。通过统一这些概念,本文强调了它们共同的方法论基础及其对医疗保健的不同影响。我们的目标是提高患者安全,改善公共卫生沟通,并支持医疗保健领域更可靠和透明的NLP应用的发展。
方法:本研究遵循PRISMA指南进行了范围审查,分析了2020年至2024年期间五个数据库中的研究。根据其使用NLP解决医学不准确信息的研究被选中,并按主题、任务、文档类型、数据集、模型和评估指标进行分类。
结果:NLP在以下任务中显示了处理医学不准确信息的潜力:(1)错误检测(2)错误纠正(3)误导信息检测(4)误导信息纠正(5)幻觉检测(6)幻觉减轻。然而,仍存在数据隐私、上下文依赖性和评估标准等方面的挑战。
结论:本文突出了将NLP应用于处理医学不准确信息的进展,同时强调了需要应对的持续挑战。未来的工作应侧重于开发现实世界的数据集、细化上下文方法以及改善幻觉管理,以确保医疗保健应用的可靠性和透明度。
arXiv:2505.00006v1 类型: cross
摘要: 在本文中,我们提供了证据,证明基于语言模型集合的美国国会议员虚拟模型符合数字双胞胎的定义。特别是,我们介绍并提供了每天更新的数据集,该数据集包含每位国会议员在其任期期间发布的每一条推特。我们展示了在配备与每位国会议员相关的特定子数据集的现代语言模型下,可以生成与实际由其物理对应物发布的推特几乎无法区分开来的推特。我们说明了生成的推特如何被用于预测表决行为以及量化国会议员改变党派立场的可能性,从而帮助利益相关者分配资源并可能影响实际的立法动态。最后,我们讨论了我们分析的局限性和重要扩展。
arXiv:2505.00004v1 类型: cross
摘要: 我们提出了LangVAE,这是一种基于预训练大语言模型(LLMs)构建变分自编码器(VAEs)模块化框架的新方法。这样的语言模型VAE能够将其预训练组件的知识编码进更紧凑且语义上解耦的表示中。通过这种方式获得的表示可以用LangVAE配套框架LangSpace进行分析:LangSpace实现了多种探针方法,如向量遍历和插值、解耦度量以及聚类可视化。LangVAE和LangSpace提供了一种灵活、高效且可扩展的方式来构建和分析文本表示,同时与HuggingFace Hub上的模型具有简单的集成性。此外,我们还进行了不同编码器和解码器组合以及注解输入的一系列实验,揭示了不同类型和规模架构在泛化能力和解耦方面广泛的存在形式。我们的研究结果展示了系统化实验和理解文本表示的一种有前景的框架。
arXiv:2505.00651v1
公告类型: 新增
摘要:车联网(IoV)生态系统中连接车辆的普及带来了确保可扩展性、实时性和隐私保护的交通管理的关键挑战。现有的集中式IoV解决方案往往存在高延迟、扩展性有限以及依赖于专有人工智能模型的问题,这在动态和隐私敏感环境中构成了广泛部署的重大障碍。同时,将大型语言模型(LLMs)集成到车用系统中仍然相对未被探索,尤其是在联邦场景下的提示优化和有效利用方面。为了解决这些挑战,我们提出了一种名为联邦提示优化交通变换器(FPoTT)的新颖框架,该框架利用开源LLMs进行预测性IoV管理。FPoTT引入了一种动态提示优化机制,该机制通过迭代改进文本提示来增强轨迹预测。架构采用双重联邦学习范式,结合轻量级边缘模型进行实时推断与基于云的LLM相结合,以保留全球智能。框架还集成了基于Next Generation Simulation(NGSIM)格式的Transformer驱动的合成数据生成器,以通过多样化的高保真交通场景增强训练数据。广泛的评估结果表明,FPoTT利用EleutherAI Pythia-1B,在真实数据上的预测准确性达到99.86%,同时在合成数据集上保持高性能。这些结果突显了开源LLMs在实现安全、自适应和可扩展的IoV管理方面的潜力,为智能移动生态系统提供了有希望的替代选择,可与专有解决方案竞争。
arXiv:2505.00612v1 指定类型: 新闻
摘要: 在这篇立场声明中,我们观察到,生成型人工智能的实证评估正处于危机状态,因为传统机器学习的评估和基准测试策略不足以满足评估现代生成型人工智能模型和系统的需要。造成这种情况的原因有很多,包括这些模型通常具有几乎无界的输入和输出空间,通常没有明确的基准目标,并且通常在基于先前模型输出的上下文下表现出强烈的影响循环和预测依赖性。在这些关键问题之上,我们认为泄漏和污染问题是生成型人工智能评估中最为重要和困难的问题。有趣的是,人工智能竞赛领域已经开发出有效的方法和实践来防止泄漏,以对抗竞赛环境中不良行为者的作弊行为。这使得人工智能竞赛成为特别有价值的(但未充分利用的)资源。现在,是将人工智能竞赛视为生成型人工智能评估实证严谨性的金标准的时候了,并以相应的价值利用和收获其结果。
arXiv:2505.00610v1 宣告类型: 新
摘要: 针对人工智能(AI)在序列规划中的不信任问题,我们设计了一个基于计算树逻辑指导的大语言模型(LLM)的自然语言解释框架,该框架适用于蒙特卡洛树搜索(MCTS)算法。虽然由于其搜索树的复杂性,MCTS 往往被认为难以解释,但我们的框架足够灵活,可以处理围绕 MCTS 和应用领域马尔可夫决策过程(MDP)的各种自由形式的后验查询和基于知识的询问。通过将用户查询转化为逻辑和变量语句,我们的框架确保从搜索树中获得的证据在事实上与底层环境动力学和实际随机控制过程中的任何约束保持一致。通过定量评估严格评估了该框架,结果显示其在准确性和事实一致性方面表现出色。
arXiv:2505.00603v1 声明类型: 新
摘要:本研究调查了大型语言模型,特别是GPT4,在战略决策情境中的类比推理能力是否能与人类相媲美。我们通过一种新颖的实验设计,即源到目标匹配,发现GPT4在检索所有可能的类比时实现了高召回率,但因频繁基于表面相似性应用不正确的类比而面临低精确率的问题。相比之下,人类参与者则表现出高精确率但低召回率的特点,虽然选择的类比较少,但因果对齐更为紧密。这些发现通过将类比推理的匹配阶段识别为一个独立的步骤,超越了简单的检索,以准确的因果映射推动了理论的发展。尽管当前的LLM在生成候选类比方面表现出色,但人类在识别跨领域的深层次结构相似性方面仍具有比较优势。错误分析表明,AI错误源于表面匹配,而人类错误则源于因果结构的误解。综上所述,结果表明在AI辅助组织决策中,可以实现一项有益的分工,其中LLM可以作为广泛类比生成器,而人类则作为关键评估者,将最符合上下文的类比应用到战略问题中。
arXiv:2505.00474v1 宣告类型: 新论文
摘要: 我们扩展了在法律领域使用的分类器模型的形式化框架。现有的分类器框架仅通过涉及的事实来描述案例,而法律推理则从根本上依赖于事实和规则,特别是在判决理由。本文提出了将规则集合纳入分类器的初步方法。我们的工作建立在 Canavotto 等人(2023)的工作基础上,他们开发了在因素层次结构中的一种基于规则的前导约束推理模型。我们展示了如何使用这种增强的基于规则的分类器框架来推断新案件的决策。此外,我们还提供了一个如何在新分类器框架中使用时间要素和法院层次结构的示例。
arXiv:2505.00472v1 Announce Type: 新
摘要:自主性和主动性的代理人工智能(Agentic AI)已经转变了智能环境。通过将生成型人工智能(Generative AI, GenAI)和多智能体系统结合,现代人工智能框架可以动态适应用户偏好,优化数据管理和提高资源配置效率。本文介绍了UserCentrix,一种专为通过动态和上下文感知决策增强智能空间而设计的代理增强记忆扩展人工智能框架。该框架集成了利用用户偏好和个人大型语言模型(LLM)记忆管理的个性化LLM代理,以提供主动且适应性强的支持。此外,该框架还整合了一种混合分层控制系统,平衡中心化和分布式处理,以优化实时响应同时保持全局情境意识。UserCentrix通过嵌入记忆扩展推理、合作智能体谈判和自适应编排策略,实现了高效的人工智能交互。我们的主要贡献包括:(i) 基于任务紧急性的自我组织框架,具有主动扩展功能;(ii) 信息价值(Value of Information, VoI)驱动的决策过程;(iii) 一个元推理个人大型语言模型代理;(iv) 一种智能多智能体协调系统,以实现无缝环境适应。在不同模型中的实验结果显示,我们的方法在提高响应准确性、系统效率和计算资源管理方面在实际应用中取得了显著效果。
arXiv:2505.00416v1 Announce Type: 新的
摘要:自动GUI代理旨在通过在数字环境中(如网络、移动设备、桌面设备)自动执行复杂任务来简化用户交互。它接收文本任务指令和GUI描述,逐步生成可执行的操作(例如点击)和操作框。训练GUI代理主要涉及映射和规划阶段,在映射阶段中,GUI映射主要关注根据任务找到执行坐标,而规划阶段旨在基于历史操作预测下一个动作。然而,先前的工作在GUI映射的训练数据不足以及在GUI规划中忽视历史行为回溯方面存在限制。为了解决上述挑战,我们提出了ScaleTrack,一种通过扩展映射和回溯规划方法来训练自动化GUI代理的训练框架。我们从多个来源精心收集了不同合成标准的GUI样本,并将它们统一为相同的模板以用于训练GUI映射模型。此外,我们设计了一种新的训练策略,从当前的GUI图像中预测下一个动作,同时回溯导致GUI图像的历史操作。通过这种方式,ScaleTrack解释了GUI图像与动作之间的对应关系,有效地描述了GUI环境的演变规则。广泛实验结果证明了ScaleTrack的有效性。数据和代码将在网址上提供。