arXiv:2504.11704v1 Announce Type: 新
摘要:在大型语言模型(LLMs)的开发人员社区中,尚未形成类似于软件库的干净模式,以支持大规模协作。即使在检索增强生成(RAG)这种常见的使用场景中,目前也无法针对不同LLM提供商达成一致的API集来编写RAG应用程序。受编译器固有特征的启发,我们通过引入LLM固有特征库来提出这种概念的一些元素。LLM固有特征被定义为可以通过一个合理稳定且独立于LLM固有特征自身实现方式的API来调用的能力。我们的库中的固有特征作为LoRA适配器在HuggingFace上发布,并在vLLM这种推理平台上通过一个具有清晰结构化输入/输出特征的软件接口实现,同时在两处附有文档和代码。本文描述了每个固有特征的预期使用方法、训练细节以及评估,以及多种固有特征的组合。
arXiv:2504.11671v1 宣布类型: 新
摘要: 大型语言模型(LLMs)越来越多地作为类人类决策代理在社会科学和实际应用中发挥作用。这些LLM代理通常被赋予类人类的人物,并置于真实生活的情境中。然而,这些人物和情境如何影响LLM的行为仍然缺乏探索。本研究提出了并测试了一种方法,用于在“分配者游戏”(Dictator Game——一个经典的关于公平性与利他行为的行为实验)中探测、量化和修改LLM的内部表示。我们从LLM的内部状态中提取“变量变化向量”(例如,“男性”到“女性”)。在模型推理过程中操纵这些向量可以显著改变变量与模型决策之间的关系。这种方法为研究和调节社会概念如何在基于变换器的模型中被编码和设计提供了一个原则性的途径,对于对齐、去偏见以及在学术和商业应用中设计用于社会模拟的AI代理具有重要意义。
arXiv:2504.11571v1 宣布类型: 新
摘要: 大型语言模型(LLM)驱动的代理为自动化人类任务开启了新的可能性。虽然前期工作主要集中在有明确定义的任务和明确目标上,但在具有开放目标的创造性设计任务中的代理能力仍然未得到充分探索。我们介绍了一个名为 GraphicBench 的新规划基准,该基准涵盖了四种设计类型中来自1,079个用户查询和输入图像的数据。我们进一步提出了 GraphicTown,这是一个 LLM 代理框架,该框架包含三位设计专家和46种可供执行每一步计划工作流的动作(工具),以在网页环境中执行。使用六种 LLM 的实验展示了它们生成融合用户查询中的明确设计约束和常识约束的双向工作流的能力。然而,这些工作流往往无法导致成功的执行结果,主要是由于以下困难:(1)空间关系的推理,(2)专家之间全局依赖关系的协调,以及(3)每一步获取最合适动作的检索。我们设想 GraphicBench 是一个具有挑战性的且有价值的测试平台,用于推进创造性设计任务中的 LLM 代理规划和执行。
arXiv:2504.11547v1 新发布
摘要:本研究探讨了使用因果图模型生成高质量合成分类数据,例如调查数据。生成合成数据不仅旨在为模型的训练提供多种数据,还旨在在捕捉数据关系的同时保护隐私。研究采用了结构方程模型(SEM)和贝叶斯网络(BN)。我们使用了基于为残疾人提供服务访问性的调查分类数据。我们分别创建了SEM模型和BN模型来表示因果关系并捕获变量之间的联合分布。在我们案例研究中,这些变量包括人口统计学、残疾类型、无障碍障碍类型以及遇到这些障碍的频率。
该研究将基于SEM的BN方法与替代方法进行了比较,包括概率高斯copula技术和生成模型,如条件表生成对抗网络(CTGAN)。提出的方法在统计指标上优于其他方法,包括卡方检验、Kullback-Leibler散度和总变异距离(TVD)。特别是,BN模型表现尤为出色,获得了最高的TVD,表明与原始数据的对齐。高斯copula排名第二,而CTGAN表现出适中的性能。这些分析证实了基于SEM的BN方法能够生成同时保持统计和关系有效性的合成数据,同时保持保密性。这种方法特别适用于敏感数据的研究,如无障碍和残疾研究。
arXiv:2504.11544v1 通知类型: 新
摘要: 检索增强生成 (RAG) 使大规模语言模型能够访问外部和私有语料库,从而在特定领域内实现事实一致的响应。通过利用语料库的固有结构,基于图的 RAG 方法进一步丰富了这一过程,通过构建知识图谱索引并利用图的结构特性。然而,当前基于图的 RAG 方法很少优先考虑图结构的设计。设计不当的图不仅阻碍了各种图算法的无缝集成,而且还导致工作流程不一致性并降低性能。为进一步释放图在 RAG 中的潜力,我们提出了 NodeRAG,这是一种基于图的框架,引入了异质图结构,使图基方法能够无缝且全面地集成到 RAG 工作流中。通过紧密配合 LLM 的能力,该框架确保了端到端流程的一致性和高效性。通过广泛的实验,我们证明了 NodeRAG 在索引时间、查询时间和存储效率方面表现出色,并且在多跳基准和与 LightRAG 和 GraphRAG 进行开放性直接对抗测试时,在最小检索令牌的情况下提供了更优越的问答性能。我们的 GitHub 仓库可在 https://github.com/Terry-Xu-666/NodeRAG 查看。
arXiv:2504.11543v1 评测类型: 新颖性
摘要: 我们引入了REAL,一个针对真实世界网站的确定性模拟进行多轮次代理评估的基准和框架。REAL包含了11个广泛使用的网站的高保真、确定性复制品,这些网站涵盖了诸如电子商务、旅行、通信和专业网络等多个领域。我们还发布了一个由112项实用任务组成的基准测试,这些任务反映了日常复杂用户交互,需要准确的信息检索和状态改变的操作。所有交互均在这种完全可控的环境中进行,消除了安全风险,并使代理能力和可靠性的评估更加稳健且可重复。我们的新型评估框架结合了基于程序检查的网站状态检查和基于评分标准的LLM判断,适用于信息检索任务。该框架支持开源和专有代理系统,通过一个灵活的评估机制,在保持浏览器环境封闭性的前提下,可以适应黑盒命令,使研究实验室在无需修改的情况下测试代理系统。我们的实验证明,前沿语言模型在REAL上的成功率最高为41%,突显了自主网络导航和任务完成能力的关键差距。该框架支持新任务的轻松集成、可重复的评估和可扩展的数据生成,用于训练网络代理。网站、框架和排行榜可在 https://realevals.xyz 和 https://github.com/agi-inc/REAL 获取。
arXiv:2504.11524v1 假设生成类型: 新
摘要: 大语言模型(LLMs)在假设生成方面的兴趣日益增长。然而,一些基本问题仍然存在:什么是好的假设,我们如何系统地评估假设生成方法?为了解决这一问题,我们引入了HypoBench,这是一个新颖的基准测试,旨在从多个方面评估LLMs和假设生成方法,包括实用性、普适性和假设发现率。HypoBench包括7个真实世界任务和5个合成任务,共有194个不同的数据集。我们评估了四种最先进的LLMs与六种现有的假设生成方法的组合。总体而言,我们的结果显示现有的方法能够发现数据中的有效和新颖的模式。然而,来自合成数据集的结果表明,当前的假设生成方法仍有很大的改进空间,因为它们并没有完全揭露所有相关或有意义的模式。特别是在合成环境中,随着任务难度的增加,性能显著下降,最佳模型和方法仅恢复了38.8%的真实假设。这些发现突显了假设生成中的挑战,并展示了HypoBench作为改进旨在辅助科学发现的AI系统的宝贵资源的作用。
arXiv:2504.11514v1 宣称类型: 新颖
摘要:通过监督学习训练的神经网络(NNs)在应对真实驾驶场景中常见的边界案例时存在困难,因为无法获得涵盖所有边界案例的详尽数据集,因此知识驱动的方法(类似于人类如何直观地检测意外驾驶行为)是数据驱动方法的有效补充。本文提出了一种结合低级模型预测控制器(MPC)和本地部署的大型语言模型(LLMs)的混合架构,以增强决策和人机交互(HMI)。决策LLM模块评估机器人状态信息与自然语言指令的一致性,以确保遵循期望的驾驶行为。然后,MPCxLLM模块根据LLM生成的见解调整MPC参数,从而实现控制灵活性同时保留传统MPC系统的安全性和约束保证。此外,为了实现高效的车载部署并消除对云连接的依赖,我们将处理转移到车载计算平台:我们提出了利用检索增强生成(RAG)、低秩适应(LoRA)微调和量化的方法。实验结果表明,这些增强措施在推理准确性方面提高了最多10.45%,在控制灵活性方面提高了最多52.2%,在计算效率方面提高了多达10.5倍(每秒词元),验证了所提出框架在小型化机器人平台上进行实时部署的实用性。该工作将高层次决策与低层次控制适应性相结合,提供了一种知识驱动和自适应的自主驾驶系统(ADS)的协同框架。
arXiv:2504.11459v1 通知类型: 新
摘要: 1) 引言与概念框架: 本文探讨了信息设计的概念,将其分为两项主要实践:定义文本数据及其视觉或多媒体表示的意义,并将其转换为多种叙事格式。本文借鉴了丰富文本语料库,尤其是视听语料库方面的专业知识,以及将其转换为多种图形表达方式的方法。文本突出了领域中的语义内容与图形表达方式之间的关键区别,通过结构语义学和语言学传统中的概念,解释了这种方法。
2) 模型与概念设计: 该文章强调了语义建模的重要性,这通常是通过概念网络或图实现的。这些工具能够通过考虑概念之间的关系、使用上下文和特定目标来构架知识领域。Stockinger 还强调了创建动态和适应性模型所涉及的限制和挑战,整合诸如词典或互操作本体等元素,以促进复杂语料库的分析和发布。
3) 应用与多媒体可视化: 本文最后探讨了这些模型在 OKAPI 等工作环境中的实际应用,OKAPI 是为分析、发布和重复使用视听数据而开发的。它还讨论了诸如视觉叙事和文档重构等创新方法,这些方法涉及将现有内容转变为针对不同上下文的新资源。这些方法强调互操作性、灵活性以及通信系统的智能化,为数字数据的更丰富和协作使用铺平了道路。本文内容在安娜·贝亚尔特-格斯林(波尔多蒙塔涅大学 MICA 实验室)于2018年6月21日在波尔多组织的“信息设计语义学”研讨会上进行了介绍。
arXiv:2504.10478v2 宣告类型: 替换-交叉
摘要:我们在推理模型的训练过程中研究了一种故障模式,其中生成的多样性开始崩溃,导致测试时缩放效果不佳。值得注意的是,在监督微调(SFT)过程中,Pass@1 率可靠地得到改进,但在 SFT 的过程中 Pass@k 迅速恶化。令人惊讶的是,通过将最新 SFT 检查点的权重与早期检查点的权重进行插值,即 WiSE-FT,几乎完全恢复了 Pass@k 并同时改进了 Pass@1。WiSE-FT 变体在测试时缩放(Best@k,多数投票)方面表现更好,并且在通过强化学习进一步调整时,使用较少的数据也能获得更优的结果。最后,我们发现 WiSE-FT 提供了补充性的性能增益,这些增益并不能仅通过诱导多样性的解码策略,例如温度缩放来实现。我们提出了 Pass@k 的偏差-方差权衡,相对于测试分布中 Pass@1 的期望和方差。我们发现 WiSE-FT 可以同时减少偏差和方差,而温度缩放本质上是在偏差和方差之间进行权衡。