LLM2D

arXiv 论文列表

arXiv:2502.11799v1 宣告类型: 新闻 摘要: 尽管大型语言模型(LLMs)在各种推理任务中表现出色,但在表格推理任务中,特别是在多步推理过程中保持一致性方面,它们仍然存在困难。虽然现有的方法已经探索了各种分解策略,但它们往往缺乏有效机制来识别和纠正中间推理步骤中的错误,从而导致错误传播。为了解决这些问题,我们提出了一种名为Table-Critic的新型多智能体框架,该框架促成了合作批评和推理过程的迭代完善,直到收敛到正确的解决方案。我们的框架由四个专门的智能体组成:一个法官用于错误识别,一个评论家用于全面的批评,一个精炼器用于过程改进,一个策展人用于模式提炼。为了有效应对多样且难以预测的错误类型,我们引入了一个自我进化的模板树,该树通过经验驱动的学习系统地积累批评知识,并引导未来反思。广泛实验证明,Table-Critic在现有方法上取得了显著的改进,实现了更高的准确性和错误修正率,同时保持了计算效率和较低的解决方案退化率。
发布时间: 2/18/2025
查看原文
作者: Bingyu Wan, Fuxi Zhang, Zhongpeng Qi, Jiayi Ding, Jijun Li, Baoshi Fan, Yijia Zhang, Jun Zhang
arXiv:2502.11770v1 Announce Type: 新 摘要:大型语言模型(LLMs)固有地表现出幻觉,因为生成文本的准确性不能仅通过它们包含的参数知识得到保证。尽管检索增强生成(RAG)系统通过引入外部文档来增强生成模型的准确性和可靠性,但在实际应用中,这些检索到的文档往往无法充分支持模型的响应。为了解决这个问题,我们提出了GGatrieval(Fine-粒度-grounded-对准检索以实现可验证生成),该方法利用LLM动态更新查询并筛选高质量、可靠的检索文档。具体而言,我们将用户查询解析为其句法成分,并与检索到的文档进行精细对准。对于无法单独对准的查询成分,我们提出了一种动态语义补偿机制,在迭代细化和重写查询的同时不断更新检索结果。这一迭代过程将持续进行,直到检索到的文档充分支持查询的响应。我们的方法引入了一种新的筛选检索文档的标准,密切地模拟了人类获取目标信息的策略。这确保了检索到的内容能够有效地支持和验证生成的输出。在ALCE基准测试上,我们的方法显著超过了多种基线方法,取得了最先进的性能。
发布时间: 2/18/2025
查看原文
作者: Michiel van der Meer, Pavel Korshunov, S\'ebastien Marcel, Lonneke van der Plas
arXiv:2502.11753v1 宣传类型: 新 摘要: 通过事实核查可以对抗虚假信息,但这一过程成本高且耗时。识别可核查的断言是第一步,自动化可以协助扩大事实核查人员的努力范围。然而,检测方法在处理以下内容时存在困难:1) 多模态内容,2) 来源于多种领域,3) 合成内容。我们介绍了HintsOfTruth,这是一个包含27000对现实世界和合成的图像/断言对的多模态可信度检测公开数据集。现实和合成数据的混合使该数据集独具特色,非常适合用于评估检测方法。我们比较了微调和提示大型语言模型(LLMs)。我们发现,配置得当的轻量级文本编码器在性能上与多模态模型相当,但仅侧重于识别非断言样式的内容。多模态LLMs可能更准确,但会带来显著的计算成本,这使得它们在大规模应用中不够实用。在面对合成数据时,多模态模型表现出更稳定的性能。
发布时间: 2/18/2025
查看原文
作者: Alireza Nik, Michael A. Riegler, P{\aa}l Halvorsen
arXiv:2502.11723v1 公告类型: 新增 摘要: 解码策略显著影响大规模语言模型(LLMs)生成文本的质量和多样性,但它们对计算资源消耗,特别是GPU能耗的影响仍研究不足。本文探讨了文本生成解码方法与能效之间的关系,重点关注生成质量和GPU能耗之间的权衡,特别是在多样化任务和解码配置下的表现。通过在翻译、代码总结和数学问题解决等不同文本生成任务中对标多个策略,我们揭示了选择合适的解码技术及其调优参数如何影响文本质量和资源利用率,并强调了平衡优化的必要性。据我们所知,本研究是首次从能耗角度探索LLMs中解码策略的研究,为设计能够在保持高质量文本生成的同时兼顾资源使用的应用程序提供了可操作的见解。
发布时间: 2/18/2025
查看原文
作者: Zikang Liu, Longteng Guo, Yepeng Tang, Junxian Cai, Kai Ma, Xi Chen, Jing Liu
arXiv:2502.11664v1 类型: 新 摘要: 旋转位置嵌入(RoPE)在基于文本的大型语言模型(LLMs)中显示出强大的性能,但在扩展到视频方面仍然面临挑战,因为视频帧具有复杂的时空结构。现有的适配方法,如RoPE-3D,尝试分别编码空间和时间维度,但存在两大主要局限性:注意力分布中的位置偏差以及视频-文本过渡中的中断。为克服这些问题,我们提出了一种名为视频旋转位置嵌入(VRoPE)的新颖位置编码方法,专门用于视频-LLMs。我们的方法重新结构化了位置索引来保持空间连贯性,并确保视频和文本标记之间的平滑过渡。此外,我们引入了一种更平衡的编码策略,以减轻注意力偏差,确保空间关注的更均匀分布。在不同模型规模的Vicuna和Qwen2上的广泛实验表明,VRoPE一直优于以前的RoPE变体,在视频理解、时间推理和检索任务中取得了显著的改进。代码将在https://github.com/johncaged/VRoPE 可用。
发布时间: 2/18/2025
查看原文
作者: Amin Qasmi, Usman Naseem, Mehwish Nasim
arXiv:2502.11649v1 宣告类型: 新颖 摘要: 我们引入了一种新颖的非合作博弈,用于分析意见形成和抵抗,融入了社会心理学原则,如确认偏见、资源约束和影响力处罚。我们的模拟中,大型语言模型(LLM)代理竞争影响人群,而生成传播或反驳错误信息的内容时会受到惩罚。该框架将资源优化融入代理的决策过程中。研究结果表明,虽然更高的确认偏见加强了群体内的意见一致性,但也加剧了总体的极化。相反,较低的确认偏见会导致意见碎片化和个体信念有限的转变。投资于高资源的澄清策略可以在初期使人群与澄清代理保持一致,但存在资源迅速耗尽和长期影响力减弱的风险。
发布时间: 2/18/2025
查看原文
作者: Yunfei Wang, Shixuan Liu, Wenhao Wang, Changling Zhou, Chao Zhang, Jiandong Jin, Cheng Zhu
arXiv:2502.11588v1 通知类型: 新 摘要: 将人工智能集成到自动化渗透测试(AutoPT)中,凸显了在训练智能代理过程中使用仿真建模的必要性,由于其成本效益和快速反馈能力。尽管AutoPT研究层出不穷,但仍然存在统一仿真建模方法可用性的差距。本文对现有技术进行了系统性回顾和综合,提出了MDCPM分类体系,根据文献目标、网络仿真复杂性、技术和战术操作的依赖性,以及场景反馈和变化来对研究进行分类。为解决多维和多级仿真建模、动态环境建模的统一方法以及公共数据集资源稀缺的问题,我们引入了AutoPT-Sim,这是一种基于策略自动化的新建模框架,涵盖了所有子维度的组合。AutoPT-Sim 提供了全面的网络环境、攻击者和防御者的建模方法,超越了静态建模的限制,适应了不同规模的网络。我们公开发布了一个生成的标准网络环境数据集和网络生成器的代码。通过灵活整合公共可用的数据集,支持MDCPM中策略自动化的各种仿真建模级别,在网络生成器的帮助下,研究人员可以通过调整参数或微调网络生成器来输出定制的目标网络数据。
发布时间: 2/18/2025
查看原文
作者: Davide Andrea Guastella, Alejandro Morales-Hern\`andez, Bruno Cornelis, Gianluca Bontempi
arXiv:2502.11585v1 宣布类型: 新闻 摘要: 仿真是交通管理专家用来协助他们在实施之前根据交通计数数据校准和改进交通系统、预测基础设施网络可能变化影响的一种有价值的工具。使用交通计数数据校准仿真模型具有挑战性,这是因为环境的复杂性、数据的缺失以及交通动态的不确定性。本文介绍了一种新颖的基于随机仿真交通校准技术。所提出方法的新颖性在于:(i)它进行局部交通校准,(ii)它能够在校准大型环境中的模拟交通,(iii)它只需要交通计数数据。局部方法允许分散校准任务,以达到接近实时性能,促进数字孪生的发展。仅使用交通计数数据使所提出的方法通用,可以在不同规模的交通场景中应用(从邻里到区域)。我们使用实际交通监测设备的数据,在比利时布鲁塞尔的模型上评估了所提出的技术。所提出的方法是使用开源交通仿真器SUMO实现的。实验结果表明,使用所提出的方法校准的交通模型比现阶段最先进的方法更准确,平均高出16%,使用相同的数据集。我们还提供从实际数据得到的输出交通模型。
发布时间: 2/18/2025
查看原文
作者: Johan Boye, Birger Moell
arXiv:2502.11574v1 信息类型: 新颖 摘要:本文通过使用50个新构建的中学生水平的词语问题,调查了大型语言模型(LLMs)的数学推理能力。与以往只关注答案正确性的研究不同,我们系统地分析了最终答案和解题步骤,以识别推理错误。我们评估了八种最先进的模型——包括Mixtral、Llama、Gemini、GPT-4o以及OpenAI的o1变体——结果显示,虽然更新的模型(例如o3-mini、deepseek-r1)在准确性上更高,但所有模型在空间推理、战略规划和算术方面都表现出错误,有时会通过不正确的逻辑得出正确答案。常见的失败模式包括不合情理的假设、过度依赖数字模式以及难以将物理直觉转化为数学步骤。手动分析显示,尽管模型具备广泛的数学知识,但它们在需要多步骤推理或现实生活知识的问题上仍存在困难。我们的结果强调了评估推理过程而非仅仅答案的重要性,并警告不要过于高估LLMs的问题解决能力。该研究凸显了LLMs在通用化能力方面的持续差距,强调了在结构化推理和约束处理方面进行针对性改进的必要性。
发布时间: 2/18/2025
查看原文
作者: Wenwu Li, Xiangfeng Wang, Wenhao Li, Bo Jin
arXiv:2502.11560v1 宣告类型: 新 摘要:基础模型的兴起将重点从资源密集型微调转移到了提示工程,这是一种通过输入设计而不是权重更新来引导模型行为的范式。尽管手工提示工程在可扩展性、适应性和跨模态对齐方面存在局限性,但基于基础模型(FM)的优化、进化方法、梯度优化以及强化学习等多种自动化方法提供了有前景的解决方案。然而,现有的综述仍然在模态和方法论之间保持着碎片化状态。本文通过统一的优化理论视角,首次提出了自动化提示工程的全面综述。我们正式将提示优化定义为在离散、连续和混合提示空间上的最大化问题,并系统地按优化变量(指令、软提示、示例)、任务特定目标和计算框架对方法进行组织。通过将理论表述与文本、视觉和多模态领域的实际实现连接起来,这篇综述为研究人员和从业人员建立了一个基础框架,同时指出了受限优化和以代理为中心的提示设计中的未探索前沿领域。
发布时间: 2/18/2025
查看原文