arXiv:2504.03809v2 宣告类型: replace-cross
摘要: 我们的主要贡献是提出了选举地图框架。选举地图由三个主要元素组成:(1) 选举数据集(即候选人的集合上的一系列序数投票的集合),(2) 测量这些选举之间相似性的方法,以及(3) 将选举在2D欧几里得空间中表示为点,使得两个选举越相似,它们的点就越接近。在我们的地图中,我们主要关注合成选举的数据集,但也展示了关于真实选举的一个例子。为了测量相似性,我们本来希望使用等构交换距离等方法,但由于其计算复杂性过高,这在实践中是不可行的。因此,我们提出了一个可在多项式时间内计算的位点距离,并使用它作为替代。关于2D欧几里得空间中的表示,我们主要使用了Kamada-Kawai算法,但也展示了两个替代方案。我们发展了必要的理论结果来构建我们的地图,并通过实验论证了它们的准确性和可信度。此外,我们展示了根据各种标准对选举进行着色有助于分析多次实验的结果。特别是,我们展示了根据获胜候选人的得分或委员会、基于ILP的胜者确定算法的运行时间以及特定算法达到的近似比进行着色的例子。
arXiv:2504.03601v2 宣告类型:replace-cross
摘要:训练有效的多轮交互AI代理需要能够捕捉现实人类-代理动态的高质量数据,然而,这样的数据稀缺且手动收集成本高昂。我们介绍了APIGen-MT,这是一个两阶段框架,用于生成可验证且多样的多轮代理数据。在第一阶段,我们的代理管道生成详细的任务蓝图,包含真实的代理行动,利用LLM评审员的委员会和迭代反馈循环。然后,这些蓝图被转化为通过模拟人类-代理互动而完成的完整交互轨迹。我们训练了一系列模型——xLAM-2-fc-r系列,参数范围从1亿到70亿。我们的模型在$\tau$-bench和BFCL基准测试中表现优于前沿模型如GPT-4o和Claude 3.5,更小的模型尤其在多轮交互设置中超越了更大的模型,同时在多次试验中保持了更优秀的稳健性。全面的实验表明,我们的验证蓝图到详细信息的方法产生了高质量的训练数据,使开发更可靠、更高效的代理成为可能。我们开源了收集的合成数据和训练的xLAM-2-fc-r模型,以推进AI代理研究。模型可在HuggingFace上获取,网址为https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4,项目网站为https://apigen-mt.github.io
arXiv:2504.02438v2 通知类型: replace-cross
摘要:长时间视频处理从根本上挑战了视觉-语言模型(VLMs),因为处理延长的时间序列需要极高的计算成本。现有的标记修剪和特征合并方法往往牺牲了关键的时间依赖性或稀释了语义信息。我们引入了差异性蒸馏,这是一种系统地保留与任务相关的信息同时抑制冗余的方法。基于这一原则,我们开发了ViLaMP,一种分层的视频-语言模型,通过两种关键机制使用“混合精度”处理一小时的视频:(1)差异性关键帧选择,最大化查询相关性的同时在帧级别保持时间上的区别性;(2)差异性特征合并,在块级别保留查询显著特征而非关键帧。因此,ViLaMP 在关键帧中保留了完整的信息,同时将非关键帧减少到它们最显著的特征,类似于混合精度训练。广泛的实验表明,ViLaMP 在四个视频理解基准测试中表现出色,尤其是在长格式内容上。值得注意的是,使用单个 NVIDIA A100 GPU,ViLaMP 可以处理超长视频(多达 10K 帧),同时在保持最先进技术性能的前提下实现显著的计算效率。
arXiv:2504.01698v2 Announce Type: replace-cross
摘要:近期基于规则的强化学习(RL)在大型语言模型(LLMs)训练后阶段的应用,显著增强了它们在数学和逻辑推理等结构化推理任务中的能力。然而,强化学习在社会推理领域的有效性,特别是在理解他人心态(Theory of Mind,ToM)方面的能力,仍 largely unexplored 尚未得到充分探索。在本研究中,我们证明了即使在小型规模的语言模型(0.5B至7B参数)中,RL方法也能有效解锁ToM推理能力。使用包含3200个问题的适度数据集,涵盖多种场景,我们训练的7B参数的RL模型在Hi-ToM基准测试中的准确率达到84.50%,尽管参数数量远少于GPT-4o和DeepSeek-v3等模型。尽管较小的模型(≤3B参数)在推理能力上存在崩溃现象,较大的模型(7B参数)通过一致的信念跟踪维护了稳定的性能。此外,基于RL的方法展示了对更高阶的、分布外的ToM问题、新颖的文本呈现以及以前未见过的数据集的强大泛化能力。这些发现突显出强化学习在增强社会认知推理方面的潜力,将结构化问题解决与LLMs中的细腻社会推理联系起来。
arXiv:2504.01589v2 Announce Type: replace-cross
摘要:视觉语言模型(VLMs)在处理多模态信息方面取得了快速进展,但它们在解决跨模态冲突信号方面的能力仍然鲜有探索。这项工作探讨了VLMs处理ASCII艺术的方式,ASCII艺术是一种独特的媒介,其中文本元素共同形成视觉图案,可能创建语义-视觉冲突。我们引入了一种新的评估框架,系统地使用对抗性ASCII艺术挑战五种当前最先进的模型(包括GPT-4o、Claude和Gemini),其中字符级别的语义故意与全局视觉模式相矛盾。我们的实验揭示了强烈的文本优先偏见:VLMs始终优先处理文本信息而非视觉模式,随着语义复杂性的增加,视觉识别能力急剧下降。通过视觉参数调整和提示工程的各种缓解尝试仅提供了适度的改善,这表明这种局限性需要在架构层面上找到解决方案。这些发现揭示了当前VLMs在整合多模态信息方面的一些根本缺陷,为未来模型开发提供了重要的指导,同时强调了对抗性示例易受攻击的内容管理系统所面临的重大影响。
arXiv:2504.00597v2 宣布类型: replace-cross
摘要:通过利用从语料库中检索的相关段落来增强生成能力(RAG)的强大语言模型(LLMs)已经在多语言问答(QA)任务中显示出强大的性能。在多语言RAG(mRAG)中,检索到的段落可以写成用户输入查询的语言之外的语言,这使得LLMs难以有效地利用提供的信息。最近的研究表明,从多语言语料库中检索段落可以提高RAG性能,特别是在低资源语言方面。然而,LLMs在不同类型的多语言上下文中生成准确答案的能力,独立于检索质量,尚未得到充分研究。在本文中,我们对LLMs的能力进行了广泛的评估,这些能力包括:(i) 不管段落的语言如何,一贯使用相关段落,(ii) 以预期的语言作出回应,以及(iii) 即使在上下文中提供了不同语言的多个“干扰”段落时,仍专注于相关段落。我们的实验涉及四个LLMs,跨越三个问答数据集,涵盖了总共48种语言,揭示了LLMs从不同语言段落中提取相关信息的惊人能力,但难以形成完整的正确语言答案。基于准确性和特征归因技术的分析进一步表明,无论段落的语言如何,干扰段落都会负面影响答案质量。然而,查询语言的干扰物影响力稍强。综上所述,我们的研究结果加深了对LLMs在mRAG系统中利用上下文的理解,为未来改进指明了方向。
arXiv:2504.00289v2 通告类型: 更换-交叉
摘要:顶级开源预训练大语言模型(LLM)的发布,进一步确立了中国的主导地位,使其成为AI发展的重要力量。这些模型支持中国使用的语言吗?还是它们使用与西方模型相同的语言?比较多语言能力的原因主要有两个。首先,语言能力提供了预训练数据收集的见解,从而影响资源分配和开发优先级。其次,中国有着关于语言政策的长期明确历史,从少数语言的包容性政策到以普通话为主的政策之间有所变化。为了测试当前中国大语言模型是否反映了关于中国语言的政策议程,我们测试了中国和西方开源大语言模型在亚洲区域和中国少数民族语言上的表现。我们在信息公平性和阅读理解方面的实验表明,中国模型和西方模型在这类语言上的表现相关性很强(r=0.93),唯一的例外是普通话表现更好。有时,中国模型无法识别诸如哈萨克语和维吾尔语等中国少数民族使用的语言,尽管它们在法语和德语识别上表现良好。这些结果展示了当前的开发优先级,提出了未来开发的选项,并为最终用户提供了指导。
arXiv:2503.23803v2 软件工程代理类型: 替换-交叉
摘要:近期软件工程代理的发展展示了在自动化程序改进方面具有令人鼓舞的能力。然而,它们对闭源或资源密集型模型的依赖在私有环境中引入了重大的部署挑战,引发了一个关键问题:\textit{如何实现可个人部署的开源LLM以获得相当的代码推理性能?}
为此,我们提出了一种统一的测试时计算扩展框架,利用增加的推理时计算而非更大规模的模型。该框架结合了两种互补的策略:内部TTC和外部TTC。内部,我们引入了一种利用真实世界软件仓库的\textit{基于开发上下文的轨迹合成}方法,以启动多阶段推理过程,如故障定位和补丁生成。此外,我们通过拒绝采样进一步提高轨迹质量,严格评估轨迹在准确性和复杂性方面的表现。外部,我们提出了一个新的基于\textit{开发过程的搜索}策略,该策略受奖励模型和执行验证的指导。这种方法在关键的开发决策点实现了有针对性的计算分配,克服了现有“终点验证”方法的局限性。
在SWE-bench Verified上的评估显示,我们的\textbf{32B模型实现了46%的问题解决率},远超DeepSeek R1 671B和OpenAI o1等更大规模的模型。此外,我们还在SWE代理中提供了测试时扩展现象的经验验证,揭示了\textbf{模型会动态地将更多令牌分配给日益复杂的问题},从而有效提升推理能力。我们已将所有训练数据、模型和代码公开发布,以促进未来的研究。https://github.com/yingweima2022/SWE-Reasoner
arXiv:2503.22250v2 宣告类型: replace-cross
摘要:有效的患者沟通在医疗保健中至关重要,然而传统的医学培训往往缺乏对多样性和挑战性的人际动态的接触。为了弥合这一差距,这项研究提出使用大型语言模型(LLMs)模拟真实的患者沟通风格,特别是源自Satir模型的“控诉者”和“辩解者”人设,同时确保多语言适用性,以适应不同的文化背景,增强医疗专业人员的可访问性。利用高级提示工程,包括行为提示、作者注释和顽固机制,我们开发了虚拟患者(VPs),这些虚拟患者表现出细腻的情绪和对话特质。医疗专业人员评估了这些VPs,根据5点李克特量表(从一到五)对它们的可信度进行了评分(控诉者:$3.8 \pm 1.0$;辩解者:$3.7 \pm 0.8$),并正确地识别了它们的风格。情绪分析揭示了不同的特征:控诉者表现出痛苦、愤怒和不安,而辩解者则展示了深思和冷静,与预定义的、详细的患者描述(包括医疗史)相符。情感分数(从零到九的量表)进一步证实了这些沟通风格上的差异,控诉者采用消极的态度($3.1 \pm 0.6$),而辩解者则更为中立($4.0 \pm 0.4$)。这些结果突显了LLMs在复制复杂沟通风格方面的能力,为医学教育提供了变革性的潜力。通过这种方法,受训者可以通过提供现实的、可适应的患者互动来应对具有挑战性的临床场景,从而增强同理心和诊断敏锐度。我们的研究结果倡导使用AI驱动的工具作为可扩展、成本效益高的解决方案,以培养细腻的沟通技能,为未来医疗培训的创新奠定基础。
arXiv:2503.17486v3 宣告类型: 替换-交叉
摘要:3D 高斯点绘 (3DGS) 在新颖视图合成方面取得了显著进展,但受到所需高斯基元数量庞大的限制,这给轻量级设备上的部署带来了挑战。近期的方法通过压缩密集高斯的存储大小来解决这一问题,但未能保留渲染质量和效率。为克服这些局限,我们提出 ProtoGS 来学习高斯原型以表示高斯基元,显著减少了总的高斯数量,同时不牺牲视觉质量。我们的方法直接使用高斯原型以实现高效的渲染,并利用重建损失来指导原型学习。为了进一步优化训练期间的内存效率,我们引入了结构从运动 (SfM) 点作为锚点,以分组高斯基元。在每个组内通过 K-means 聚类获得高斯原型,并且锚点和原型同时进行优化。我们在真实世界和合成数据集上的实验证明,我们优于现有方法,实现了高斯数量的大幅减少,并实现了高渲染速度,同时保持或甚至提高了渲染保真度。