LLM2D

arXiv 论文列表

arXiv:2407.11394v3 通知类型: replace-cross 摘要:评分蒸馏采样(SDS)已成为文本驱动的3D编辑任务中的一种有效框架,利用扩散模型进行3D一致的编辑。然而,现有的基于SDS的3D编辑方法存在训练时间长且生成结果质量低的问题。我们发现这种性能退化的原因是“它们与扩散模型的采样动力学冲突”。解决这一冲突使我们能够将SDS视为通过在数据空间采样的3D编辑的反向扩散过程。相比之下,现有的方法简单地使用扩散模型蒸馏得分函数。从这些见解出发,我们提出了DreamCatalyst,这是一种新颖的框架,考虑了SDS框架中的这些采样动力学。具体来说,我们设计了DreamCatalyst的优化过程,以近似编辑任务中的反向扩散过程,从而与扩散采样动力学相一致。因此,DreamCatalyst成功地减少了训练时间并提高了编辑质量。我们的方法提供了两种模式:(1)快速模式,在当前最先进的NeRF编辑方法的基础上,大约快23倍地编辑Neural Radiance Fields(NeRF)场景;(2)高质量模式,在这些方法的基础上,大约快8倍地生成更优结果。值得注意的是,我们的高质量模式在速度和质量上都超越了最先进的NeRF编辑方法。DreamCatalyst还超越了最先进的3D Gaussian Splatting(3DGS)编辑方法,使其成为一种有效的且模型无关的3D编辑解决方案。请访问我们的项目页面查看更详细的成果:https://dream-catalyst.github.io。
发布时间: 2/12/2025
查看原文
作者: Yitian Zhang, Xu Ma, Yue Bai, Huan Wang, Yun Fu
arXiv:2407.10366v2 宣告类型: replace-cross 摘要:视觉基础模型因其大规模训练数据而闻名于泛化能力。然而,它们需要大量的训练资源,而训练数据通常不可访问,例如 CLIP 和 DINOv2,这对开发能够促进研究的衍生产品构成了巨大挑战。在本文中,我们提供了一个非常简单且通用的解决方案,名为 Proteus,在不访问原始训练数据的情况下,将基础模型精简为 ImageNet-1K 的较小等效模型。具体而言,我们去除了会导致数据集偏差的设计,从传统的知识蒸馏设置中去除,并提出了三个级别的训练目标,即 token、patch 和 feature,以最大化知识转移的有效性。通过这种方式,Proteus 以 ImageNet 级别的成本进行了训练,展现出令人惊讶的能力,促进了训练基础模型的可访问性,为更广泛的科研社区提供支持。当利用 DINOv2-g/14 作为老师时,Proteus-L/14 在 19 个基准测试中与 Oracle 方法 DINOv2-L/14(1.42 亿训练数据)表现相当,并且在其他视觉基础模型,包括 CLIP-L/14(4 亿)、OpenCLIP-L/14(4 亿/20 亿)和 SynCLR-L/14(6 亿)中,使用显著更小的训练集(1200 万张图像),表现出更优的性能。
发布时间: 2/12/2025
查看原文
arXiv:2407.05502v3 宣布类型: replace-cross 摘要:尽管大型语言模型(LLM)的多语言能力为克服语言障碍提供了新的机会,但在已知存在语言隔阂和多语言来源之间知识冲突的实际场景中,这些能力是否真正转化为实际应用?在本文中,我们研究了LLM在跨语言RAG(检索-生成)信息检索设置中的语言偏好。我们发现,无论是文档检索还是答案生成,LLM都系统性地偏向于查询语言相同的语言信息。此外,在查询语言无可用信息的情况下,LLM在生成过程中更倾向于使用高资源语言的文档,这可能进一步强化主导观点。这种偏见既存在于事实性查询中,也存在于观点性查询中。我们的结果突显了多语言LLM在信息检索系统中的语言隔阂。LLM看似有益的多语言能力可能会通过强化语言特定的信息茧房或过滤泡,进一步边缘化低资源观点,从而损害信息平等。
发布时间: 2/12/2025
查看原文
作者: Max Zuo, Francisco Piedrahita Velez, Xiaochen Li, Michael L. Littman, Stephen H. Bach
arXiv:2407.03321v2 通知类型: replace-cross 摘要:近期的工作探索了使用语言模型解决规划问题。一种方法是将规划任务的自然语言描述转换为结构化的规划语言,例如规划领域定义语言(PDDL)。现有的评估方法难以确保语义正确性,并依赖于简单的或不现实的数据集。为了弥合这一差距,我们引入了名为“Planetarium”的基准测试,旨在评估语言模型从规划任务的自然语言描述生成PDDL代码的能力。“Planetarium”包含一个新的PDDL等效算法,能够灵活地评估生成的PDDL的正确性,同时还包含一个包含73种独特的状态组合的数据集,这些组合具有不同难度级别的145,918个从文本到PDDL的配对。最终,我们评估了几个API访问和开源权重的语言模型,揭示了该任务的复杂性。例如,GPT-4o生成的PDDL问题描述中有96.1%是语法可解析的,94.4%是可以解决的,但只有24.8%是语义正确的,这突显了需要为该问题制定更严格的基准测试。
发布时间: 2/12/2025
查看原文
作者: Jiangyuan Guo, Wei Chen, Yuxuan Sun, Jialong Xu, Bo Ai
arXiv:2406.18538v2 通告类型: 替换-交叉 摘要:尽管语义通信(SC)已在高效传输文本、演讲和图像等多种模态数据方面展现了其潜力,但现有的SC系统主要侧重于像素级重建,特别是在视频方面。然而,这些SC系统可能不适宜于下游智能任务。此外,无需在接收端进行视频重建的SC系统具有优势,可以在各种智能任务中实现更高的带宽效率和实时性能。这类系统设计的难点在于提取与任务相关的紧凑语义表示,并通过多噪信道准确地传达这些表示。在这篇论文中,我们提出了一种端到端的SC系统,命名为VideoQA-SC,用于视频问答(VideoQA)任务。我们的目标是在有噪或衰落的无线信道上直接基于视频语义完成VideoQA任务,从而绕过接收端需要进行视频重建的需求。为此,我们开发了一种时空语义编码器用于有效的视频语义提取,并提出了一种基于学习的宽带自适应的深度联合源-信道编码(DJSCC)方案,用于高效且稳健的视频语义传输。实验结果表明,VideoQA-SC在各种信道条件和带宽限制下,相较于依赖接收端视频重建的传统和先进DJSCC为基础的SC系统具有更高的性能。特别是当信噪比低时,与先进的基于DJSCC的SC系统相比,VideoQA-SC可以提高答案准确性5.17%,同时可以节省几乎99.5%的带宽。我们的结果展示了SC系统设计在视频应用方面巨大的潜力。
发布时间: 2/12/2025
查看原文
作者: Saranya Venkatraman, Nafis Irtiza Tripto, Dongwon Lee
arXiv:2406.12665v3 公告类型: replace-cross 摘要:统一框架的发展使得大型语言模型(LLMs)之间无缝互操作成为可能,从而使得LLM-LLM协作完成开放任务成为可能。尽管如此,尚未有人探索这种协作写作。我们从人类-LLM协作迈向探索多LLM场景,通过生成首个完全由LLM生成的协作故事数据集CollabStory进行探索。我们关注单一作者到多作者(最多5个LLM)的场景,其中多个LLM共同撰写故事。我们使用开源指令调整的LLM生成了超过32000个故事。此外,我们借鉴了PAN任务,这些任务已经为人类-人类多作者写作任务和分析设定了标准。我们扩展了多LLM环境下的相关作者任务,并介绍了LLM-LLM协作的基准。我们发现当前的基准无法处理这一新兴场景。因此,CollabStory是一个有助于推动多LLM使用理解和新方法开发的资源。在写作任务的背景下,LLM-LLM协作可能会使正在进行的关于抄袭检测、成果归属、学术诚信在教育环境中的维护以及应对版权侵权的关注变得复杂。我们已将数据集和代码发布在https://github.com/saranya-venkatraman/CollabStory。
发布时间: 2/12/2025
查看原文
作者: Rui Xing, Timothy Baldwin, Jey Han Lau
arXiv:2406.12645v3 通知类型: 交叉替换 摘要:自动事实核查系统在可信度方面常常存在问题,因为它们生成的解释可以包含幻觉。在这项工作中,我们探索了事实核查解释生成中的证据归因。我们引入了一种新的评估协议——引证蒙版和恢复——来评估生成解释中的归因质量。我们利用人类注释者和自动注释者实现了该协议,并发现大型语言模型(LLM)的注释与人类注释相关,这表明归因评估可以实现自动化。最后,我们的实验揭示了以下两点:(1)表现最佳的LLM仍然生成带有不准确归因的解释;(2)精心挑选的证据对于生成更好的解释是必不可少的。代码和数据可在以下链接获取:https://github.com/ruixing76/Transparent-FCExp。
发布时间: 2/12/2025
查看原文
作者: Hengyi Wang, Haizhou Shi, Shiwei Tan, Weiyi Qin, Wenyuan Wang, Tunyu Zhang, Akshay Nambi, Tanuja Ganu, Hao Wang
arXiv:2406.11230v2 公告类型: replace-cross 摘要: 多模态大型语言模型(MLLMs)在各种应用中展现了显著的潜力,从而引起了研究者和从业者广泛的兴趣。然而,对其长上下文能力的全面评估仍未得到充分探索。为解决这些差距,我们引入了多模态针锋相对基准(MMNeedle),旨在评估MLLMs的长上下文能力。除了多图像输入外,我们还使用图像拼接以进一步增加输入上下文长度,并开发了一个协议以自动生成子图像级别检索的标签。本质上,MMNeedle通过基于文本指令和图像内容描述来评估MLLMs在其定位一组图像(堆栈)中的目标子图像(针)方面的长上下文能力。这一设置要求具备对广泛视觉上下文的高级理解及有效的长上下文图像输入中的信息检索。借助此基准,我们评估了当前最先进的MLLMs,涵盖了基于API和开源模型。研究结果表明,GPT-4o在长上下文场景中一直领先于其他模型,但在负面样本中,即当针不在堆栈中时,会遭受幻觉问题。我们全面的长上下文评估也揭示了基于API和开源模型之间显著的性能差距。所有用于复制主要结果所需的所有代码、数据和说明都可以在 https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack 获得。
发布时间: 2/12/2025
查看原文
作者: Justin Zhao, Flor Miriam Plaza-del-Arco, Benjie Genchel, Amanda Cercas Curry
arXiv:2406.08598v3 宣布类型: replace-cross 摘要:随着大型语言模型(LLMs)不断进化,评估它们仍然是一个持续的挑战。许多最近的评估使用LLMs作为评判者来评估其他LLMs的输出,通常依赖于一个大型模型,如GPT-4o。然而,使用单个LLM作为评判者容易产生模型内部的偏差,许多任务——如情感智能、创作写作和说服力——可能因单个模型而无法公平评判。我们引入了语言模型委员会(LMC),其中一组LLMs协作制定测试、回应这些问题并通过民主方式评估彼此的回应。与之前侧重于通过使用小模型面板降低成本或减少偏差的方法不同,我们的工作探讨了一个完整的包容性LLM评估系统的益处和细微之处。在一项关于情感智能的详细案例研究中,我们部署了一个由20个近期LLM组成的委员会,以公开回应人际冲突的方式相互评分。我们的结果显示,LMC产生的排名更为分离且更为稳健,并通过一项用户研究,我们展示了它们比任何单个LLM的评判更符合人类的评估。然而,使用所有LLM评判可能会产生成本问题,因此我们使用蒙特卡洛模拟和手工精挑细选的小委员会来研究假设的委员会组成,并讨论增量LLM评判的价值。
发布时间: 2/12/2025
查看原文
作者: Yuling Gu, Oyvind Tafjord, Bailey Kuehl, Dany Haddad, Jesse Dodge, Hannaneh Hajishirzi
arXiv:2406.08446v2 宣布类型: replace-cross 摘要:人工智能的进步往往通过新模型在衡量模型能力的任务中声称改进的性能来展示。评估语言模型特别具有挑战性,因为模型评估任务方式的选择可能导致测量性能发生巨大变化。目前没有共同的标准设置,因此不同的模型以不同的方式在相同的任务上进行评估,导致关于哪个模型表现最佳的声明无法再现。我们提出了OLMES,这是一个完全记录、实用且开源的标准,用于可再现的语言大模型评估。在制定这一标准的过程中,我们确定并回顾了社区中采用的评估实践中的变化因素,例如提示格式的细节、上下文示例的选择、概率规范化和任务表述。特别是,OLMES 支持有意义的小基础模型与大模型之间的比较,后者可以利用原始问题表述形式,而前者需要不自然的“填空”形式的多项选择题。OLMES 包括基于现有文献结果以及新实验解决开放问题的考虑周到且有记录的建议。
发布时间: 2/12/2025
查看原文