arXiv:2412.10255v4 动画类型: 替换-交叉
摘要:动画在近期的电影和电视行业中获得了显著的关注。尽管像Sora、Kling和CogVideoX等先进的视频生成模型在生成自然视频方面取得了成功,但在处理动画视频方面缺乏同样的有效性。由于其独特的艺术家风格、违反物理定律以及夸张的运动,评估动画视频生成也是一项巨大的挑战。本文中,我们介绍了专门为动画视频生成设计的综合系统AniSora,该系统包括数据处理管道、可控生成模型和评估基准。通过包含超过10M高质量数据的数据处理管道的支持,生成模型集成了一个时空掩模模块,以促进关键动画生产功能,如图像到视频生成、帧内插和局部图像引导动画。我们还收集了一个包含948个不同动画视频的评估基准,并专门开发了用于动画视频生成的评估指标。整个项目可公开访问于https://github.com/bilibili/Index-anisora/tree/main。
arXiv:2412.05342v4 通告类型: replace-cross
摘要:大型语言模型(LLM)通常被微调以参与双向或两方对话,这使其难以适应多方对话(MPD),阻碍了它们在多人会议、讨论和日常交流等场景中的应用。以往基于LLM的研究主要集中在多智能体框架上,而其基础的LLM仍然进行两两微调。在这项工作中,我们设计了一个适用于多方对话数据集的多方微调框架(MuPaS),并证明这样一个简单的框架能够有效地使LLM与多方对话风格保持一致。我们还设计了两种训练策略,可以将MuPaS转换为MPD模拟器。大量实验表明,MuPaS能够实现最先进的多方响应,更高的下一个发言者的预测准确性,更高的人工和自动评价的话语质量,并且即使在出了分布的场景、主题和角色描述下也能生成合理的对话。MuPaS框架将LLM训练与更复杂的多方应用,如对话生成、虚拟彩排或元宇宙联系起来。
arXiv:2411.04994v3 宣布类型: 替换-交叉
摘要:大多数由政府采用的AI工具并不是政府内部开发的,而是在一个称为公共采购的过程中从第三方供应商处获得的。在这篇论文中,我们首次通过对美国7个城市中负责AI采购的19名城市员工进行半结构化访谈,研究了城市采购实践如何塑造公共部门AI的关键决策。我们发现,由几十年前的法律和规范塑造的遗产采购实践为确定采购哪些AI和哪些参与者在采购的AI决策中占据支配地位奠定了基础设施。我们描述了城市为适应其购买实践以应对算法危害而采取的新兴行动。从员工对实际AI采购项目的反思中,我们识别出三项现有的AI采购改革倡议未能充分解决的关键挑战。基于这些发现,我们将讨论FAccT社区支持城市在公共采购过程中预见和防止AI危害方面的意义和机会。
arXiv:2410.13757v3 宣布类型: replace-cross
摘要:现有的基于多模态大型语言模型(MLLM)的代理在处理设备上的复杂GUI(图形用户界面)交互时面临重大挑战。这些挑战源于GUI环境的动态性和结构化特征,这些环境集成了文本、图像及空间关系,并且不同页面和任务间操作空间的变异性也带来了挑战。为了解决这些局限性,我们提出MobA,一种新颖的基于MLLM的移动助手系统。MobA引入了一个自适应计划模块,该模块包含了一个反思机制以进行错误恢复,并根据实际环境上下文和动作模块的执行能力动态调整计划。此外,一个多功能的记忆模块提供了全面的记忆支持,以增强适应性和效率。我们还介绍了MobBench,一个用于复杂移动交互的数据集。在MobBench和AndroidArena上的实验结果表明,MobA能够处理动态GUI环境并执行复杂的移动任务。
arXiv:2410.07002v3 通知类型: 替换-交叉
摘要:大语言模型已成功应用于编程辅助任务,如代码补全、代码插入和指导性代码编辑。然而,这些应用在自动化方面仍不够充分,并且在编程过程中难以有效整合多种类型的信息,包括编码历史、当前代码和用户指令。在本工作中,我们提出了一种新的对话框架,此框架全面整合了这些信息源,并收集数据以训练我们的模型并评估其性能。首先,为了全面评估模型与不同类型信息的对齐程度及输出质量,我们引入了一个新的基准,APEval(Assist Programming Eval),以全面评估模型在编程辅助任务中的性能。然后,在数据收集方面,我们开发了一个数据生成管道,Programming-Instruct,从GitHub和在线裁判平台等多个来源合成训练数据。该管道可以在编程过程中自动化生成各种类型的消息。最后,使用此管道,我们生成了219,000个样本,对多个模型进行了微调,并开发了CursorCore系列。我们显示CursorCore在可比规模的模型中表现最佳。此框架统一了诸如内置聊天和自动编辑等应用,推动了编码助手的发展。代码、模型和数据可免费访问 https://github.com/TechxGenus/CursorCore。
arXiv:2409.08379v2 宣布类型:替换交叉
摘要:大型语言模型(LLMs)已经在指导性环境中展示了提高个人生产力的能力。虽然LLMs有望在协作工作环境中转变创新过程,但这一转变将遵循什么样的轨迹尚不清楚。在这种背景下,创新不仅包括通过获取新技能来探索新可能性的能力创新,还包括通过增强现有技能和提高项目质量来利用现有基础的迭代创新。LLMs是否会影响这两种类型的协作工作以及影响程度如何仍是一个开放的实证问题。开源开发提供了一个理想的环境,可以研究LLMs对这些创新类型的潜在影响,因为其自愿和开源/协作的贡献提供了最大的技术增强机会。我们利用GitHub Copilot(一个编程相关的LLM)在2021年10月 selective 推出的自然实验,集中在GitHub上的开源项目中。GitHub Copilot当时仅支持Python或Rust等编程语言,但不支持R或Haskell。我们观察到总体贡献有了显著的增加,这表明LLMs在无指导的环境中有效增强了协作创新。有趣的是,Copilot的推出显著增加了专注于维护相关或功能细化贡献的迭代创新,但对通过代码开发或功能介绍提交的能力创新的影响较小。这种差异在2022年6月模型升级后更为明显,并在具有广泛编码活动的活跃项目中尤为明显,这表明随着LLM能力的提高和/或可用上下文信息的增多,能力创新和迭代创新之间的差距可能会扩大。我们讨论了激励高价值创新解决方案的实用和政策影响。
arXiv:2409.08065v3 Announce Type: replace-cross
摘要:新超导材料,尤其是表现出高临界温度($T_c$)的材料的发现,一直是凝聚态物理学领域的一个活跃研究方向。传统方法主要依赖物理直觉,在现有数据库中寻找潜在的超导体。然而,已知的材料仅触及材料领域广阔可能性的表面。在此,我们开发了InvDesFlow,这是一种结合了深度模型预训练和微调技术、扩散模型以及基于物理的方法(例如,第一性原理电子结构计算)的AI搜索引擎,用于发现高$T_c$超导体。利用InvDesFlow,我们获得了一种动态稳定的材料集合,AI模型预测其临界温度$T_c \geq$ 15 K,基于非常小的样本集。值得注意的是,这些材料未包含在任何现有数据库中。此外,我们分析了数据集以及个体材料的趋势,包括在5 GPa下的B$_4$CN$_3$ ($T_c$为24.08 K) 和在常压下的B$_5$CN$_2$ ($T_c$为15.93 K)。我们证明了AI技术可以发现一组新的高$T_c$超导体,并概述了其在加速具有特定性能材料发现方面的潜力。
arXiv:2409.04168v2 宣告类型: 替换-交叉
摘要:为了减少对人工标注的需求,大型语言模型(LLMs)已被提议作为其他候选模型质量的评判者。LLM评判者的表现通常通过评估其在生成任务(如摘要或机器翻译)上与人类判断的相关性来衡量。相比之下,我们研究了LLM评判者在数学推理任务上的表现。这些任务需要多步推理,其解决方案的正确性是可以验证的,这使得评判更具客观性。我们进行了详细的表现分析,发现容易的样本容易评判,困难的样本难以评判。我们的分析揭示了评判表现与候选模型任务表现之间强烈的正相关关系,表明评判者倾向于偏好高质量的模型,即使它们的答案是错误的。作为结果,我们测试是否可以使用如词性标签等简单特征来预测LLM评判者的行为,发现可以正确预测70%-75%的评判结果。我们通过分析现实应用场景,展示了LLM评判者一致能够检测出平均表现更好的模型,但如果我们使用它们来提高任务性能,则表现不佳。
arXiv:2408.16978v2 宣传类型: 替换-跨境
摘要:具有长上下文能力的大语言模型(LLMs)在自然语言处理和计算生物学中的复杂任务中至关重要,如文本生成和蛋白质序列分析。但是,直接在极为长的上下文上训练LLMs需要大量GPU资源和增加内存,导致成本高昂和复杂度增加。通过下游微调或适应引入长上下文能力的方法对设计提出了重大限制。本文中,我们提出了全流水分布式变压器(FPDT),以高效地训练具有极端硬件效率的长上下文LLMs。对于GPT和Llama模型,我们实现了与当前最先进的解决方案相比,在相同硬件上训练的序列长度提高了16倍。借助我们专门设计的序列片段流水线,我们现在可以在仅使用4块GPU的情况下训练具有200万序列长度的8B LLM,并且保持MFU超过55%。我们提出的FPDT对现有的训练技术是通用的,并且已被证明可以在不同的LLM模型中高效工作。
arXiv:2407.21260v3 公告类型: replace-cross
摘要:分布强化学习通过捕捉环境的随机性来提高性能,但对其有效性的全面理论理解仍然缺乏。此外,无穷维度分布的不可处理性元素被忽视了。在本文中,我们提出了分布强化学习在有限阶段性马尔可夫决策过程设置中使用通用值函数近似的遗憾分析。首先,我们引入了一个关键概念“贝尔曼无偏性”,这对于在线学习和可证明高效的分布更新是必不可少的。在所有表示无穷维度回报分布的统计泛函类型中,我们的理论结果表明,只有矩泛函能够精确地捕捉统计信息。其次,我们提出了一种可证明高效的算法 $\texttt{SF-LSVI}$,该算法实现了紧致的遗憾界 $\tilde{O}(d_E H^{\frac{3}{2}}\sqrt{K})$,其中 $H$ 是时间范围,$K$ 是回合数,$d_E$ 是函数类的欺骗维数。