arXiv 论文列表

S$^2$AG-Vid：通过空间和句法注意力引导增强视频扩散模型中的多运动对齐

arXiv:2409.15259v1 公告类型: 交叉摘要: 近期利用扩散模型进行文本到视频(T2V)生成的进展引起了广泛关注。然而,现有的T2V模型主要关注包含单一对象执行单一动作的简单场景。在涉及多个具有不同动作的对象的场景中,挑战随之而来,往往导致对象与其对应动作之间的视频-文本对齐错误。为应对这一挑战,我们提出了\textbf{S$^2$AG-Vid},一种无需训练的推理阶段优化方法,旨在改进T2V模型中多个对象与其对应动作的对齐。S$^2$AG-Vid首先在去噪过程的早期阶段应用基于空间位置的交叉注意力(CA)约束,促进多个名词清晰地关注正确的对象区域。为增强动作-对象绑定,我们在后续的去噪阶段实施语法引导的对比约束,旨在提高动词的CA图与其对应名词之间的关联性。定性和定量评估均表明,所提出的框架显著优于基线方法,生成质量更高、对象-动作一致性更好的视频。

发布时间: 9/24/2024

查看原文

视觉-语言模型的行为偏差：行为金融视角

大型视觉-语言模型（LVLMs）随着视觉模块的加入，迅速发展成为更加类人化的模型。然而，我们应该谨慎评估它们在不同领域的应用，因为它们可能存在不希望的偏见。我们的工作从行为金融学的角度研究了LVLMs的潜在行为偏见，这是一个结合了金融和心理学的跨学科课题。我们提出了一个端到端的框架，从数据收集到新的评估指标，以评估LVLMs的推理能力和在两种已建立的人类金融行为偏见中的动态行为：近期偏见和权威偏见。我们的评估发现，最近的开放源代码LVLMs如LLaVA-NeXT、MobileVLM-V2、Mini-Gemini、MiniCPM-Llama3-V 2.5和Phi-3-vision-128k在这两种偏见上受到显著影响，而专有模型GPT-4o则几乎不受影响。我们的观察指出了开源模型可以改进的方向。代码可在https://github.com/mydcxiao/vlm_behavioral_fin获取。

发布时间: 9/24/2024

查看原文

Archon：一种用于推理时技术的架构搜索框架

大型语言模型（LLM）的推理时技术正成为提升模型能力的高效工具。然而，对于如何开发结合推理时技术与一个或多个LLM的系统，仍缺乏最佳实践的理解，面临的挑战包括：（1）有效分配推理计算预算，（2）理解不同推理时技术组合间的相互作用及其对下游性能的影响，以及（3）高效搜索模型选择、推理时技术及其组合的广阔空间。为应对这些挑战，我们提出了Archon，一个用于设计推理时架构的自动化框架。Archon定义了一个可扩展的设计空间，涵盖生成集成、多采样、排序、融合、批判、验证和单元测试等方法。它将选择和组合LLM与推理时技术的问题转化为超参数优化目标。为优化这一目标，我们引入了自动化推理时架构搜索（ITAS）算法。在给定目标基准、推理计算预算和可用LLM的情况下，ITAS输出优化的架构。我们在广泛的指令跟随和推理基准上评估Archon架构，包括MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH和CodeContests。结果显示，Archon自动设计的推理时架构在这些基准上优于GPT-4o和Claude 3.5 Sonnet等强模型，全源模型和开源模型的平均提升分别为14.1和10.3个百分点。我们在Github上公开了代码和数据集：https://github.com/ScalingIntelligence/Archon。

发布时间: 9/24/2024

查看原文

Domino：通过通用张量切片和重叠消除LLM训练中的通信

arXiv:2409.15241v1 公告类型: 交叉摘要: 鉴于生成式AI的普及，大型语言模型（LLMs）通常需要数百或数千个GPU来并行化和加速训练过程。在扩展训练LLMs时，通信开销变得更加显著。为了消除分布式LLM训练中的通信开销，我们提出了Domino，它提供了一种通用方案，将通信隐藏在计算之后。通过将单个批次训练的数据依赖性分解为更小的独立部分，Domino将这些独立部分的训练流水线化，并提供了细粒度通信和计算重叠的通用策略。广泛的实验结果表明，与Megatron-LM相比，Domino在Nvidia DGX-H100 GPU上实现了高达1.3倍的LLM训练加速。

发布时间: 9/24/2024

查看原文

MemBench：面向真实世界的记忆增强对话系统评估

长期记忆对于聊天机器人和对话系统（DS）至关重要，以至于研究人员开发了众多记忆增强型DS。然而，它们的评估方法与人类对话中的实际情况不同。它们仅测量了给定查询时事实信息的准确性或生成响应的困惑度，这几乎无法反映其性能。此外，它们仅考虑基于相似性的被动记忆检索，忽略了人类多样化的记忆召回范式，例如情感和环境。为了弥合这一差距，我们基于认知科学和心理学理论构建了一个涵盖多种记忆召回范式的新基准。记忆基准（MemBench）根据认知科学中的两阶段理论包含两个任务：记忆检索、记忆识别和注入。该基准首次考虑了基于元信息的被动和主动记忆召回。此外，提出了新的评分方面，以全面衡量生成的响应。MemBench上最强嵌入模型和LLMs的结果显示，现有对话系统仍有大量改进空间。广泛的实验还揭示了记忆注入与情感支持（ES）技能和亲密度的相关性。我们的代码和数据集将发布。

发布时间: 9/24/2024

查看原文

AutoAPIEval：面向API代码生成的LLMs自动化评估框架

大型语言模型（如GitHub Copilot和ChatGPT）已成为代码生成的强大工具，显著提升了生产力并加速了软件开发。然而，现有基准主要关注通用代码生成，而未考虑面向API的代码生成，即生成调用特定库API的代码。鉴于面向API的代码生成需求日益增长，迫切需要一种系统化和自动化的方法来评估LLM在面向API代码生成方面的能力。为填补这一空白，我们提出了AutoAPIEval，一个轻量级且自动化的框架，旨在评估LLM在面向API代码生成方面的能力。我们的框架适用于任何提供API文档的库，并专注于两个单元任务：API推荐和代码示例生成，以及四个评估生成API和代码示例的指标，如任务1中错误API推荐的比例，以及任务2中未调用特定API和不可编译/不可执行代码示例的比例。此外，我们通过三个LLM（ChatGPT、MagiCoder和DeepSeek Coder）和Java运行时环境8的案例研究，展示了框架的有效性。我们的研究发现，LLM在不同任务中的表现存在显著差异，ChatGPT更符合指令，但在代码示例生成方面与其同行（即MagiCoder和DeepSeek Coder）效果相似。我们还识别了与代码质量相关的关键因素，如API的流行度和模型置信度，并构建了高精度检测错误API推荐和错误代码示例的分类器。检索增强生成提高了LLM生成代码的质量，但其效果在不同LLM之间有所不同。

发布时间: 9/24/2024

查看原文

利用人群行程信息增强行人轨迹预测

arXiv:2409.15224v1 公告类型: 交叉摘要: 行人轨迹预测对于主动交通管理、城市规划、交通控制、人群管理和自动驾驶等应用至关重要，旨在提高交通安全和效率。准确预测行人轨迹需要深入理解个体行为、社会互动和道路环境。现有研究已开发出多种模型来捕捉社会互动和道路条件对行人轨迹的影响。然而，这些方法受限于对社会互动和道路环境缺乏全面视角。为解决这些限制并提高行人轨迹预测的准确性，我们提出了一种新方法，将行程信息作为新的模态融入行人轨迹模型中。我们提出了RNTransformer，一种通用模型，利用人群行程信息来捕捉社会互动的全局信息。我们将RNTransformer与各种具有社会意识的局部行人轨迹预测模型结合，以展示其性能。具体而言，通过在训练不同的行人轨迹预测模型时利用预训练的RNTransformer，我们观察到性能指标的提升：在Social-LSTM上ADE/FDE分别提高了1.3/2.2%，在Social-STGCNN上分别提高了6.5/28.4%，在S-Implicit上分别提高了8.6/4.3%。评估结果表明，RNTransformer显著提高了多个数据集上各种行人轨迹预测模型的准确性。进一步的研究揭示，RNTransformer由于考虑了全局信息，有效地引导局部模型向更准确的方向发展。通过探索道路网络中的人群行为，我们的方法显示出通过准确轨迹预测提高行人安全的巨大潜力。

发布时间: 9/24/2024

查看原文

方面情感三元组提取中的依赖关系建模：ASTE转换器

arXiv:2409.15202v1 公告类型: 交叉摘要: 方面-情感三元组提取（ASTE）是一项最近提出的基于方面的情感分析任务，旨在从给定句子中提取（方面短语，观点短语，情感极性）三元组。最近的最先进方法通过首先从给定文本中提取所有可能的文本片段，然后使用分类器过滤潜在的方面和观点短语，最后使用另一个分类器考虑它们的所有配对，并额外分配情感极性来处理此任务。尽管已经提出了上述方案的几种变体，但共同特征是最终结果是通过一系列独立的分类器决策构建的。这阻碍了提取短语之间依赖关系的利用，并阻止了使用分类器预测之间相互关系的知识来提高性能。在本文中，我们提出了一种新的ASTE方法，由三个受Transformer启发的层组成，这使得模型能够在短语之间以及最终分类器决策之间建模依赖关系。实验结果表明，该方法在流行的基准测试中以F1度量衡量的性能优于其他研究的方法。此外，我们展示了简单的预训练技术进一步提高了模型的性能。

发布时间: 9/24/2024

查看原文

从对比提示中学习：自动化优化与适应

随着大型语言模型（LLMs）的发展，大量精力被用于手动设计提示。尽管现有的提示优化方法自动化了这一过程，但它们仅依赖于从错误样本中学习，导致性能次优。此外，文献中未被探索的一个挑战是，先前模型有效的提示在新版本或不同语言中可能表现不佳。我们提出了对比提示学习（LCP）框架，以解决这些差距，增强提示优化和适应性。LCP利用对比学习通过分析好提示和坏提示的示例来生成有效提示。我们在Big-Bench Hard数据集上的评估显示，LCP在提示优化方面的胜率超过76%，并且在不同模型版本、系列和语言中表现出强大的适应性。LCP为提示工程提供了一种系统化的方法，减少了在不同情境下部署LLMs所需的手动工作量。

发布时间: 9/24/2024

查看原文

HOTVCOM：为视频生成引人注目的评论

arXiv:2409.15196v1 公告类型: 交叉摘要: 在社交媒体视频平台的时代，热门“热评”在吸引用户对短视频的印象方面起着至关重要的作用，使其成为营销和品牌塑造的关键。然而，现有研究主要集中在生成英语描述性评论或“弹幕”，以对特定视频时刻提供即时反应。针对这一差距，我们的研究引入了\textsc{HotVCom}，这是最大的中文视频热评数据集，包含94k个多样化的视频和1.37亿条评论。我们还提出了\texttt{ComHeat}框架，该框架协同整合视觉、听觉和文本数据，以在中文视频数据集上生成有影响力的热评。实证评估突显了我们框架的有效性，展示了其在全新构建和现有数据集上的卓越表现。

发布时间: 9/24/2024

查看原文