arXiv 论文列表

作者: Xin Tan, Yimin Jiang, Yitao Yang, Hong Xu

arXiv:2407.00326v3 宣告类型: replace-cross 摘要：基于大语言模型（LLM）的应用由LLM组件和非LLM组件组成，每个组件都对端到端延迟有所贡献。尽管在优化LLM推理方面付出了巨大努力，但整体的工作流优化仍然被忽视。现有的框架采用粗粒度的任务模块调度，这限制了优化仅在模块内部进行，并导致次优的调度决策。我们提出了一种细粒度的端到端调度，它以任务原语作为基本单元，将每个查询的工作流表示为原语级别的数据流图。这明确地暴露出了一个更大的设计空间，使得可以在不同模块的任务原语之间进行并行化和流水线优化，并增强调度以提高应用级性能。我们构建了Teola，这是一种针对LLM应用的新型调度框架，实现了这种方案。全面的实验显示，Teola在各种流行的LLM应用中可以实现最高2.09倍的速度提升。代码可从https://github.com/NetX-lab/Ayo获取。

发布时间: 4/1/2025

查看原文

无需训练的指数上下文扩展通过级联KV缓存

作者: Jeffrey Willette, Heejun Lee, Youngwan Lee, Myeongjae Jeon, Sung Ju Hwang

arXiv:2406.17808v4 宣布类型: replace-cross 摘要：变压器的上下文窗口对于少量样本学习和条件生成等任务至关重要，因为它保留了先前的标记用于活跃记忆。然而，随着上下文长度的增加，计算成本会呈二次增长，阻碍了大规模语言模型（LLMs）在实际长序列场景中的部署。尽管一些近期的关键值缓存（KV Cache）方法提供了线性推理复杂度，但它们简单地管理存储的上下文，过早地移除标记并丢失有价值的信息。此外，它们缺乏优化的预填充/提示阶段策略，导致在实际上下文大小下比二次注意力的延迟还要高。为应对这一挑战，我们引入了一种新的机制，利用级联子缓存缓冲区来选择性地保留最相关的标记，使模型能够在不增加缓存大小的情况下保持更长的上下文历史。我们的方法在包括流式困惑度、问答、书籍摘要和密钥对检索等关键基准测试中均优于线性缓存基线，即使在缓存大小从65K增加到260K后，它在1M标记处仍能保持更好的检索准确性。此外，当与1M标记相比时，我们的方法将预填充阶段的延迟降低了6.8倍。这些创新不仅提升了大规模语言模型的计算效率，还为其在资源受限环境中的有效部署铺平了道路，使得大规模、实时应用程序的延迟显著降低。

发布时间: 4/1/2025

查看原文

模态马赛克：多模态图学习的综合基准

作者: Jing Zhu, Yuhang Zhou, Shengyi Qian, Zhongmou He, Tong Zhao, Neil Shah, Danai Koutra

arXiv:2406.16321v2 公告类型: replace-cross 摘要：图形机器学习在近年来取得了显著进展，但在视觉信息与图形结构的整合及其在下游任务中提高性能的潜力方面仍然存在未开发的领域。为解决这一关键缺口，我们介绍了Multimodal Graph Benchmark (MM-GRAPH)，这是一个开创性的基准，它将视觉和文本信息纳入图学习任务中。MM-GRAPH超越了现有的文本标注图形基准，提供了一个更全面的多模态图学习评估框架。我们的基准包括七个不同规模的多样数据集（从数千到数百万条边不等），旨在评估各种任务在现实场景中的算法表现。这些数据集包含丰富的多模态节点属性，包括视觉数据，这使得在复杂多模态环境中对各种图学习框架进行全面评估成为可能。为支持这一新兴领域的进步，我们对在多种模态特征下展示的各种图学习框架进行了详尽的实证研究，特别强调了视觉信息的影响。这项研究提供了将视觉数据整合到图学习中的挑战和机遇的有价值的见解。

发布时间: 4/1/2025

查看原文

卷积柯尔莫哥洛夫-阿诺尔德网络

作者: Alexander Dylan Bodner, Antonio Santiago Tepsich, Jack Natan Spolski, Santiago Pourteau

arXiv:2406.13155v3 宣告类型: replace-cross 摘要: 在本文中，我们提出了卷积柯尔莫哥罗夫-阿诺尔德网络(Covolutional Kolmogorov-Arnold Networks, ConvKANs)，这是一种新颖的架构，将柯尔莫哥罗夫-阿诺尔德网络(Kolmogorov-Arnold Networks, KANs)的可学习样条激活函数整合到卷积层中。通过将传统的固定权重核替换为可学习的非线性函数，卷积KANs在参数效率和表达能力方面比标准卷积神经网络(Convolu-tional Neural Networks, CNNs)有了显著的改进。我们在Fashion-MNIST数据集上对卷积KANs进行了实证评估，证明其与基准经典卷积相比，参数量最多可减少50%的同时具有竞争力的精度。这表明KAN卷积能够有效地捕捉复杂的空间关系，使用更少的资源，为参数高效深度学习模型提供了一种有前景的替代方案。

发布时间: 4/1/2025

查看原文

面向AI增强的数据质量管理：从数据质量for AI到AI在数据质量管理中的应用

作者: Heidi Carolina Tamm, Anastasija Nikiforova

arXiv:2406.10940v2 通知类型: 替换-交叉摘要：在当今以数据驱动的环境中，确保数据质量（DQ）对于从庞大的数据仓库中提取可行的洞察至关重要。本研究旨在探讨在数据仓库中自动化数据质量管理的可能性，数据仓库是大型组织常用的存储库。通过系统性地审查市场上和学术文献中现有的DQ工具，研究评估了它们自动检测和实施数据质量规则的能力。审查了来自各种来源的151种工具，结果表明，大多数现有工具专注于特定领域的数据库中的数据清理和修复，而不是数据仓库。只有少数工具，具体而言是十种工具，能够检测数据质量规则，更不用说在数据仓库中实施这些规则了。这些发现突显了市场上和学术研究中在数据仓库环境中增强AI辅助的数据质量规则检测方面的显著差距。本文倡导在此领域进一步发展，以提高数据质量管理流程的效率，减少人力工作量并降低成本。研究突出了自动数据质量规则检测高级工具的必要性，为数据仓库环境中数据质量管理的改善实践铺平了道路。该研究可以指导组织选择最符合其需求的数据质量工具。

发布时间: 4/1/2025

查看原文

VELOCITI: 基于严格蕴含的视频-语言组成推理基准测试

作者: Darshana Saravanan, Varun Gupta, Darshan Singh, Zeeshan Khan, Vineet Gandhi, Makarand Tapaswi

arXiv:2406.10889v2 宣告类型: replace-cross 摘要：视频中组合推理的基本方面在于将人物与其随时间的动作关联起来。近几年，在通用视觉或视频模型以及长视频理解方面取得了显著进展。虽然令人兴奋，但我们退一步问：当前的模型是否擅长处理短视频中的组合推理？为此，我们引入了VELOCITI基准，通过分离和评估代理、动作及其在多个事件中的关联来研究视频LLM。我们采用了Video-Language Entailment设置，并提出了StrictVLE，该设置要求对正负描述词进行正确分类（而不是排名）。我们评估了几种模型，并观察到即使是表现最好的模型，如LLaVA-OneVision（44.5%）和Gemini-1.5-Pro（49.3%），也远低于人类的准确性（93.0%）。结果显示，动作理解滞后于代理，且由出现在视频中的实体创建的负面描述词的表现不如纯文本操作获得的描述词差。我们还指出了ClassicVLE和多项选择（MC）评估的挑战，进一步强化了我们对StrictVLE的偏好。最后，我们验证了我们的基准需要多帧的视觉输入，使其成为研究视频语言组合推理的理想选择。

发布时间: 4/1/2025

查看原文

基于大型语言模型的熵增强规划在药物发现中的应用

作者: Xuefeng Liu, Chih-chan Tien, Peng Ding, Songhao Jiang, Rick L. Stevens

arXiv:2406.07025v2 通报类型: replace-cross 摘要: 药物发现的目标是识别具有特定药理性质的化学化合物，这些化合物能够与特定的结合靶点相结合。现有的大型语言模型（LLMs）在分子生成方面可以实现高概率的令牌匹配得分。然而，仅仅依赖于LLM解码往往会生成由于单个令牌误用而导致无效的分子，或者由于LLM先前经验导致的探索与利用不平衡而导致的次优分子。在这里，我们提出了一种名为ERP（Entropy-Reinforced Planning for Transformer Decoding）的方法，该方法使用熵增强的规划算法来增强变压器解码过程，并在探索与利用之间取得平衡。ERP旨在在多个属性上优于直接从变压器中采样的方法。我们在SARS-CoV-2病毒（3CLPro）和人类癌细胞靶蛋白（RTCB）基准上评估了ERP，并证明在两个基准中，ERP分别比当前最先进的算法提高了1-5个百分点，比基线提高了5-10个百分点。此外，这种改进在使用不同目标训练的变压器模型中是稳健的。最后，为了进一步展示ERP的能力，我们在三个代码生成基准上测试了我们的算法，也优于当前最先进的方法。我们的代码可在以下地址公开获取：https://github.com/xuefeng-cs/ERP。

发布时间: 4/1/2025

查看原文

LLMs 不是智能的思想者：引入数学主题树基准测试以全面评估 LLMS

作者: Arash Gholami Davoodi, Seyed Pouyan Mousavi Davoudi, Pouya Pezeshkpour

arXiv:2406.05194v2 Announce Type: replace-cross 摘要：大规模语言模型（LLMs）在数学推理方面表现出令人印象深刻的性能。然而，尽管取得了这些成就，当前的评估主要局限于特定的数学主题，不清楚LLMs是否真正进行了推理。为解决这些差距，我们提出了数学主题树（MaTT）基准测试，这是一个具有挑战性和结构化的基准测试，涵盖了广泛数学主题的1,958个问题，每个问题都配有一个详细的分层主题链。使用MaTT基准测试评估了不同的LLMs，发现最先进的模型GPT-4在多项选择题中的准确率为54%。有趣的是，即使使用了思考链提示，我们也没有观察到明显的改进。此外，当不提供选项时，LLMs在问题上的准确率下降了24.2个百分点。对一系列主题的LLMs表现进行了进一步的详细分析，即使是在相同一般数学领域的密切相关子主题中，也发现了显著的差异。为了找出LLMs表现的原因，我们对手动评估了GPT-4在提供选项时生成的解释的完整性和正确性进行了评估。令人惊讶的是，我们发现，在模型提供正确答案的53.3%的情况下，伴随的解释被认为既完整又准确，即模型真正进行了推理。

发布时间: 4/1/2025

查看原文

TimeCMA：面向跨模态对齐的LLM赋能多变量时间序列预测

作者: Chenxi Liu, Qianxiong Xu, Hao Miao, Sun Yang, Lingzheng Zhang, Cheng Long, Ziyue Li, Rui Zhao

arXiv:2406.01638v5 宣告类型: 替换-交叉摘要: 多变量时间序列预测（MTSF）旨在通过学习变量之间的时序动态来预测未来的时间序列。现有的统计和基于深度学习的方法由于可学习参数有限和训练数据规模较小而受到限制。最近，结合时间序列与文本提示的大型语言模型（LLMs）在MTSF中取得了令人瞩目的性能。然而，我们发现当前基于LLM的解决方案在学习分离嵌入方面存在不足。我们介绍了一种名为TimeCMA的直观且有效的框架，用于通过跨模态对齐进行MTSF。具体来说，我们提出了双模态编码，具有两个分支：时间序列编码分支提取分离但较弱的时间序列嵌入，而LLM赋能的编码分支则通过文本作为提示将相同的时间序列包裹起来，以获得缠结但稳健的提示嵌入。结果，这种跨模态对齐从时间序列和提示模态的相似性出发，从提示嵌入中检索出既分离又稳健的时间序列嵌入，“两全其美”。作为另一个关键设计，为了减少时间序列及其长度文本提示的计算成本，我们设计了一个有效的提示，以鼓励在最后的标记中封装最重要的时序信息：只有最后的标记传递给下游预测。我们进一步存储最后的标记嵌入以加速推理速度。在八个真实数据集上的广泛实验表明，TimeCMA超越了现有最佳方法。

发布时间: 4/1/2025

查看原文

LLM代理团队可以利用零日漏洞

作者: Yuxuan Zhu, Antony Kellermann, Akul Gupta, Philip Li, Richard Fang, Rohan Bindu, Daniel Kang

arXiv:2406.01637v2 通告类型: replace-cross 摘要: 大型语言模型（LLM）代理已经变得越来越复杂，特别是在网络安全领域。研究人员已经证明，当给定漏洞的描述时，LLM代理可以利用实际世界中的漏洞，并解决玩具捕获的旗帜问题。然而，这些代理在事先对代理未知的真实世界漏洞（零日漏洞）上表现仍然不佳。在这项工作中，我们展示了由LLM代理组成的团队可以利用实际存在的零日漏洞。单个代理在单独使用时难以探索多种不同的漏洞和进行长期规划。为了解决这个问题，我们引入了HPTSA——一个包括能够启动子代理的规划代理的系统。规划代理探索系统并决定调用哪些子代理，在尝试不同漏洞时解决了长期规划问题。我们构建了一个包含14个真实世界漏洞的基准，并展示了我们的代理团队相较于之前的代理框架提高了4.3倍。

发布时间: 4/1/2025

查看原文