arXiv 论文列表

作者: Stephen James Krol, Maria Teresa Llano Rodriguez, Miguel Loor Paredes

arXiv:2502.09055v1 共创类型：横跨多个领域摘要：近年来，生成AI音乐的进步导致出现了一些新技术，这些技术被定位为与音乐家共同创作的工具，早期的工作展示了它们在音乐实践中的Potential应用。尽管该领域已经做出了许多有价值的贡献，但在设计和开发这些工具时将实际演奏音乐的音乐家纳入其中的工作仍然有限，大多数工作在工具开发完成后才涉及他们。在本文中，我们通过共同设计一种音乐变体系统，探索了实际演奏音乐的音乐家的需求，强调在整个设计过程中涉及各种不同背景的音乐家的重要性，并发现了多种设计见解。这一目标通过两场研讨会和为期两周的生态评估实现，来自不同音乐背景的音乐家不仅提供了关于音乐系统设计的宝贵见解，还指出了如何将音乐AI整合到其音乐实践中。

发布时间: 2/14/2025

查看原文

AIDE：由领域专家代理提升视觉语言模型

作者: Ming-Chang Chiu, Fuxiao Liu, Karan Sapra, Andrew Tao, Yaser Jacoob, Xuezhe Ma, Zhiding Yu, Guilin Liu

arXiv:2502.09051v1 类型: cross 摘要：视觉语言模型（VLMs）的传统增强依赖于从更大、更强大的模型中进行知识蒸馏。这种依赖性为改进最先进的系统创造了一个基本瓶颈，特别是在没有更优模型的情况下。我们引入了AIDE（Agentic Improvement through Domain Experts，通过领域专家的自主改进），这是一种新颖的框架，使VLMs能够通过利用专业领域专家模型自主提升其能力。AIDE 通过一个四阶段过程运作：(1) 识别需要改进的实例，(2) 雇佣领域专家进行目标分析，(3) 结合专家输出与现有数据，以及 (4) 将增强的实例集成到训练管道中。在多个基准上的实验，包括MMMU、MME、MM Bench等，证明了AIDE在无需依赖更大规模的VLMs和人工监督的情况下，能够实现显著的性能提升。我们的框架提供了一种可扩展、资源高效的方法来持续改进VLMs，解决了当前方法论的关键限制，特别是在无法访问更大规模模型的情况下尤为有价值。

发布时间: 2/14/2025

查看原文

利用多视图图过滤技术挖掘成员-群组关系以实现有效的群组推荐

作者: Chae-Hyun Kim, Yoon-Ryung Choi, Jin-Duk Park, Won-Yong Shin

arXiv:2502.09050v1 推荐类型：交叉摘要：群体推荐旨在为多样化的群体提供定制化的优化推荐，使群体能够享受合适的产品。另一方面，目前大多数群体推荐方法都是基于用于捕捉成员级和群体级交互的复杂关系的深度神经网络（DNN）架构构建的。虽然这些基于DNN的方法 proven 了其有效性，但在利用群体级交互的同时，还需要复杂且昂贵的训练过程来整合成员级交互。为克服这些限制，我们引入了Group-GF，这是一种新的方法，它通过多视图图过滤（GF）以极快的速度为每个群体推荐项目，提供复杂的成员-群体动态的全面视图，无需昂贵的模型训练。具体而言，在Group-GF中，我们首先构建了三个物品相似性图，以体现不同的GF视角。然后，我们为每个相似性图发现了一个独特的多项式图滤波器，并谨慎地聚合了三个图滤波器。广泛的实验表明，Group-GF在显著减少运行时间和实现最先进的推荐准确性方面具有有效性。

发布时间: 2/14/2025

查看原文

基于标准评分的图过滤：既快速又准确的多标准推荐

作者: Jin-Duk Park, Jaemin Yoo, Won-Yong Shin

arXiv:2502.09046v1 交叉类型公告摘要：多准则（MC）推荐系统利用多准则评分信息进行推荐，在各种电子商务领域中越来越普及。然而，使用基于训练的协作过滤进行多准则推荐，相较于单准则对应物而言，需要考虑多个评分，往往在实现最先进的性能的同时，在可扩展模型训练方面带来实际挑战。为了解决这一问题，我们提出了一种名为CA-GF的无需训练的多准则推荐方法，该方法基于多准则感知图过滤以实现高效且准确的多准则推荐。具体而言，首先，我们使用多准则用户扩展图构建了项-项相似性图。接下来，我们设计了CA-GF，其包括以下关键组件：1) 多准则特定图过滤，其中为每个准则找到最优滤波器，使用多种类型的多项式低通滤波器；2) 评分偏好融合聚合，其中从每个准则平滑的信号进行聚合。我们证明了CA-GF具有以下特性：(a) 高效：提供计算效率，即使在最大的基准数据集上，其运行时间也少于0.2秒；(b) 准确：在基准多准则推荐方法中表现出色，与最佳竞争对手相比，准确率提高了多达24%；(c) 可解释性：基于可视化提供了每准则对模型预测贡献的解释。

发布时间: 2/14/2025

查看原文

台风 T1：一个开源泰语推理模型

作者: Pittawat Taveekitworachai, Potsawee Manakul, Kasima Tharnpipitchai, Kunat Pipatanakul

arXiv:2502.09042v1 摘要类型: cross 摘要：本文介绍了Typhoon T1，这是一个开放的努力，旨在开发一种开放的泰语推理模型。推理模型是一种基于大规模语言模型（LLMs）的相对较新的生成模型。推理模型在生成最终答案之前会生成一条漫长的思想链，这种方法已被证明有助于在复杂任务上提高性能。然而，关于此类模型的开发细节相对有限，尤其是对于能够生成低资源语言推理路径的推理模型来说更是如此。Typhoon T1 提出了一种开放的努力，通过利用监督微调来更经济高效地开发推理模型，而非使用强化学习。本文分享了关于合成数据生成和训练的细节，以及我们的数据集和模型权重。此外，我们还提供了在开发能够跨领域泛化并能够在低资源语言（以泰语为例）中生成推理路径的推理模型过程中获得的见解。我们希望这一开放努力能够为该领域的进一步研究提供基础。

发布时间: 2/14/2025

查看原文

大图像即是高斯分布：基于2D高斯插值的高质量大图像表示

作者: Lingting Zhu, Guying Lin, Jinnan Chen, Xinjie Zhang, Zhenchao Jin, Zhao Wang, Lequan Yu

arXiv:2502.09039v1 Announce Type: cross 摘要：尽管隐式神经表示（INRs）在图像表示方面取得了显著成功，但它们常常受到大量训练内存和缓慢解码速度的阻碍。最近，由于其高质量的新视角合成和快速渲染能力，高斯斑点化（GS）作为一种在3D重建中的有前景的解决方案出现，使其成为一系列应用中有价值的工具。特别是，基于GS的表示，2DGS，在图像拟合方面显示了潜力。在我们的工作中，我们提出了**L**arge **I**mage are **G**aussians（**LIG**），深入探讨了2DGS在图像表示中的应用，通过两种不同的修改解决了在大量高斯点的情况下采用2DGS进行图像拟合的挑战：1）我们采用了表示和优化策略的变体，有助于拟合大量的高斯点；2）我们提出了一个高斯级别方法，用于重建粗糙低频初始化和精细高频细节。因此，我们成功地用高斯点表示大型图像，并实现了高质量的大图像表示，展示了其在各种类型的大图像上的有效性。代码可在[https://github.com/HKU-MedAI/LIG](https://github.com/HKU-MedAI/LIG) 获取。

发布时间: 2/14/2025

查看原文

EventSTR：基于事件流场景文本识别的基准数据集和baseline方法

作者: Xiao Wang, Jingtao Jiang, Dong Li, Futian Wang, Lin Zhu, Yaowei Wang, Yongyong Tian, Jin Tang

arXiv:2502.09020v1 宣称类型: cross 摘要: 主流场景文字识别(STR)算法基于RGB摄像头开发，这些摄像头对低照度、运动模糊和复杂背景等挑战性因素敏感。在本文中，我们提出使用生物启发的事件摄像头来收集和标注一个大规模基准数据集，称为EventSTR。该数据集包含9,928个高分辨率(1280 * 720)的事件样本，并涉及中文和英文字符。我们还针对未来的工作基准测试了多个STR算法。此外，我们提出了一种新的基于事件的场景文字识别框架，称为SimC-ESTR。该框架首先使用视觉编码器提取事件特征，并使用Q-former模块将它们投影为标记。更重要的是，我们在将这些视觉标记输入到大规模语言模型之前，提出了基于记忆机制的增强方法。在一个大规模语言模型中嵌入了基于上下文信息的相似性错误纠正机制，以从根本上纠正潜在的细微错误。在新提出的EventSTR数据集和两个模拟STR数据集上的广泛实验充分证明了我们提出模型的有效性。我们认为，该数据集和算法模型可以开创性地提出一个基于事件的STR任务，并有望加速事件摄像头在各个行业的应用。相关源代码和预训练模型将发布在https://github.com/Event-AHU/EventSTR

发布时间: 2/14/2025

查看原文

零样本概念瓶颈模型

作者: Shin'ya Yamaguchi, Kosuke Nishida, Daiki Chijiwa, Yasutoshi Ida

arXiv:2502.09018v1 交叉类型：摘要：概念瓶颈模型（CBMs）是内置可解释性和干预性的神经网络模型，它们通过高层语义概念的中间预测来解释最终的标签预测。然而，它们需要针对目标任务进行训练，以学习输入到概念和概念到标签的映射，这会引发目标数据集的收集和训练资源的需求。在本文中，我们提出了一种全零样本概念瓶颈模型（Z-CBMs），它能够在不训练神经网络的情况下预测概念和标签。Z-CBMs 利用了一个大规模的概念银行，该银行由从网络中提取的数百万词汇组成，用于描述各个领域中的任意输入。对于输入到概念的映射，我们引入了概念检索，通过概念银行上的跨模态搜索动态找到与输入相关的概念。在概念到标签的推理中，我们应用概念回归，通过稀疏线性回归从检索到的概念中选择关键概念。通过广泛的实验，我们确认我们的 Z-CBMs 可以提供解释性和可干预的概念，而无需任何额外的训练。代码将在 https://github.com/yshinya6/zcbm 获取。

发布时间: 2/14/2025

查看原文

RoSTE：一种高效的量化感知监督微调方法Large Language Models

作者: Quan Wei (Katie), Chung-Yiu Yau (Katie), Hoi-To Wai (Katie), Yang (Katie), Zhao, Dongyeop Kang, Youngsuk Park, Mingyi Hong

arXiv:2502.09003v1 宣布类型: 交叉摘要: 监督微调是将预训练的大规模语言模型（LLMs）适应下游任务的标准方法。量化最近被研究作为部署LLM的有效后训练技术。为了获得量化微调的LLM，传统的流程是首先对预训练模型进行微调，然后进行后训练量化。这种方法通常会获得次优性能，因为这未能充分利用微调和量化之间的协同作用。为了有效地实现LLM中权重、激活和KV缓存的低比特量化，我们提出了一种名为旋转直通估计器（RoSTE）的算法，该算法结合了量化感知监督微调（QA-SFT）和自适应旋转策略，该策略可以识别有效的旋转配置以减少激活异常值。通过对过参数化的最小二乘量化训练问题应用RoSTE进行预测误差分析，我们为RoSTE提供了理论洞见。我们的发现表明，预测误差直接与收敛权重的量化误差成正比，可以通过优化旋转配置来有效地管理这种误差。Pythia和Llama等不同规模模型的实验表明了RoSTE的有效性。与现有的后SFT量化基线相比，我们的方法在各种任务和不同LLM架构中始终表现出更优的性能。

发布时间: 2/14/2025

查看原文

PixLift：通过AI放大加速网页浏览

作者: Yonas Atinafu, Sarthak Malla, HyunSeok Daniel Jang, Nouar Aldahoul, Matteo Varvello, Yasir Zaki

arXiv:2502.08995v1 类别: cross 摘要：在拥有昂贵数据计划和地区连接受限的地区访问互联网带来了重大挑战，限制了信息访问和经济增长。尽管压缩格式如 WebP 和 AVIF 取得进展，图像作为网页大小的主要贡献者，仍然加剧了这一问题。随着复杂且经过策展的网页内容的不断增长，以及许多地区在优化实践方面的不足，网页大小的实际减小受到了阻碍。本文介绍了 PixLift，一种在传输过程中通过缩小图像尺寸并利用用户设备上的 AI 模型对其进行放大来减少网页大小的创新解决方案。通过在计算资源和带宽之间进行权衡，PixLift 使更实惠且包容性的网络访问成为可能。我们解决了关键挑战，包括 popular 网站上缩放图像请求的可行性、作为浏览器扩展实现 PixLift 的方法以及其对用户体验的影响。通过对 71,400 个网页的分析、三种主流放大模型的评估以及用户研究，我们展示了 PixLift 在不牺牲图像质量的情况下显著减少数据使用量的能力，从而促进一个更公平的互联网。

发布时间: 2/14/2025

查看原文