arXiv 论文列表

作者: Rashid Mushkani, Shravan Nayak, Hugo Berard, Allison Cohen, Shin Koseki, Hadrien Bertrand

arXiv:2503.01894v2 宣布类型: 替换-交叉摘要：我们介绍了本地交叉视觉空间（LIVS）数据集，这是一个多标准对齐的基准，通过与30个社区组织为期两年的参与性过程开发，旨在支持包容性城市规划中多标准对齐的文本到图像（T2I）模型。该数据集编码了13,462张图像间的37,710对比较，根据来自634个社区定义概念的六个标准——可达性、安全性、舒适性、吸引力、包容性和多样性——结构化。利用直接偏好优化（DPO），我们将Stable Diffusion XL微调以反映多标准空间偏好，并通过四个案例研究评估LIVS数据集和微调后的模型：（1）DPO在标注偏好量大时，提高了对齐程度；（2）偏好模式随着参与者身份的变化而变化，强调了交叉数据的必要性；（3）人类撰写的提示生成比LLM生成的提示更具特色的视觉输出，影响标注的决断性；（4）交叉群体在各个标准上系统地分配不同的评分，揭示了单一目标对齐的局限性。尽管DPO在特定条件下提高了对齐程度，但大量中性评分的存在表明，社区价值观存在异质性且往往模糊不清。LIVS为开发结合本地、利益相关方驱动偏好的T2I模型提供了基准，为基于上下文的对齐在空间设计中的应用提供了基础。

发布时间: 5/9/2025

查看原文

更快、更便宜、更好：多目标超参数优化在LLM和RAG系统中的应用

作者: Matthew Barker, Andrew Bell, Evan Thomas, James Carr, Thomas Andrews, Umang Bhatt

arXiv:2502.18635v2 通告类型: 交叉替换摘要：虽然检索增强生成（RAG）已成为提高大型语言模型（LLM）系统性能的一种流行技术，但它引入了大量的选择、参数和超参数需要做出或调整。这包括LTM模型本身、嵌入和排名模型，以及个别RAG组件的超参数。然而，由于解空间难以处理、目标评估噪音大以及评估成本高昂，集体优化整个RAG或LLM系统的配置——尤其是在多目标设置下——仍然鲜有探索。在本文中，我们提出了第一个方法，用于在整个LLM和RAG系统中对成本、延迟、安全性和对齐进行多目标参数优化。我们发现贝叶斯优化方法显著优于基准方法，在两个新的RAG基准任务中获得了更优的帕累托前沿。在文章的结尾，我们对设计多目标RAG系统的实践者提出了重要的考虑事项，指出最优配置可能无法泛化到不同的任务和目标，突显了这一领域的复杂性。

发布时间: 5/9/2025

查看原文

FLARE：一种基于恒星物理属性和历史记录的耀斑预报框架

作者: Bingke Zhu, Xiaoxiao Wang, Minghui Jia, Yihan Tao, Xiao Kong, Ali Luo, Yingying Chen, Ming Tang, Jinqiao Wang

arXiv:2502.18218v2 通告类型: replace-cross 摘要：恒星耀斑事件是天文学研究的关键观测样本；然而，记录的耀斑事件仍然有限。恒星耀斑预报可以提供额外的耀斑事件样本以支持研究工作。尽管具有这种潜力，到目前为止还没有为恒星耀斑预报专门提出模型。在本文中，我们提供了大量实验证据，证明了恒星物理特性及其历史耀斑记录对耀斑预报任务的价值。随后，我们介绍了FLARE（通过特征集成进行基于光变曲线的天文学记录预报），这是首款专门设计用于恒星耀斑预报的大规模模型。FLARE通过新颖的Soft Prompt模块和Residual Record融合模块将恒星物理特性和历史耀斑记录结合起来。我们在公开发布的开普勒光变曲线数据集上的实验表明，FLARE在所有评估指标上都优于其他方法。最后，通过一项全面的案例研究验证了我们模型的预报能力。

发布时间: 5/9/2025

查看原文

TLOB：一种用于限价订单簿数据价格趋势预测的新型双注意机制变压器模型

作者: Leonardo Berti, Gjergji Kasneci

arXiv:2502.15757v3 通知类型: replace-cross 摘要: 基于限价订单簿（LOB）数据的价格趋势预测（PTP）是金融市场的基本挑战。尽管深度学习有所进展，现有的模型仍无法在不同的市场条件下和资产之间泛化。令人惊讶的是，通过将简单的MLP基架构适应LOB，我们证明我们超越了现有的最佳方法；从而挑战了复杂架构的必要性。与过去因稳健性问题而被证明的研究不同，我们提出了一种基于变换器的模型TLOB，该模型使用双重注意力机制来捕捉LOB数据中的空间和时间依赖性。这使得它能够适应性地关注市场微观结构，使其特别适用于长期预测和波动的市场条件。我们还引入了一种新的标记方法，改进了先前的方法，消除了时间窗偏见。我们在四个不同的时间窗上使用已建立的FI-2010基准、纳斯达克和比特币数据集评估了TLOB的效果。TLOB在每个数据集和时间窗上都优于现有的最佳方法。此外，我们实证地展示了股票价格可预测性随时间下降的情况，F1分数下降6.68，突显了市场效率的不断提升。考虑到交易成本，价格预测的可预测性必须加以考虑，我们尝试使用平均价差来定义趋势，反映了主要的交易成本。结果显示的趋势分类性能下降突显了将趋势分类转化为盈利交易策略的复杂性。我们认为，我们的工作提供了对股票价格趋势预测不断演变的场景的新见解，并为未来金融AI的发展奠定了坚实的基础。我们已在https://github.com/LeonardoBerti00/TLOB上发布了代码。

发布时间: 5/9/2025

查看原文

通过潜空间转移建模标签噪声以校正嘈杂的多标签预测

作者: Weipeng Huang, Qin Li, Yang Xiao, Cheng Qiao, Tie Cai, Junwei Liang, Neil J. Hurley, Guangyuan Piao

arXiv:2502.14281v3 宣告类型: replace-cross 摘要：数据中的噪声似乎在大多数实际的机器学习应用中不可避免，并且会导致严重的过拟合问题。不仅数据特征可能包含噪声，标签也由于人类输入的原因而容易产生噪声。在本文中，我们没有关注多类分类中的嘈杂标签学习，而是将注意力集中在尚未被充分探索的多标签分类中的嘈杂标签学习领域。具体来说，我们研究了从使用嘈杂标签学习的分类器生成的预测之后的纠正。有两方面的原因。首先，这种方法可以直接与训练好的模型一起工作，以节省计算资源。其次，它可以在其他嘈杂标签纠正技术的基础上应用，从而获得进一步的改进。为了解决这个问题，我们求助于可能进行不确定性估计的深度生成方法。我们的模型假设标签噪声源自潜在变量的随机偏移，从而为嘈杂学习提供了更稳健和有益的方法。我们为我们的模型开发了无监督学习和半监督学习方法。广泛的实证研究表明，我们的方法能够一贯地改进单独的方法，并且在各种嘈杂标签设置中比许多现有方法表现更好。此外，我们对所提出方法进行了全面的实证分析，以验证其稳健性，包括灵敏度分析和消融研究等其他元素。

发布时间: 5/9/2025

查看原文

在中国语境下对DeepSeek模型的安全评估

作者: Wenjing Zhang, Xuejiao Lei, Zhaoxiang Liu, Ning Wang, Zhenhong Long, Peijun Yang, Jiaojiao Zhao, Minjie Hua, Chaoyang Ma, Kai Wang, Shiguo Lian

arXiv:2502.11137v3 安全公告类型: replace-cross 摘要：近期，借助其卓越的推理能力和开源策略，DeepSeek 系列模型正在重塑全球 AI 地图。尽管这些优势明显，但它们在安全性方面也表现出显著的不足。Robust Intelligence（思科的子公司）与宾夕法尼亚大学合作进行的研究揭示，当处理有害提示时，DeepSeek-R1 的攻击成功率高达 100%。此外，多家安全公司和研究机构已确认了该模型中存在的关键安全漏洞。作为在中文和英语中均表现出稳健性能的模型，DeepSeek 模型需要在两种语言环境中进行同等关键的安全评估。然而，当前的研究主要集中于英语环境中的安全性评估，而对中文环境中的安全性能进行全面评估则存在空白。为应对这一空白，本研究引入了 CHiSafetyBench，这是一种专门针对中文的安全评估基准。该基准系统地评估了 DeepSeek-R1 和 DeepSeek-V3 在中文环境中的安全性，揭示了它们在各个安全类别的性能。实验结果量化了这两个模型在中文环境中的不足之处，为后续改进提供了重要见解。值得注意的是，尽管我们已尽力建立一个全面、客观和权威的评估基准，但在测试样本的选择、数据分布的特征以及评估标准的设定中，不可避免地会引入一定程度的偏差。我们将不断优化评估基准，并定期更新本报告，以提供更全面和准确的评估结果。请参考论文的最新版本获取最新的评估结果和结论。

发布时间: 5/9/2025

查看原文

DejAIju：使用显著性图实现实时识别和解释网上的AI艺术作品

作者: Jocelyn Dzuong

arXiv:2502.08821v2 通告类型: replace-cross 摘要：近年来，先进生成模型的兴起，如扩散模型和生成对抗网络（GANs），导致了网络上各类领域中AI生成图像的惊人的增长。虽然这些技术为艺术创作的普及带来了好处，但也带来了虚假信息、数字伪造和真实性验证方面的挑战。此外，媒体和营销中对未经署名的AI生成图像的使用引发了在线社区的重大反弹。为应对这些问题，我们提出了DejAIvu，这是一个结合了实时AI生成图像检测和基于显著性的解释性的Chrome网络扩展程序。在用户浏览网络时，DejAIvu使用经过ONNX优化的深度学习模型自动分析Google Images等网站上的图像，使用模型推理识别AI生成内容，并叠加显著性热图以突出显示与AI相关的特征。我们的方法结合了高效的浏览器内推理、基于梯度的显著性分析以及无缝用户体验，确保AI检测不仅透明而且可解释。我们还在多个预训练架构和基准数据集上评估了DejAIvu，展示了其高准确性和低延迟，使其成为一个实际部署的工具，用于增强AI图像问责制。该系统的代码可以在https://github.com/Noodulz/dejAIvu找到。

发布时间: 5/9/2025

查看原文

基于视觉变压器的时空GAN在纹理图像合成中的应用

作者: Elahe Salari, Zohreh Azimifar

arXiv:2502.01842v2 宣告类型: replace-cross 摘要：纹理合成是计算机视觉中的一个基本任务，其目标是生成视觉上真实且结构上一致的纹理，适用于从图形到科学模拟等各种应用。虽然传统的铺贴和基于块的技术在处理复杂纹理时经常遇到困难，但深度学习的最新进展已经彻底改变了这一领域。在本文中，我们提出了一种新的混合模型 ViT-SGAN，该模型将 Vision Transformers (ViTs) 与空间生成对抗网络 (SGAN) 融合，以解决以往方法的局限性。通过将专业的纹理描述符（如均值-方差（μ, σ）和纹理元）纳入 ViTs 的自我注意机制中，我们的模型实现了卓越的纹理合成效果。这种方法增强了模型捕捉复杂空间依赖性的能力，从而在纹理质量上超过了最先进的模型，特别是在规则和不规则纹理方面。使用 FID、IS、SSIM 和 LPIPS 等度量标准的对比实验表明，ViT-SGAN 在生成多样化的逼真纹理方面的显著改进，突显了其高效的生成能力。

发布时间: 5/9/2025

查看原文

通过记忆增强实现元强化学习中的任务泛化

作者: Kaixi Bao, Chenhao Li, Yarden As, Andreas Krause, Marco Hutter

arXiv:2502.01521v2 宣告类型: replace-cross 摘要：通过强化学习（RL）训练的智能体通常难以在训练过程中遇到的任务之外的任务上表现出色。这一局限性给在多样且动态任务设置中广泛部署RL带来了挑战。本文中，我们提出了记忆增强，这是一种基于记忆的RL方法，旨在提高任务通用性。我们的方法利用结构化任务增强来模拟可能的离分布场景，并结合记忆机制以实现上下文感知的策略适应。通过在预定义的任务集上训练，我们的策略通过记忆增强展示了解决未见过的任务的能力，而无需额外与环境交互。通过广泛的模拟实验和实际硬件评估，我们展示了我们的方法在保持稳健的在分布性能和高效样本利用的同时，实现了零样本泛化到未见过的任务。

发布时间: 5/9/2025

查看原文

AI的权利

作者: Rashid Mushkani, Hugo Berard, Allison Cohen, Shin Koeski

arXiv:2501.17899v2 通知类型：替换-交叉摘要：本文提出了一种“人工智能权利”，主张个人和社区应当在塑造其生活的人工智能系统的发展和治理中发挥有意义的参与作用。受人工智能在关键领域部署不断增加，并借鉴Henri Lefebvre的城市权利概念的启发，我们将人工智能重新概念化为社会基础设施，而不仅仅是专家设计的产品。本文批判性地评估了生成型代理、大规模数据提取以及多样化的文化价值观如何为人工智能监管带来新的复杂性。本文建议，底层参与式方法可以减少偏见结果，并增强社会响应能力。它主张数据是社会生产的，并且应该集体管理与拥有。本文借鉴Sherry Arnstein的公民参与梯度，并通过对九个案例研究的分析，构建了一个四级模型来界定当前的人工智能权利范式和展望一个抱负的未来。本文提出了包容性数据所有权、透明设计过程以及利益相关者驱动的监管的建议。我们还讨论了市场导向和以国家为中心的替代方案，并认为参与式方法提供了更好地平衡技术效率与民主合法性之间的关系。

发布时间: 5/9/2025

查看原文