arXiv 论文列表

作者: Lu Chen, Yizhou Wang, Shixiang Tang, Qianhong Ma, Tong He, Wanli Ouyang, Xiaowei Zhou, Hujun Bao, Sida Peng

arXiv:2502.05857v2 宣布类型: replace-cross 摘要：本文解决了学习一种行为类似人类的智能体模型的任务，该模型能够同时在第一人称的世界中进行感知、预测和行动。先前的方法通常为这三种能力分别训练独立的模型，这阻碍了它们相互学习的能力。在本文中，我们提出了一种联合预测智能体模型，命名为EgoAgent，该模型能够在单一变压器中同时学习表示世界、预测未来状态以及采取合理行动。EgoAgent引入了两种创新来从这些能力因果交织的性质中学习：（1）通过因果注意力机制交替建模状态和动作；（2）具有时间非对称预测-观察分支的联合嵌入-动作-预测架构。基于JEPA的这些设计，EgoAgent将这些能力统一在一个连贯的学习框架中。在代表性任务，如图像分类、第一人称未来状态预测和3D人体运动预测任务上的全面评估证明了我们方法的优越性。我们将在可再现性方面发布代码和训练模型。

发布时间: 4/30/2025

查看原文

Reddit 编辑作为大规模实证数据集用于图像变换

作者: Peter Sushko, Ayana Bharadwaj, Zhi Yang Lim, Vasily Ilin, Ben Caffee, Dongping Chen, Mohammadreza Salehi, Cheng-Yu Hsieh, Ranjay Krishna

arXiv:2502.03629v2 发布类型: replace-cross 摘要：现有的图像编辑模型难以满足实际需求。尽管它们在学术基准测试中表现出色，但在实际用户需求方面尚未得到广泛应用。支持这些模型的数据集使用的是人工编辑，缺乏能够解决用户真实请求多样性的规模和生态效度。我们介绍了REALEDIT，这是一个包含真实用户请求和来自Reddit的人工编辑的大规模图像编辑数据集。REALEDIT包含了一个包含9300个示例的测试集，用于评估模型在真实用户请求上的表现。我们的结果显示，现有模型在这些任务上表现不佳，突显了现实训练数据的必要性。为了解决这一问题，我们提出了48,000个训练示例，并训练了我们的REALEDIT模型，取得了显著的提升——在人类判断方面领先竞争对手多达165个Elo点，在自动化的VIEScore指标上相对改进了92%。我们在Reddit上部署了我们的模型，用于测试新的请求，并收到了积极的反馈。除了图像编辑，我们还通过与一家深度造假检测非营利组织合作，探索了REALEDIT在检测编辑图像方面的潜力。在READEIT数据上微调他们的模型，F1分数提高了14个百分点，再次证明了该数据集在广泛应用中的价值。

发布时间: 4/30/2025

查看原文

从工具到窃贼：通过众包隐喻测量和理解公众对人工智能的看法

作者: Myra Cheng, Angela Y. Lee, Kristina Rapuano, Kate Niederhoffer, Alex Liebscher, Jeffrey Hancock

arXiv:2501.18045v2 公众反应类型：替换交叉摘要：公众对基于人工智能（AI）技术的日益普及有何反应？我们通过收集来自全国代表性美国样本的超过12,000份调查回应，研究了公众对AI的看法。参与者提供了反映他们对AI的心理模型的开放性比喻，这种方法通过捕捉更多的细微之处，弥补了传统自我报告测量方法的局限性。我们采用混合方法，结合定量聚类和定性编码，确定了塑造公众对AI理解的20种主导比喻。为了系统地分析这些比喻，我们提出了一种可扩展的框架，集成基于语言模型的技术来衡量公众感知的关键维度：拟人化（赋予类似人类的品质）、温暖度和能力。我们发现，美国人一般认为AI是温暖且有能力的，且在过去一年里，对AI的人类相似性和温暖度的看法显著增加（+34%，r=0.80，p<0.01；+41%，r=0.62，p<0.05）。这些隐性认知，以及识别出的主要比喻，强烈预测了公众对AI的信任度和采用意愿（r²=0.21，0.18，p<0.001）。此外，我们发现了系统性的差异，如女性、年龄较大者和有色人种更倾向于将AI拟人化，这揭示了信任和采用方面的种族差异。除了我们的数据集和用于跟踪公众态度演变的框架，我们还提供了使用比喻进行包容和负责任的AI开发的实际建议。

发布时间: 4/30/2025

查看原文

owl是智慧的，狐狸是不忠的：探索视觉语言模型中的动物刻板印象

作者: Tabinda Aman, Mohammad Nadeem, Shahab Saquib Sohail, Mohammad Anas, Erik Cambria

arXiv:2501.12433v2 宣告类型: replace-cross 摘要：动物刻板印象深深植根于人类文化和语言之中。它们往往塑造我们对各种物种的看法和期望。我们的研究探讨了在图像生成任务中，视觉语言模型中动物刻板印象的表现。通过有针对性的提示，我们探索DALL-E是否延续了诸如“猫头鹰代表智慧”、“狐狸代表不忠”等动物的刻板印象。我们的研究发现揭示了显著的刻板印象实例，其中模型始终生成与文化偏见一致的图像。目前的工作是首次系统地研究视觉语言模型中的动物刻板印象，并指出AI生成的视觉内容中一个关键且未被充分探索的偏见维度。

发布时间: 4/30/2025

查看原文

测试时回归：一种基于关联记忆设计序列模型的统一框架

作者: Ke Alexander Wang, Jiaxin Shi, Emily B. Fox

arXiv:2501.12352v2 通告类型: 替换-交叉摘要：序列模型是现代深度学习的核心。然而，快速的发展产生了一种看似无关的架构多样性，例如Transformer和循环替代架构。在本文中，我们引入了一个统一框架来理解并推导这些序列模型，该框架受到关联记忆检索经验重要性的启发，即检索上下文相关令牌的能力。我们将关联记忆检索形式化为两步过程，记忆和检索，将记忆形式化为一个回归问题。结合这两步的层通过“测试时回归”在其输入令牌上执行关联记忆检索。包括线性注意、状态空间模型、快速权重编程器、在线学习者和softmax注意在内的显着层作为由三个设计选择定义的特殊情况出现：回归权重、回归器函数类和测试时优化算法。我们的方法澄清了线性注意无法捕捉令牌间相关性的原因，并为softmax注意中查询-键规范化经验上的有效性提供了数学上的解释。此外，它揭示了设计空间中未被探索的区域，我们利用这些区域推导出softmax注意的新颖的高阶推广。超越统一，我们的工作将序列建模与经典的回归方法联系起来，这是一个具有丰富文献的领域，为我们开发更强大和更具理论依据的架构铺平了道路。

发布时间: 4/30/2025

查看原文

小包大智慧：我们应该使用Lite-GPU构建AI集群吗？

作者: Burcu Canakci, Junyi Liu, Xingbo Wu, Nathana\"el Cheriere, Paolo Costa, Sergey Legtchenko, Dushyanth Narayanan, Ant Rowstron

arXiv:2501.10187v2 通知类型：替换-交叉摘要：为了满足生成AI工作负载不断增长的需求，GPU设计师一直在努力将更多的计算和内存打包到复杂的且昂贵的单个封装中。然而，由于当前最先进的GPU已经在包装、产出率和散热方面显示出限制，单个GPU和因此AI集群的扩展性存在日益增长的不确定性。我们建议通过高效连接的轻型GPU集群，重新思考AI集群的设计和扩展，轻型GPU具有单个小型Die和更大GPU部分功能。我们认为，最新协封装 optics 进展能够通过高带宽和高效的通信，将AI工作负载分散到许多轻型GPU上。在这篇文章中，我们讨论了轻型GPU在制造成本、爆裂半径、产出率和功率效率方面的主要优势，并探讨了围绕资源管理、工作负载管理、内存管理和网络管理方面的系统机遇和挑战。

发布时间: 4/30/2025

查看原文

SR-奖励：走更常见的路径

作者: Seyed Mahdi B. Azad, Zahra Padar, Gabriel Kalweit, Joschka Boedecker

arXiv:2501.02330v2 公告类型: replace-cross 摘要: 在本文中，我们提出了一种从离线演示直接学习奖励函数的新方法。与传统的逆强化学习(IRL)不同，我们的方法将奖励函数与学习者的策略分开，消除了两者之间通常所需的对抗性交互。这导致了一个更稳定和高效的训练过程。我们的奖励函数称为SR-Reward，它利用后继表示(SR)来根据演示策略和转移动态下预期的未来状态的访问情况编码一个状态。通过利用贝尔曼方程，SR-Reward可以在无需修改现有训练管道的情况下与大多数强化学习(RL)算法同时学习，从而实现与其他RL算法的无缝集成。我们还引入了一种负采样策略，通过减少离分布数据的奖励来减轻过度估计错误，从而增强鲁棒性。这种策略内在地为采用所学奖励的RL算法引入了保守偏差。我们在D4RL基准上评估了我们的方法，与能够访问真实奖励和仿生克隆(BC)等imitation learning(模仿学习)技术的离线RL算法相比，取得了竞争力的结果。此外，我们在数据大小和质量上的消融研究揭示了SR-Reward作为真实奖励代理的优势和局限性。

发布时间: 4/30/2025

查看原文

MADGEN：质谱关注从头分子生成

作者: Yinkai Wang, Xiaohui Chen, Liping Liu, Soha Hassoun

arXiv:2501.01950v4 宣告类型：替换交叉摘要：对MS/MS光谱进行注释（分配结构化学身份）仍是一个重大挑战，这主要是由于生物样品中的分子多样性巨大以及参考数据库的范围有限。目前，绝大多数光谱测量仍然处于“黑暗化学空间”中，没有结构注释。为了提高注释效果，我们提出了MADGEN（基于质谱的从头分子生成），这是一种由质谱数据引导的基于骨架的从头分子结构生成方法。MADGEN 运行在两个阶段：骨架检索和基于光谱条件的分子生成。在第一个阶段，给定一个MS/MS光谱，我们将骨架检索形式化为一个排名问题，并使用对比学习来将质谱与候选分子骨架对齐。在第二个阶段，从检索到的骨架出发，我们利用MS/MS光谱来引导基于注意力的生成模型生成最终的分子。我们的方法限制了分子生成搜索空间，减少了其复杂性并提高了生成准确性。我们在三个数据集（NIST23、CANOPUS 和 MassSpecGym）上评估了MADGEN，并分别使用预测骨架检索器和先验骨架检索器评估了MADGEN的性能。我们展示了使用注意力在整个生成过程中整合光谱信息的有效性，并使用先验检索器取得了出色的結果。

发布时间: 4/30/2025

查看原文

面向重新配置多智能体RAG的SLA管理：一种问答系统方法

作者: Michael Iannelli, Sneha Kuchipudi, Vera Dvorak

arXiv:2412.06832v2 宣告类型: replace-cross 摘要：检索增强生成（RAG）通过将推理能力与静态知识库分离，使大语言模型（LLMs）能够利用新的信息。传统的RAG改进措施探索了垂直扩展（即，将子任务分配给专门模块）和水平扩展（即，跨多个代理复制任务）两种方式以提高性能。然而，实际应用环境对服务级别协议（SLA）和服务质量（QoS）有着多样化的要求，这些要求涉及在诸如降低成本、保证答案质量以及遵守特定操作约束等各种目标之间的权衡。本文介绍了一种面向现实世界的问答（QA）应用的多代理RAG系统方法。通过将特定任务的功能需求（如答案质量、成本和延迟）整合到系统中，我们能够实现动态重构，以满足多种SLA。我们的方法将服务级别目标（SLO）映射到系统级别参数，从而在指定的资源约束内生成最优结果。我们在问答领域进行了案例研究，展示了如何通过调整一个多代理RAG系统来有效管理传递答案质量和成本之间的权衡。基于查询意图和运行条件，我们系统地平衡了性能和资源利用率。这种方法使系统能够满足各种查询类型的SLO，展示了其在实际应用中的实用性。

发布时间: 4/30/2025

查看原文

下一代网络设计中具有安全性的分布式学习功能在网络中的优化内网分发

作者: Mattia Giovanni Spina, Edoardo Scalzo, Floriano De Rango, Francesca Guerriero, Antonio Iera

arXiv:2411.18384v2 宣告类型：替换交叉摘要：可编程数据平面（PDP）和网络内计算（INC）范式的兴起为开发能够在网络本身执行高级处理任务的网络设备（交换机、网络接口卡等）铺平了道路。这使得能够在网络内部运行各种类型的算法，包括机器学习，以支持用户和服务网络。特别是，本文探讨了在网络内部署学习模型的方法，旨在实施完全分布式入侵检测系统（IDS）或入侵预防系统（IPS）。具体来说，提出了一种模型，以最优方式将IDS/IPS的工作负载分布到数据平面设备上，以确保完全的网络安全，而不过度加重设备的正常运行负担。此外，提出了一种元启发式方法来减少数学模型所提供的确切解决方案所需的长时间计算，并对其性能进行了评估。所进行的分析和获得的结果表明，所提出的新方法具有巨大的潜力，可以创建能够有效且自主地作为抵御网络攻击第一道防线的智能数据平面，同时最小化涉及网络设备的工作负担。

发布时间: 4/30/2025

查看原文