arXiv 论文列表

作者: Stephen Chong Zhao, Yang Hu, Jason Lee, Andrew Bender, Trisha Mazumdar, Mark Wallace, David A. Tovar

arXiv:2502.04658v2 宣告类型: replace-cross 摘要：人类和人工智能的集成为我们理解信息处理提供了一个强大的途径，因为每个系统都提供了独特的计算见解。然而，尽管人类与人工智能的集成具有良好的前景，当前的人工智能模型大多是在大规模数据集上训练的，优化了群体层面的表现，缺乏机制将其计算与个体用户的知觉语义和神经动力学对齐。在这里，我们展示了在微调基于CLIP的模型中集成人类行为见解和毫秒级神经数据不仅捕获了知觉的一般特征和个体化特征，而且将行为性能相较于未修改的CLIP基线提高了两倍多。通过嵌入人类归纳偏见并在训练过程中镜像动态神经过程，个性化的神经微调能够提高人类相似性判断的预测精度，并追踪单个神经反应的时间演变。我们的工作建立了一个新的、可解释的设计自适应人工智能系统框架，对神经科学、个性化医学和人机交互有着广泛的影响。

发布时间: 4/22/2025

查看原文

视觉理论思维使发明原始文字成为可能

作者: Benjamin A. Spiegel, Lucas Gelfond, George Konidaris

arXiv:2502.01568v4 宣告类型: replace-cross 摘要：象征书写系统是现代社会中随处可见的图形符号系统，但在动物界则不存在。人类学证据表明，某些书写系统最早的形态最初由象形图画组成，这些图象通过视觉相似性表示其所指代的对象。尽管以往的研究通过计算视角探讨了这些图象系统的出现以及进化，但大多数研究采用的是非自然的方法，这使得很难将其与人类和动物的认知过程进行明确的类比。我们开发了一个基于多智能体强化学习的 Emergent Communication 测试平台，称为“Signification Game”，并通过发展一种推断性通信模型，使智能体能够利用视觉知觉心理论来使用图象符号表达动作。我们的模型位于更广泛的动物通信形式主义框架内，对于理解原始书写出现的认知和文化过程提供了见解。

发布时间: 4/22/2025

查看原文

记忆高效型合成3D生成对抗网络与最新技术的临床对比评估：胸部计算机断层扫描结果

作者: Mahshid Shiri, Chandra Bortolotto, Alessandro Bruno, Alessio Consonni, Daniela Maria Grasso, Leonardo Brizzi, Daniele Loiacono, Lorenzo Preda

arXiv:2501.15572v3 生成类型: replace-cross 摘要: 生成对抗网络（GANs）越来越多地用于生成合成医学图像，从而解决训练人工智能系统时标注数据严重短缺的问题。本研究介绍了CRF-GAN，这是一种新颖的记忆高效GAN架构，能够在3D医学图像合成中增强结构一致性。通过在两步生成过程中集成条件随机场，CRF-GAN在保持高分辨率图像质量的同时提升了空间一致性。该模型的性能与最先进的分层（HA）GAN模型进行了评估。材料与方法：我们评估了CRF-GAN与HA-GAN模型的性能。通过使用FID和MMD指标进行定量评估和通过由12位住院放射学家完成的两选项强迫选择（2AFC）测试进行定性评估，比较了两种模型。结果：CRF-GAN的FID和MMD分数较低，表明其图像保真度更好。2AFC测试显示了对由CRF-GAN生成的图像的明显偏好，而上由HA-GAN生成的图像。此外，CRF-GAN的内存使用量降低了9.34%，训练速度提高了最多14.6%，提供了显著的计算成本节省。讨论：CRF-GAN模型成功生成了与传统模型具有非劣等质量的高分辨率3D医学图像，同时更加记忆高效且更快。主要目标不仅在于降低计算成本，还在于将节省下来的资源重新分配到更高分辨率的3D成像的创建中，这对于直接临床应用依然是一项关键因素。此外，与许多之前的研究所不同，我们结合了定性和定量评估，以获得对模型性能更全面的反馈。

发布时间: 4/22/2025

查看原文

面向电动汽车互联网的 demand side management 中增强生成人工智能和大型语言模型的需求侧管理

作者: Hanwen Zhang, Ruichen Zhang, Wei Zhang, Dusit Niyato, Yonggang Wen

arXiv:2501.15544v3 公告类型: replace-cross 摘要：生成式人工智能，特别是通过大型语言模型（LLMs），有望彻底改变微电网中的能源优化和需求侧管理（DSM）。本文探讨了将LLMs集成到能源管理中的方式，强调了其在自动化DSM策略优化中的作用，特别是在电动汽车互联网方面。我们研究了DSM面临的挑战和解决方案，并探讨了利用LLMs带来的新机遇。然后，我们提出了一种创新解决方案，通过检索增强生成来增强LLMs，实现自动问题建模、代码生成和优化定制。我们提出了一项案例研究，以展示我们所提出的解决方案在电动汽车充电调度和优化方面的有效性，突出了我们解决方案在能量效率和用户适应性方面的显著进步。本文强调了LLMs在能源优化方面的潜力，并推动了一个新的智能化DSM解决方案时代。

发布时间: 4/22/2025

查看原文

持续学习中的主动学习：让过去的知识在当下保持鲜活

作者: Jaehyun Park, Dongmin Park, Jae-Gil Lee

arXiv:2501.14278v2 宣告类型: replace-cross 摘要：连续学习（CL）使深度神经网络能够适应不断变化的数据分布。在实践中，可能有标注成本高昂的场景，这就产生了积极的连续学习（ACL），即在减少标注成本时选择最具有信息性的子集进行积极学习（AL），从而适用于此类场景。然而，传统的AL策略并不适用于ACL，因为它们仅专注于学习新的知识，这会导致对之前学习任务的灾难性遗忘。因此，ACL需要一种新的AL策略，既能防止灾难性遗忘，又能快速学习新的任务。在本文中，我们通过将fisher信息矩阵作为一种新的样本选择标准，提出了AccuACL，即基于累积信息性的积极连续学习，这是在ACL框架内对fisher最优性保持属性的理论分析的基础上提出的。同时，我们也解决了基于fisher信息的AL的可扩展性问题。广泛的实验表明，AccuACL在各种CL算法中显著优于AL基线，平均准确率提高了23.8%，灾难性遗忘减少了17.0%。

发布时间: 4/22/2025

查看原文

一种认知范式方法探究VLMs中的感知-推理接口

作者: Mohit Vaishnav, Tanel Tammet

arXiv:2501.13620v3 宣告类型: 替换-交叉摘要：人工智能领域的一个基本挑战是理解视觉语言模型（VLMs）中复杂的视觉推理背后的心理过程。这些模型是如何将视觉感知与抽象思维结合起来，特别是在跨越多张图片进行推理时？受到认知科学的启发，本文提出了一种结构化的评估框架，使用鲍格尔问题（Bongard Problems，BPs）——这是一种经典的视觉抽象测试，用来剖析VLMs中的感知-推理界面。我们提出了三种不同的评估范式，模仿人类的问题解决策略：直接视觉规则学习（DVRL；整体处理）、演绎规则学习（DRL；规则提取和应用）和组分分析（CA；通过文本描述进行分析分解）。这些范式使我们能够系统地改变认知负荷并探查特定处理阶段。值得注意的是，CA范式使我们能够在架构上仅限于单张图片的VLMs中评估多图片推理，并通过控制描述输入来隔离推理能力与感知限制。进一步的消融研究还证实，当减轻感知挑战时，推理能力会显著提高。我们的框架提供了一个有价值的诊断工具，突出了增强视觉处理精度的必要性，以实现更稳健和类似人类的视觉智能。

发布时间: 4/22/2025

查看原文

Darb-Splatting：使用衰减各向异性-radial 基函数泛化点积技术

arXiv:2501.12369v2 宣传类型: 替换交叉摘要：基于点渲染的3D重建方法随着3D高斯点渲染的出现而变得流行，能够有效地合成高质量的新型视图。这些方法通常借助于具有各向异性性质的指数族函数（如高斯函数）作为重建核函数，因为它们在投影和渲染化过程中易于使用且具有可微性。然而，该领域仍然局限于指数族内的变化，使得广泛使用的重建核函数的探索受到限制，部分原因在于从3D到2D投影不容易整合。在此背景下，我们展示了降解各向异性径向基函数（DARBFs）类，这类函数是Mahalanobis距离的非负函数，能够通过近似高斯函数的闭合形式积分优势支持点渲染。通过这一新的视角，我们展示了在各种DARBF重建核函数下训练时速度可提高34%，并且在内存消耗上减少了45%，同时保持同等的PSNR、SSIM和LPIPS结果。我们将提供代码。

发布时间: 4/22/2025

查看原文

视觉中的生成物理AI：一个综述

作者: Daochang Liu, Junyu Zhang, Anh-Dung Dinh, Eunbyung Park, Shichao Zhang, Ajmal Mian, Mubarak Shah, Chang Xu

arXiv:2501.10928v2 Announce Type: replace-cross 摘要：生成型人工智能（AI）通过使机器能够以前所未有的复杂程度创建和解释视觉数据，迅速推动了计算机视觉领域的发展。这场变革建立在生成模型的基础之上，生成逼真的图像、视频和3D/4D内容。传统的生成模型主要集中在视觉保真度上，但在生成内容的物理合理性方面经常有所忽视。这一差距限制了它们在需要遵守现实世界物理定律的应用中的有效性，例如机器人技术、自主系统和科学模拟。随着生成模型越来越能够结合物理真实性和动态模拟，它们作为“世界模拟器”的潜力也在不断扩大。因此，物理感知生成在计算机视觉领域的研究正在迅速增长，需要一个全面的综述来提供结构化的当前努力分析。为了实现这一目的，综述文章呈献了一个系统性的回顾，根据它们如何整合物理知识对方法进行分类，这些知识可以通过显式的模拟或隐式的学习来获得。同时，综述文章分析了关键的范式，讨论了评估协议，并指出了未来的研究方向。通过提供一个全面的概述，这篇综述旨在帮助未来在物理基线生成领域的计算机视觉研究发展。被审查的论文总结可在 https://tinyurl.com/Physics-Aware-Generation 获取。

发布时间: 4/22/2025

查看原文

如何使人类和NLP模型之间实现有效的合作：原理、形式化及更方面的综述

作者: Chen Huang, Yang Deng, Wenqiang Lei, Jiancheng Lv, Tat-Seng Chua, Jimmy Xiangji Huang

arXiv:2501.05714v2 通知类型: 替换-交叉摘要：随着大型语言模型（LLMs）的发展，智能模型已经从单纯的工具进化成了具有自己目标和与人类合作策略的自主代理。这一进化创造了一种新的自然语言处理（NLP）范式，即人类-模型合作，在近年来的众多NLP任务中取得了显著进展。本文我们迈出了第一步，对人类-模型合作进行了全面回顾，探讨了其原则、形式化方法以及面临的开放性挑战。特别是，我们介绍了一种新的分类法，提供了统一的视角来总结现有方法。此外，我们讨论了潜在的前沿领域及其相应挑战。我们认为我们的工作是一个切入点，为在这一领域进行更多的突破性研究铺平了道路。

发布时间: 4/22/2025

查看原文

基于轨迹分类的离线安全强化学习

作者: Ze Gong, Akshat Kumar, Pradeep Varakantham

arXiv:2412.15429v5 安全公告类型: 替换交叉摘要：离线安全强化学习（RL）已经成为了在不进行危险的在线环境交互的情况下学习安全行为的一种有前途的方法。目前大多数离线安全RL的方法依赖于每个时间步的成本约束（这些成本约束是从全局成本约束中推导出来的），这可能会导致过于保守的策略或者安全约束的违反。在本文中，我们提出了一种学习策略的方法，该策略可以生成理想的轨迹并避免不理想的轨迹。具体来说，我们首先将预先收集的状态-动作轨迹数据集划分为理想的和不理想的子集。直观地说，理想的子集包含高奖励和安全的轨迹，而不理想的子集则包含不安全的轨迹和低奖励但安全的轨迹。其次，我们学习一个策略，该策略生成理想的轨迹并避免不理想的轨迹，其中（不）理想的分数是通过从理想的和不理想的轨迹数据集中学习的分类器提供的。这种方法避开了现有方法中采用的最小-最大目标所带来的计算复杂性和稳定性问题。理论上，我们也展示了我们方法与现有涉及人类反馈的学习范式的紧密联系。最后，我们在DSRL基准测试中全面评估了我们的方法。实证结果表明，我们的方法在多种基准测试任务中优于竞争性的基线方法，实现了更高的奖励和更好的约束满足。

发布时间: 4/22/2025

查看原文