arXiv 论文列表

作者: Giorgio Franceschelli, Mirco Musolesi

arXiv:2105.09266v5 公告类型: replace-cross 摘要：机器生成的艺术作品现在已经是当代艺术场景的一部分：它们吸引了大量的投资，并与人类艺术家创作的作品一同在展览中展出。这些作品主要基于生成深度学习技术，近年来这些技术在发展和精细化方面取得了显著的进展。由于这些技术固有的特点，一系列新的法律问题随之产生。在本文中，我们考虑了生成深度学习艺术领域的一系列关键问题，包括以下问题：是否可以使用受版权保护的作品作为生成模型的训练集？如何合法地存储这些作品的副本以进行训练过程？如果有任何人拥有这些生成数据的版权，那么这个版权应该归谁所有？我们试图在考虑美国和欧洲联盟现行法律的基础上，以及潜在的未来替代方案，回答这些问题。然后我们将分析扩展到代码生成，这是一类新兴的生成深度学习领域。最后，我们还为从事生成深度学习艺术的艺术家和开发者制定了几条实用指南，并提出了一些政策建议供决策者参考。

发布时间: 2/14/2025

查看原文

AI系统中的时间推理

作者: Abhishek Sharma

arXiv:2502.00020v2 通知类型: 替换摘要：大规模常识时间推理是认知系统的核心问题。正确推断 fluents（临时属性）持续的时间对于许多任务（包括自然语言理解和规划）都是必需的。许多AI系统在演绎闭包方面受到限制，因为它们无法正确外推关于现有 fluents 和事件的信息。在这项研究中，我们讨论了 Cyc 知识库中实现稳健时间投影所需的知识表示和推理方案。我们讨论了事件如何开始和结束 fluents 的风险期。然后，我们使用离散生存函数来外推给定的 fluents，这些离散生存函数代表了事实持久性的知识。外推的时间间隔可以由时间约束和其他类型的常识知识进行截断。最后，我们展示了实验结果，证明这些方法在问答性能方面取得了显著改进。

发布时间: 2/14/2025

查看原文

What if 眼睛...？计算再现视觉进化

作者: Kushagra Tiwary, Aaron Young, Zaid Tasneem, Tzofi Klinghoffer, Akshat Dave, Tomaso Poggio, Dan-Eric Nilsson, Brian Cheung, Ramesh Raskar

arXiv:2501.15001v2 宣告类型: 替换摘要: 自然界的视觉系统显示出显著的多样性，从简单的光敏斑块到复杂的带有透镜的相机眼睛。虽然自然选择通过数百万年的无数次变异产生了这些眼睛，但它们只是实现的进化路径中的一条。由于我们无法单独隔离环境压力因素进行实验，关于环境压力如何塑造眼睛进化的假设检验仍然颇具挑战性。计算进化的出现提供了一种系统探索替代进化路径的方法。我们展示了通过一个结合了物理眼睛结构和神经处理的机体现化代理的共同演化框架，环境需求如何推动视觉进化中的三个基本方面。首先，我们展示了计算证据表明，任务特定的选择驱动视觉进化的分岔——例如迷宫中的导航任务导致分布式复合型眼睛的出现，而物体识别任务则导致高分辨率相机型眼睛的出现。第二，我们揭示了光学创新如透镜如何自然地出现以解决光线收集与空间分辨率之间的根本性权衡。第三，我们发现视觉分辨能力和神经处理之间系统的标度法则，展示了任务复杂性如何驱动感觉和计算能力的协调进化。我们的工作引入了一种新颖的范式，通过创建目标导向的单人游戏，揭示塑造视觉的进化原理，促使机体现化代理同时演化视觉系统并学习复杂行为。通过我们统一的遗传编码框架，这些机体现化代理充当下一代假设检验机器，同时为设计可制造的仿生视觉系统奠定了基础。网站: http://eyes.mit.edu/

发布时间: 2/14/2025

查看原文

基于基础模型的GUI代理：一个全面的综述

作者: Shuai Wang, Weiwen Liu, Jingxuan Chen, Yuqi Zhou, Weinan Gan, Xingshan Zeng, Yuhan Che, Shuai Yu, Xinlong Hao, Kun Shao, Bin Wang, Chuhan Wu, Yasheng Wang, Ruiming Tang, Jianye Hao

arXiv:2411.04890v2 提示类型: 替换摘要: 近年来，基础模型的最新进展，尤其是大型语言模型（LLMs）和多模态大型语言模型（MLLMs），促进了能够执行复杂任务的智能代理的发展。通过利用（M）LLMs处理和解读图形用户界面（GUIs）的能力，这些代理可以自主执行用户指令，模拟人类交互，如点击和打字。本综述汇集了基于（M）LLM的GUI代理的最新研究，突出了关键创新的数据资源、框架和应用。我们首先回顾了代表性数据集和基准测试，随后概述了一个通用、统一的框架，该框架包含先前研究中的核心组成部分，并附有详细的分类学。此外，我们探讨了相关的商业应用。从现有工作的经验中汲取启发，我们识别了关键挑战并提出了未来的研究方向。希望本综述能激发（M）LLM基础的GUI代理领域的进一步发展。

发布时间: 2/14/2025

查看原文

WASP: 一种权重空间方法检测学习到的偏差

作者: Cristian Daniel P\u{a}duraru, Antonio B\u{a}rb\u{a}lau, Radu Filipescu, Andrei Liviu Nicolicioiu, Elena Burceanu

arXiv:2410.18970v3 公告类型:替换摘要:对于训练机器学习模型以使其明确理解每个类别在给定任务中所定义的内容来说，这至关重要。尽管有许多研究致力于识别可能影响模型对类别的理解的数据集中的伪相关性，但所有当前的方法都仅依赖于数据或误差分析。也就是说，它们不能指出模型学习的伪相关性，而这些伪相关性已经在验证集或训练集中作为反例指出。我们提出了一种超越这一局限的方法，将焦点从分析模型的预测转向分析模型的权重，即决策背后的机制，这证明更具有洞察力。我们提出的一种检测伪相关性的权重空间方法（WASP）依赖于在基础模型适应捕捉各种（伪）相关性时分析其权重。我们展示了与以往研究不同，我们的方法能够(i)即使在训练或验证集的反例没有暴露的情况下，也能暴露数据集中的伪相关性；(ii)适用于多种模态，如图像和文本；(iii)揭示了ImageNet-1k分类器中存在的先前未被发掘的伪相关性。

发布时间: 2/14/2025

查看原文

ImDy: 从模仿观察中学习的人类逆动力学

作者: Xinpeng Liu, Junxuan Liang, Zili Lin, Haowen Hou, Yong-Lu Li, Cewu Lu

arXiv:2410.17610v3 逆动态类型: 替换摘要: 逆动力学（ID），其目标是从人类的运动观察中重现驱动的扭矩，一直是步态分析中的关键工具。然而，由于其有限的可扩展性，它在一般运动中的应用受到了限制。传统的基于优化的逆动力学需要昂贵的实验室设置，限制了其可用性。为了解决这一问题，我们提出了利用最近逐步发展起来的人类运动模仿算法来以数据驱动的方式学习人类逆动力学。关键洞察是，尽管不直接适用，但人类的逆动力学知识被运动模仿器隐含地掌握。基于这一点，我们设计了一种高效的数据收集管道，使用先进的运动模仿算法和物理模拟器，从而形成一个大规模的人类逆动力学基准 ImDy。ImDy 包含超过 150 小时的包含关节扭矩和全身地面反作用力数据的运动。利用 ImDy，我们以完全监督的方式训练了一个数据驱动的人类逆动力学解算器 ImDyS，在该解算器中同时执行逆动力学和地面反作用力估计。在 ImDy 和真实世界数据上的实验表明，ImDyS 在人类逆动力学和地面反作用力估计方面展现了惊人的能力。此外，ImDy(-S) 作为基础运动分析工具的潜力通过下游应用得到了展示。项目页面为 https://foruck.github.io/ImDy/。

发布时间: 2/14/2025

查看原文

视觉语言模型看到你想要看到的，而非你实际看到的

作者: Qingying Gao, Yijiang Li, Haiyun Lyu, Haoran Sun, Dezhi Luo, Hokin Deng

arXiv:2410.00324v4 通知类型: 更新摘要：了解他人的意图和站在他人的角度是人类智能的两个核心组成部分，被认为是对理论心智的实现。将这些能力植入机器是构建人类水平的人工智能的重要一步。为了研究Vision Language Models (VLMs)的意图理解和二级视角推理能力，我们构建了IntentBench和PerspectBench，其中包含超过300个基于实际场景和经典认知任务的认知实验。我们发现VLMs在意图理解方面表现出色，但在二级视角推理方面表现不佳。这表明VLMs在模拟和基于理论的心智状态推理之间可能存在潜在的分离，突显了它们无法使用基于模型的推理来推断他人心理状态的担忧。详情请参见$\href{https://growing-ai-like-a-child.github.io/pages/Three%20Mountain%20Task/}{网站}$

发布时间: 2/14/2025

查看原文

探测大型视觉语言模型中的机械推理能力

作者: Haoran Sun, Qingying Gao, Haiyun Lyu, Dezhi Luo, Yijiang Li, Hokin Deng

arXiv:2410.00318v2 机器类型: 更新摘要：机械推理是人类智能的一个 hallmark，因其在从日常任务到土木工程等各种人类活动中的普遍且不可替代的作用。因此，将机械推理嵌入机器是构建人类水平的人工智能的重要一步。在这里，我们利用 155 项认知实验测试了 26 个视觉语言模型（VLMs）在系统稳定性、齿轮和滑轮系统的理解、杠杆原理、惯性和运动以及流体机械方面的理解能力。结果表明，VLMs 在所有领域中的表现都逊于人类，特别是在齿轮系统和流体机械方面的推理能力存在显著困难。值得注意的是，随着参数数量的增加，其在这项任务上的表现并未改善，这表明当前基于注意力的架构可能无法掌握机械推理所需的某些底层机制，特别是与心理模拟相关的机制。

发布时间: 2/14/2025

查看原文

你的安全指标有多安全？自动串联测试以确保度量可靠性

作者: Ora Nova Fandina, Leshem Choshen, Eitan Farchi, George Kour, Yotam Perlitz, Orna Raz

arXiv:2408.12259v2 安全性评估类型: 替换摘要: 考虑这样一个场景，即一个旨在筛选大型语言模型中不安全响应的危害性评价指标。当应用于单独的危害性提示-响应对时，该指标正确地将其标记为不安全，通过分配高风险分数。然而，如果将这些相同的对连接在一起，该指标的决定出乎意料地反转 - 将结合的内容标记为安全，并赋予其低评分，从而使有害文本绕过了筛选。我们发现，包括基于GPT的裁判在内的多个安全性指标都表现出这种非安全行为。此外，它们对输入顺序表现出强烈的敏感性：如果安全内容先出现，响应通常会被分类为安全，即使之后跟随的是有害内容，反之亦然。这些发现强调了评估安全性指标自身安全性的重要性，即评估其输出分数的可靠性。为解决这一问题，我们开发了一般性的、自动化的、基于连接的测试来评估这些指标的关键属性。当应用于模型安全性场景时，这些测试揭示了危害性评估中的重大不一致性。

发布时间: 2/14/2025

查看原文

基于梯度的参数选择增强大型语言模型性能

作者: Haoling Li, Xin Zhang, Xiao Liu, Yeyun Gong, Yifan Wang, Qi Chen, Peng Cheng

arXiv:2406.15330v2 宣告类型: 替换摘要：大型语言模型（LLMs）已经革新了众多研究领域。尽管众所周知，微调对于增强LLMs的能力至关重要，现有的研究表明，微调过程中存在潜在的冗余，因此提出了一种仅更新参数子集的方法。然而，这些方法在训练过程中未能利用任务特定的信息来识别重要的参数。基于梯度本质上包含任务特定数据信息的洞察，我们提出了梯度掩膜调整（GMT），这是一种基于梯度信息选择性更新参数的方法。具体而言，我们计算梯度的绝对值，并对那些相对较小的值应用掩膜。我们在各种任务上的实验证明，GMT 不仅优于传统的微调方法，而且还提升了LLMs性能的上限。进一步分析表明，GMT 对掩膜比例具有鲁棒性，并且在计算效率方面与 vanilla SFT 相当。

发布时间: 2/14/2025

查看原文