arXiv 论文列表

作者: Max Ofsa, Taylan G. Topcu

arXiv:2502.03511v1 声明类型: cross 摘要：系统工程（SE）随着生成式人工智能（AI）的可用性和对系统化系统视角（SoS）的需求而不断发展，在美国国防部的背景下，这种视角被形式化为任务工程（ME）。制定ME问题具有挑战性，因为它们是开放性较强的练习，涉及将不明确的问题转化为工程开发所需的明确问题。尚不确定AI在多大程度上能协助问题形成目标。为此，本文探讨了多用途大规模语言模型（LLM）在支持ME问题形成任务方面的质量和一致性，特别是侧重于利益相关者的识别。我们确定了一个相关参考问题，即NASA的太空任务设计挑战，并记录了ChatGPT-3.5在执行利益相关者识别任务方面的能力。我们进行了多个并行尝试，并定性评估了LLM输出，重点关注其质量和多样性。我们的发现表明了复杂性。我们发现，LLM在识别以人类为中心的利益相关者方面表现良好，但在识别外部系统和环境因素方面表现不佳，尽管有明确的努力来考虑这些因素。此外，LLM 在保持所需的抽象水平方面存在困难，并倾向于产生特定于解决方案的输出，这些输出对于问题形成来说不合适。更重要的是，我们记录了并行线程之间的巨大差异，强调LLM输出应谨慎使用，最好采用一种关于其能力的随机观点。总体而言，我们的发现表明，虽然ChatGPT可以减轻专家的部分工作负担，但由于缺乏一致性和领域理解，它可能不适合用于问题形成任务。

发布时间: 2/7/2025

查看原文

从非人类通信代理理论阐述意识的概念

作者: Julian Tagnin

arXiv:2502.03508v1 类别: cross 摘要：本文着眼于从关系性和后现象学的非人类通讯代理（ANHC）理论来阐明意识的概念。具体而言，我们探讨了托马斯·梅亭格的自我模型理论的贡献，凯瑟琳·海勒关于非意识认知过程的概念化，这些过程在生物系统和技术系统之间共享，并且莱娜和曼努埃尔·布莱姆的对计算的理论视角，该视角将意识定义为复杂计算系统的 emergent 现象，来源于其适当的组织无机物质性。基于与非人类认知代理的互动以及其他因素，社会技术系统的可解释性挑战了现代哲学和科学中的人文常识。这种对各种方法的批判性整合最终质疑与意识相关的其他概念，如自主性、自由和相互责任。旨在促进必要的讨论，从而设计新的理解框架，为伦理和务实地应对现代设计、监管和与 ANHC 交互所面临的挑战铺平道路。这些框架反过来使得在相互联系的世界中对机构的理解更加包容和关系化。

发布时间: 2/7/2025

查看原文

使用深度学习增强自由手3D光声和超声重建

作者: SiYeoul Lee, SeonHo Kim, Minkyung Seo, SeongKyu Park, Salehin Imrus, Kambaluru Ashok, DongEon Lee, Chunsu Park, SeonYeong Lee, Jiye Kim, Jae-Heung Yoo, MinWoo Kim

arXiv:2502.03505v1 宣传类型: cross 摘要：本研究提出了一种基于运动的学习网络（MoGLo-Net），结合全局-局部自注意力模块，以提高手持光声和超声成像（PAUS）中的三维重建性能。标准的PAUS成像经常受限于狭隘的视场和有效可视化复杂三维结构的能力不足。自由手三维技术通过将连续的二维图像对齐来实现三维重建，但在不依赖外部位置传感器的情况下进行精确运动估计存在重大挑战。MoGLo-Net通过创新地适应自注意力机制来应对这些限制，有效地利用连续超声图像中的关键区域，如完全发育的斑点区域或高回声组织区域来准确估计运动参数。这有助于从各个帧中提取复杂特征。此外，我们设计了一种块间相关操作来生成高度与扫描运动相关联的相关体。还开发了一个自定义损失函数，以利用运动参数的特性确保稳健学习并最小化偏差。实验评估表明，MoGLo-Net在定性和定量性能指标上均超越了当前最先进的方法。此外，我们还扩展了三维重建技术的应用，不仅限于简单的B模式超声体积，还包括多普勒超声和光声成像，从而实现血管的三维可视化。本研究的源代码在以下地址公开获取：https://github.com/guhong3648/US3D

发布时间: 2/7/2025

查看原文

人工智能的沉浸：基于人工智能的沉浸式学习

作者: Leonel Morgado (Universidade Aberta, INESC TEC)

arXiv:2502.03504v1 体验类型:横跨领域摘要：本文从人工智能（AI）的角度反思浸入感可能意味着什么。本文通过浸入式学习理论的视角，探讨这种新视角是否支持AI参与认知生态系统的途径。通过将AI视为参与者而非工具，本文研究了在AI能够有意义地参与和贡献于认知生态系统的环境中，其他参与者（人类和其他AI）需要考虑的问题，以及设计此类学习环境的含义。基于浸入的三个概念维度——系统、叙事和代理，本文重新诠释了在浸入式学习情境中的AI。该研究概述了在AI被外部数字服务包围，能够解读数据来源、变化和结构发展叙述，并能动态响应，进行操作和战术决策以塑造人类-AI协作的学习环境设计中的实际意义。最后，本文提出这些见解可能如何影响AI训练的未来，并建议浸入式学习理论可以指导开发能够超越静态模型的AI。本文为理解AI作为浸入式学习者和参与者在不断演变的人类-AI认知生态系统中的角色铺平了道路。

发布时间: 2/7/2025

查看原文

两种具有复杂函数的上下文学习任务

作者: Omar Naim, Nicholas Asher

arXiv:2502.03503v1 公告类型: cross 摘要: 我们在几种训练和测试设置下，研究了两个带有数学函数的上下文学习(ICL)任务，以期为变压器模型提供参考。我们的研究扩展了线性函数工作的范围，显示即使是仅包含注意力层的小型变压器模型，在某些条件下也能近似任意多项式函数，进而近似连续函数。我们的模型还可以近似先前未见过的多项式函数类别，以及复杂函数的零点。当提供合适的训练数据和方法时，我们的模型在这项任务上的表现远优于如GPT4之类的语言模型，并且涉及复杂的推理过程。然而，我们的模型也有一些重要的局限性；它们无法在训练分布之外进行泛化，因此没有学习函数的类别形式。我们解释了为什么会这样。

发布时间: 2/7/2025

查看原文

DC-VSR：具有视频扩散先验的空时一致视频超分辨率

作者: Janghyeok Han, Gyujin Sim, Geonung Kim, Hyunseung Lee, Kyuha Choi, Youngseok Han, Sunghyun Cho

arXiv:2502.03502v1 类型: cross 摘要: 视频超分辨率（VSR）旨在从低分辨率（LR）版本重构高分辨率（HR）视频。实现成功的VSR需要生成现实主义的HR细节并确保空间和时间一致性。为了恢复现实主义的细节，最近提出了基于扩散的VSR方法。然而，扩散的固有随机性，再加上它们基于块的方法，通常会导致时空不一致。在本文中，我们提出了一种新颖的VSR方法DC-VSR，以生成具有现实主义纹理的空间和时间一致的VSR结果。为了实现时空一致性，DC-VSR采用了一种新颖的时空注意力传播（SAP）方案和一种时空注意力传播（TAP）方案，这些方案基于自我注意力机制在时空块之间传播信息。为了增强高频细节，我们还引入了一种新颖的扩散指导方案，即细节抑制自我注意力引导（DSSAG）。全面的实验表明，DC-VSR能够实现空间和时间一致的高质量VSR结果，优于以往的方法。

发布时间: 2/7/2025

查看原文

通过潜在一致性流匹配实现高效图像恢复

作者: Elad Cohen, Idan Achituve, Idit Diamant, Arnon Netzer, Hai Victor Habi

arXiv:2502.03500v1 类型: cross 摘要：近年来在生成图像恢复（IR）方面取得了显著进展，展示出了令人印象深刻的成果。然而，这些方法由于其巨大的规模和计算需求，使得它们不适合在边缘设备上部署。本文提出了一种高效的潜空间图像恢复方法——ELIR（Efficient Latent Image Restoration）。ELIR在潜空间中操作，首先预测最小均方误差（MMSE）估计的潜表示，然后使用基于潜一致性流的模型将该估计转换为高质量图像。因此，ELIR比最先进的扩散和基于流的方法快4倍以上。此外，ELIR也小4倍以上，使其非常适合在资源受限的边缘设备上部署。全面评估各种图像恢复任务表明，ELIR取得了有竞争力的结果，有效地在失真和感知质量指标之间进行了平衡，在内存和计算效率方面也有所提升。

发布时间: 2/7/2025

查看原文

全知DNA：统一的基因基础模型，用于跨模态和多任务学习

作者: Zehui Li, Vallijah Subasri, Yifei Shen, Dongsheng Li, Yiren Zhao, Guy-Bart Stan, Caihua Shan

arXiv:2502.03499v1 公告类型：交叉摘要：大规模语言模型（LLMs）在各种任务上展示了出色的泛化能力，然而，基因组基础模型（GFMs）仍需要为每个下游应用进行单独的微调，随着模型规模的扩大，这将带来显著的开销。此外，现有的GFMs受到僵化的输出格式限制，限制了它们在各种基因组任务中的应用。在本文中，我们重新审视了基于变换器的自回归模型，并引入了Omni-DNA这一系列跨模态多任务模型，其参数范围从2000万到1亿。我们的方法包括两个阶段：（i）在DNA序列上进行预训练，目标为下一个标记预测，以及（ii）扩展多模态任务特定的令牌并同时对多个下游任务进行微调。在Nucleotide Transformer和GB基准测试中，Omni-DNA在26个任务中的18个任务上达到了最先进的性能。通过多任务微调，Omni-DNA一次处理了10个乙酰化和甲基化任务，超过了单独针对每个任务训练的模型。最后，我们设计了两个复杂的基因组任务：DNA2Function和Needle-in-DNA，分别将DNA序列映射到文本功能描述和图像上，表明Omni-DNA的跨模态能力可扩大基因组应用的范围。所有模型均可通过https://huggingface.co/collections/zehui127访问。

发布时间: 2/7/2025

查看原文

通过强化学习教学语言模型进行批评

作者: Zhihui Xie, Jie chen, Liyu Chen, Weichao Mao, Jingjing Xu, Lingpeng Kong

arXiv:2502.03492v1 Announce Type: 交叉摘要：教会大规模语言模型（LLMs）批评和改进自己的输出对于构建可以迭代改进的系统至关重要，但这一目标受到提供准确判断和有效建议能力的限制。在本文中，我们研究了代码生成的LLM批评者，并提出了CTRL框架，该框架通过强化学习训练批评模型，以生成最大化特定固定生成器模型校正性能的反馈，而无需人工监督。我们的结果表明，用CTRL训练的批评者显著提高了基础和更强生成器模型的通过率，并减少了累积错误。此外，我们展示了这些批评者模型作为准确的生成奖励模型的作用，并通过迭代批评-修订实现测试时的扩展，从而在具有挑战性的代码生成基准测试中实现了高达106.1%的相对改进。

发布时间: 2/7/2025

查看原文

人工智能与法律分析：对法律教育和职业的影响

作者: Lee Peoples

arXiv:2502.03487v1 法律分析类型：交叉研究摘要：本文报道了一项研究的结果，旨在探讨法律和非法律大型语言模型使用Issue-Rule-Application-Conclusion（IRAC）框架进行法律分析的能力。LLM接受了涉及规则分析和类比推理的法律推理任务的测试。结果显示，LLM可以执行基本的IRAC分析，但受限于简短且缺乏详细信息的回答、无法坚持回答、虚假自信以及虚构事实。该研究比较了法律和非法律LLM的性能，指出了它们的局限性，并探讨了可能阻碍它们像律师一样思考的特质。文章还讨论了这些发现对于法律教育和实践的意义，强调了未来律师需要批判性思维技能的重要性，并指出了过度依赖人工智能AI可能导致逻辑、推理和批判性思维技能丧失的风险。

发布时间: 2/7/2025

查看原文