arXiv 论文列表

作者: Liaoyaqi Wang, Zhengping Jiang, Anqi Liu, Benjamin Van Durme

arXiv:2505.01595v1 类型:交叉研究摘要:我们提出了一种最先进的模型，用于在给定上下文的情况下进行细粒度的概率估计。近年来，大型语言模型（LLMs）在推理能力方面有了显著提升，特别是在具有完整信息的明确任务上。然而，LLMs 在不确定性或部分信息下进行准确且校准良好的概率预测方面仍然存在困难。虽然将不确定性纳入模型预测通常能提升性能，但获得可靠的不确定性估计仍然是一个未被充分研究的领域。特别是，LLMs 的概率估计往往较为粗糙，并倾向于偏向更频繁出现的数字。通过结合人工和合成数据的创建与评估、扩大模型规模以及改进监管，我们提出了一组强而精的概率估计模型。我们在依赖条件概率估计的任务中进行了系统评估，并展示了我们的方法在很大程度上优于现有调整和提示为基础的方法。

发布时间: 5/6/2025

查看原文

PIPA：一个统一的评估协议，用于诊断交互式规划代理

作者: Takyoung Kim, Janvijay Singh, Shuhaib Mehri, Emre Can Acikgoz, Sagnik Mukherjee, Nimet Beyza Bozdag, Sumuk Shashidhar, Gokhan Tur, Dilek Hakkani-T\"ur

arXiv:2505.01592v1 区域：交叉摘要：大型语言模型（LLMs）在指令执行和上下文理解方面的日益增强的能力，引领了一个拥有众多应用的智能代理时代。在这之中，具有复杂内部管道的任务规划代理，在涉及复杂内部流程的真实场景中尤为引人注目，如上下文理解、工具管理和响应生成。然而，现有的基准测试主要通过任务完成来评估代理的有效性，这作为整体效果的代理。我们假设仅仅提高任务完成率并不能最大化用户满意度，因为用户与整个代理过程交互，而不仅仅是最终结果。为解决这一差距，我们提出了PIPA，一种统一的评价协议，将交互式任务规划代理的的行为过程构想在一个部分可观测马尔可夫决策过程（POMDP）的范式中。所提出的协议通过一组原子评价标准提供了对代理性能的全面评估，允许研究人员和实践者诊断代理决策管道中的特定优势和劣势。我们的分析表明，代理在不同的行为阶段表现出色，用户满意度既受结果也受中介行为的影响。我们还指出了未来的研究方向，包括利用多个代理的系统以及用户模拟器在任务规划中的局限性。

发布时间: 5/6/2025

查看原文

理解并利用可塑性实现非稳态网络资源适应性

作者: Zhiqiang He, Zhi Liu

arXiv:2505.01584v1 类型: cross 摘要：适应非平稳网络条件对资源适应提出了重大挑战，但当前的解决方案主要依赖于静态假设。虽然基于数据的强化学习方法为处理网络动态提供了有希望的解决方案，但我们系统的调查揭示了一个关键限制：神经网络遭受可塑性损失，严重阻碍了它们适应不断变化的网络条件的能力。通过分析神经传播机制的理论分析，我们证明现有的静默神经指标无法充分 characterizing 神经可塑性损失。为了解决这一限制，我们开发了静默神经理论（Silent Neuron theory），提供了更多全面的框架来理解可塑性退化。基于这些理论洞见，我们提出了重置静默神经（ReSiN），通过前向和后向传播状态的指导来战略性地重置神经元，从而保留神经可塑性。在我们实现的一种自适应视频流媒体系统中，ReSiN 在现有解决方案上显示出显著的改进，实现了高达 168% 更高的码率和 108% 更好的用户体验（QoE），同时保持类似的流畅度。此外，在静态环境中，ReSiN 一贯表现出色，证明了其在不同网络条件下的稳健适应性。

发布时间: 5/6/2025

查看原文

TEMPURA：动作推理中的时空事件掩码预测与理解

作者: Jen-Hao Cheng, Vivian Wang, Huayu Wang, Huapeng Zhou, Yi-Hao Peng, Hou-I Liu, Hsiang-Wei Huang, Kuang-Ming Chen, Cheng-Yen Yang, Wenhao Chai, Yi-Ling Chen, Vibhav Vineet, Qin Cai, Jenq-Neng Hwang

arXiv:2505.01583v1 交叉类型：cross 摘要：视觉语言模型在理解因果事件关系和实现视频中的细粒度时间定位方面仍然面临挑战。现有方法要么通过压缩视频令牌来降低时间分辨率，要么将视频视为未分割的流，这会模糊细粒度事件边界并限制因果依赖关系的建模。我们提出了TEMPURA（Temporal Event Masked Prediction and Understanding for Reasoning in Action），这是一种两阶段的训练框架，旨在增强视频的时间理解能力。TEMPURA首先应用掩码事件预测推理来重建缺失的事件，并从密集的事件注释中生成逐步的因果解释，这借鉴了有效的填充技术。然后，TEMPURA学习进行视频分割和密集字幕生成，将视频分解为无重叠事件，并附带详细的时间戳对齐描述。我们利用我们精心编纂的VER数据集对TEMPURA进行训练，该数据集包含了100万训练实例和50万具有时间对齐事件描述和结构化推理步骤的视频。在时间定位和关键点检测基准上的实验表明，TEMPURA优于强基线模型，证明了将因果推理与细粒度时间分割结合使用可以提高视频理解能力。

发布时间: 5/6/2025

查看原文

Contextures：来自上下文的表示

作者: Runtian Zhai, Kai Yang, Che-Ping Tsai, Burak Varici, Zico Kolter, Pradeep Ravikumar

arXiv:2505.01557v1 类型: cross 摘要: 尽管基础模型在实际应用中表现出色，但我们尚未系统地对这些模型学习的表示进行characterization。本文中，我们建立了上下文理论。它表明，一类广泛的表示学习方法可以被characterize为从输入和上下文变量之间的关联中学习。具体来说，我们证明了许多流行的算法试图逼近由上下文诱导的期望操作的最高奇异函数，在这种情况下，我们认为表示学习了上下文。我们通过证明代表在各种学习范式——监督学习、自我监督学习和流形学习——中的学习可以从这种视角进行研究，展示了上下文理论的普遍性。我们还证明，学习上下文的表示在与上下文兼容的任务上是optimal的。上下文理论的一个重要含义是，一旦模型足够大可以逼近最高的奇异函数，进一步扩大模型规模将不会带来额外的收益。因此，扩 scaling 并不是我们所需要的全部，进一步的改进需要更好的上下文。基于此，我们研究如何在不知道下游任务的情况下评估上下文的有用性。我们提出了一种度量标准，并通过实验表明，这种度量标准与编码器在许多真实数据集上的实际性能有很好的相关性。

发布时间: 5/6/2025

查看原文

情绪在循环中：情感计算在情感支持方面的综述

作者: Karishma Hegde, Hemadri Jayalath

arXiv:2505.01542v1 交叉公告类型摘要：在一个科技日益融入我们日常体验的世界中，能够感知和响应人类情绪的系统正在提高数字交互的质量。在人工智能与人机交互的交汇处，情感计算正在通过使机器能够处理和响应用户情绪而展现出创新的解决方案，使机器更加接近人类。本文综述文章探讨了使用大语言模型（LLMs）、多模态技术以及个性化AI系统，在情感识别、情感分析和个性赋权领域的情感计算应用方面的最新研究成果。我们通过将所选研究论文归类为四个领域：AI聊天机器人应用、多模态输入系统、心理健康和治疗应用、以及情感计算的安全应用，来分析这些论文的关键贡献和创新方法。然后，我们强调了这些研究的技术优势以及与这些研究相关的研究空白和挑战。此外，论文还研究了每个研究中使用的数据集， Highlighting 了模态、规模和多样性如何影响情感模型的开发和性能。最后，综述文章概述了伦理考虑，并提出了未来发展方向，以开发更加安全、同理心强且实用的应用。

发布时间: 5/6/2025

查看原文

使用混合模态分解和深度学习的自回归预报自适应框架在CFD中

作者: Rodrigo Abad\'ia-Heredia, Manuel Lopez-Martin, Soledad Le Clainche

arXiv:2505.01531v1 宣传类型: cross 摘要：据作者所知，本工作首次提出了一个通用且完全数据驱动的自适应框架，旨在稳定深度学习（DL）自回归预测模型在长时间范围内的表现，从而降低计算流体动力学（CFD）模拟所需的计算成本。所提出的方法在两个阶段之间交替进行：(i) 使用训练好的DL模型预测选定时间间隔内的流场演化，以及(ii) 当模型稳定性下降时，通过新生成的CFD数据更新模型，从而保持长期预测的准确性。这种自适应再训练策略确保了鲁棒性，同时避免了自回归模型中典型的预测误差累积。该框架在从层流到湍流的三种日益复杂的流场条件下进行了验证，证明了30%到95%的计算成本减少，而不影响物理一致性和准确性。其完全数据驱动的性质使其易于适应各种时间依赖的模拟问题。实现此方法的代码作为开源代码提供，并将整合到即将发布的ModelFLOWs-app中。

发布时间: 5/6/2025

查看原文

使用微调的文档理解变换器自动解析工程图纸以提取结构化信息

作者: Muhammad Tayyab Khan, Zane Yong, Lequn Chen, Jun Ming Tan, Wenhe Feng, Seung Ki Moon

arXiv:2505.01530v1 视图类型: cross 摘要：从2D工程图纸中准确提取关键信息对于高精度制造至关重要。手动提取耗时且容易出错，而传统的光学字符识别（OCR）技术在处理复杂布局和重叠符号时常常无法应对，导致输出结构混乱。为了解决这些挑战，本文提出了一种新的混合深度学习框架，通过结合定向边界框（OBB）检测模型与基于变压器的文档解析模型（Donut）来进行结构化信息提取。使用内部标注数据集训练YOLOv11来检测九个关键类别：几何尺寸和公差（GD&T）、一般公差、尺寸、材料、注释、圆角、表面粗糙度、螺纹和标题栏。检测得到的OBB被裁剪成图像并标注，以微调Donut以获得结构化的JSON输出。微调策略包括一个在所有类别上训练的单一模型和针对特定类别的模型。结果显示，单一模型在所有评估指标上都能持续超越特定类别模型，在GD&T中实现了更高的精确度（94.77%），在大多数情况下达到了100%的召回率，F1分数为97.3%，同时降低了幻觉现象（5.23%）。提出的框架提高了准确性，减少了手动工作量，并支持在以精度驱动的行业中的可扩展部署。

发布时间: 5/6/2025

查看原文

DCR错觉：合成数据的隐私风险衡量

作者: Zexi Yao, Nata\v{s}a Kr\v{c}o, Georgi Ganev, Yves-Alexandre de Montjoye

arXiv:2505.01524v1 宣布类型: cross 摘要：合成数据已成为一种越来越流行的数据共享方式，无需泄露敏感信息。尽管成员推理攻击（MIAs）通常被认为是实证评估合成数据集隐私性的黄金标准，但从业者和研究人员往往依赖于更简单的代理指标，如最近邻记录距离（DCR）。这些指标通过测量训练数据和生成的合成数据之间的相似性来估算隐私性。这种相似性还与训练数据和一个独立的保留真实记录集之间的相似性进行比较，以构建二元隐私测试。如果合成数据与训练数据的相似性不如保留集，那么它就通过了测试，并被认为是私密的。在本文中，我们表明，虽然这些指标计算起来成本较低，但DCR和其他基于距离的指标无法识别隐私泄露。在多个数据集以及经典模型如Baynet和CTGAN和更近期的扩散模型中，我们证明了被代理指标认为是私密的数据集高度容易受到MIAs的影响。我们还发现，基于这些指标的二元隐私测试和连续度量都不足以反映实际的成员推理风险。此外，我们展示了这些失败在不同指标超参数设置和记录选择方法下的一致性。最后，我们论证这些指标在设计上存在缺陷，并提供了一个实际中它们忽略的隐私泄露示例。通过这项工作，我们希望从业者能够转向MIAs作为评估合成数据隐私性的严格、全面的标准，特别是对于声称数据集具有法律匿名性的声明。

发布时间: 5/6/2025

查看原文

细调的子集选择：数学领域适配的效益-多样性平衡方法

作者: Madhav Kotecha, Vijendra Kumar Vaishya, Smita Gautam, Suraj Racha

arXiv:2505.01523v1 宣布类型: cross 摘要: 我们提出了一种改进的方法，通过采用预算受限的子集选择方法，有效地在特定领域（如数学领域）对大规模语言模型（LLMs）进行微调。我们的方法结合了效用和多样性指标，以选择最有信息量和代表性的训练示例。最终目标是在整个数据集中精心选择的数据点上实现接近全数据集的性能，同时显著减少计算成本和训练时间，并实现与全数据集相当的性能。效用指标结合了困惑度和思维链（CoT）损失，以识别对模型学习贡献最大的具有挑战性的示例，而多样性指标则确保了对数学子领域的广泛覆盖。我们对LLaMA-3 8B和Phi-3模型进行了方法评估，并与随机选择、基于多样性的采样以及现有的先进子集选择技术进行了比较。

发布时间: 5/6/2025

查看原文