arXiv 论文列表

作者: Filippo Ficarra, Ryan Cotterell, Alex Warstadt

arXiv:2502.05892v1 交叉公告类型摘要：语言模型（LMs）越来越被研究作为人类语言学习者的模型。由于该领域的早期阶段，尚不清楚LMs是否表现出与人类相似的学习动态，且直接比较人类和模型之间的学习轨迹的研究相对较少。儿童的词汇学习轨迹相对记录较为详细，近期的研究尝试将这些调查扩展到语言模型。然而，对于语言模型中的词汇学习并没有广泛认可的度量标准。我们采取一种分布性的方法来解决这个问题，通过目标词学习分布的特性来定义词库知识。我们认为之前研究中的分布性特征未能捕获关键的分布信息。因此，我们提出了一个阵列的特征，这些建议比之前的方法更好，能够捕捉目标词可以和不可以出现的地方，以及关于词汇适用性的梯度偏好。我们为从头训练的一系列小型语言模型获得了学习轨迹，研究了不同分布性特征之间的关系，比较了它们与人类词汇学习轨迹以及可解释词库特征的一致性，并探讨了估计这些分布性特征的基本方法论问题。我们的度量标准几乎捕获了互补的信息，这表明不应依赖单一的度量标准。然而， Across all metrics，语言模型的学习轨迹与儿童的学习轨迹均未能相关联。

发布时间: 2/11/2025

查看原文

MTPChat：面向对话代理的多模态时间感知人格数据集

作者: Wanqi Yang, Yanda Li, Meng Fang, Ling Chen

arXiv:2502.05887v1 Announce Type: cross 摘要：理解时间动态对于会话代理至关重要，它能够促进有效的内容分析和基于信息的决策。然而，特别是对于依据角色的对话来说，具备时间意识的数据集仍然有限，这限制了它们的应用范围并降低了其复杂性。为了填补这一空白，我们引入了MTPChat，这是一个多模态、时间意识的角色对话数据集，它在对话和角色记忆中整合了语言、视觉和时间元素。借助MTPChat，我们提出了两种时间敏感任务：时间敏感的下一个响应预测（TNRP）和时间敏感的接地记忆预测（TGMP），这两项任务都是为了评估模型理解隐含时间线索和动态交互的能力。此外，我们还提出了一种创新框架，该框架包含一个自适应时间模块，能够有效地整合多模态流并捕捉时间依赖性。实验结果验证了MTPChat带来的挑战，并展示了我们框架在多模态时间敏感场景中的有效性。

发布时间: 2/11/2025

查看原文

神经前缀：一个零样本传感器数据插补插件

作者: Abdelwahed Khamis, Sara Khalifa

arXiv:2502.05883v1 宣告类型: cross 摘要：现实世界感知的挑战，如传感器故障、通信问题和功率限制导致数据间歇性缺失。这一问题被认为会削弱传统假设连续数据流的分类任务。以前的工作通过设计特定任务或模态的解决方案（即定制的插补方法）来解决这一问题。虽然这些方法在特定任务和模态上的效果良好，但它们在不同任务和传感器模态上的可移植性有限。这引发了一个重要的问题：我们能否构建一个任务无关的插补流水线，在不需要额外训练的情况下移植到新的传感器上？在本文中，我们形式化了零样本插补的概念，提出了一种新的方法，使预训练模型能够适应数据间歇性问题。该框架名为NeuralPrefix，是一个生成神经组件，在推理过程中先于任务模型，填补因数据间歇性导致的空白。NeuralPrefix构建为连续动力系统，其内部状态可以通过求解常微分方程（ODE）在任意时间点进行估计。这种方法允许更灵活和适应性强的插补方法，克服了特定任务和特定模态解决方案的限制。我们在多个传感数据集上全面评估了NeuralPrefix，证明了它在各种领域中的有效性。当在50%数据缺失率的数据上进行测试时，NeuralPrefix准确实现了所有缺失样本的恢复，SSIM得分为0.93-0.96。零样本评估表明，NeuralPrefix能够很好地泛化到未见过的数据集，即使测量来自不同的模态也是如此。

发布时间: 2/11/2025

查看原文

使用链式思考提示增强抑郁症检测：从情绪到推理的大语言模型方法

作者: Shiyu Teng, Jiaqing Liu, Rahul Kumar Jain, Shurong Chai, Ruibo Hou, Tomoko Tateyama, Lanfen Lin, Yen-wei Chen

arXiv:2502.05879v1 公告类型: cross 摘要：抑郁症是全球导致残疾的主要原因之一，给个人、医疗保健系统和整个社会带来了严重的负担。近年来，大型语言模型（LLMs）的进步在应对心理健康挑战方面表现出潜力，包括通过文本分析检测抑郁症。然而，当前基于LLM的方法往往在细微症状识别方面遇到困难，并且缺乏透明的、逐步的推理过程，这使得准确分类和解释心理健康状况变得困难。为了解决这些挑战，我们提出了一种思维链提示方法，以提高基于LLM的抑郁症检测的性能和可解释性。我们的方法将检测过程分为四个阶段：（1）情感分析，（2）二元抑郁症分类，（3）潜在原因识别，以及（4）严重程度评估。通过引导模型通过这些结构化的推理步骤，我们提高了可解释性并降低了忽视细微医学指标的风险。我们在E-DAIC数据集上验证了我们的方法，测试了多种最先进的大型语言模型。实验结果表明，与基线方法相比，我们的思维链提示技术在分类准确性和诊断洞察的细粒度方面均表现出更优的性能。

发布时间: 2/11/2025

查看原文

MMGDreamer：混合模态图用于几何可控的3D室内场景生成

作者: Zhifei Yang, Keyang Lu, Chao Zhang, Jiaxing Qi, Hanqi Jiang, Ruifei Ma, Shenglin Yin, Yifan Xu, Mingzhe Xing, Zhen Xiao, Jieyi Long, Xiangde Liu, Guangyao Zhai

arXiv:2502.05874v1 宣言类型：交叉摘要：可控的3D场景生成在虚拟现实和室内设计中有着广泛的应用，生成的场景需要在几何方面表现出高度的真实性和可控性。场景图提供了一种合适的数据表示形式，有利于这些应用。然而，当前基于图的方法在场景生成中仅限于基于文本的输入，并且对于灵活的用户输入表现出了不足的适应性，妨碍了对物体几何结构的精确控制。为了解决这个问题，我们提出了一种用于场景生成的双分支扩散模型MMGDreamer，该模型结合了新颖的混合模式图、视觉增强模块和关系预测器。混合模式图允许物体节点整合文本和视觉模态，并可选地在节点之间建立关系，从而增强了对灵活用户输入的适应性，并使生成场景中的物体几何结构控制更加细致。视觉增强模块通过使用文本嵌入构建视觉表示，丰富了仅基于文本的节点的视觉保真度。此外，我们的关系预测器利用节点表示来推断节点之间缺失的关系，从而实现更连贯的场景布局。广泛的实验结果表明，MMGDreamer在物体几何结构的控制方面表现出优越性，达到了最先进的场景生成性能。项目页面：https://yangzhifeio.github.io/project/MMGDreamer。

发布时间: 2/11/2025

查看原文

单模检索：面向STEM教育的多风格检索框架

作者: Yanhao Jia, Xinyi Wu, Hao Li, Qinglin Zhang, Yuxiao Hu, Shuai Zhao, Wenqi Fan

arXiv:2502.05863v1 Announce Type: cross 摘要：在AI辅助教学中，利用各种查询样式解释抽象的文字描述对确保高质量的教学至关重要。然而，当前的检索模型主要集中在自然文本-图像检索，由于检索过程中的模糊性，使得它们在教育场景下不够针对性。本文中，我们提出了一种针对教育场景的多样化表达检索任务，支持基于多种查询样式和表达的检索。我们引入了STEM教育检索数据集（SER），包含了超过24,000个多样化的查询对，以及基于提示调优的Uni-Retrieval，这是一种高效且多样化的检索视觉-语言模型。Uni-Retrieval 提取查询样式的特征作为原型，并构建了一个包含不同查询提示词的不断更新的提示库。该库可以在测试时更新，以代表不同科目检索场景的领域特定知识。我们的框架通过基于原型相似性动态检索提示词，有效地促进了未知查询的学习。实验结果表明，Uni-Retrieval 在大多数检索任务中优于现有的检索模型。这一进展为多样化的教育需求提供了一个可扩展且精确的解决方案。

发布时间: 2/11/2025

查看原文

第一人称视角与步行动作结合的自我中心世界联合预测代理模型

作者: Lu Chen, Yizhou Wang, Shixiang Tang, Qianhong Ma, Tong He, Wanli Ouyang, Xiaowei Zhou, Hujun Bao, Sida Peng

arXiv:2502.05857v1 类型: cross 摘要：本文探讨了学习一种行为类似于人类的代理模型的任务，该模型能够在第一人称的世界中联合感知、预测和行动。之前的方法通常为这三种能力分别训练单独的模型，这导致它们之间存在信息孤岛，使得这些能力无法从对方学习并有效协作。本文提出了一种联合预测代理模型，命名为EgoAgent，该模型通过单一的变压器同时学习表示世界、预测未来状态和采取合理行动。EgoAgent通过将这三种能力的所有表示空间映射到连续的词序列中来统一表示空间。可学习的查询词被附加以获得当前状态、未来状态和下一个行动。借助联合监督，我们的代理模型建立了这三种能力之间的内部关系，并有效地模仿了人类的推断和学习过程。全面评估EgoAgent涵盖了图像分类、第一人称未来状态预测和三维人体运动预测任务，展示了我们方法的优越性。代码和训练模型将被发布以确保可重现性。

发布时间: 2/11/2025

查看原文

LegalSeg：通过修辞角色分类解锁印度法律判决的结构

作者: Shubham Kumar Nigam, Tanmay Dubey, Govind Sharma, Noel Shallum, Kripabandhu Ghosh, Arnab Bhattacharya

arXiv:2502.05836v1 宣告类型: cross 摘要：在这篇论文中，我们通过修辞角色分类任务解决了法律文件的语义分割问题，重点关注印度法律判决。我们引入了LegalSeg，这是迄今为止针对此任务的最大标注数据集，包含超过7,000份文档和140万句句子，标注了7个修辞角色。为了评估性能，我们评估了多个当前最先进的模型，包括分层双向LSTM-CRF、TransformerOverInLegalBERT（ToInLegalBERT）、图神经网络（GNNs）和角色感知Transformer，同时还包括了一个探索性的RhetoricLLaMA，即经过指令调整的大语言模型。我们的结果显示，那些 Incorporating 更广泛的语境、结构关系和序列句子信息的模型在性能上优于那些仅依赖句子级特征的模型。此外，我们还通过使用邻近句子的上下文和预测或实际标签进行了实验，以评估这些因素对分类准确性的影响。尽管取得了这些进展，但在区分紧密相关的角色和解决类别不平衡问题方面仍存在挑战。我们的工作强调了先进技术在提高法律文件理解方面的潜力，并为未来法律NLP研究奠定了坚实的基础。

发布时间: 2/11/2025

查看原文

多尺度特征解耦的对比表示蒸馏

作者: Cuipeng Wang, Tieyuan Chen, Haipeng Wang

arXiv:2502.05835v1 宣告类型: cross 摘要：知识蒸馏是一种技术，旨在通过从较大且预先训练好的教师网络转移知识来增强较小的学生网络的性能，而无需增加其参数量。此前的方法主要集中在蒸馏全局特征信息，而忽视了不同特征区域嵌入的多样化信息的重要性。在本工作中，我们首次在特征转移过程中引入多尺度解耦，解耦后的局部特征将分别处理并与其他对比学习方法集成。此外，与之前的基于对比学习的知识蒸馏方法相比，我们的方法不仅减少了计算成本，还提高了效率，使得仅使用单批次样本便能够提升学生网络的性能。在CIFAR-100和ImageNet上的 extensive 评估表明了我们方法的优势，其中有些使用我们方法蒸馏的学生网络甚至超过了其预先训练的教师网络的性能。这些结果突显了我们方法在帮助学生网络全面吸收教师网络知识方面的有效性。

发布时间: 2/11/2025

查看原文

带有少量不平衡类样本的模型压缩：一种异常分布探索

作者: Tian-Shuang Wu, Shen-Huan Lyu, Ning Chen, Zhihao Qu, Baoliu Ye

arXiv:2502.05832v1 类型: cross 摘要：近年来，在隐私和性能之间寻求妥协，人们广泛采用少量样本模型压缩方法来应对因隐私和安全问题导致的数据有限的问题。然而，当可用样本数量极其有限时，类别不平衡成为一个常见且棘手的问题。在实际应用中，实现所有类别样本数量相等往往成本高且不切实际，而先前关于少量样本模型压缩的研究大多忽略了这个问题。我们的实验全面表明，类别不平衡会负面影响少量样本模型压缩方法的整体性能。为了解决这个问题，我们提出了一种新的自适应框架，称为OOD增强少量样本模型压缩（OE-FSMC）。该框架将容易获取的域外（OOD）数据整合到压缩和微调过程中，有效地重新平衡了训练分布。我们还引入了一种联合蒸馏损失和正则化项，以降低模型过度拟合域外数据的风险。在多个基准数据集上的广泛实验表明，我们的框架可以无缝地集成到现有的少量样本模型压缩方法中，有效地缓解了类别不平衡导致的准确度下降。

发布时间: 2/11/2025

查看原文