arXiv 论文列表

作者: Mojtaba Safari, Zach Eidex, Chih-Wei Chang, Richard L. J. Qiu, Xiaofeng Yang

arXiv:2501.14158v2 宣告类型: replace-cross 摘要：磁共振成像（MRI）是一种无创成像技术，可以全面提供人体的解剖和功能细节。然而，其漫长的采集时间可能导致患者不适、运动伪影，并限制实时应用。为了应对这些挑战，已采用了并行成像等策略，该策略利用多个接收线圈来加速数据采集过程。此外，压缩感知（CS）是一种可以从稀疏数据中重建图像的方法，通过减少所需数据收集量，显著减少了图像采集时间。最近，深度学习（DL）作为一种提高MRI重建效果的强大工具出现了。它已与并行成像和CS原理相结合，实现了更快、更准确的MRI重建。本文全面回顾了基于DL的MRI重建技术。我们对各种基于DL的方法进行了分类和讨论，包括端到端方法、差分优化和联邦学习，强调了它们的优势。我们的系统性回顾突出了DL在MRI重建领域的重大贡献，并强调了DL的潜在应用价值。此外，我们总结了基于DL的MRI重建的关键结果和趋势，包括定量指标、数据集、加速因子以及DL技术的发展和研究兴趣。最后，我们讨论了未来的研究方向以及基于DL的MRI重建在推动医学成像方面的重要性。为了促进该领域的进一步研究，我们提供了一个GitHub仓库，其中包括最新的基于DL的MRI重建出版物和公共数据集-https://github.com/mosaf/Awesome-DL-based-CS-MRI。

发布时间: 2/4/2025

查看原文

增强对AR生成场景的理解与评估：当视觉语言模型闪耀与跌倒

作者: Lin Duan, Yanming Xiu, Maria Gorlatova

arXiv:2501.13964v3 通知类型: 交叉替换摘要: 增强现实(AR)通过整合虚拟内容增强了现实世界，但确保AR体验的质量、可使用性和安全性提出了重大挑战。视觉-语言模型(Vision-Language Models, VLMs)能否为自动评估AR生成的场景提供解决方案？VLMs能否为自动评估AR生成的场景提供解决方案？在本研究中，我们评估了三种目前最先进的商业VLM——GPT、Gemini和Claude——在识别和描述AR场景方面的能力。为此，我们使用了DiverseAR数据集，这是第一个专门为评估VLMs分析不同复杂度AR场景中虚拟内容的能力而设计的数据集。我们的研究结果表明，VLMs通常能够感知和描述AR场景，感知的真实正率(Truth Positive Rate, TPR)最高可达93%，描述的TPR为71%。他们在识别明显的虚拟对象（如发光的苹果）方面表现出色，但在面对无缝整合的内容（如具有真实阴影的虚拟锅）时则面临困难。我们的研究结果突出了VLMs在理解AR情景方面的强点和弱点。我们确定了影响VLM性能的关键因素，包括虚拟内容的位置、渲染质量以及物理合理性。本研究强调了VLMs作为评估AR体验质量工具的潜力。

发布时间: 2/4/2025

查看原文

大型语言模型中的音乐民族中心主义

作者: Anna Kruspe

arXiv:2501.13720v2 宣告类型: 替换-交叉摘要：大型语言模型（LLMs）反映了其训练数据中的偏差，也反映了创造这些训练数据的人类的偏差。检测、分析和减轻这些偏差正成为研究的重点。到目前为止，研究中未充分探讨的一种偏差类型是地理文化偏差。这些偏差可能是由于训练数据中不同地理位置和文化的代表性失衡造成的，也可能是由于其中包含的价值判断造成的。在本文中，我们朝着分析LLMs中的音乐偏差迈出了第一步，特别是针对ChatGPT和Mixtral。我们进行了两项实验。在第一个实验中，我们促使LLMs提供各类别的“Top 100”音乐贡献者名单，并分析他们的国籍。在第二个实验中，我们要求LLMs对不同国家的音乐文化的各个方面进行数值评级。我们的结果表明，无论在哪个实验中，LLMs都非常偏好西方音乐文化。

发布时间: 2/4/2025

查看原文

M3PT：一种用于多模态多当事人社会信号预测的 Awareness 模块化注意力变换器

作者: Yiming Tang, Abrar Anwar, Jesse Thomason

arXiv:2501.13416v2 通知类型: 替换-交叉摘要：理解多当事人对话中的社会信号对于人机交互和人工社会智能至关重要。社会信号包括身体姿态、头部姿态、言语以及在进餐时获取和取食食物等上下文特定的动作。过去在多当事人交互方面的研究倾向于构建特定任务的模型来预测社会信号。在本工作中，我们address了在单一模型中同时预测多模态社会信号的挑战。我们引入了M3PT，这是一种因果变换器架构，具有模态和时间块化的注意力掩蔽，能够同时处理多个参与者的多种社会提示及其时间交互。我们在Human-Human Commensality Dataset (HHCD) 上对M3PT进行训练和评估，并证明使用多种模态可以提高咬食时间预测和说话状态预测的效果。源代码：https://github.com/AbrarAnwar/masked-social-signals/.

发布时间: 2/4/2025

查看原文

长上下文Really All You Need？利用LLM扩展上下文实现NL2SQL

作者: Yeounoh Chung, Gaurav T. Kakkar, Yu Gan, Brenton Milne, Fatma Ozcan

arXiv:2501.12372v2 宣告类型: replace-cross 摘要：大规模语言模型（LLMs）在一系列自然语言处理任务中展示了令人印象深刻的性能。特别是，推理能力的提升和上下文窗口的扩展为利用这些强大的模型开辟了新的途径。将自然语言转换为SQL（NL2SQL）具有挑战性，因为自然语言问题本质上是模糊的，而SQL生成则需要对复杂的数据模式和语义有精确的理解。解决这种语义模糊问题的一种方法是提供更多的上下文信息。在本文中，我们研究了Google最新一代LLM（即gemini-1.5-pro）提供的扩展上下文窗口（所谓的长上下文）的性能和延迟折中。我们研究了包括列示例值、问题和SQL查询对、用户提供的提示、SQL文档和模式在内的各种上下文信息的影响。据我们所知，这是首项研究扩展上下文窗口和额外上下文信息如何有助于NL2SQL生成，对于准确性和延迟成本两者都有助益的工作。我们展示了长上下文LLMs是稳健的，并且不会迷失在扩展的上下文信息中。另外，我们基于Google的gemini-pro-1.5构建的长上下文NL2SQL流水线，在无需微调和昂贵的自我一致性方法的情况下，在各种基准数据集上取得了优异的性能。

发布时间: 2/4/2025

查看原文

基于网络的提示工程对抗极端类别不平衡下的组织化水军运动

作者: Nikos Kanakaris, Heng Ping, Xiongye Xiao, Nesreen K. Ahmed, Luca Luceri, Emilio Ferrara, Paul Bogdan

arXiv:2501.11849v2 声明类型: replace-cross 摘要：检测有组织的政治运动对于打击社交媒体上的虚假信息至关重要。现有的此类有组织行动的识别方法主要采用网络科学、图机器学习和自然语言处理技术。他们的最终目的是分析用户之间以及其帖子文本相似性的关系与交互（例如再转发）。尽管这些方法在识别伪装成草根运动的虚假信息方面表现有效，但它们仍然面临重大挑战，尤其是可用训练数据集中存在的类别不平衡问题。为了缓解这一问题，近期的方法通常依赖数据增强或增加正样本的数量，但在实际应用中这可能并不可行或不够充分。遵循不同的路径，在这篇论文中，我们提出了一种新的基于大规模语言模型（LLM）的框架来识别伪装成草根运动的虚假信息，引入了平衡检索增强生成（Balanced RAG）组件。我们的方法首先将有关帖子（在我们的情况下为推文）的文本信息以及社交网络中的用户交互作为输入提供给语言模型。然后，通过提示工程和提出的Balanced RAG方法，它有效地在X（推特）上检测到协调的虚假信息运动。所提出的框架不需要对语言模型进行任何训练或微调。相反，通过战略性地利用提示工程和Balanced RAG的优势，它使LLMs能够克服类别不平衡的影响并有效识别有组织的政治运动。实验结果表明，通过结合提出的提示工程和Balanced RAG方法，我们的框架在精确度、召回率和F1分数上比传统的基于图的基线实现了2至3倍的改进。

发布时间: 2/4/2025

查看原文

超图的循环变压器神经算法推理

作者: Xiaoyu Li, Yingyu Liang, Jiangxuan Long, Zhenmei Shi, Zhao Song, Zhen Zhuang

arXiv:2501.10688v2 宣告类型: replace-cross 摘要：循环变压器在模拟传统图算法方面展示了卓越的神经算法推理能力，但在处理更复杂的结构如超图方面尚未得到广泛应用。超图通过建模多个实体之间的高阶关系，扩展了图的建模能力，提供了更丰富的表示方式，但也带来了重大的计算挑战。在本文中，我们扩展了循环变压器架构的神经算法推理能力，使其能够模拟超图算法，填补了神经网络和超图上的组合优化之间的差距。具体而言，我们提出了一种新颖的降解机制，用于将超图转换为图表示，从而能够模拟基于图的算法，例如迪杰斯特拉最短路径算法。此外，我们引入了一种超边感知编码方案，以模拟特定于超图的算法，例如海利算法。我们为这些模拟提供了理论保证，证明了使用循环变压器处理高维和组合数据的可行性。本文突显了变压器作为结构化数据的一般算法求解器的潜力。

发布时间: 2/4/2025

查看原文

面向信用评分的类不平衡感知自适应数据集蒸馏以实现可扩展的预训练模型

作者: Xia Li, Hanghang Zheng, Xiao Chen, Hong Liu, Mao Mao

arXiv:2501.10677v2 宣告类型: replace-cross 摘要：人工智能的发展显著提升了信用评分技术。尽管先进的深度学习模型具有显著的效果，但由于其在表格型数据上稳健的预测性能，主流应用依旧偏好树状结构模型。尽管预训练模型已有显著发展，但在金融领域的应用主要集中在问答任务上，且对于表格结构的信用评分数据集，使用预训练模型的研究仍然相对较少。面向表格的数据大模型（如TabPFN）使得大模型在信用评分中的应用成为可能，尽管其处理样本数量有限。本论文提供了一种新颖的框架，将面向表格的数据集蒸馏技术与预训练模型相结合，为TabPFN提供了可扩展性。此外，尽管金融数据集中类别不平衡的现象普遍存在，但其在数据集蒸馏过程中的影响尚未被探讨。因此，我们在数据集蒸馏过程中结合了类别不平衡的意识技术，从而在金融数据集上（例如AUC提升了2.5%）获得了改进的表现。本研究提出了一种在金融表格数据集上扩展大型预训练模型应用的新框架，并对类别不平衡在数据集蒸馏过程中的影响进行了比较性分析。我们认为这种方法可以扩大大型模型在金融领域的应用和下游任务。

发布时间: 2/4/2025

查看原文

RichSpace：通过文本嵌入插值丰富文本到视频提示空间

作者: Yuefan Cao, Chengyue Gong, Xiaoyu Li, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song

arXiv:2501.09982v2 Announce Type: replace-cross 摘要：文本到视频生成模型取得了显著进展，但在生成具有复杂特征的视频方面仍然存在问题。这一限制通常源于文本编码器无法生成准确的嵌入，这阻碍了视频生成模型。在本文中，我们提出了一种新颖的方法，通过在嵌入空间中进行插值来选择最优文本嵌入以克服这一挑战。我们证明了这种方法使得视频生成模型能够生成所需的视频。此外，我们引入了一种使用垂直脚嵌入和余弦相似性的简单算法来识别最优插值嵌入。我们的研究结果强调了准确文本嵌入的重要性，并提供了一条提高文本到视频生成性能的道路。

发布时间: 2/4/2025

查看原文

多模态语言模型的简单空地检测基线

作者: Qingyun Li, Yushi Chen, Xinya Shu, Dong Chen, Xin He, Yi Yu, Xue Yang

arXiv:2501.09720v3 宣告类型：替换-交叉摘要：基于生成预训练Transformer的多模态语言模型（MLMs）被认为是统一各种领域和任务的强大候选者。专门用于遥感（RS）的MLMs已经在多个任务中展现出卓越的表现，例如视觉问答和视觉定位。除了检测与给定指令对应的特定对象的视觉定位任务外，检测多个类别的所有对象的航空检测也是RS基础模型的一个有价值的挑战性任务。然而，现有的RS MLMs没有探索航空检测，因为MLMs的自回归预测机制与检测输出有着显著的不同。在本文中，我们首次提出了一种简单的baseline，名为LMMRotate，用于将MLMs应用于航空检测。具体而言，我们首先介绍了一种归一化方法，将检测输出转换为文本输出，使其与MLM框架兼容。然后，我们提出了一种评估方法，以确保MLM与传统的对象检测模型之间的公平比较。我们通过微调开源的通用MLMs构建baseline，并实现了与传统检测器相媲美的检测性能。我们希望这一baseline能为未来的MLM开发提供参考，使MLM更好地理解RS图像的能力更为全面。相关代码可在https://github.com/Li-Qingyun/mllm-mmrotate获得。

发布时间: 2/4/2025

查看原文