arXiv 论文列表

作者: Santiago Miret, N M Anoop Krishnan

大型语言模型 (LLMs) 为强大的语言处理工具创造了令人兴奋的可能性，可以加速材料科学研究。虽然 LLMs 在加速材料理解和发现方面具有巨大潜力，但它们目前还无法成为实用的材料科学工具。在本立场文件中，我们展示了 LLM 在材料科学中的相关失败案例，揭示了 LLM 在理解和推理复杂、相互关联的材料科学知识方面的当前局限性。鉴于这些不足，我们概述了一个开发基于材料科学知识和假设生成，并随后进行假设检验的材料科学 LLM (MatSci-LLMs) 的框架。实现高性能 MatSci-LLMs 的途径在很大程度上取决于构建高质量、多模态数据集，这些数据集来自科学文献，其中存在各种信息提取挑战。因此，我们描述了构建能够捕获有价值的材料科学知识的大规模、多模态数据集需要克服的关键材料科学信息提取挑战。最后，我们概述了将未来的 MatSci-LLMs 应用于现实世界材料发现的路线图：1. 自动化知识库生成；2. 自动化计算机模拟材料设计；以及 3. MatSci-LLM 集成自驾驶材料实验室。

发布时间: 9/26/2024

查看原文

行动中的现实主义：使用 YOLOv8 和 DeiT 从医学图像中进行脑肿瘤异常感知诊断

作者: Seyed Mohammad Hossein Hashemi, Leila Safari, Amirhossein Dadashzadeh Taromi

在医学领域，从图像中可靠地检测和分类脑肿瘤仍然是一个巨大的挑战，因为患者群体中肿瘤的罕见性。因此，在异常情况下检测肿瘤的能力对于确保及时干预和改善患者预后至关重要。本研究通过利用深度学习 (DL) 技术来检测和分类具有挑战性的情况下的脑肿瘤来解决这个问题。来自国家脑图谱实验室 (NBML) 的精选数据集包含 81 位患者，包括 30 例肿瘤病例和 51 例正常病例。检测和分类流程分为两个连续的任务。检测阶段涉及全面的数据分析和预处理，以修改图像样本的数量和每个类别的患者数量，以符合现实世界场景的异常分布（每 1 例肿瘤 9 例正常）。接下来，除了用于测试的通用评估指标外，我们还采用了一种名为“患者对患者”（PTP）的新型性能评估方法，重点关注模型的现实评估。在检测阶段，我们微调了 YOLOv8n 检测模型以检测肿瘤区域。随后的测试和评估在通用评估指标和 PTP 指标方面都产生了具有竞争力的性能。此外，使用数据高效图像变换器 (DeiT) 模块，我们在分类阶段从微调的 ResNet152 作为教师中蒸馏了一个视觉变换器 (ViT) 模型。这种方法在可靠的肿瘤检测和分类方面展现出可喜的进步，为现实世界医学影像场景中的肿瘤诊断提供了潜在的进步。

发布时间: 9/26/2024

查看原文

LingoQA：自动驾驶视频问答

作者: Ana-Maria Marcu, Long Chen, Jan H\"unermann, Alice Karnsund, Benoit Hanotte, Prajwal Chidananda, Saurabh Nair, Vijay Badrinarayanan, Alex Kendall, Jamie Shotton, Elahe Arani, Oleg Sinavski

我们介绍了 LingoQA，一个用于自动驾驶视觉问答的新数据集和基准。该数据集包含 28,000 个独特的短视频场景和 419,000 个标注。在我们的基准上评估最先进的视觉语言模型表明，它们的性能低于人类能力，GPT-4V 对 59.6% 的问题的回答真实，而人类则达到了 96.6%。为了评估，我们提出了一种真实性分类器，称为 Lingo-Judge，它与人类评估的 Spearman 相关系数达到 0.95，超过了现有的技术，如 METEOR、BLEU、CIDEr 和 GPT-4。我们建立了一个基线视觉语言模型，并进行了广泛的消融研究以了解其性能。我们将我们的数据集和基准 https://github.com/wayveai/LingoQA 发布为自动驾驶视觉语言模型的评估平台。

发布时间: 9/26/2024

查看原文

预训练语言模型无法帮助自回归文本到图像生成

作者: Yuhui Zhang, Brandon McKinzie, Zhe Gan, Vaishaal Shankar, Alexander Toshev

近年来，VQ-VAE 等图像分词器的进展使得使用自回归方法进行文本到图像的生成成为可能，类似于语言建模。然而，尽管这些方法能够适应各种下游任务，但它们尚未利用预训练的语言模型。在这项工作中，我们通过将预训练的语言模型应用于自回归文本到图像的生成来探索这一差距，发现预训练的语言模型提供的帮助有限。我们通过分析每种模态的标记提供了双方面的解释。首先，我们证明图像标记与文本标记相比具有明显不同的语义，这使得预训练的语言模型在建模它们方面与随机初始化的模型没有区别。其次，图像文本数据集中的文本标记过于简单，与正常的语言模型预训练数据相比，导致语言模型的能力急剧下降。

发布时间: 9/26/2024

查看原文

配对问题可解：带配偶的医院/住院医师问题的全新算法与复杂性结果

作者: Gergely Cs\'aji, David Manlove, Iain McBride, James Trimble

本文研究了包含情侣的医院/住院医师问题 (HRC)，其中解是一个稳定匹配或报告不存在稳定匹配。我们提出了一种新颖的多项式时间算法，可以在情侣偏好是亚响应的 (即，如果一方成员换到一个更好的医院，那么情侣也会获得改善) 且亚完全的 (即，对双方成员都可接受的医院对都对情侣共同可接受) 的 HRC 实例中找到一个近似可行的稳定匹配 (最多调整医院的容量 1)，方法是将其简化为稳定固定装置问题的实例。我们还提出了一种多项式时间算法，用于亚响应、亚完全且为双重市场的 HRC 实例，或所有情侣属于几种可能类型之一的实例。我们证明，我们的算法也意味着稳定 b-匹配问题的多项式时间可解性，其中底层图是带有循环的多重图。我们用几个难点结果来补充我们的算法。我们证明，即使在其他强限制下，具有亚响应和亚完全情侣的 HRC 也是 NP 难的。我们还证明，在几个同时限制下，具有双重市场的 HRC 是 NP 难的。最后，我们证明，在 HRC 中找到具有最小阻塞对数量的匹配问题在 $m^{1-\varepsilon}$ 内不可近似，对于任何 $\varepsilon>0$，其中 $m$ 是医院偏好列表的总长度，除非 P=NP，即使每对情侣只申请一对医院。我们的多项式时间可解性结果极大地扩展了已知 HRC 易处理实例的类别，并为将来设计更好、更高效的机制提供了有用的工具。

发布时间: 9/26/2024

查看原文

非光滑弱凸有限和耦合组合优化

作者: Quanqi Hu, Dixian Zhu, Tianbao Yang

本文研究了新的组合优化问题族，称为**非光滑弱凸有限和耦合组合优化（NSWC FCCO）**。由于 FCCO 在机器学习和人工智能领域的广泛应用，以及其解决基于经验风险最小化的随机算法缺陷的能力，人们对 FCCO 的兴趣日益浓厚。然而，目前对 FCCO 的研究假设内外函数都是光滑的，这限制了它们解决更多样化问题的能力。我们的研究扩展了这一领域，通过考察非光滑弱凸 FCCO，其中外函数是弱凸且非递减的，内函数是弱凸的。我们分析了一种单循环算法，并确定了其在寻找目标函数的 Moreau 包络的 ε-驻点的复杂度。此外，我们还将该算法扩展到解决新颖的非光滑弱凸三层有限和耦合组合优化问题，这些问题具有三个函数的嵌套排列。最后，我们探讨了我们的算法在深度学习中的应用，用于双向部分 AUC 最大化和多实例双向部分 AUC 最大化，并使用实证研究来展示所提算法的有效性。

发布时间: 9/26/2024

查看原文

大型语言模型生成数据的来源归属问题

作者: Jingtan Wang, Xinyang Lu, Zitong Zhao, Zhongxiang Dai, Chuan-Sheng Foo, See-Kiong Ng, Bryan Kian Hsiang Low

大型语言模型（LLMs）及其巨大的商业化潜力所取得的令人印象深刻的性能引发了人们对训练数据知识产权（IP）的严重担忧。特别是，LLMs 生成的合成文本可能会侵犯用于训练 LLMs 的数据的 IP。为此，必须能够通过识别为生成 LLM 的合成文本做出贡献的数据提供者来执行源归属。在本文中，我们表明可以通过水印来解决这个问题，即通过使 LLM 能够生成包含有关其源的信息的嵌入水印的合成文本。我们确定了此类水印框架的关键属性（例如，源归属准确性、针对对手的鲁棒性），并提出了一种由于我们的算法设计而满足这些关键属性的源归属框架。我们的框架使 LLM 能够学习从生成的文本到数据提供者的准确映射，从而为有效地进行源归属奠定了基础。大量的实证评估表明，我们的框架实现了有效的源归属。

发布时间: 9/26/2024

查看原文

大型语言模型作为评价者的认知偏差基准测试

作者: Ryan Koo, Minhwa Lee, Vipul Raheja, Jong Inn Park, Zae Myung Kim, Dongyeop Kang

大型语言模型是认知上有偏见的法官。大型语言模型 (LLM) 最近被证明可以作为自动评估器，只需简单的提示和上下文学习。在本研究中，我们收集了 15 个不同规模的 LLM，并通过其他 LLM 作为评估器对它们的输出响应进行偏好排序，例如系统 Star 比系统 Square 更好。然后，我们评估了排序输出的质量，引入了大型语言模型作为评估器的认知偏差基准 (CoBBLEr)，这是一个基准，用于衡量 LLM 评估输出中的六种不同的认知偏差，例如自我中心偏差，其中模型倾向于在评估中高度排名自己的输出。我们发现，LLM 是有偏见文本质量评估器，在我们的偏差基准中表现出强烈的迹象（所有模型的平均比较中 40%），这在它们的每次评估中都质疑了它们作为评估器的稳健性。此外，我们检查了人类和机器偏好之间的相关性，并将平均排名偏差重叠 (RBO) 分数计算为 49.6%，表明机器偏好与人类不一致。根据我们的发现，LLM 仍然可能无法用于与人类偏好一致的自动标注。我们的项目页面位于：https://minnesotanlp.github.io/cobbler。

发布时间: 9/26/2024

查看原文

TempFuser：基于长短期时间融合Transformer学习敏捷、战术和特技飞行动作

作者: Hyunki Seong, David Hyunchul Shim

空战是空中应用中的一项具有挑战性的场景，需要对战略机动和敏捷飞机的空气动力学有全面的了解。空中代理不仅需要从长期角度理解战斗机的战术演变机动，还需要从短期角度应对飞机快速变化的空气动力学。本文介绍了 TempFuser，这是一种新颖的长短期时间融合 Transformer 架构，可以学习复杂空战问题中的敏捷、战术和特技飞行机动。我们的方法将两种不同的时间过渡嵌入整合到基于 Transformer 的网络中，以全面捕捉空中代理的长期战术和短期敏捷性。通过整合这些视角，我们的策略网络生成端到端的飞行指令，在长期内确保优势地位，并有效地超越敏捷的对手。在高保真飞行模拟器中训练后，我们的模型成功地学习执行战略机动，在对抗各种类型的对手飞机时胜过基线策略模型。值得注意的是，即使面对规格更优的对手，我们的模型也表现出类似人类的特技机动，而无需依赖先验知识。此外，它在具有挑战性的超音速和低空情况下表现出强大的追击性能。演示视频可在 https://sites.google.com/view/tempfuser 获取。

发布时间: 9/26/2024

查看原文

基于记忆代码的单次机器遗忘

作者: Tomoya Yamashita, Masanori Yamada, Takashi Shibata

随着深度学习的快速发展，人工智能（AI）应用中固有的伦理和隐私问题日益受到关注。机器遗忘（MU）是研究领域，旨在通过使训练好的 AI 模型忘记不希望的训练数据来解决这些问题。不幸的是，大多数现有的 MU 方法在遗忘方面会造成巨大的时间和计算成本。因此，这些方法通常难以应用于实际数据集和复杂的架构，例如 ImageNet 和 Transformer。为了解决这个问题，我们提出了一种轻量级且有效的 MU 方法。我们的方法识别对遗忘目标敏感的模型参数，并在这些模型参数中添加扰动。我们通过计算 Fisher 信息矩阵 (FIM) 来识别敏感参数。这种方法不需要花费大量时间进行额外的遗忘训练。此外，我们引入了特定于类的随机信号，称为记忆代码，以降低 FIM 计算的成本，FIM 计算通常需要整个训练数据并会产生巨大的计算成本。在我们的方法中，我们用记忆代码训练模型；在遗忘时，我们使用少量记忆代码来计算 FIM，并获得有效的遗忘扰动。全面的实验表明，我们的方法比现有的 MU 方法更快，并且在遗忘方面更有效。此外，我们证明了我们的方法可以扩展到更实际的数据集和更复杂的架构。

发布时间: 9/26/2024

查看原文