arXiv 论文列表

水下图像增强对目标检测性能影响的评估：一项综合研究

作者: Ali Awad (Michigan Technological University), Ashraf Saleem (Michigan Technological University), Sidike Paheding (Fairfield University), Evan Lucas (Michigan Technological University), Serein Al-Ratrout (Michigan Technological University), Timothy C. Havens (Michigan Technological University)

水下图像通常存在严重的退化问题，导致视觉质量低和目标检测性能差。本研究旨在评估最先进的图像增强模型，调查其对水下目标检测的影响，并探索其提高检测性能的潜力。为此，我们选择了涵盖主要增强类别的具有代表性的水下图像增强模型，并将它们分别应用于两个最新的数据集：1）真实世界水下目标检测数据集 (RUOD)，和 2）具有挑战性的水下植物检测数据集 (CUPDD)。在此之后，我们对增强图像进行了定性和定量分析，并开发了一个质量指标 (Q 指标) 来比较原始图像和增强图像的质量分布。随后，我们比较了几个 YOLO-NAS 检测模型的性能，这些模型分别在原始图像集和增强图像集上进行训练和测试。然后，我们进行了一项相关性研究，以检查增强指标与检测性能之间的关系。我们还分析了训练好的检测器的推理结果，展示了增强提高检测性能的情况，以及增强揭示人工标注者遗漏的目标的情况。这项研究表明，尽管增强通常会降低检测性能，但在某些情况下仍然可以利用它来提高检测性能和提高人工标注的准确性。

发布时间: 11/27/2024

查看原文

人本中心大型语言模型综述

作者: Jing Yi Wang, Nicholas Sukiennik, Tong Li, Weikang Su, Qianyue Hao, Jingbo Xu, Zihan Huang, Fengli Xu, Yong Li

大型语言模型（LLM）的快速发展及其模拟人类认知和行为的能力，催生了基于LLM的框架和工具。这些框架和工具的评估和应用都基于其执行传统上由人类执行的任务的能力，即那些涉及认知、决策和社会互动。本综述全面考察了这种以人为中心的LLM能力，重点关注其在个体任务（其中LLM充当单个人的替代品）和集体任务（其中多个LLM协调以模拟群体动态）中的表现。我们首先评估LLM在推理、感知和社会认知等关键领域的 competence，将其能力与类人的技能进行比较。然后，我们探索LLM在行为科学、政治学和社会学等以人为中心的领域的实际应用，评估其在复制人类行为和互动方面的有效性。最后，我们确定了挑战和未来的研究方向，例如提高LLM的适应性、情商和文化敏感性，同时解决固有的偏差并增强人机协作框架。本综述旨在从以人为中心的视角提供对LLM的基础性理解，深入了解其当前的能力和未来的发展潜力。

发布时间: 11/27/2024

查看原文

JESTR：用于靶向代谢组学数据注释候选分子排序的联合嵌入空间技术

作者: Apurva Kalia, Dilip Krishnan, Soha Hassoun

代谢组学中的一个主要挑战是注释：将分子结构分配给质谱裂解模式。尽管分子到光谱和光谱到分子指纹预测 (FP) 近期取得了进展，但注释率仍然很低。本文介绍了一种新的注释范式 (JESTR)。与先前明确构建分子指纹或光谱的方法不同，JESTR 利用了分子及其相应光谱是同一数据的不同视图这一见解，并有效地将其表示嵌入到一个联合空间中。候选结构的排名基于查询光谱与每个候选物的嵌入之间的余弦相似度。我们在三个数据集上将 JESTR 与 mol-to-spec 和 spec-to-FP 注释工具进行了比较。平均而言，在 rank@[1-5] 上，JESTR 的性能优于其他工具 23.6%-71.6%。我们进一步证明了在训练过程中使用候选分子进行正则化的强大价值，将 rank@1 的性能提高了 11.4%，并增强了模型区分目标分子和候选分子的能力。通过 JESTR，我们提供了一条通往精确注释的新途径，从而揭示了代谢组学中的宝贵见解。

发布时间: 11/27/2024

查看原文

Tiny-Align：边缘设备上自动语音识别与大型语言模型的桥梁

作者: Ruiyang Qin, Dancheng Liu, Gelei Xu, Zheyu Yan, Chenhui Xu, Yuting Hu, X. Sharon Hu, Jinjun Xiong, Yiyu Shi

大型语言模型 (LLM) 和自动语音识别 (ASR) 相结合，部署在边缘设备上（称为边缘 ASR-LLM），可以作为强大的个性化助手，为用户提供基于音频的交互。与基于文本的交互相比，边缘 ASR-LLM 允许进行易访问且自然的音频交互。然而，现有的 ASR-LLM 模型主要在高性能计算环境中进行训练，并产生大量的模型权重，使其难以部署在边缘设备上。更重要的是，为了更好地满足用户的个性化需求，ASR-LLM 必须能够从每个不同的用户那里学习，因为音频输入通常包含高度个性化的特征，需要个性化的设备上训练。由于单独微调 ASR 或 LLM 由于模态特异性限制而往往导致次优结果，端到端训练确保了音频特征和语言理解（跨模态对齐）的无缝集成，最终实现了在边缘设备上更个性化和更高效的适应。然而，由于现有方法复杂的训练要求和大量的计算需求，ASR 音频和 LLM 之间的跨模态对齐在边缘设备上可能具有挑战性。在这项工作中，我们提出了一种资源高效的跨模态对齐框架，该框架在边缘设备上桥接 ASR 和 LLM 以处理个性化的音频输入。我们的框架能够在资源受限的设备（如 NVIDIA Jetson Orin (8GB RAM)）上实现高效的 ASR-LLM 对齐，训练时间加快 50 倍，同时将对齐质量提高 50% 以上。据我们所知，这是第一项研究在资源受限的边缘设备上进行高效 ASR-LLM 对齐的工作。

发布时间: 11/27/2024

查看原文

DSTC：仅使用自生成测试和代码来改进代码大型语言模型的直接偏好学习

作者: Zhihan Liu, Shenao Zhang, Zhaoran Wang

基于直接偏好学习的仅用自生成测试和代码提升代码生成大型语言模型的框架。然而，可靠偏好数据的匮乏制约了直接偏好学习提升代码大型语言模型编码准确性的性能。本文介绍了仅用自生成测试和代码的直接偏好学习 (DSTC) 框架，该框架仅利用自生成的代码片段和测试来构建可靠的偏好对，以便直接偏好学习能够在无需外部标注的情况下提高大型语言模型的编码准确性。DSTC 结合了极小极大选择过程和测试代码连接，以提高偏好对的质量，减少了错误自生成测试的影响，并在无需代价高昂的奖励模型的情况下增强了模型性能。当与直接偏好优化 (DPO) 和 Kahneman-Tversky 优化 (KTO) 等直接偏好学习方法一起使用时，DSTC 在包括 HumanEval、MBPP 和 BigCodeBench 在内的各种编码基准测试中都产生了编码准确性 (pass@1 分数) 的稳定提升，证明了其对各种规模模型的有效性和可扩展性。这种方法可以自主地提高各种规模大型语言模型的代码生成准确性，减少了对昂贵的标注编码数据集的依赖。

发布时间: 11/27/2024

查看原文

大型语言模型在印度官方语言中的分词器性能评估

作者: S. Tamang, D. J. Bora

基于Transformer架构的大型语言模型 (LLM) 彻底改变了多个领域，其中分词在其预处理和微调阶段发挥着关键作用。在多语言模型中，特别是针对印地语系语言的模型，有效的分词对于优化性能至关重要。本文对12个大型语言模型在印度所有22种官方语言中使用的分词器进行了全面评估，重点比较了其分词过程的效率。我们采用归一化序列长度 (NSL) 作为分析的关键指标。我们的研究结果表明，SUTRA分词器优于所有其他模型，包括几种针对印地语系语言的模型，在14种语言中表现出色。值得注意的见解包括：SUTRA分词器在处理印地语系语言方面的优越性；GPT-4o在处理印度语言方面比其前身GPT-4有所改进；以及Project Indus在某些语言中的性能有限。这项研究强调了为多语言和印地语系语言中心模型开发有针对性的分词策略的重要性，为未来改进分词器设计以增强语言覆盖范围和模型效率奠定了基础。

发布时间: 11/27/2024

查看原文

一种用于测量质性分析中“开放代码”的计算方法

作者: John Chen, Alexandros Lotsos, Lexie Zhao, Caiyi Wang, Jessica Hullman, Bruce Sherin, Uri Wilensky, Michael Horn

大型语言模型已在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别（NER）中，现有的基于大型语言模型的方法…… 在许多社会科学学科中，定性分析对于理解人类数据集至关重要。开放式编码是一种归纳性定性过程，它识别并解释数据集中的“开放式代码”。然而，满足方法论期望（例如“尽可能详尽”）可能具有挑战性。虽然许多机器学习 (ML)/生成式人工智能 (GAI) 研究试图支持开放式编码，但很少有研究系统地测量或评估 GAI 结果，从而增加了潜在的偏差风险。基于扎根理论和主题分析理论，我们提出了一种计算方法来系统地测量和识别“开放式代码”中的潜在偏差。我们的方法不是将人类专家结果作为“基本事实”来操作，而是建立在人机编码员之间的团队合作方法之上。我们使用两个 HCI 数据集通过 1) 与人工分析进行比较，以及 2) 分析其输出的稳定性来验证该方法的可靠性。我们提出了基于证据的建议和支持开放式编码的 ML/GAI 示例工作流程。

发布时间: 11/27/2024

查看原文

自动专辑排序

作者: Vincent Herrmann, Dylan R. Ashley, J\"urgen Schmidhuber

专辑排序是专辑制作过程中至关重要的环节。最近，有人提出了一种数据驱动的方法，通过提取集合中项目的叙事本质来对一般性的独立媒体集合进行排序。虽然这种方法暗示了一种专辑排序技术，但它对于缺乏技术背景的受众来说并不容易获得，需要具备先进的机器学习技术知识才能使用。为了解决这个问题，我们引入了一个新的用户友好的基于网络的工具，允许缺乏技术背景的受众上传音乐曲目，一键执行该技术，随后向用户呈现清晰的可视化结果。为了增加用户可用的模板数量并解决先前工作的不足，我们还引入了一种新的基于直接转换器的专辑排序方法。我们发现，我们的更直接的方法优于随机基线，但并未达到与叙事本质方法相同的性能。这两种方法都包含在我们的基于网络的用户界面中，并且该界面——以及我们实现的完整副本——已公开发布于 https://github.com/dylanashley/automatic-album-sequencing。

发布时间: 11/27/2024

查看原文

I2VControl-Camera：可调节运动强度的精确视频摄像机控制

作者: Wanquan Feng, Jiawei Liu, Pengqi Tu, Tianhao Qi, Mingzhen Sun, Tianxiang Ma, Songtao Zhao, Siyu Zhou, Qian He

视频生成技术发展迅速，并具有广泛的潜在应用。在这些技术中，摄像机控制对于生成准确满足用户期望的专业级视频至关重要。然而，现有的摄像机控制方法仍然存在一些局限性，包括控制精度和忽略主体运动动态的控制。在这项工作中，我们提出了I2VControl-Camera，这是一种新颖的摄像机控制方法，它显著增强了可控性，同时提供了对主体运动强度进行调整的能力。为了提高控制精度，我们采用摄像机坐标系中的点轨迹而不是仅使用外参矩阵信息作为我们的控制信号。为了准确控制和调整主体运动的强度，我们明确地对视频轨迹展开的高阶分量进行建模，而不仅仅是线性项，并设计了一个有效表示运动强度的算子。我们使用一个独立于基础模型结构的自适应器架构。在静态和动态场景上的实验表明，我们的框架在定量和定性方面都优于以前的方法。项目页面：https://wanquanf.github.io/I2VControlCamera

发布时间: 11/27/2024

查看原文

持续学习中稳定性差距的探索：分类头的作用

作者: Wojciech {\L}apacz, Daniel Marczak, Filip Szatkowski, Tomasz Trzci\'nski

持续学习（CL）已成为机器学习中的一个关键领域，它使神经网络能够从不断变化的数据分布中学习，同时减轻灾难性遗忘。然而，最近的研究发现了稳定性差距——一种模型在训练过程中最初会失去先前学习的任务的性能，然后才部分恢复的现象。这种学习动态与持续学习中对稳定性的直观理解相矛盾，人们期望性能逐渐下降，而不是迅速下降然后在稍后部分恢复。为了更好地理解和减轻稳定性差距，我们从神经网络架构的不同层次对其进行了研究，特别关注了分类头的作用。我们引入了最近均值分类器 (NMC) 作为一种工具，用于确定主干和分类头对稳定性差距的影响。我们的实验表明，NMC 不仅提高了最终性能，而且还显著增强了各种持续学习基准测试（包括 CIFAR100、ImageNet100、CUB-200 和 FGVC Aircraft）的训练稳定性。此外，我们发现 NMC 还可以减少任务近期偏差。我们的分析为稳定性差距提供了新的见解，并表明这种现象的主要贡献者是线性头，而不是表示学习不足。

发布时间: 11/27/2024

查看原文