LLM2D

arXiv 论文列表

作者: Xueyang Kang, Zhaoliang Luan, Kourosh Khoshelham, Bing Wang
点云配准是三维对齐和重建应用中的基础任务。虽然传统的和基于学习的配准方法都取得了成功,但利用点云数据的内在对称性,包括旋转等变性,却很少受到关注。这会阻碍模型有效地学习,导致需要更多训练数据,并增加模型复杂性。为了解决这些挑战,我们提出了一种图神经网络模型,通过基于 SE(3) 消息传递的传播,将局部球形欧几里得 3D 等变性属性嵌入其中。我们的模型主要由描述符模块、等变图层、匹配相似度和最终回归层组成。这种模块化设计使我们能够利用稀疏采样的输入点,并通过自训练或预训练的几何特征描述符轻松地初始化描述符。在 3DMatch 和 KITTI 数据集上进行的实验表明,与最先进的方法相比,我们的模型具有引人注目的鲁棒性能,同时模型复杂度仍然相对较低。
发布时间: 10/10/2024
查看原文
作者: Yangyang Guo, Yanjun Zhao, Sizhe Dang, Tian Zhou, Liang Sun, Yi Qian
时间序列预测在许多实际领域中发挥着重要作用。但从现实世界应用中生成的时间序列数据总是表现出高方差和大量噪声,这使得难以捕捉数据的内在周期性模式,从而显著降低预测精度。为了解决这个问题,我们提出了 Esiformer,它对原始数据进行插值,降低数据的整体方差,减轻噪声的影响。更重要的是,我们用鲁棒的稀疏 FFN 增强了 vanilla transformer。它可以有效地增强模型的表示能力,并保持出色的鲁棒性,与 vanilla 实现相比,避免了过度拟合的风险。通过对具有挑战性的真实世界数据集的评估,我们的方法优于领先的模型 PatchTST,在多元时间序列预测中将 MSE 降低了 6.5%,将 MAE 降低了 5.8%。代码可在以下地址获取:https://github.com/yyg1282142265/Esiformer/tree/main。
发布时间: 10/10/2024
查看原文
作者: Wenhao Wang, Xiaoyu Liang, Rui Ye, Jingyi Chai, Siheng Chen, Yanfeng Wang
大型语言模型(LLMs)的成功使得许多机构能够在其私有数据上微调LLMs。然而,这种做法由于LLMs的记忆能力而引发了隐私问题。现有的解决方案,例如使用合成数据进行替换,难以同时提高性能和保护隐私。它们要么依赖于本地模型进行生成,导致性能下降,要么利用API,直接将数据暴露给API服务器。为了解决这个问题,我们提出了\textit{KnowledgeSG},一个新颖的客户端-服务器框架,它通过增强合成数据质量和提高模型性能来确保隐私。我们通过使用差分隐私(DP)从私有数据中学习本地知识,并从服务器中提取专业知识来实现这一点。此外,受联邦学习的启发,我们在客户端和服务器之间传输模型而不是数据,以防止隐私泄露。在医疗和金融领域的广泛实验表明了KnowledgeSG的有效性。我们的代码现已在https://github.com/wwh0411/KnowledgeSG公开发布。
发布时间: 10/10/2024
查看原文
作者: Sisir Dhakal, Sujan Sigdel, Sandesh Prasad Paudel, Sharad Kumar Ranabhat, Nabin Lamichhane
将基于文本的身份文件(如尼泊尔公民卡)转换为结构化的数字格式面临着诸多挑战,因为尼泊尔文字具有独特的特点,并且不同卡片的印刷对齐和对比度存在细微差异。本研究提出了一种鲁棒的系统,该系统使用 YOLOv8 进行准确的文本对象检测,并使用基于优化 PyTesseract 的 OCR 算法。该系统在移动应用程序的背景下实现,可以自动提取尼泊尔公民卡正反两面的重要文本信息,包括姓名、公民号码和出生日期。最终的 YOLOv8 模型非常准确,文本检测的平均精度分别为正面 99.1% 和背面 96.1%。针对尼泊尔字符优化的 PyTesseract 在灵活性和准确性方面优于标准 OCR,能够从具有清晰和嘈杂背景以及不同对比度的图像中提取文本。使用预处理步骤,如将图像转换为灰度、去除图像噪声和检测边缘,进一步提高了系统的 OCR 准确性,即使对于低质量的照片也是如此。这项工作扩展了当前的多语言 OCR 和文档分析研究领域,特别是针对尼泊尔语等低资源语言。它强调了将最新的目标检测框架与针对实际应用进行微调的 OCR 模型相结合的有效性。
发布时间: 10/10/2024
查看原文
作者: Zi-Yuan Hu, Yiwu Zhong, Shijia Huang, Michael R. Lyu, Liwei Wang
视频大型语言模型 (Video LLMs) 在视频和语言任务(例如视频问答)中取得了令人印象深刻的性能。然而,大多数现有的 Video LLMs 忽略了视频数据中的时间信息,导致在时间感知视频理解方面存在困难。为了解决这一差距,我们提出了一种时间门控视频 LLM (TG-Vid),旨在通过一个新颖的时间门控模块 (TG) 来增强时间建模。TG 模块在其子模块上采用时间门控机制,包括门控空间注意力、门控时间注意力和门控 MLP。这种架构使我们的模型能够对视频中的时间信息进行稳健的理解。对时间敏感视频基准(即 MVBench、TempCompass 和 NExT-QA)的广泛评估表明,我们的 TG-Vid 模型明显优于现有的 Video LLMs。此外,全面的消融研究验证了性能提升归因于我们 TG 模块的设计。我们的代码可在 https://github.com/LaVi-Lab/TG-Vid 获取。
发布时间: 10/10/2024
查看原文
作者: Stefan Stefanache, Llu\'is Pastor P\'erez, Julen Costa Watanabe, Ernesto Sanchez Tejedor, Thomas Hofmann, Enis Simsar
评估基于扩散的图像编辑模型是生成式 AI 领域一项至关重要的任务。具体而言,评估它们执行各种编辑任务的能力,同时保留图像内容和真实感是必不可少的。尽管生成模型的最新发展为图像编辑开辟了前所未有的可能性,但对这些模型进行彻底评估仍然是一项具有挑战性和开放性的任务。由于评估本质上需要编辑后的参考图像,缺乏标准化的评估基准进一步加剧了这一问题。目前,评估通常依赖于 CLIP 等已建立的模型,或者需要人工干预才能全面了解这些图像编辑模型的性能。我们的基准 PixLens 对编辑质量和潜在表示解耦进行了全面评估,有助于推动和改进该领域现有的方法。
发布时间: 10/10/2024
查看原文
作者: Hoyeon Lee, Hyeeun Jang, Jong-Hwan Kim, Jae-Min Kim
近年来,一些研究利用大量语言学知识或句子级发音数据来解决法语中复杂的音韵现象。然而,创建此类资源成本高昂且并非易事。为此,我们提出了一种新颖的两步法,包含两个发音任务:字母到音素转换和词后处理。然后,我们用有限的句子级发音数据调查了该方法的有效性。我们的研究结果表明,所提出的两步法有效地缓解了缺乏大量标记数据的不足,并作为一种可行的解决方案,即使在资源受限的环境中也能解决法语音韵现象。
发布时间: 10/10/2024
查看原文
作者: Yi Jiang, Qingyang Shen, Shuzhong Lai, Shunyu Qi, Qian Zheng, Lin Yao, Yueming Wang, Gang Pan
发布时间: 10/10/2024
查看原文
作者: Jiachen Li, Qian Long, Jian Zheng, Xiaofeng Gao, Robinson Piramuthu, Wenhu Chen, William Yang Wang
本文重点研究在训练后阶段通过从预训练的文本到视频(T2V)模型中提取高度一致性模型来增强基于扩散的文本到视频(T2V)模型。我们提出的方法,T2V-Turbo-v2,通过将各种监督信号(包括高质量训练数据、奖励模型反馈和条件引导)整合到一致性蒸馏过程中,取得了重大进展。通过全面的消融研究,我们强调了根据特定学习目标定制数据集的重要性,以及从不同奖励模型中学习以提高视觉质量和文本视频对齐的有效性。此外,我们强调了条件引导策略的广阔设计空间,其核心是设计有效的能量函数来增强教师ODE求解器。我们通过从训练数据集中提取运动引导并将其整合到ODE求解器中,展示了这种方法的潜力,展示了其在提高生成视频的运动质量方面的有效性,并通过VBench和T2V-CompBench的改进运动相关指标得到了证明。从经验上讲,我们的T2V-Turbo-v2在VBench上取得了新的最先进的结果,总分为85.13,超过了Gen-3和Kling等专有系统。
发布时间: 10/10/2024
查看原文
近年来,“多样性”和“包容性”的概念在各个领域引起了广泛关注,包括社会和生物学科。为了全面理解这些概念,不仅要考察类别的数量,还要考察类别之间的相似性和关系。在本研究中,我提出了一种新的多样性和包容性指标,该指标考虑了相似性和网络连接。我分析了这些指标的性质,并利用已建立的多样性和网络度量研究了它们之间的数学关系。此外,我还开发了一种基于多样性效用估计相似性的方法。我还创建了一种可视化比例、相似性和网络连接的方法。最后,我使用真实世界数据评估了与外部指标的相关性,证实了提出的指标和我们的指标都可以有效地利用。本研究有助于更深入地理解多样性和包容性分析。
发布时间: 10/10/2024
查看原文