LLM2D

arXiv 论文列表

作者: Mayank Baranwal, Kushal Chakrabarti
在涉及多个具有私有数据的代理的系统中,以分布式方式优化问题至关重要。尽管人们对此产生了浓厚的兴趣,但缺乏一种统一的方法来分析分布式优化算法的收敛速度。本文介绍了一种能量守恒方法,用于分析膨胀坐标系中的连续时间动力系统。我们没有直接分析原始坐标系中的动力学,而是在膨胀坐标系中建立了一个类似于物理能量的守恒量。因此,收敛速度可以明确地用时间膨胀因子的倒数表示。利用这种广义方法,我们制定了一种新颖的二阶分布式加速梯度流,其收敛速度为 $O\left(1/t^{2-\epsilon}\right)$,时间为 $t$,其中 $\epsilon>0$。然后,我们采用半二阶辛欧拉离散化来推导出一个与速率匹配的算法,其收敛速度为 $O\left(1/k^{2-\epsilon}\right)$,迭代次数为 $k$。据我们所知,这代表了为光滑凸优化而设计的任何分布式优化算法的最有利的收敛速度。其加速收敛行为在实际的大规模问题上与各种最先进的分布式优化算法进行了基准测试。
发布时间: 10/1/2024
查看原文
在现实世界场景中,由于现有模型的局限性,例如过度分离、分离不足和对预定义训练源的依赖,混合物包含可变数量的声源的音频分离带来了重大挑战。我们提出了一种名为 OpenSep 的新框架,该框架利用大型语言模型 (LLM) 进行自动音频分离,消除了对人工干预的需求,并克服了声源限制。OpenSep 使用文本反转从音频混合物中生成字幕,并使用现成的音频字幕模型,有效地解析了存在的声源。然后,它使用少样本 LLM 提示来提取每个解析声源的详细音频属性,从而便于在未见混合物中进行分离。此外,我们引入了混合和分离训练框架的多级扩展,通过同时分离单一声源声音和混合物来增强模态对齐。大量实验表明,OpenSep 在分离具有挑战性的混合物中的新、未见和可变声源方面具有优越性,性能优于最先进的基线方法。代码已发布在 https://github.com/tanvir-utexas/OpenSep.git。
发布时间: 10/1/2024
查看原文
活动识别是一项具有挑战性的任务,因为需要处理海量轨迹数据,并需要快速高效的处理。现有的方法试图通过采用传统的 LSTM 架构来缓解这个问题,但这些方法在处理大型数据集时往往效率低下。针对这一挑战,我们提出了 VecLSTM,这是一种新颖的框架,它可以提高基于 LSTM 的神经网络的性能和效率。与传统方法不同,VecLSTM 结合了矢量化层,利用优化的数学运算来更有效地处理输入序列。我们已经实现了 VecLSTM 并将其整合到 MySQL 数据库中。为了评估 VecLSTM 的有效性,我们使用包含 1,467,652 个样本和七个独特标签的数据集,将其性能与传统 LSTM 模型进行比较。实验结果表明,与最先进的模型相比,VecLSTM 具有更高的准确性和效率,VecLSTM 的验证准确率为 85.57%,测试准确率为 85.47%,加权 F1 分数为 0.86。此外,VecLSTM 显着缩短了训练时间,与传统的 LSTM 模型相比,减少了 26.2%。
发布时间: 10/1/2024
查看原文
作者: Kazuki Matsuda, Yuiga Wada, Komei Sugiura
本研究致力于开发针对图像描述自动评估指标,特别关注对抗幻觉的鲁棒性。现有的指标在处理幻觉方面往往力不从心,主要原因在于它们在比较候选描述与多方面参考描述时能力有限。为了克服这一缺陷,我们提出了 DENEB,一种专门针对幻觉鲁棒性的新型监督式自动评估指标。DENEB 集成了 Sim-Vec Transformer,该机制可以同时处理多个参考,从而有效地捕捉图像、候选描述和参考描述之间的相似性。为了训练 DENEB,我们构建了包含 32,978 张图像的丰富且平衡的 Nebula 数据集,并配以 805 位标注者提供的 人工评判。我们证明了 DENEB 在 FOIL、Composite、Flickr8K-Expert、Flickr8K-CF、Nebula 和 PASCAL-50S 数据集上,在现有无 LLM 指标中取得了最先进的性能,验证了其在对抗幻觉方面的有效性和鲁棒性。
发布时间: 10/1/2024
查看原文
作者: Tatsuya Zetsu, Yuki Arase, Tomoyuki Kajiwara
基于编辑操作的词汇约束解码用于句子简化。在句子简化中,词汇释义是将复杂句子改写成更简单的对应句子的主要步骤之一。虽然之前研究证实了词汇约束解码在该任务中的有效性,但其约束可能过于宽松,并可能导致次优的生成结果。我们通过设计模拟简化过程中执行的编辑操作的约束,并定义更严格的满足条件来解决这个问题。我们的实验表明,所提出的方法在三个常用的英语简化语料库中始终优于之前研究的结果。
发布时间: 10/1/2024
查看原文
作者: Erick Galinkin, Emmanouil Pountourakis, Spiros Mancoridis
乔治·博克斯那句耳熟能详的格言“所有模型都是错误的,但有些模型是有用的”在网络安全领域尤其突出,因为模型中内置的假设可能会对金融甚至国家安全产生重大影响。计算机科学家经常被要求针对最坏情况进行优化,而且由于安全主要集中在风险缓解上,因此为最坏情况做准备似乎是合理的。在这项工作中,我们证明了为最坏情况做准备而不是为最可能情况做准备可能会导致学习代理的次优结果。通过随机贝叶斯博弈的视角,我们首先探索了影响模型对网络安全从业人员有用性的不同攻击者知识建模假设。通过考虑攻击者对博弈状态和防御者隐藏信息的不同模型,我们发现防御者针对最坏情况进行优化会付出一定的代价。
发布时间: 10/1/2024
查看原文
作者: Haohui Chen, Zhiyong Chen, Aoxiang Liu, Wentuo Fang
为了在强化学习中获得更好的价值估计,我们提出了一种基于双重演员-评论家框架和时间差误差驱动正则化的全新算法,简称为 TDDR。TDDR 采用双重演员,每个演员都与一个评论家配对,从而充分利用双重评论家的优势。此外,TDDR 引入了一种创新的评论家正则化架构。与缺乏双重演员-评论家结构的经典确定性策略梯度算法相比,TDDR 提供了更优的估计。此外,与现有的具有双重演员-评论家框架的算法不同,TDDR 没有引入任何额外的超参数,显著简化了设计和实现过程。实验表明,TDDR 在具有挑战性的连续控制任务中与基准算法相比具有很强的竞争力。
发布时间: 10/1/2024
查看原文
作者: Alicia Li, Nishanth Kumar, Tom\'as Lozano-P\'erez, Leslie Kaelbling
现实世界充满了不可预测性。因此,为了解决自主机器人长期的决策问题,我们必须构建能够在部署过程中适应环境变化的智能体。基于模型的规划方法可以使机器人能够在各种环境中解决复杂的长期的任务。然而,当部署到包含其底层模型未考虑的新情况的环境中时,这种方法往往很脆弱。在这项工作中,我们建议通过强化学习 (RL) 学习一个“桥接策略”来适应这些新情况。我们为这种学习引入了一个简单的公式,其中 RL 问题是用一个特殊的“CallPlanner”动作构建的,该动作会终止桥接策略并将代理的控制权交还给规划器。这使得 RL 策略能够学习查询规划器并遵循返回的计划来实现目标的一组状态。我们表明,这种公式使智能体能够通过利用规划器的知识来快速学习,从而避免了稀疏奖励导致的具有挑战性的长期探索。在三个不同复杂程度的模拟领域中的实验表明,我们的方法能够比几个基线(包括纯 RL 基线)更有效地学习适应新情况的策略。我们还证明了学习到的桥接策略是可泛化的,因为它可以与规划器结合起来,使智能体能够解决包含多个遇到的新情况实例的更复杂的任务。
发布时间: 10/1/2024
查看原文
作者: Shihua Qin, Ming Zhang, Juan Shan, Taehoon Shin, Jonghye Woo, Fangxu Xing
骨髓病灶 (BML) 是膝关节骨关节炎 (OA) 的关键指标。由于它们通常在膝关节磁共振成像 (MRI) 中表现为小而形状不规则的结构,边缘模糊不清,因此在 MRI 中有效检测 BML 对 OA 的诊断和治疗至关重要。本文提出了一种使用掩码修复模型进行半监督局部异常检测的方法,用于识别高分辨率膝关节 MRI 中的 BML,有效地整合了 3D 股骨骨骼分割模型、大型掩码修复模型和一系列后处理技术。该方法使用来自公共骨关节炎倡议数据库子集的不同分辨率的 MRI 进行评估。Dice 系数、交并比 (IoU) 以及像素级敏感性、特异性和准确性表明该方法优于多尺度知识蒸馏方法,后者是一种最先进的全局异常检测方法。特别是,分割性能在更高分辨率的图像上得到增强,在 448x448 分辨率级别上,Dice 系数和 IoU 系数的性能提高了两倍以上。我们还证明,随着 BML 区域大小的增加,Dice 系数和 IoU 系数都得到改善,因为可区分边界的比例降低。识别出的 BML 掩码可以作为下游任务(如分割和分类)的标记。所提出的方法在改善 BML 检测方面显示出潜力,为基于影像的 OA 研究的进一步发展奠定了基础。
发布时间: 10/1/2024
查看原文
作者: Chun Jie Chong (Zephyr), Zhihao (Zephyr), Yao, Iulian Neamtiu
使用大型语言模型(LLM)生成代码(而不是从头开始编写代码)已变得越来越流行。然而,LLM 生成的代码的安全性影响尚不清楚。我们进行了一项研究,比较了人类编写的代码与 LLM 生成的代码在各种编程任务中的安全性,包括数据结构、算法、加密例程和 LeetCode 问题。为了评估代码安全性,我们使用了单元测试、模糊测试和静态分析。对于代码质量,我们关注复杂度和大小。我们发现,LLM 可以生成无法实现所需功能的错误代码,尤其是在更复杂的任务中;此类错误可能很微妙。例如,对于加密算法 SHA1,LLM 生成了一个错误的实现,但该实现仍然可以编译。在功能正确的情况下,我们发现 LLM 生成的代码安全性较低,主要是因为缺乏防御性编程结构,这会导致许多安全问题,例如缓冲区溢出或整数溢出。模糊测试表明,LLM 生成的代码比人类编写的代码更容易出现挂起和崩溃。在质量方面,我们发现 LLM 生成的代码是精简的代码,缺乏防御性编程结构,并且通常比人类编写的代码更复杂(每行代码)。接下来,我们构建了一个反馈循环,要求 LLM 重新生成代码并消除发现的问题(例如,malloc 溢出、数组索引越界、空指针引用)。我们发现 LLM 无法始终如一地消除此类问题:虽然在某些情况下成功,但我们发现重新生成的、据说是更安全的代码包含新的问题;我们还发现,在提示后,LLM 可以在以前没有问题的文件中引入问题。
发布时间: 10/1/2024
查看原文