LLM2D

arXiv 论文列表

作者: Qinfeng Zhu, Jiaze Cao, Yuanzhi Cai, Lei Fan
点云语义分割,即对每个点进行分类,是三维场景理解的关键。虽然基于图像的分割方法因其成熟度而被广泛采用,但仅依赖于 RGB 信息的方法往往由于颜色不准确而导致性能下降。最近的进展已经结合了强度和几何信息等额外特征,然而,当出现颜色化错误时,RGB 通道仍然会对分割精度产生负面影响。尽管如此,以前的研究并没有严格量化错误颜色化对分割性能的影响。在本文中,我们提出了一种新的统计方法来评估不准确的 RGB 信息对基于图像的点云分割的影响。我们将 RGB 不准确性分为两种类型:错误的颜色信息和相似的颜色信息。我们的结果表明,这两种类型的颜色不准确都会显著降低分割精度,其中相似的颜色错误特别影响几何特征的提取。这些发现突出了重新评估 RGB 信息在点云分割中的作用及其对未来算法设计的意义。
发布时间: 10/10/2024
查看原文
作者: Benyuan Meng, Qianqian Xu, Zitai Wang, Zhiyong Yang, Xiaochun Cao, Qingming Huang
扩散模型是强大的生成模型,这种能力也可以应用于判别。预训练扩散模型的内部激活可以作为判别任务的特征,即扩散特征。我们发现,扩散特征受到一个隐藏的普遍现象的阻碍,我们称之为内容偏移。具体来说,特征和输入图像之间存在内容差异,例如某个物体的精确形状。我们将内容偏移的原因定位为扩散模型的一个固有特征,这表明这种现象在扩散特征中广泛存在。进一步的实证研究也表明,即使内容偏移在视觉上不可感知,其负面影响也不容忽视。因此,我们建议抑制内容偏移以提高扩散特征的整体质量。具体来说,内容偏移与从噪声输入恢复图像过程中的信息漂移有关,指出了将现成的生成技术转化为内容偏移抑制工具的可能性。我们进一步提出了一个名为 GATE 的实用指南,以有效地评估技术的潜在益处,并提供了我们方法的实现。尽管简单,但所提出的方法在各种任务和数据集上取得了优异的结果,验证了其作为扩散特征通用增强器的潜力。我们的代码可在 https://github.com/Darkbblue/diffusion-content-shift 获取。
发布时间: 10/10/2024
查看原文
作者: Cheng Wang, Gyuri Szarvas, Georges Balazs, Pavel Danchenko, Patrick Ernst
对语言模型输出的概率进行校准提供了一种可靠评估和利用黑盒大型语言模型 (LLM) 输出的新方法。最近的方法通过将 Platt 缩放或温度缩放等技术应用于 LLM 生成的置信度得分来证明了改进的校准。在本文中,我们探讨了用于判别任务的语言模型输出的概率分布的校准。首先,我们研究了 LLM 生成类别标签概率分布的能力。我们从理论上和经验上确定了由语言模型输出概率的缩放引起的重新 softmax 问题,并建议使用反 softmax 技巧通过反转语言模型输出的概率来近似“logit”。通过对三个公共数据集的广泛评估,我们证明了:(1) LLM 在生成类分布方面的强大能力,以及 (2) 反 softmax 技巧在估计 logits 方面的有效性,这反过来又促进了校准后的调整。
发布时间: 10/10/2024
查看原文
作者: Krishna Kanth Nakka, Ahmed Frikha, Ricardo Mendes, Xue Jiang, Xuebing Zhou
本研究提出了 PII-Scope,这是一个全面的基准,旨在评估针对各种威胁环境下大型语言模型 (LLM) 的 PII 提取攻击的最新方法。我们的研究通过揭示几个对攻击有效性至关重要的超参数(例如演示选择)来提供对这些攻击的更深入理解。在此基础上,我们将研究扩展到更现实的攻击场景,探索采用高级对抗策略(包括重复和多样化查询)以及利用迭代学习进行持续 PII 提取的 PII 攻击。通过广泛的实验,我们的结果揭示了现有单次查询攻击对 PII 泄露的显著低估。事实上,我们表明,在具备复杂的对抗能力和有限的查询预算的情况下,针对预训练模型的 PII 提取率可以提高五倍。此外,我们评估了微调模型上的 PII 泄露情况,表明它们比预训练模型更容易受到泄露。总的来说,我们的工作为现实威胁场景中的 PII 提取攻击建立了严格的经验基准,并为开发有效的缓解策略奠定了坚实的基础。
发布时间: 10/10/2024
查看原文
作者: Yubo Wang, Chaohu Liu, Yanqiu Qu, Haoyu Cao, Deqiang Jiang, Linli Xu
arXiv:2410.06699v1 类型: cross 摘要: 大型视觉语言模型(LVLMs)将视觉信息整合到大型语言模型中,展现了卓越的多模态对话能力。然而,视觉模块为LVLMs引入了新的健壮性挑战,攻击者可以制作视觉上干净但可能误导模型生成错误答案的对抗图像。通常,LVLMs依赖视觉编码器将图像转换为视觉标记,这对于语言模型有效感知图像内容至关重要。因此,我们对一个问题感到好奇:当编码的视觉标记受到攻击并扰乱视觉信息时,LVLMs 是否还能生成正确的回应?为了达到这个目的,我们提出了一种非目标攻击方法,称为VT-Attack(视觉标记攻击),从多个角度构建对抗示例,旨在全面扰乱特征表示、固有关系以及视觉编码器输出的视觉标记的语义属性。仅通过访问所提出的攻击中使用的图像编码器,生成的对抗示例在使用相同图像编码器的各种LVLMs之间表现出可转移性,并且在不同任务中表现出普适性。广泛的实验验证了VT-Attack相对于基线方法的优越攻击性能,展示了其在攻击配备图像编码器的LVLMs方面的有效性,进而为LVLMs的健壮性提供了指导,特别是在视觉特征空间的稳定性方面。
发布时间: 10/10/2024
查看原文
作者: Kai Ebert, Nicolas Alder, Ralf Herbrich, Philipp Hacker
我们生活在一个世界,在这个世界里,人工智能应用正在以前所未有的速度蓬勃发展,它们越来越深入地渗透到并增强了私人和公共生活的所有领域,从教育、媒体、医疗和交通到工业和专业工作场所,以及(可能特别重要)机器人领域。当这个世界同时也在努力应对气候变化时,人工智能开发和使用对气候和环境的影响已成为公众和学术界辩论的重要议题。在本文中,我们旨在为数据中心和人工智能的与气候相关的监管提供指导,并讨论如何将这些要求付诸实施。我们还强调了挑战和改进空间,并为此提出了多项政策建议。特别是,我们建议对人工智能法案进行具体解释,将先前未处理的来自人工智能推断的能源消耗报告纳入范围。我们还发现,人工智能法案未能解决人工智能应用产生的间接温室气体排放。此外,为了进行能源消耗报告,我们比较了数据中心内的测量水平,并建议在累积服务器级别进行测量。我们还主张对人工智能法案进行解释,将环境问题纳入强制性风险评估(可持续性风险评估,SIA),并提供有关其操作化的指导。欧盟数据中心法规是良好开端,但需要进一步发展,包括为数据中心设定具有约束力的可再生能源和效率目标。总体而言,我们提出了十二项具体的政策建议,涵盖四个主要领域:能源和环境报告义务;法律和监管澄清;透明度和问责机制;以及未来超越透明度的深远措施。
发布时间: 10/10/2024
查看原文
作者: Zeyu Zhang, Sixu Yan, Muzhi Han, Zaijin Wang, Xinggang Wang, Song-Chun Zhu, Hangxin Liu
我们提出 M^3Bench,一个用于移动操作任务的全身运动生成的新基准。给定一个 3D 场景上下文,M^3Bench 需要一个具身代理来理解其配置、环境约束和任务目标,然后生成协调的全身运动轨迹以完成物体重排任务。M^3Bench 包含 119 个不同场景中的 30,000 个物体重排任务,并提供由我们新开发的 M^3BenchMaker 生成的专家演示。这个自动数据生成工具根据高层次的任务指令生成协调的全身运动轨迹,只需要基本的场景和机器人信息。我们的基准包含各种任务拆分,以评估跨不同维度的泛化能力,并利用真实的物理模拟进行轨迹评估。通过广泛的实验分析,我们发现最先进的模型在遵守环境上下文和任务特定约束的同时,仍然难以协调底座-手臂运动,这突出了开发新模型来填补这一差距的必要性。通过 M^3Bench,我们的目标是促进未来机器人研究,以实现更具适应性和能力的移动操作,以应对各种真实世界环境。
发布时间: 10/10/2024
查看原文
作者: Chenyang Lyu, Lecheng Yan, Rui Xing, Wenxi Li, Younes Samih, Tianbo Ji, Longyue Wang
大型语言模型(LLM)的能力已经显著发展,从自然语言处理扩展到代码理解和生成等复杂任务。我们扩展了LLM能力的范围,将其应用于更广泛的背景,使用LLM执行代码片段以获取输出。本文率先探索了LLM作为代码执行器的可行性,其中代码片段直接输入模型执行,并返回输出。我们首次对各种LLM的这种可行性进行了全面考察,包括OpenAI的o1、GPT-4o、GPT-3.5、DeepSeek和Qwen-Coder。值得注意的是,o1模型在代码执行方面实现了超过90%的准确率,而其他模型的准确率则较低。此外,我们引入了一种迭代指令提示(IIP)技术,逐行处理代码片段,平均提高了弱模型的准确率7.22%(最高提升18.96%),相对于CoT提示,绝对平均提升3.86%(最高提升19.46%)。我们的研究不仅突出了LLM在编码方面的变革潜力,也为未来自动化编程和完成复杂任务的进步奠定了基础。
发布时间: 10/10/2024
查看原文
作者: Yonatan Sverdlov, Ido Springer, Nadav Dym
本文探讨了用于排列和相关群表示的等变线性层的特征。与传统的参数共享方法不同,我们考虑了一种基于不可约表示和舒尔引理的替代方法。利用这种方法,我们获得了对现有模型(如 DeepSets、2-IGN 图等变网络和 Deep Weight Space (DWS) 网络)的另一种推导。DWS 网络的推导比以前的结果要简单得多。 接下来,我们将方法扩展到未对齐的对称集,其中需要对群的环状积进行等变。以前的工作在相当有限的设置中解决了这个问题,其中几乎所有环状等变层都是连体层。相反,我们在这种情况下给出了层的完整特征,并表明在某些设置中存在大量额外的非连体层。我们还从经验上表明,这些额外的非连体层可以提高图异常检测、权重空间对齐和学习 Wasserstein 距离等任务的性能。我们的代码可在 \href{https://github.com/yonatansverdlov/Irreducible-Representations-of-Deep-Weight-Spaces}{GitHub} 上找到。
发布时间: 10/10/2024
查看原文
作者: Qianli Ma, Xuefei Ning, Dongrui Liu, Li Niu, Linfeng Zhang
扩散模型通过学习一系列模型来逆转噪声破坏的每个步骤进行训练。通常,模型参数在多个时间步长之间完全共享,以提高训练效率。然而,由于每个时间步长的去噪任务不同,在不同时间步长计算的梯度可能会发生冲突,这可能会降低图像生成的整体性能。为了解决这个问题,这项工作提出了一种解耦然后合并(DeMe)框架,该框架从一个预训练模型开始,并微调针对特定时间步长量身定制的独立模型。我们在微调阶段引入了几种改进的技术,以促进有效的知识共享,同时最大限度地减少跨时间步长的训练干扰。最后,在微调之后,这些独立模型可以在参数空间中合并成一个单一模型,从而确保高效且实用的推理。实验结果表明,在 6 个基准测试中,包括 COCO30K、ImageNet1K、PartiPrompts 上的稳定扩散以及 LSUN Church、LSUN Bedroom 和 CIFAR10 上的 DDPM,生成质量都有显著提高。
发布时间: 10/10/2024
查看原文