arXiv 论文列表

作者: Zedian Shao, Hongbin Liu, Jaden Mu, Neil Zhenqiang Gong

arXiv:2410.14827v2 Announce 类型: replace-cross 摘要：在提示注入攻击中，攻击者会在原始提示中注入一个新的提示，旨在让LLM遵循注入的提示执行攻击者选择的任务。现有的攻击主要关注如何将注入的提示自然地融入原始提示中，而不改变LLM本身。我们的实验显示，这些攻击取得了一定的成功，但仍有很大的改进空间。在这项工作中，我们展示了攻击者可以通过污染LLM的对齐过程来提升提示注入攻击的成功率。具体而言，我们提出了PoisonedAlign方法，这是一种战略性地创建污染对齐样本的方法。即使使用我们的方法污染对齐数据的一小部分，对齐后的LLM在保持其基础能力的同时，变得更加容易受到提示注入攻击的影响。代码可在 https://github.com/Sadcardation/PoisonedAlign 获取。

发布时间: 4/8/2025

查看原文

DeepProtein：蛋白质序列学习的深度学习库和基准测试

作者: Jiaqing Xie, Tianfan Fu

arXiv:2410.02023v2 通告类型: 替换-交叉摘要：深度学习深刻影响了蛋白质科学，使得预测蛋白质性质、高阶结构和分子相互作用等方面取得了突破。本文介绍了DeepProtein，一个全面且用户友好的深度学习库，专门针对蛋白质相关任务。它使研究人员能够无缝地使用先进的深度学习模型处理蛋白质数据。为了评估模型性能，我们建立了一个基准，对多种蛋白质相关的任务进行了评估，包括蛋白质功能预测、亚细胞定位预测、蛋白质-蛋白质相互作用预测和蛋白质结构预测。此外，我们引入了DeepProt-T5，这是一系列基于Prot-T5的微调模型，在四个基准任务中达到了最先进的性能，在另外六个任务中也表现出竞争力的结果。全面的文档和教程可用，这可以确保可访问性并支持结果的复现。基于广泛使用的药物发现库DeepPurpose，DeepProtein在https://github.com/jiaqingxie/DeepProtein 公开可用。

发布时间: 4/8/2025

查看原文

从语音到现实：基于自然语言、3D 生成AI和离散机器人组装的按需生产

作者: Alexander Htet Kyaw, Se Hwan Jeon, Miana Smith, Neil Gershenfeld

arXiv:2409.18390v4 宣布类型: replace-cross 摘要：我们提出了一种系统，通过将3D生成人工智能与机器人组装相结合，将语音转化为实体对象。该系统利用自然语言输入，使设计和制造更为便捷，从而使没有3D建模或机器人编程专业背景的个人能够创建实体物件。我们提议使用基于格子的体素部件的离散机器人组装来解决使用生成人工智能输出在物理生产中面临的设计变异性、制造速度、结构完整性和材料浪费等问题。该系统通过语音解释生成3D物体，将其离散为体素部件，计算优化的组装序列，并生成机器人路径。通过使用6轴机器人手臂，在5分钟内组装各种物件，从椅子到书架，并根据语音提示实现这些物件。

发布时间: 4/8/2025

查看原文

揭开大型语言模型开源项目中问题、原因及解决方案的神秘面纱

作者: Yangxiao Cai, Peng Liang, Yifei Wang, Zengyang Li, Mojtaba Shahin

arXiv:2409.16559v2 通知类型: 替换-交叉摘要：随着大规模语言模型（LLMs）的进步，越来越多的开源软件项目将其作为核心功能组件。尽管对LLMs的研究和实践引起了广泛关注，但尚未有专门的研究探讨LLM开源项目实践者的所面临的挑战、这些挑战的原因以及潜在的解决方案。为了填补这一研究空白，我们开展了一项实证研究，以理解在开发和使用LLM开源软件时实践者遇到的问题、这些问题的可能原因以及潜在解决方案。我们收集了15个LLM开源项目的全部已关闭问题，并对符合要求的问题进行了标注。然后，我们从已标注的问题中随机选取了994个问题作为数据提取和分析的样本，以了解常见的问题、其潜在的原因以及可能的解决方案。我们的研究结果表明：（1）模型问题是最常见的问题；（2）模型问题、配置和连接问题以及功能和方法问题是这些问题最常见的原因；（3）优化模型是对这些问题的主要解决方案。根据研究结果，我们为LLM开源项目的研究人员和实践者提供了相应的建议。

发布时间: 4/8/2025

查看原文

探索自闭症儿童与典型儿童的眼动模式差异：聚类、可视化和预测

作者: Weiyan Shi, Haihong Zhang, Wei Wang, Kenny Tsu Wei Choo

arXiv:2409.11744v3 公告类型：替换-交叉摘要：自闭症谱系障碍（ASD）影响儿童的社会和沟通能力，眼动跟踪广泛用于识别异常的目光模式。虽然无监督聚类可以自动创建兴趣区以提取目光特征，但使用内部聚类有效性指标，如轮廓系数，来区分ASD儿童和正常发育（TD）儿童的目光模式差异仍处于未充分探索的状态。我们探索了内部聚类有效性指标是否能够区分ASD与TD儿童。具体来说，我们应用了七种聚类算法对目光点进行处理，并提取了63个内部聚类有效性指标，以揭示这些指标与ASD诊断之间的关联。利用这些指标，我们训练了预测模型以进行ASD诊断。在三个数据集上的实验显示，该方法具有高预测准确性（81%的AUC），验证了这些指标的有效性。

发布时间: 4/8/2025

查看原文

CyberHost: 使用区域码本注意力控制音频驱动的 avatar 微分模型

作者: Gaojie Lin, Jianwen Jiang, Chao Liang, Tianyun Zhong, Jiaqi Yang, Yanbo Zheng

arXiv:2409.01876v3 宣布类型: replace-cross 摘要：基于扩散的视频生成技术取得了显著的进步，促进了人类动画研究的大量涌现。然而，这些研究大多数局限于同模态驱动设置，跨模态的人体动画探索仍然相对不足。本文中，我们提出了一个端到端的以音频驱动的人体动画框架，确保手部完整性、身份一致性以及自然运动。CyberHost的关键设计是区域编码注意力机制，该机制通过整合精细粒度的局部特征与学习到的运动模式先验，提高了人脸和手部动画的生成质量。此外，我们还开发了一套以人体先验为导向的训练策略，包括身体运动图、手部清晰度评分、姿态对齐参考特征和局部增强监督，以提高合成结果。据我们所知，CyberHost是第一个能够实现人体动画零样本视频生成的端到端音频驱动的人类扩散模型。广泛的实验表明，CyberHost在定量和定性方面均超越了先前的工作。

发布时间: 4/8/2025

查看原文

增强基于LLM的文本分类在政治科学中的效果：少量示例学习中的自动提示优化和动态范例选择

作者: Menglin Liu, Ge Shi

arXiv:2409.01466v2 宣布类型: 替换-交叉摘要：大规模语言模型（LLMs）在政治学中的文本分类方面展现出巨大的潜力，但其有效性往往依赖于高质量的提示和范例。为了解决这一问题，我们介绍了一种三阶段框架，该框架通过自动提示优化、动态范例选择以及共识机制来增强LLM的性能。我们的方法使用任务特定的范例自动细化提示，消除猜测性的尝试和错误调整，并生成与人类定义的标准对齐的结构化提示。在第二阶段，我们动态选择最相关的范例，确保每个查询的上下文适配指导。最后，我们的共识机制模拟了单一任务多名人类编码员的角色，通过结合LLM的输出实现高可靠性和一致性，同时减少成本。无论是在情感分析、立场检测还是竞选广告语气分类等任务中，我们的方法都可以提高分类精度，而无需对特定任务的模型进行重新训练或对提示进行大量的手动调整。本框架不仅提升了准确性和可解释性及透明度，还提供了针对政治学应用的成本效益、可扩展的解决方案。GitHub 上提供了开源的 Python 包（PoliPrompt）。

发布时间: 4/8/2025

查看原文

带有迭代视觉提示的开放词汇动作本地化

作者: Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi

arXiv:2408.17422v5 宣告类型: replace-cross 摘要：视频动作定位旨在从长视频中找到特定动作的时间点。尽管现有的基于学习的方法已经取得了成功，但它们需要标注视频，这伴随了相当大的人力成本。本文提出了一个无需训练、基于新兴的现成视觉语言模型（VLMs）的开放词汇方法。挑战在于这些视觉语言模型既不是为处理长视频设计的，也不是为找到动作而定制的。我们通过扩展一种迭代的视觉提示技术来克服这些问题。具体来说，我们采样视频帧，并创建一个带有帧索引标签的连接图像，允许VLM识别最有可能对应于动作开始和结束的帧。通过逐步缩小选定帧周围的采样窗口，估计逐渐收敛到更精确的时间边界。我们展示了该技术可以获得合理的性能，其结果与最先进的零样本动作定位相当。这些结果支持将VLMs作为理解视频的实用工具使用。示例代码可在 https://microsoft.github.io/VLM-Video-Action-Localization/ 可用。

发布时间: 4/8/2025

查看原文

使用10倍 fewer 参数的更多精细调优

作者: Wenxuan Tan, Nicholas Roberts, Tzu-Heng Huang, Jitian Zhao, John Cooper, Samuel Guo, Chengyu Duan, Frederic Sala

arXiv:2408.17383v2 宣告类型: replace-cross 摘要: 参数高效微调（PEFT）技术解锁了经济地和容易地专门化大型预训练模型的潜力。然而，最突出的方法，如低秩适配器（LoRA），依赖于其架构选择中的启发式或常规做法——这可能会限制它们在新模型和架构上的性能。这一局限性表明，可以从神经架构搜索技术中获得最优适配器架构，但这些技术通常成本高昂且难以实现。我们通过Monarch矩形微调（MoRe）解决了这一挑战，MoRe是一种基于Monarch矩阵类的简单框架，用于搜索适配器架构。理论上，我们证明了MoRe比LoRA更具表现力。实证上，与当前最先进的PEFT技术相比，我们的方法在一系列任务和模型上更具有参数高效性和性能，仅使用LoRA参数的5%即可。

发布时间: 4/8/2025

查看原文

齐轴大型语言模型中的安全层：LLM安全的关键

作者: Shen Li, Liuyi Yao, Lan Zhang, Yaliang Li

arXiv:2408.17003v5 宣布类型: replace-cross 摘要：对齐的大语言模型是安全的，能够识别并拒绝回答恶意问题。然而，内部参数在维护这种安全方面的作用还未被充分理解，而且这些模型在遭受微调攻击时可能会出现安全性能下降。为了解决这些挑战，我们的工作揭示了在参数级别对齐的大语言模型中保障安全机制的本质，确定了模型中间部位的一小组连续层对于区分恶意查询和正常查询至关重要，这些层被称为“安全性层”。我们首先通过分析模型内部层中的输入向量变化来确认这些安全性层的存在。此外，我们利用过度拒绝现象和参数缩放分析来精确定位安全性层。基于这些发现，我们提出了一种新的微调方法——安全部分参数微调（SPPFT），该方法在微调过程中固定安全性层的梯度，以应对安全性能下降的问题。我们的实验表明，所提出的方法可以显著保持大语言模型的安全性，同时保持性能并减少计算资源消耗，相比全参数微调更为优越。

发布时间: 4/8/2025

查看原文