arXiv:2501.10957v2 宣告类型: replace-cross
摘要: 当前的息肉分割模型受限于高标注成本和数据集规模小的问题。此外,由于这些模型通常依赖单一类型的标注,大量的息肉数据集仍未得到充分利用。为了解决这一困境,我们提出了一种名为MARIO的混合监督模型,该模型旨在兼容各种类型的标注,显著扩展了可用数据的范围。MARIO通过整合五种形式的监督:像素级、框级、多边形级、描画级和点级,从未充分利用的数据集中学习。每种形式的监督都与一个定制的损失函数相关联,该损失函数有效地利用了标注标签,同时减少了噪声的影响。这使得MARIO能够超越依赖单一标注类型的限制。此外,MARIO主要利用带有弱和廉价标注的数据集,减少了对大规模、完全标注的数据集的依赖。在五个基准数据集上的实验结果表明,MARIO在各种形式的监督之间保持了平衡,始终优于现有方法,突显了其在最大化息肉分割性能方面的有效性。
arXiv:2501.09997v2 声明类型: replace-cross
摘要:幻觉已成为大型语言模型(LLMs)有效应用的重要障碍。在本文中,我们提出了一种新型的注意力引导自我反思(AGSER)方法,用于LLMs中的零样本幻觉检测。AGSER方法利用注意力贡献将输入查询分为关注和非关注查询。然后,每个查询分别通过LLMs处理,使我们能够计算生成响应与原始答案之间的一致性分数。两个一致性分数之间的差异作为幻觉估计器。除了在检测幻觉方面的有效性外,AGSER还显著减少了计算开销,只需通过LLM三遍处理,并使用两组令牌。我们使用四个广泛使用的LLMs在三个不同的幻觉基准上进行了广泛的实验,结果表明,我们的方法在零样本幻觉检测中的表现远优于现有方法。
arXiv:2501.04961v2 宣告类型: replace-cross
摘要:针对医学和金融等专业领域的大型语言模型(LLMs)的后训练适应性方法已经崭露头角,并显示出巨大的潜力。然而,仍面临识别最佳适应标准和培训策略的重大挑战,特别是在数据和模型配置各异的情况下。为应对这些挑战,我们引入了FINDAP,一种系统且细致的研究方法,以探索金融领域中LLMs的适应性后训练。该方法由四个关键组件组成:FinCap,定义了目标领域所需的核心能力;FinRec,一种有效的培训食谱,能够同时优化持续预训练和指令跟随,并采用一种新颖的偏好数据蒸馏方法,利用生成奖励模型中的过程信号;FinTrain,支持FinRec的一系列精心策划的训练数据集;以及FinEval,与FinCap对齐的全面评估套件。最终模型Llama-Fin在一系列金融任务中均取得了最先进的性能。我们的分析还揭示了每个后训练阶段如何贡献于不同的能力,揭示了特定的挑战和有效的解决方案,为LLMs在领域的适应提供了宝贵的见解。
arXiv:2501.04686v3 宣告类型: replace-cross
摘要:链式思考(CoT)推理被广泛用于增强大型语言模型(LLMs)的数学推理能力。过程监督的引入促使人们讨论如何提高测试时的可扩展性,从而解锁这些模型的系统2级思考能力。然而,在多模态数学推理中,高质量CoT训练数据的稀缺性阻碍了现有模型同时实现细致推理和精细验证的能力。在本文中,我们提出了一种新的框架,将系统2级思考引入多模态数学推理中。我们介绍了一个三模块的CoT数据合成过程,该过程集成了CoT蒸馏、轨迹格式重写和格式统一。这一过程生成了具有高质量CoT推理指令微调数据集的MMathCoT-1M。此外,我们实现了双视图轨迹标签自动化,旨在提高视觉定位的准确性和演绎链条的有效性,从而生成了DualMath-1.1M数据集。在MMathCoT-1M上训练的URSA-8B模型在六个流行的推理基准测试中达到了与同规模多模态LLM相当的新最佳性能(SOTA)。进一步在DualMath-1.1M数据集上训练URSA-8B产生了URSA-RM-8B,这是一种增强URSA-8B测试时性能的验证器,并且超过了强大的封闭源多模态MLLMs如GPT-4o。该模型权重、训练数据和代码都已经开源:https://github.com/URSA-MATH/URSA-MATH。
arXiv:2501.02629v2 通告类型: replace-cross
摘要:随着大型语言模型(LLMs)在各种应用中的部署,包括聊天机器人助手和代码生成,调整其行为以符合安全和伦理标准变得至关重要。然而,利用漏洞引发意外或有害输出的监禁攻击严重威胁着LLMs的安全。在本文中,我们介绍了Layer-AdvPatcher,这是一种新颖的方法,通过利用未学习策略来修补LLMs中的特定层,从而防御监禁攻击。我们的见解是,某些层在面对有害提示时倾向于生成肯定性标记。通过识别这些层并将它们暴露于生成更多有害数据的对抗性攻击中,可以理解它们固有的和多样的攻击漏洞。利用这些暴露的信息,然后“遗忘”这些问题,减少肯定性标记的影响,从而降低监禁攻击的风险,同时保持模型对良性查询的响应不变。我们在两种模型、四个基准数据集和多种最先进的监禁攻击上进行了广泛的实验,以证明我们方法的有效性。结果表明,与最新的防御方法相比,我们的框架在不牺牲对良性查询的实用性的情况下,减少了监禁攻击的有害性和成功率。我们的代码可以在以下地址公开获得:https://github.com/oyy2000/LayerAdvPatcher
arXiv:2412.20163v3 公告类型: replace-cross
摘要:知识图谱在推荐系统中的应用已成为解决数据稀疏性和冷启动问题的常见方法。大型语言模型(LLMs)的最新进展为处理知识图谱中的侧信息和上下文信息提供了新的可能性。但由于需要领域专家的干预和系统特性的差异,跨各种系统的持续集成仍然具有挑战性。为了应对这些问题,我们提出了一种一致的方法,利用LLMs从侧信息和上下文信息中提取通用和特定的主题。首先,从侧信息中迭代地提取和更新通用主题。然后,使用上下文信息提取特定主题。最后,为了处理特定主题提取过程中生成的同义主题,一种优化算法有效地处理和解决了这些问题。这种方法使通用主题能够捕捉到不同物品特性的广泛知识,而特定主题则强调详细的属性,从而提供了更为全面的物品语义特征和用户偏好的理解。实验结果表明,该方法在多种知识图谱中显著提高了推荐性能。
arXiv:2412.18862v3 通告类型: 替换交叉
摘要:3D 高斯散布(3DGS)在3D 场景重建方面获得了广泛的关注,但在复杂户外环境中,尤其是恶劣天气下,仍然存在局限性。这是因为3DGS 将由恶劣天气引起的伪影视为场景的一部分,并直接进行重建,极大地降低了重建场景的清晰度。为了解决这一挑战,我们提出了一种基于3DGS 的框架,能够在不同天气条件下从多视图图像中重建清晰的场景。具体来说,我们明确将多天气伪影分为密集粒子和镜头遮挡,这两种伪影具有非常不同的特征,其中前者是由空中雪花和雨滴引起,后者是由镜头上的降水引起的。基于这一点,我们提出了一种从密集到稀疏预处理策略,首先通过大气效应过滤器(AEF)顺序移除密集粒子,然后使用镜头效应检测器(LED)提取相对稀疏的遮挡掩模。最后,我们通过处理过的图像和生成的掩模训练一组3D 高斯分布,用于排除遮挡区域,并通过高斯散布精确恢复底层清晰场景。我们建立了一个多样和具有挑战性的基准,以促进在复杂天气情景下的3D重建评估。在这一基准上的大量实验表明,我们的WeatherGS 在各种天气情景下始终能够产生高质量、清晰的场景,优于现有的最先进的方法。项目页面:https://jumponthemoon.github.io/weather-gs。
arXiv:2412.16205v2 通知类型: 替换交叉
摘要:无人水面车辆(USVs)已成为海洋探索、环境监测和自主导航的关键工具。准确估计波浪方向对于提高USV导航精度和确保操作安全性至关重要,但传统方法往往成本高昂且空间分辨率有限。本文提出了一种基于机器学习的方法,利用长短期记忆(LSTM)网络根据USVs采集的传感器数据预测波浪方向。实验结果表明,LSTM模型能够学习时间依赖性并提供准确的预测,优于更简单的基线方法。
arXiv:2412.15151v3 宣布类型: replace-cross
摘要:大型语言模型(LLMs)在各种任务中展现了卓越的能力,但由于高质量训练数据的缺乏,进一步的发展受到了限制。此外,传统的训练方法过于依赖专家标注的数据,这在很大程度上限制了LLMs的表现。为解决这一问题,我们提出了一种名为LANCE(LANguage models as Continuous self-Evolving data engineers)的新范式,通过自主生成、清理、审查和标注数据(带有偏好信息),使LLMs能够自我训练。我们的方法表明,LLMs可以作为连续自我进化的数据工程师,显著减少了训练后数据构建所需的时间和成本。通过在Qwen2系列模型上进行迭代微调,我们验证了LANCE在各种任务中的有效性,显示它能够保持高质量的数据生成并持续提升模型性能。在多个基准维度上,LANCE分别提高了Qwen2-7B和Qwen2-7B-Instruct的平均分数3.64和1.75。此自主数据构建的训练范式不仅减少了对人类专家或外部模型的依赖,还确保了数据与人类偏好一致,为开发能够超越人类能力的未来超级智能系统铺平了道路。代码可在以下链接获取:https://github.com/Control-derek/LANCE。
arXiv:2412.14415v2 Announce Type: replace-cross
摘要:我们介绍了DriveGPT,一种可扩展的自主驾驶行为模型。我们将驾驶建模为一个序列决策任务,并使用变压器模型以自回归的方式预测未来代理状态。我们通过多个数量级扩展模型参数和训练数据,使我们能够探索数据集规模、模型参数和计算能力等方面的扩展性。我们在一个规划任务中通过定量指标和定性示例对DriveGPT进行评估,包括在复杂的真实世界场景中闭环驾驶。在单独的预测任务中,DriveGPT超越了最先进的基线模型,并通过在大规模数据集上进行预训练表现出更好的性能,进一步验证了数据扩展的优势。