arXiv:2502.03852v1 Announce Type: cross
摘要:在物体检测中,实例数目通常用于定义数据集是否呈现出长尾分布,隐含假设是模型在实例较少的类别上表现较差。这一假设导致了对类别偏差的大量研究,特别是在实例数目不平衡的数据集中。然而,即使在实例数目相对平衡的数据集中,模型仍然表现出类别偏差,这清楚地表明仅靠实例数目无法解释这一现象。在这项工作中,我们首先引入了类别信息量的概念及其测量方法。我们观察到类别信息量与准确率之间存在显著的负相关,这表明类别信息量更准确地反映了类别的学习难度。基于这一观察,我们提出了信息量导向的角度裕度(IGAM)损失。IGAM的核心思想是根据每个类别的信息量动态调整该类别的决策空间,从而在长尾数据集中减少类别偏差。IGAM损失不仅在长尾基准数据集(如LVIS v1.0和COCO-LT)上表现良好,还在无长尾数据集Pascal VOC中显著提高了长尾类别下的性能。全面的实验表明,类别信息量作为工具的潜力以及我们提出方法的普适性。
arXiv:2502.03843v1 宣告类型: cross
摘要:高质量的大规模指令对于对齐大型语言模型(LLMs)至关重要,然而,在自然语言理解(NLU)领域,指令的数量存在严重短缺。以前关于构建NLU指令的工作主要集中在信息提取(IE)上,忽略了机器阅读理解、问答和文本分类等任务。此外,数据的缺乏多样性导致了训练好的LLMs在其他NLU任务上的泛化能力下降,基本模型的整体能力也有了明显的下降。为了解决这一问题,我们提出Hum,一个用于NLU任务的大规模高质量合成指令语料库,旨在增强LLMs的NLU能力。具体而言,Hum包括IE(无论是接近的IE还是开放的IE)、机器阅读理解、文本分类和指令专家任务,从而丰富了任务的多样性。此外,我们引入了一种人类-LLMs协作机制来合成指令,通过引入指导原则、偏好规则和格式变体,进一步丰富了指令的多样性。我们在5个NLU任务和28个通用能力评估数据集上对LLMs进行了广泛的实验。实验结果表明,Hum平均提高了6个LLMs的NLU能力3.1%,而在其他通用能力方面没有观察到显著下降。
arXiv:2502.03827v1 类别: cross
摘要: 情感分析是自然语言处理中一个流行的任务子集,它采用计算方法从语言数据中提取情感、观点和其他主观方面。鉴于其在理解人类情感中的关键作用,情感分析的研究近年来得到了显著的增长。然而,大多数方法主要针对英语,而阿拉伯语情感分析的研究相对较少。本文提供了一个全面且当代的阿拉伯语情感分析综述,指出了现有文献在该领域的挑战和限制,并提出了未来研究的方向。我们系统地回顾了阿拉伯语情感分析方法,特别是重点介绍了利用深度学习的研究。然后,我们从更广泛的背景下定位阿拉伯语情感分析,突出与一般情感分析相比,阿拉伯语情感分析研究中的研究空白。最后,我们概述了阿拉伯语情感分析研究中的主要挑战和有希望的未来方向。
arXiv:2502.03824v1 通知类型: 交叉
摘要: 大型语言模型在许多AI应用中推动了进步。最近,有人尝试将大型语言模型的大量知识提炼到信息检索系统中。这些提炼方法主要使用大型语言模型的输出概率,但在最新的黑盒大型语言模型中不可用。我们提出了Syntriever,这是一种使用黑盒大型语言模型的合成数据训练检索器的训练框架。Syntriever包含两个阶段。首先,在提炼阶段,我们使用因果推理生成与给定查询相关和可能无关的段落以及增强查询。要求大型语言模型验证合成数据以防止幻觉,然后使用设计用于聚类相关段落嵌入的损失函数训练检索器。其次,在对齐阶段,我们使检索器与大型语言模型的偏好保持一致。我们提出了部分Plackett-Luce排名偏好建模,通过正则化来学习大型语言模型的偏好,这防止模型过度偏离在提炼阶段训练的模型。实验结果显示,Syntriever在各种领域的基准数据集中达到了NDCG@K的最佳性能。代码可在 \href{https://github.com/kmswin1/Syntriever}{https://github.com/kmswin1/Syntriever} 获取。
arXiv:2502.03814v1 类型: cross
摘要:大型语言模型(LLMs)的快速进展为多机器人系统(MRS)开启了新的可能性,使其能够增强通信、任务规划和人机交互。与传统的单机器人和多代理系统不同,MRS 面临着协调、扩展性和现实世界的适应性等独特的挑战。本文综述了对 MRS 中 LLMs 集成的首次全面探索。系统地将它们的应用分类为高层任务分配、中间级运动规划、低级动作生成和人工干预。我们强调了诸如家庭机器人、建筑、姿态控制、目标跟踪和机器人游戏等不同领域中的关键应用,展示了LLMs 在 MRS 中的多功能性和变革潜力。此外,我们还探讨了限制将 LLMs 适应到 MRS 中的问题,包括数学推理限制、幻觉、延迟问题以及需要强大的基准测试系统。最后,我们概述了未来研究的机会,强调了微调、推理技术以及任务特定模型的进步。本文旨在为使用 LLMs 动力的 MRS 智能和现实世界的部署提供指导。考虑到该领域研究的快速发展,我们将在开源的 Github 仓库中不断更新相关论文。
arXiv:2502.03804v1 类型: cross
摘要:回复正式邮件耗时且认知负担大,因为这需要礼貌的语言表达,并且确保对发件人要求的适当回应。尽管大型语言模型(LLM)系统设计目的是简化邮件回复过程,但用户仍需要提供详细的提示以获得预期的输出。因此,我们提出并评估了一种基于问题和答案(QA)的LLM辅助方法,以便用户通过回答从收到的邮件中生成的一组简单和简短的问题来回复邮件。我们开发了一个原型系统ResQ,并分别与12名和8名参与者进行了有控制和实地实验。我们的结果显示,基于QA的方法提高了邮件回复的效率,减少了工作负担,同时保持了邮件质量,优于一种需要用户自行构思适当提示以获取邮件草稿的传统提示方法。我们讨论了基于QA的方法如何影响邮件回复过程和人际关系动态,以及在AI中介沟通中使用基于QA方法的机会和挑战。
arXiv:2502.03801v1 宣告类型: 横向
摘要: 集中学习(FL)允许在保护数据隐私的同时进行协作模型训练,但其分散的性质使其易受到客户端数据中毒攻击(DPAs)和模型中毒攻击(MPAs),这些攻击会降低全球模型性能。虽然提出了许多防御措施,并声称具有显著的有效性,但其评估通常是在孤立环境中进行,并且攻击策略有限,这引发了对其有效性的质疑。此外,现有研究忽略了防御措施对DPAs和MPAs的互斥有效性,导致了该领域的碎片化。本文旨在提供对DPAs和MPAs的防御措施的统一基准和分析,澄清这两个相似但略有不同的领域之间的区别。我们系统地定义了中毒攻击和防御策略的分类,并概述了它们的设计、优点和局限性。然后,我们在FL算法和数据异质性方面进行了统一的比较评估,以验证它们的个体和相互有效性,并据此为设计原则和未来研究提供关键洞察。我们还通过建立一个高度模块化和可扩展的一致基准FLPoison,来框架我们的工作,以评估15种代表性的中毒攻击和17种防御策略,从而促进该领域未来的研究。相关代码可在 https://github.com/vio1etus/FLPoison 获取。
arXiv:2502.03793v1 类型: cross
摘要:尽管如 BERT 和 ModernBERT 之类的编码器模型在实际的 NLP 应用中无处不在,但它们对特定任务分类头的常规依赖限制了它们的应用性,使其与基于解码器的大型语言模型 (LLMs) 相比存在局限。在本文中,我们介绍了 ModernBERT-Large-Instruct,这是一个具有 0.4 亿参数的编码器模型,它利用其掩码语言建模 (MLM) 头进行生成分类。我们的方法采用了一种故意简单的训练循环和推理机制,无需进行复杂的预处理、精心设计的提示或架构修改。ModernBERT-Large-Instruct 在分类和基于知识的任务上表现出强大的零样本性能,在 MMLU 上的表现优于同样规模的 LLMs,并且仅使用了 Llama3-1B 参数量的 60% 就达到了其 93% 的 MMLU 性能。我们还展示,当进行微调时,使用 MLM 头的生成方法在各种 NLU 任务上能够匹配甚至超越传统的任务特定分类头方法。这种能力仅在训练数据为当代多样化的数据混合时才出现,训练数据量较少且多样性较低的模型表现出了明显更弱的性能。虽然初步结果有限,但这些结果表明使用原始的生成掩码语言建模头而非传统任务特定头来为下游任务提供支持的潜力。我们的工作表明,进一步探索这一领域是值得的,指出了许多未来改进的途径。
arXiv:2502.03773v1 说明类型: cross
摘要:原则上,说明是为了增加对机器学习模型的信任,并且经常被法规要求。然而,在这些说明被要求的许多情况下都是敌对性的,这意味着参与各方的利益不一致,并且有动机操纵说明以服务于自己的目的。因此,尽管存在需求,解释方法在敌对场景中无法发挥作用,尽管存在需求\[参考:bordt2022post\]。在本文中,我们通过零知识证明(ZKPs)这一密码学原语,朝着在敌对场景中实现说明迈出了一步。具体而言,我们研究了流行的解释算法LIME的零知识证明可适应版本,并在神经网络和随机森林上评估了它们的性能。
arXiv:2502.03772v1 Announce Type: cross
摘要:原发性肝细胞癌(HCC)是全球第三大癌症死亡原因,早期诊断对于提高患者生存率至关重要。然而,使用超声进行HCC早期筛查存在灵敏度不足的问题,并且很大程度上依赖于放射科医生的解读。借助最新的医学影像人工智能(AI)技术进步,本研究提出了一种创新的分层稀疏查询变换器(HSQformer)模型,该模型结合了卷积神经网络(CNNs)和视觉变换器(ViTs)的优势,以提高超声筛查中HCC诊断的准确性。HSQformer利用稀疏潜空间表示来捕捉各种粒度下的分层细节,而无需复杂的调整,并采用模块化、即插即用的设计哲学,确保模型的多功能性和易用性。该研究对HSQformer进行了严格的测试,分别在三个不同的临床场景中进行了测试:单中心、多中心和高风险患者测试。在这些场景中,HSQformer在所有情况下都优于现有的先进模型,如ConvNext和SwinTransformer。值得注意的是,HSQformer在诊断能力上甚至与资深放射科医生相当,并且全面超过了初级放射科医生。本研究的实验结果强烈证明了AI辅助工具在HCC筛查中的有效性和临床潜力。完整的代码可在https://github.com/Asunatan/HSQformer获取。