arXiv:2502.09765v2 宣告类型: replace-cross
摘要:公平且无偏差的机器学习模型的开发仍是他人工智能领域研究人员的持续目标。我们引入了差异调整一致性的(Differential Adjusted Parity, DAP)损失,以产生无偏差的信息表示。该方法使用调整一致性度量的可微分变体来创建一个统一的目标函数。通过结合下游任务分类准确性和在敏感特征域中的不一致性,它提供了一个单一工具来提高性能并缓解偏差。这种方法的关键在于使用软平衡准确度。与之前的非对抗性方法不同,DAP 不会因为所有敏感域表现一样差就满足度量标准,从而避免了这种退化现象。在我们的分析中,DAP 在下游任务准确性和公平性方面优于几种对抗性模型。特别是,与这些度量标准上表现最佳的对抗性方法相比,在人口统计学一致性、同等机会和敏感特征准确度方面分别提高了22.5%、44.1%和40.1%。总体而言,DAP 损失及其相关度量可以在创建更加公平的机器学习模型中发挥重要作用。
arXiv:2502.02862v2 宣告类型: replace-cross
摘要:从计算机断层扫描(CT)准确自动化分割胫骨平台骨折(TPF)需要大量标注数据来训练深度学习模型,但获取这些标注数据面临独特的挑战。该过程要求专业知识来识别多样的骨折模式、评估严重程度,并考虑到个体解剖变异,使得标注过程既耗时又昂贵。尽管半监督学习方法可以利用未标注数据,但现有方法往往难以应对骨折形态的复杂性和变化性,以及数据集之间的有限泛化能力。为应对这些问题,我们提出了一种基于掩码自编码器(MAE)的有效训练策略,用于CT中的TPF准确分割。我们的方法利用MAE预训练从未标注数据中捕捉全局骨骼结构和细微的骨折细节,然后在少量标注数据上进行微调。这种方法减少了对大量标注的依赖,同时增强了模型学习可泛化和可迁移特征的能力。我们提出的方案在包含180例CT扫描的内部数据集上进行了评估,该数据集包含TPF。实验结果表明,我们的方法在20个标注案例的情况下,持续优于半监督方法,平均Dice相似性系数(DSC)为95.81%,平均对称表面距离(ASSD)为1.91毫米,Hausdorff距离(95HD)为9.42毫米。此外,当我们的方法应用于另一个包含髋部骨折的公共骨盆CT数据集时,展示了其强大的可迁移性,突显了其在骨折分割任务中的广泛应用潜力。
arXiv:2501.03225v2 通告类型: 替换交叉
摘要:视觉语言模型(VLMs)的快速发展要求严格的可靠评估。然而,当前的视觉问答(VQA)基准通常依赖于开放性问题,使得由于自然语言响应的变异性而难以进行准确评估。为了解决这一问题,我们引入了 AutoConverter,这是一种代理框架,可以自动将这些开放性问题转换为多项选择格式,从而在减少 costly 多项选择问题创建过程的同时实现客观评估。我们的实验表明,AutoConverter 可以生成正确的具有挑战性的多项选择问题,且 VLMs 在这些问题上的正确率与人类创建的问题相比,表现出一致的相近或更低。使用 AutoConverter,我们构建了 VMCBench,该基准通过对 20 个现有 VQA 数据集进行统一的多项选择格式转换,共计生成了 9,018 个问题。我们在 VMCBench 上全面评估了 33 个最先进的视觉语言模型,设立了可扩展的、一致的和可复现的视觉语言模型评估的新标准。
arXiv:2501.03124v3 更新类型: replace-cross
摘要: 过程级奖励模型(PRMs)对于复杂推理和决策任务至关重要,其中每一中间步骤在推理过程中都扮演着重要角色。由于语言模型在推理过程中容易出现多种类型的错误,因此PRMs需要具备检测现实世界中各种隐含错误类型的能力。然而,当前的基准测试主要关注步骤的正确性,未能系统地评估PRMs的性能。为解决这个差距,我们引入了PRMBench,这是一个专门为评估PRMs的细粒度错误检测能力而设计的过程级基准测试。PRMBench包含6,216个精心设计的问题和83,456个步骤级标签,在多个维度上评估模型,包括简单性、正确性和灵敏性。在对15个模型的实验中,这些模型涵盖了开源和闭源大型语言模型作为批评模型,我们发现当前PRMs存在显著的缺陷。这些发现突显了过程级评估固有的挑战,并指出了未来研究的关键方向。我们希望PRMBench能够成为一个坚实的基准,促进PRM评估和开发的研究。
arXiv:2501.01705v2 宣告类型: 替换交叉
摘要:理论思维(ToM)是一种基本的心理能力,使人类能够理解并解释他人的心理状态。人类通过整合因果线索和广泛的背景信息中的间接提示来推断他人的想法,这些背景信息通常源自过去的互动。换句话说,人类的ToM在很大程度上依赖于对他人背景和生活故事的理解。不幸的是,由于现有评估机器ToM能力的基准主要使用没有整体背景,特别是角色的个人背景的简短叙述,这一方面被严重忽视。在这篇论文中,我们验证了全面理解个人背景在ToM中的重要性,并评估了大语言模型在这种复杂场景下的表现。为了实现这一目标,我们引入了CharToM基准,该基准基于经典小说中的人物构建了1,035个ToM问题。我们的研究结果显示,受过教育的参与者在阅读过这些小说时的表现与未阅读时相比有了显著的提高。同时,我们在最先进的大语言模型(包括最近的o1和DeepSeek-R1模型)上的实验显示,尽管它们在预训练过程中见过这些故事,但这些模型的表现仍然显著低于人类。这突显了当前大语言模型在捕捉ToM推理所需的细微背景信息方面的局限性。
arXiv:2412.13394v2 通知类型: 替换-交叉
摘要:在地球观测中,训练鲁棒的深度学习模型至关重要,因为广泛部署的模型往往面临分布变化,这会降低性能,尤其是在数据稀少的地区。离分布外(OOD)检测通过识别与内分布(ID)数据相偏差的输入来解决这一问题。然而,现有方法要么假设可以访问OOD数据,要么会牺牲主任务的性能,限制了其实用性。我们提出了TARDIS,这是一种设计用于大规模地理空间部署的后处理OOD检测方法。我们的核心创新在于通过在特征空间中利用ID数据生成代理分布标签。TARDIS接受一个预训练模型、ID数据和来自未知分布的WILD数据,根据内部激活将WILD数据分为代理ID和OOD标签,并训练二元分类器以检测分布变化。我们在涵盖协变量和语义变化的17种设置上对EuroSAT和xbD进行了有效性验证,在13种情况下代理标签性能接近上限,并且与顶级后处理激活-和评分基于的方法的性能相当。最后,TARDIS在Fields of the World中的部署揭示了大规模情况下预训练模型行为的可操作见解。代码可在\href{https://github.com/microsoft/geospatial-ood-detection}{https://github.com/microsoft/geospatial-ood-detection}获取。
arXiv:2412.12848v2 安全公告类型: 替换-交叉
摘要: 随着大型语言模型(LLMs)的兴起及其广泛应用,确保其安全性变得至关重要,以防止对人类造成伤害并促进道德行为。然而,通过大规模数据训练直接评估价值取向(即支持或反对)是不可信且不可解释的。我们认为,使LLMs依托社会规范来做出道德决策,可以帮助它们理解和预测道德判断。然而,捕捉人类价值观仍然是一个挑战,因为在特定情境下,相关的规范可能会相互冲突。考虑那些得到大多数人支持并促进社会福祉的规范(例如,“不要作弊”)更有可能被接受并广泛采纳。因此,在做出道德决策之前,LLMs识别特定情境下的适当规范是必要的。为此,我们提出了一种名为\textit{ClarityEthic}的新颖道德判断方法,该方法结合了LLMs的推理能力和对比学习,从不同角度揭露与人类行为相关的社会规范,并选择最可靠的规范以提高判断准确性。广泛实验表明,在道德判断任务中,我们的方法优于现有最先进的方法。此外,人类评估确认生成的社会规范提供了支持判断的合理解释。这表明,在模仿人类道德策略的基础上建模人类道德判断有可能提高LLMs的道德行为。
arXiv:2412.12225v3 通知类型: 替换-交叉
摘要:多模态情感分析(MSA)利用语言、视觉和音频等多种模态,以增强对人类情感的理解。虽然现有的模型通常专注于跨模态提取共享信息或直接融合异质模态,但这些方法由于所有模态的平等对待以及模态对之间的信息相互转移,可能会引入冗余和冲突。为了解决这些问题,我们提出了一种分离-语言聚焦(DLF)的多模态表示学习框架,该框架结合了特征分离模块,用于分离模态共享和模态特定的信息。为了进一步减少冗余并增强语言目标特征,我们引入了四种几何度量来细化分离过程。进一步地,我们设计了语言聚焦吸引子(LFA),通过语言引导的交叉注意力机制利用互补的模态特定信息,以强化语言表示。该框架还使用分级预测来提高整体准确性。在两个流行的MSA数据集CMU-MOSI和CMU-MOSEI上进行的广泛实验展示了所提出的DLF框架实现的重要性能提升。全面的消融研究进一步验证了特征分离模块、语言聚焦吸引子和分级预测的有效性。我们的代码可在 https://github.com/pwang322/DLF 获得。
arXiv:2412.05282v2 宣告类型: replace-cross
摘要:这是关于先进人工智能安全性国际科学报告的初步出版物。该报告综合了对通用人工智能——能够执行各种任务的人工智能——的科学理解,重点关注对其风险的理解和管理。来自75位人工智能专家的多样化团队参与了这项报告的工作,包括由30个国家、欧盟和联合国提名的国际专家咨询小组。由主席领导的这些独立专家集体对报告内容拥有完全的决定权。
最终报告可在arXiv:2501.17805获取。
arXiv:2411.18923v2 生成任务类型: 替换-交叉
摘要:传统的SQL-to-text生成任务通常使用基于模板、Seq2Seq、树到序列和图到序列的模型。最近的模型利用预训练生成语言模型在Seq2Seq框架中完成此任务。然而,将SQL作为预训练模型的顺序输入并不是最优的选择。在这项工作中,我们提出了一种新的SQL中间表示形式名为EzSQL,以便将SQL与自然语言文本序列对齐。EzSQL简化了SQL查询,并通过修改操作符和关键字使其更接近自然语言文本,这些操作符和关键字通常可以用自然语言描述。EzSQL还消除了集合操作符的需求。我们提出的一种SQL-to-text生成模型使用EzSQL作为预训练生成语言模型的输入,用于生成文本描述。我们证明,我们的模型在WikiSQL和Spider数据集上生成从SQL查询到文本描述的有效最先进的方法。我们还展示了通过使用我们的SQL-to-text生成模型生成预训练数据,可以提高文本到SQL解析器的性能。