arXiv:2501.19407v1 类别: cross
摘要: 姓氏通常传达出社会地位、财富和血统的隐含标志,这些因素影响着人们的感知,可能会助长系统性偏见。本研究探讨姓氏如何影响基于AI的决策制定,重点关注其在招聘推荐、领导任命和贷款审批等关键领域的效应。我们基于来自美国和泰国的600个姓氏进行研究,这两个国家在社会历史动态和姓氏习俗上存在差异。我们将这些姓氏分为精英、传统、普通和音似变体四个类别。研究发现,精英姓氏始终预测AI生成的力量、智慧和财富感知,这在高风险决策中具有重大后果。中介分析揭示出感知的智慧是姓氏偏见运作的关键途径。提供客观的资质信息可以减少但无法消除这些偏见,特别是在整体资质较低的背景下。这些结果呼吁对公平意识算法和有力的政策措施给予关注,以减轻AI系统强化继承不平等的影响。本研究还呼吁重新审视算法问责制及其对社会的影响,尤其是在旨在实现择优结果的系统中。
arXiv:2501.19403v1 宣告类型: cross
摘要: 机器遗忘旨在系统地从训练模型中移除指定的数据,实际上在训练过程中仿佛这些数据从未出现过。虽然诸如遗忘准确度(UA)和成员推断攻击(MIA)等指标为评估遗忘性能提供了基准,但它们在评估遗忘的完整性和可靠性方面存在不足。这是因为地真相 labels 仍然在不确定性量化范围内作为潜在候选,留下了对真正遗忘评估中的空白。在本文中,我们指出了现有遗忘度量的关键局限性,并提出了受符合性预测启发的增强评估指标。我们的指标能够有效地捕捉地真相 labels 被排除出预测集的程度。此外,我们观察到,在使用我们新提出的指标评估时,许多现有的机器遗忘方法并未达到令人满意的遗忘性能。为了解决这个问题,我们提出了一种集成 Carlini & Wagner 对抗性攻击损失的遗忘框架,结合符合性预测见解。在图像分类任务上的大量实验表明,我们的增强指标为遗忘效果提供了更深入的洞察,并且我们的遗忘框架显著提高了遗忘方法的遗忘质量。
arXiv:2501.19400v1 声明类型: cross
摘要: 在上下文强化学习(ICRL)代表了一种有望通过尝试和错误的互动在推理时学习通用代理的前景模型,类似于大型语言模型如何根据上下文进行调整,但其重点在于奖励最大化。然而,ICRL在玩具任务和单一领域设置之外的可扩展性仍然存在开放性的挑战。在本文中,我们介绍了扩展ICRL的第一步,通过引入一种固定但跨领域的模型,该模型可以通过在上下文中的强化学习来学习行为。我们的结果表明,算法蒸馏是一种旨在促进ICRL的框架,比专家蒸馏提供了构建多功能动作模型更具吸引力且更具竞争力的选择。这些发现突显了ICRL作为通用决策系统可扩展方法的潜力。代码将在https://github.com/dunnolab/vintix发布。
arXiv:2501.19399v1 Announce Type: cross
摘要:Softmax函数输出向量的最大元素在输入向量大小增加时趋近于零。基于Transformers的语言模型依赖Softmax来计算注意力分数,导致随着上下文大小的增加,注意力分布趋于扁平化。这降低了模型有效优先处理关键信息的能力,并且可能限制其长度泛化能力。为解决这个问题,我们提出了Scalable-Softmax(SSMax),它可以在输入向量大小变化的情况下替代Softmax。SSMax可以无缝集成到现有的基于Transformers的架构中。在语言建模中的实验结果显示,使用SSMax的模型不仅在预训练过程中更快地降低损失,还在长上下文中以及关键信息检索方面显著提高了性能。此外,对注意力分数的分析表明,SSMax使模型即使在长上下文中也能够集中注意力于关键信息。另外,虽然从预训练开始就使用SSMax的模型在长度泛化方面表现更好,但已经开始了预训练的模型也可以通过在注意力层中用SSMax替换Softmax,要么在预训练期间,要么在预训练之后,获得部分这种能力。
arXiv:2501.19393v1 交叉类型: cross
摘要: 测试时缩放是一种有前途的新语言模型方法,它通过额外的测试时计算来提高性能。最近,OpenAI 的 o1 模型展示了这种能力,但没有公开分享其方法论,导致了许多复制努力。我们寻求一种最简单的方法来实现测试时缩放和强大的推理性能。首先,我们精心制作了一个包含1,000个问题及其推理记录的小数据集 s1K,这些问题和推理记录依赖于我们通过消融实验验证的三个标准:难度、多样性和质量。其次,我们开发了一种预算强制方法,以控制测试时的计算量,通过强制终止模型的思考过程或在模型尝试结束生成时多次附加“等待”指令来延长生成长度。这可以使模型重新检查其答案,通常能修正错误的推理步骤。在对 s1K 数据集进行监督微调 Qwen2.5-32B-Instruct 语言模型,并结合预算强制方法后,我们的模型 s1 在竞赛数学问题上比 o1-preview 高出了最多 27%(MATH 和 AIME24)。此外,通过预算强制放大 s1 的规模,无需额外的测试时干预,其性能可进一步提升:AIME24 上从 50% 提升到 57%。我们的模型、数据和代码可以在 https://github.com/simplescaling/s1 免费获取。
arXiv:2501.19383v1 宣告类型:交叉
摘要:语言模型最近被证明能够在数值预测作为解码字符串表示的情况下执行回归任务。在本文中,我们为这一能力提供了理论基础,并进一步研究了因果自回归序列模型在应用于任何特征表示时的实用性。我们发现,尽管这些模型是通过交叉熵损失进行通常的下一个令牌预测训练的,但基于解码的回归与传统的表格回归方法在表现上相当,同时具有足够的灵活性以捕获任意分布,例如密度估计任务中所需的分布。
arXiv:2501.19364v1 Announce Type: cross
摘要:多变量时间序列插补(MTSI)对于许多应用至关重要,如医疗监控和交通管理,其中不完整数据会损害决策过程。现有的顶级方法,如去噪扩散概率模型(DDPMs),能够在插补准确性方面取得高水准;然而,它们在计算成本方面存在显著缺点,并且由于其迭代性质而特别耗时。在本文中,我们提出了一种名为CoSTI的创新方法,它是对一致性模型(CMs)的一种适应,适用于MTSI领域。CoSTI采用一致性训练,以在保持与DDPMs相当的插补质量的同时大幅减少推理时间,使其更适用于实时应用。我们通过多个数据集和缺失数据场景对CoSTI进行了评估,展示了与扩散模型性能相当的情况下可高达98%的插补时间减少。这项工作填补了生成插补任务中效率与准确性之间的差距,提供了一种在关键时空系统中处理缺失数据的可扩展解决方案。
arXiv:2501.19361v1 类型: cross
摘要:现在有许多强大的大型语言模型(LLMs)可用作写作支持工具、想法生成器等等。尽管这些LLMs被宣传为有用的创造性助手,但一些研究已经表明,使用LLM作为创造伙伴会导致创造性输出的范围 narrower。然而,这些研究只考虑了与单个LLM互动的效果,这引发了这样的疑问:这种狭窄的创造性是否源于使用特定的LLM——这可能具有有限的输出范围——还是源于总体上使用LLM作为创造性助手。为研究这一问题,我们使用标准化的创造力测试从人类和广泛的LLM中引出创造性反应,并比较了总体层次上的反应多样性。我们发现,LLM的反应比人类之间的反应更相似,即使控制了反应结构和其他关键变量也是如此。在我们评估的LLM中,创造性输出的显著同质性为关于创造力和LLM的持续对话增添了新的维度。如果今天的LLMs表现出类似的行为,那么无论使用哪种模型,将它们作为创造伙伴可能会使所有用户朝着有限的一组“创造性”输出方向发展。
arXiv:2501.19353v1 交叉类型:公告
摘要:自2021年SCICAP数据集发布以来,研究界在为学术文章中的科学图表生成描述方面取得了显著进展。2023年,首届SCICAP挑战赛举行,邀请全球团队使用扩大的SCICAP数据集,开发用于多种学术领域各类图表生成描述的模型。同时,文本生成模型快速发展,涌现出许多强大且预训练的大规模多模态模型(LMMs),它们在各种视觉和语言任务上展现了令人印象深刻的性能。本文概述了首届SCICAP挑战赛的情况,并详细描述了各种模型在其中的表现,捕捉了该领域的当前状态。我们发现,专业编辑普遍更偏好由GPT-4V生成的图表描述,而其他所有模型生成的描述甚至作者原创的描述都逊色于此。在这一关键发现的基础上,我们进行了详细分析,以回答这个问题:高级LMMs是否解决了为科学图表生成描述的任务?
arXiv:2501.19338v1 交叉类型
摘要:由于缺乏标注的病理数据集和隐私问题常常限制数据共享,这阻碍了对临床胎儿和新生儿MRI数据的自动化分析方法的新研究。我们通过两种方式解决了这一问题。首先,我们引入了Fetal&Neonatal-DDPM,这是一种新颖的扩散模型框架,旨在从语义标签图像生成高质量的合成病理胎儿和新生儿MRI图像。其次,我们通过形态学修改健康的标签图像来增强训练数据,模拟如脑室扩大、小脑和小脑桥脑发育不全以及小头症等条件。利用Fetal&Neonatal-DDPM,我们从这些修改后的病理标签图像中合成了逼真的病理MRI图像。放射科医生评估合成的MRI图像在质量和诊断价值上显著(p < 0.05)优于真实MRI图像,显示出血管和脉络膜等特征,同时提高了与标签注释的对齐程度。合成病理数据提高了最先进的nnUNet分割性能,特别是在严重的脑室扩大病例中,尤其是在脑室分割中的改进最为显著(Dice分数:0.9253 vs. 0.7317)。这项研究强调了生成AI作为数据增强的变革性工具的潜力,提供在病理病例中改进分割性能的机会。这一发展代表了朝着提高产前成像分析和分割准确性迈出的重要一步,还为通过生成病理图像数据提供了新的数据匿名化方式。