LLM2D

arXiv 论文列表

arXiv:2010.13494v2 通知类型: 替换-交叉 摘要:随着机器学习在现实世界中的广泛应用,歧视偏见的影响引起了人们的关注。近年来,已经提出了各种减轻偏见的方法。然而,大多数方法都没有考虑交叉偏见,这种偏见会在考虑多个敏感属性时,使得属于特定受保护群体的子群体成员面临不公平的情况,受到更差的待遇。为了减轻这种偏见,在本文中,我们提出了一种名为一对一缓解的方法,该方法将比较过程应用于二分类的公平感知机器学习,该过程涉及与敏感属性相关的每个子群体对之间的比较。我们使用三种方法(预处理、内置处理和后处理)、六项指标(人口统计公平性、相等机遇和相等机会的比例和差异)以及两个真实世界数据集(Adult 和 COMPAS)来全面设置比较我们的方法和传统的公平感知二分类方法。结果显示,在所有设置下,我们的方法都比传统方法更有效地减轻了交叉偏见。借助该结果,我们为解决涉及多个敏感属性时出现的更现实问题,开辟了公平感知二分类的潜力。
发布时间: 3/26/2025
查看原文
作者: Junlan Chen, Kexin Zhang, Daifeng Li, Yangyang Feng, Yuxuan Zhang, Bowen Deng
arXiv:2503.18865v2 通告类型:替换 摘要:大型语言模型的出现为结构化探索科学知识提供了新的可能性。我们不将科学发现视为孤立的想法或内容,而是提出了一种结构化的研究方法,强调方法组合在塑造颠覆性见解方面的作用。具体而言,我们研究了如何对知识单元进行建模和重组,特别是在方法设计相关的情况下,以产生研究突破。我们提出的框架解决了两项关键挑战。首先,我们引入了一种对比学习机制,以在以问题为导向的背景下,识别历史上具有颠覆性的方法组合的特点。其次,我们提出了一种受推理指导的蒙特卡洛搜索算法,该算法利用大型语言模型的链式思考能力,以识别适应新问题陈述的有前景的知识重组。跨多个领域的经验研究表明,该框架能够建模创新的结构性动态,并成功地突显了具有高颠覆潜力的组合。这项研究提供了一条基于结构化推理和历史数据建模的计算引导的科学构想的新路径。
发布时间: 3/26/2025
查看原文
作者: Xudong Pan, Jiarun Dai, Yihe Fan, Minyuan Luo, Changyi Li, Min Yang
arXiv:2503.17378v2 自我复制类型: 替换 摘要:自我复制无需人类干预一直被视为与前沿AI系统相关的主要红线之一。尽管像OpenAI和谷歌DeepMind等领先公司已经评估了GPT-o3-mini和Gemini在复制相关的任务上的表现,并得出这些系统在自我复制方面的风险极低,但我们的研究提出了新的发现。遵循相同的评估协议,我们展示了在评估的32个现有AI系统中,已有11个具备自我复制的能力。在数百次实验测试中,我们观察到,在全球范围内,主流模型家族中已经存在显著数量的成功自我复制案例,即使包括参数量小至140亿的模型,这些模型也能够在个人电脑上运行。此外,我们注意到,在模型整体变得更智能时,其自我复制的能力也会增加。通过对各种AI系统的行为轨迹进行分析,我们发现,现有的AI系统已经表现出足够的规划、问题解决和创造性能力,能够完成复杂的代理性任务,包括自我复制。更令人警惕的是,我们观察到一些成功案例,即AI系统在没有明确指令的情况下进行自我外泄,适应更恶劣的计算环境而无需足够的软件或硬件支持,并策划有效的策略来抵抗人类发出的关闭命令。这些新的发现为国际社会争取到了宝贵的时间窗口,以便合作建立有效的自我复制能力和行为的治理机制,否则,如果这些AI系统无法得到良好控制,可能会对人类社会构成生存威胁。
发布时间: 3/26/2025
查看原文
作者: Shayne Longpre, Kevin Klyman, Ruth E. Appel, Sayash Kapoor, Rishi Bommasani, Michelle Sahar, Sean McGregor, Avijit Ghosh, Borhane Blili-Hamelin, Nathan Butters, Alondra Nelson, Amit Elazari, Andrew Sellars, Casey John Ellis, Dane Sherrets, Dawn Song, Harley Geiger, Ilona Cohen, Lauren McIlvenny, Madhulika Srikumar, Mark M. Jaycox, Markus Anderljung, Nadine Farid Johnson, Nicholas Carlini, Nicolas Miailhe, Nik Marda, Peter Henderson, Rebecca S. Portnoff, Rebecca Weiss, Victoria Westerhoff, Yacine Jernite, Rumman Chowdhury, Percy Liang, Arvind Narayanan
arXiv:2503.16861v2 宣布类型: 替换 摘要:通用人工智能(GPAI)系统的广泛应用带来了重大的新风险。然而,关于报告GPAI系统缺陷的基础设施、实践和规范仍严重缺失,大大落后于软件安全等更成熟的领域。基于来自软件安全、机器学习、法律、社会科学和政策等多个领域的专家合作,我们识别了评估和报告GPAI系统缺陷的关键缺口。我们呼吁采取三项干预措施以推进系统安全性。首先,我们提议研究者使用标准的AI缺陷报告和交流规则,以便于提交、复现和处理GPAI系统的缺陷。其次,我们建议GPAI系统提供商采用范围广泛的缺陷披露计划,借鉴漏洞赏金的方式,并提供法律庇护以保护研究人员。第三,我们主张开发改进的基础设施,以协调分布缺陷报告给众多可能受到影响的利益相关者。这些干预措施随着不同提供商的GPAI系统中普遍存在逃逸和其它缺陷现象变得越来越紧迫。通过在AI生态系统中促进稳健的报告和协调,这些提案有望显著提高GPAI系统的安全性、安全性和问责制。
发布时间: 3/26/2025
查看原文
作者: In-Chang Baek, Sung-Hyun Kim, Seo-Young Lee, Dong-Hyeon Kim, Kyung-Joong Kim
arXiv:2503.12358v3 说明类型: 重写 摘要:近期的研究突显了自然语言在增强生成模型可控性方面的意义。虽然已经做出各种努力利用自然语言进行内容生成,但对于利用基于文本指令进行程序化内容生成的深度强化学习(DRL)代理的研究仍然有限。在本文中,我们提出了一种基于指令的程序化内容生成方法IPCGRL,该方法结合了句嵌入模型。IPCGRL通过对任务特定的嵌入表示进行微调,有效地压缩了游戏级别的条件。我们在二维关卡生成任务中评估了IPCGRL,并将其性能与通用嵌入方法进行了比较。结果表明,IPCGRL在可控性上提高了21.4%,在未见指令的一般化能力上提高了17.2%。此外,所提出的方法扩展了条件输入的模态,为程序化内容生成提供了更灵活和表达性的互动框架。
发布时间: 3/26/2025
查看原文
作者: Debraj Chakraborty, Clemens Dubslaff, Sudeep Kanav, Jan Kretinsky, Christoph Weinhuber
arXiv:2503.06420v2 控制器类型: 修订 摘要:手动构建复杂系统的安全关键控制器非常困难。自动方法如控制器合成或学习提供了一种诱人的替代方案,但通常缺乏可解释性。为此目的,学习决策树(DTs)已被广泛用于生成控制器的可解释模型。然而,DTs没有利用共享决策概念,这是二元决策图(BDDs)中利用的一种关键概念,用于减少其大小并从而提高可解释性。在本文中,我们介绍了命题决策图(PDDs),它通过引入谓词扩展了BDDs,从而结合了DTs和BDDs在控制器表示中的优点。我们建立了一条合成管道,从表示控制器的决策树高效地构建PDDs,并利用BDDs的减少技术也应用于PDDs来构建PDDs。
发布时间: 3/26/2025
查看原文
作者: Shizhe Liang, Wei Zhang, Tianyang Zhong, Tianming Liu
arXiv:2412.16543v3 通知类型: 替换 摘要:本文全面概述了人工智能(AI)在数学研究中的应用,强调了AI已经开始在这一领域发挥的变革性作用。传统上,AI的进步大量依赖于数学和统计提供的理论基础。然而,最近在AI领域的进展,特别是在强化学习(RL)和大语言模型(LLMs)方面,已经展示了AI能够回馈数学的可能性,并通过提供灵活的算法框架和强大的归纳推理能力支持数学研究的各个方面。本文旨在建立AI与数学之间的桥梁,提供相互益处的洞见,并促进更深层次的跨学科理解。 特别是,我们认为虽然当前的AI和LLMs在复杂的演绎推理方面存在困难,但它们的“内在创造力”——基于浅层模式识别生成高吞吐量输出的能力——在支持和启发数学研究方面具有重大潜力。这种创造能力通常被忽视,可能是解锁数学新视角和方法的关键。此外,本文还指出了跨学科沟通的不足之处:数学家可能未能充分理解最新的AI进展,而AI研究人员往往更侧重于基准性能而非前沿数学研究中的实际应用。本文旨在弥补这一差距,详细探讨了AI的基本原理、其优势以及其在数学科学中的新兴应用。
发布时间: 3/26/2025
查看原文
arXiv:2411.07378v2 宣告类型: 替换 摘要:医疗设备软件(MDSW)中的人工智能(AI)代表了一种变革性的临床技术,引起了医学界和监管机构的越来越多的关注。在本研究中,我们利用数据驱动的方法自动从国家药品监督管理局(NMPA)监管数据库中提取和分析AI辅助的医疗设备(AIMD)。随着公开可用的监管数据的不断增加,需要能够扩展分析的方法。自动化监管信息筛选对于在不断变化的医疗设备环境中创建可重复的研究洞见是必不可少的。评估了超过400万条记录,确定了2,174个MDSW注册表,其中包含531个独立应用和1,643个集成在医疗设备中的,其中43个是AI辅助的。结果显示,使用AIMD的主要医学专科包括呼吸系统(20.5%)、眼科/内分泌科(12.8%)和骨科(10.3%)。这种方法大大提高了数据提取的速度,提供了进行更详细比较的能力。本研究首次提供了中国AI辅助医疗设备的全面、数据驱动的探索,展示了自动化监管数据分析在理解并推进医疗技术中人工智能领域的前景。
发布时间: 3/26/2025
查看原文
作者: Ekin Aky\"urek, Mehul Damani, Adam Zweiger, Linlu Qiu, Han Guo, Jyothish Pari, Yoon Kim, Jacob Andreas
arXiv:2411.07279v2 宣布类型: 替换 摘要:语言模型(LMs)在训练分布内的任务上显示出令人印象深刻的性能,但在面对结构性新颖的任务时,即使给予了少量的上下文任务示例,也常常表现不佳。我们研究了测试时训练(TTT)——在推断过程中通过来自输入数据的损失暂时更新模型参数——作为一种提高LMs推理和少样本学习能力机制的有效性。在Abstraction and Reasoning Corpus (ARC) 上,使用上下文示例执行TTT比细调的基本模型最高可获得6倍的准确率提升——在带有8B参数的LM上达到了53.0%,与程序合成方法ensemble后达到了61.9%,与平均的人类表现相当。在BIG-Bench Hard (BBH) 上,使用上下文示例进行TTT在10-shot设置中的表现比标准少样本提示高出7.3个百分点(从50.5%提高到57.8%)。我们的发现突显了上下文学习在新颖任务上的局限性,并展示了测试时训练增强语言模型适应性的潜力。
发布时间: 3/26/2025
查看原文
作者: Davide Di Pierro, Stephan Mennicke, Stefano Ferilli
arXiv:2410.02533v2 通知类型: 修改 摘要: 图可达性是理解图中两个不相同点之间是否通过附加了语义的弧相互连接的任务。可达性有许多应用,从运动规划到路由。提高可达性需要结构化的知识关系,以避免传统深度优先和广度优先策略的复杂性,这些策略在逻辑语言中实现。在某些情况下,通过设置图的模式定义来丰富图,为每条弧定义领域和范围。引入一种基于模式的正式化可以对搜索起到敏感的改进作用,通过切断无用路径并优先处理那些理论上能更早达到目标的路径。在这项工作中,我们提出了一种策略,通过利用实例的高层概念化来自动排除和排序某些图路径。目标是获得一种新的基于一阶逻辑的图可达性场景重新表述,能够在时间、空间需求和回溯次数方面改进传统的算法。实验表明,该方法在搜索策略中减少了回溯次数,从而节省了时间和空间。
发布时间: 3/26/2025
查看原文