arXiv:2502.05439v2 宣布类型:替换
摘要:大型语言模型的出现带来了自主系统的新时代,在这个时代,人工智能程序在各个领域的自主决策能力表现出色。本文探讨了金融服务业中的自主系统工作流程。特别地,我们构建了包含人为监督模块的自主团队,可以有效协作完成复杂的建模和模型风险管理工作(MRM)。建模团队由法官代理和执行特定任务的多个代理组成,这些任务包括探索性数据分析、特征工程、模型选择/超参数调节、模型训练、模型评估以及编写文档。MRM团队由法官代理和专门执行任务的代理组成,这些任务包括检查建模文档的合规性、模型复制、概念上的合理性、结果分析以及编写文档。我们通过信用欺诈检测、信用卡审批和投资组合信用风险建模数据集的一系列数值示例,展示了建模和MRM团队的有效性和鲁棒性。
arXiv:2501.15857v4 宣告类型: 替代
摘要:人类通过整合各种来源的知识展示了惊人的组合推理能力。例如,如果从一个来源学习到(B=f(A)),从另一个来源学习到(C=g(B)),即使没有同时遇到ABC,他们也能推导出(C=g(B)=g(f(A))),展示了人类智能的泛化能力。本文介绍了一个合成学习任务"FTCT"(Training Fragmented, Chained at Testing),以验证Transformer在复制这种技能方面的潜力,并解释其内部机制。在训练阶段,数据由总体因果图中的分离知识片段组成。在测试阶段,Transformer必须通过整合这些片段来推断完整的因果图轨迹。我们的发现表明,少样本链式思维提示使Transformer能够在FTCT中进行组合推理,通过揭示正确的片段组合,即使这些组合不在训练数据中出现。此外,组合推理能力的出现与模型复杂度和训练-测试数据的相似性密切相关。我们从理论上和实验上提出了Transformer从训练中学习一种潜在的可泛化程序,并在测试过程中实现有效的组合推理。
arXiv:2412.19723v2 通告类型:替换
摘要:由视觉-语言模型(VLMs)驱动的图形用户界面(GUI)代理展示了类似人类的计算机控制能力。尽管它们在促进数字自动化方面具有实用价值,但仍存在一个关键瓶颈:收集用于训练的高质量轨迹数据。收集此类数据的常见做法依赖于人工监督或通过执行预定义任务生成合成数据,这两种方法要么资源密集型,要么无法保证数据质量。此外,这些方法还存在数据多样性有限以及合成数据与真实环境之间巨大差距的问题。为了解决这些挑战,我们提出了OS-Genesis,这是一种新颖的GUI数据合成管道,逆转了传统的轨迹数据收集过程。OS-Genesis 使代理先感知环境并在步骤级上进行交互,然后回顾性地推导高质量的任务以实现轨迹级探索。然后采用轨迹奖励模型来确保生成的轨迹的质量。我们证明,使用OS-Genesis训练GUI代理能够在高度具有挑战性的在线基准测试中显著提高其性能。深入分析进一步验证了OS-Genesis 的高效性及其在数据质量和多样性方面优于现有合成方法的优势。我们的代码、数据和检查点可在 https://qiushisun.github.io/OS-Genesis-Home/ 获取。
arXiv:2412.12119v2 公告类型:替换
摘要:提高大型语言模型(LLMs)的规划和推理能力是解锁其在复杂和影响力强的领域中可靠执行潜力的关键步骤。在本文中,我们旨在通过棋盘游戏(国际象棋、费舍尔随机/国际象棋960、四连珠和六角棋)来展示这一点,并表明基于搜索的规划可以在LLM的游戏表现中带来显著的改进。我们介绍了两种主要方法并进行了对比:在外部搜索中,模型引导蒙特卡罗树搜索(MCTS)的展开和评估,而不调用外部游戏引擎;在内部搜索中,模型被训练生成上下文相关的搜索树及其最终选择。两种方法都基于预训练在相关领域知识上,能够可靠地捕捉各自环境中的转移和价值函数,几乎没有幻觉。我们对我们的LLM搜索实现与特定游戏的最先进的引擎进行了评估,展示了相对于基础模型的显著性能提升,并在国际象棋中达到了大师级水平的表现,同时使用了接近人类搜索预算的方法。我们提出的方法结合了搜索与领域知识,不仅适用于棋盘游戏,还暗示了更广泛未来的潜在应用。
arXiv:2411.12256v2 宣告类型: 替换
摘要: 概率电路(PCs)是一种统一的概率模型表示形式,支持可处理的推理。诸如可控文本生成等众多PC的应用依赖于高效乘法电路的能力。现有的乘法算法要求电路保持相同的结构,即变量的作用域分解遵循同一vtree。在此工作中,我们提出了并研究了重构结构化的(可分解的)PC的任务,即,将一个结构化的PC转换为符合目标vtree的形式。我们提出了一种针对此问题的通用方法,并展示了它导致了适用于不同vtree的电路乘法的新多项式时间算法,以及一个保持结构分解性的实际深度减少算法。我们的工作为可处理的PC推理打开了新的途径,表明有可能在训练时使用较少限制的PC结构,在推理时通过改变其结构实现高效的推理。
arXiv:2411.08165v2 宣告类型: 替换
摘要: 知识图谱补全(KGC)任务旨在从不完整的三元组中推断缺失的实体。现有的基于嵌入的方法仅依赖于知识图谱中的三元组,这使其容易受到虚假关系模式和长尾实体的影响。另一方面,基于文本的方法在知识图谱三元组和自然语言之间存在语义差距。除了三元组之外,实体上下文(例如标签、描述、别名)在增强知识图谱方面也发挥着重要作用。为了应对这些局限性,我们提出了一种名为KGR3的上下文增强框架,用于KGC。KGR3由三个模块组成。首先,检索模块从知识图谱中收集支持三元组,从基础嵌入模型中收集可能的候选答案,并为每个相关实体检索上下文。然后,推理模块使用大型语言模型为每个查询三元组生成潜在答案。最后,重新排名模块将上述两个模块的候选答案结合起来,并微调LLM以提供最佳答案。广泛的实验表明,KGR3在广泛使用的数据集上一致性地提高了各种KGC方法的效果。具体而言,KGR3的最佳变体在FB15k-237和WN18RR数据集上的绝对Hits@1提高了12.3%和5.6%。
arXiv:2408.05794v2 类型:替换
摘要:随着大型多模态模型(LMMs)的兴起及其在生成和解释复杂内容方面的广泛应用,传播带有偏见和有害内容的“混淆者表情包”的风险依然显著。当前的安全措施往往无法检测到“混淆者表情包”中隐秘嵌入的仇恨内容。为解决这一问题,我们提出了 \textsc{HateSieve},一种新的框架,旨在增强对表情包中仇恨元素的检测和分割能力。\textsc{HateSieve} 包含一种新颖的对比生成表情包模型,该模型创建语义配对的表情包;一种定制的三元组数据集,用于对比学习;以及一个图像-文本对齐模块,生成上下文意识嵌入,以实现准确的表情包分割。在仇恨表情包数据集上的实证实验表明,\textsc{HateSieve} 不仅在参数数量较少的情况下超过了现有的 LMMs,在性能上也显示出强大的机制,能够精确地识别和隔离仇恨内容。请注意:包含有关仇恨言论的学术讨论;请谨慎观看。
arXiv:2309.16960v4 公告类型: 替换
摘要:理解一个引导状态到动作映射以最大化奖励的强化学习策略,需要有一套人类可理解的解释。在本文中,我们介绍了一套线性时序逻辑公式,用于为策略提供解释,并提出了一种通过这些公式搜索最佳解释给定策略的算法。我们的重点在于阐明策略最终实现的目标以及其执行过程中所维持的前提条件。我们通过模拟的捉旗游戏和泊车环境展示了我们提出的方法的有效性。
arXiv:2504.21851v1 类别: cross
摘要: 目的:虽然大型语言模型(LLMs)已被广泛用于协助临床医生并支持患者,但目前没有工作研究对话系统在标准诊断访谈和评估中的应用。本研究旨在通过开发一个基于LLMs的对话系统,复制临床医生的行为,以弥补精神卫生保健 accessibility 的差距。方法与材料:我们介绍了TRUST,一种协作的LLM模块框架,能够进行创伤后应激障碍(PTSD)的正式诊断访谈和评估。为了生成适当的临床响应,我们提出了一套专门针对临床访谈的对话行为方案。此外,我们开发了一种基于实际访谈转录的患者模拟方法,以替代耗费时间和成本的临床医生手动测试。结果:设计了一系列全面的评估指标,从代理和患者模拟的角度评估对话系统。通过对话和临床专家的专家评估表明,TRUST在临床访谈方面的表现与现实生活中的临床访谈相当。讨论:我们的系统达到了普通临床医生的水平,未来在沟通风格和响应适宜性方面仍有改进空间。结论:我们的TRUST框架展示了其促进精神卫生保健可及性的潜力。
arXiv:2504.21849v1 宣布类型:跨学科
简介:治理机构必须应对社会风险,包括生成式AI带来的风险。本研究通过实证方法探讨公众对机构和AI技术的信任以及感知风险如何影响对AI监管的偏好。利用2023年全国代表性的人工智能、道德与知觉(AIMS)调查,我们评估了公众对政府、AI公司和AI技术的信任,以及对如减缓AI发展或全面禁止高级AI的监管措施的支持程度。研究发现,广泛支持AI监管,感知风险在形成政策偏好方面发挥着重要作用。政府信任较高的人支持监管,而对AI公司和AI技术信任较高的人则不太支持限制措施。政府信任和感知风险显著预测对软性(如减缓发展)和强硬(如禁止AI系统)监管干预措施的偏好。这些结果突显了公众意见在AI治理中的重要性。随着AI能力的发展,有效的监管将需要在公众对风险的担忧与对机构的信任之间寻求平衡。本研究为政策制定者在AI治理中提供了基础的实证基准,并强调了进一步研究公众信任、风险感知和监管策略在不断发展的AI背景下的重要性。