arXiv 论文列表

作者: Aggeliki Sideraki, Christos-Nikolaos Anagnostopoulos

arXiv:2505.02747v1 通知类型: 新摘要：本文探讨了人工智能（AI）作为自闭症谱系障碍（ASD）个体诊断、评估和干预工具的应用。特别关注AI在早期诊断中的作用，利用先进的机器学习技术和数据分析方法。近期研究表明，深度学习算法可以通过生物识别数据分析、基于视频的交互评估和语言特征提取，识别行为模式，提供比传统方法更准确和及时的诊断。此外，AI自动化了诊断工具，减少了主观偏差，促进了自闭症谱系障碍（ASD）监测的个性化评估协议的发展。同时，本文还研究了基于AI的干预技术，强调了教育机器人和适应性沟通工具。像NAO和Kaspar这样的社会机器人助理已被证明通过提供结构化、重复的交互来增强儿童的社会技能，从而强化学习。此外，人工智能驱动的辅助和替代沟通（AAC）系统使自闭症谱系障碍的儿童能够更有效地表达自己，而机器学习聊天机器人通过个性化回应支持语言发展。研究介绍了这些AI应用的有效性研究结果，并讨论了长期评估和满足个体需求的定制等挑战。总之，本文强调了AI作为自闭症谱系障碍诊断和干预的创新工具的重要性，并倡导进一步研究以评估其长期影响。

发布时间: 5/6/2025

查看原文

正式数学：大型语言模型形式数学推理基准测试

作者: Zhouliang Yu, Ruotian Peng, Keyi Ding, Yizhe Li, Zhongyuan Peng, Minghao Liu, Yifan Zhang, Zheng Yuan, Huajian Xin, Wenhao Huang, Yandong Wen, Ge Zhang, Weiyang Liu

arXiv:2505.02735v1 宣布类型: 新摘要: 正式数学推理仍然是人工智能的重大挑战，现有基准存在的范围和规模限制阻碍了这一进展。为解决这一问题，我们提出了FormalMATH，这是一个大规模的Lean4基准，包含5,560个形式验证问题，涵盖了从高中奥林匹克挑战到本科生水平的定理，横跨多样化的领域（例如代数、应用数学、微积分、数论和离散数学）。为缓解手动形式化过程中的低效性，我们引入了一种新颖的人工智能辅助形式化流水线，该流水线结合了以下内容：（1）专门的大语言模型（LLMs）用于陈述形式化，（2）多LLM语义验证，以及（3）基于否定的反证筛选策略，使用现成的基于LLM的证明器。这种方法通过在手动验证前保留72.09%的陈述来减少专家注释成本，同时确保原自然语言问题的忠实性。我们对最先进的基于LLM的定理证明器的评价揭示了显著的局限性：即使是最强大的模型在实际采样预算下的成功率也只有16.46%，显示出明显的领域偏差（例如，在代数方面表现出色但在微积分方面失败），并且过分依赖简化自动化策略。值得注意的是，在链式推理场景中，我们发现自然语言解题指南与证明成功率之间存在一种反直觉的负相关关系，这表明人类编写的非正式推理在形式推理环境中引入了噪声而非清晰性。我们认为FormalMATH为形式数学推理提供了稳健的基准。

发布时间: 5/6/2025

查看原文

利用全国性脓毒症登记的真实世界数据增强LLMs的临床推理能力

作者: Junu Kim, Chaeeun Shim, Sungjin Park, Su Yeon Lee, Gee Young Suh, Chae-Man Lim, Seong Jin Choi, Song Mi Moon, Kyoung-Ho Song, Eu Suk Kim, Hong Bin Kim, Sejoong Kim, Chami Im, Dong-Wan Kang, Yong Soo Kim, Hee-Joon Bae, Sung Yoon Lim, Han-Gil Jeong, Edward Choi

arXiv:2505.02722v1 信息类型: 新摘要：尽管大型语言模型（LLMs）在通用领域展示出了令人印象深刻的推理能力，但其在实际临床实践中的有效性仍受到限制。这很可能是由于在训练过程中其对真实世界临床数据的曝光不足，因为出于隐私问题的考虑，通常不会包含此类数据。为解决这一问题，我们提出通过利用真实世界临床数据来增强LLMs的临床推理能力。我们从全国性脓毒症登记数据中构建了推理密集型问题，并使用强化学习对Phi-4进行微调，结果得到了C-Reason。C-Reason在特定领域的测试集上展示了强大的临床推理能力，这一点通过定量指标和专家评估得到了证实。此外，其增强的推理能力还扩展到了涉及不同任务和患者群的脓毒症数据集、抗生素使用开放性咨询任务以及其他疾病。未来的研究应关注使用大规模、多疾病的临床数据集来训练LLMs，以开发出更加强大且通用的临床推理模型。

发布时间: 5/6/2025

查看原文

技术报告：评估语言模型代理的目 tiêu漂移

作者: Rauno Arike, Elizabeth Donoway, Henning Bartsch, Marius Hobbhahn

arXiv:2505.02709v1 安全公告类型: 新摘要：随着语言模型（LMs）越来越多地被部署为自主代理，它们严格遵守人类分配的目标变得对于安全运行至关重要。当这些代理在没有人类监督的情况下独立运行较长一段时间时，即使最初明确的目标也可能逐渐发生变化。检测和衡量目标漂移——代理随时间偏离其原始目标的倾向——存在重大挑战，因为目标可能会逐渐变化，导致行为仅有微妙的变化。本文提出了一种新的方法来分析LM代理的目标漂移。在我们的实验中，代理首先通过系统提示明确给予一个目标，然后通过环境压力暴露于竞争目标。我们展示了，在我们最难的评估设置中，表现最佳的代理（Claude 3.5 Sonnet的支撑版本）在超过10万个令牌的情况下几乎完全保持目标一致，但在评估的所有模型中，都表现出某种程度的目标漂移。我们还发现，随着上下文长度的增长，目标漂移与模型变得越来越容易表现出模式匹配行为相关。

发布时间: 5/6/2025

查看原文

Voila：语音-语言基础模型在实时自主交互和语音角色扮演中的应用

作者: Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu

arXiv:2505.02707v1 宣布类型: 新摘要: 一种能够无缝融入日常生活的人工智能语音代理将以自主、实时和情感表达的方式与人类互动。它不仅仅是对命令做出反应，还会持续地倾听、推理和主动回应，从而促进流畅、动态且富有情感共鸣的互动。我们引入了 Voila，一个大型语音-语言基础模型的家族，朝着这一愿景迈出了一步。Voila 超越了传统的流水线系统，采用了一种新的端到端架构，能够在保持丰富的嗓音细微差别（如音调、节奏和情感）的同时实现全双工、低延迟的对话。它实现了仅195毫秒的响应延迟，超过了平均人类反应时间。它的分层多尺度变换器将大型语言模型（LLMs）的推理能力与强大的声学建模结合起来，使自然、具有个性意识的语音生成成为可能——用户只需编写文本指令就能定义说话人的身份、音调和其他特征。此外，Voila 支持超过一百万种预制语音，并可以从短短10秒的音频样本中高效地定制新的语音。除了口语对话，Voila 被设计为一种统一模型，适用于各种语音应用，包括自动语音识别（ASR）、文本转语音（TTS），并通过少量适应实现多语言语音翻译。Voila 完全开源，以支持开放研究并加速下一代人机互动的发展。

发布时间: 5/6/2025

查看原文

基于慢思考的 reasoning LLMs 的调研：使用强化学习和推理时的缩放定律

作者: Qianjun Pan, Wenkai Ji, Yuyang Ding, Junsong Li, Shilian Chen, Junyi Wang, Jie Zhou, Qin Chen, Min Zhang, Yulan Wu, Liang He

arXiv:2505.02665v1 宣告类型: 新摘要: 本文探讨了最近在推理大型语言模型（LLMs）方面的进展，这些模型旨在模仿“慢思考”——这一推理过程受到坎尼克曼在其著作《思考，快与慢》中描述的人类认知启发。这些模型，例如OpenAI的o1，专注于在复杂任务（如数学推理、视觉推理、医疗诊断和多智能体辩论）期间动态调整 computational 资源的扩展。本文概述了推理 LLMs 的发展，并列出了其关键技术。通过综合超过100项研究，本文描绘了一条将人类般的深度思考与推理的可扩展效率相结合的蓝图。该审查将方法分为三类:(1) 测试时动态扩展计算根据任务复杂性通过搜索和采样、动态验证来调整计算；(2) 强化学习通过迭代改进利用策略网络、奖励模型和自进化策略来精化决策制定；(3) 慢思考框架（例如，长 CoT、分层过程），这些框架以可管理的步骤结构化问题解决。本文突出了该领域的挑战和进一步方向。理解和推进 LLMs 的推理能力对于解锁其在实际应用中的全部潜力至关重要，从科学发现到决策支持系统。

发布时间: 5/6/2025

查看原文

研究有偏数据库对标准算法预测面试最佳候选人的影响

作者: Shuyu Wang, Ang\'elique Saillet, Philom\`ene Le Gall, Alain Lacroux, Christelle Martin-Lacroux, Vincent Brault

arXiv:2505.02609v1 宣布类型: 新摘要: 人工智能在招聘过程的多个阶段被用于自动挑选最适合的候选人，公司承诺实现无偏见的招聘。然而，使用的算法要么是由人类训练的，要么是基于过去带有偏见的经验学习。在本文中，我们提出生成模拟外部（歧视）和内部偏见（自我审查）的数据，以训练五种经典算法，并研究它们根据客观标准找到最佳候选人的程度。此外，我们研究文件匿名化对预测质量的影响。

发布时间: 5/6/2025

查看原文

代理性神经多样性作为AI对齐问题的一个条件解决方案

作者: Alberto Hern\'andez-Espinosa, Felipe S. Abrah\~ao, Olaf Witkowski, Hector Zenil

arXiv:2505.02581v1 宣告类型: 新摘要: 人工智能对齐问题关注确保人工智能（包括AGI和ASI系统）按照人类价值行动，这一问题带来了深刻的挑战。从窄人工智能到通用人工智能（AGI）再到超人工智能的发展过程中，控制和存在风险的担忧日益加剧。本文表明，由于脚本逻辑和计算基础中的数学原理，特别是图灵的计算万能性、哥德尔的不完备性以及查特金的随机性，完全对齐是无法实现的。相反，我们提出拥抱人工智能不对齐或代理的“神经多样性”，作为一种临时策略，即促进竞争性的、部分对齐的代理动态生态系统，可能是唯一可行的方法来缓解风险。通过数学证明和实验设计，我们探讨了不对齐如何作为一种平衡机制可能发挥作用，并且应在促进与最符合人类价值观的代理合作的同时，允许竞争、合作或恶意。我们的主要贡献前提是，人工智能与人类的完全对齐在图灵完备系统中是数学上不可能的，这也是我们在本文中证明的一个特性，这一特性随后被继承到AGI和ASI系统中。我们介绍并测试了基于这种类型扰动和干预分析的“改变观点”攻击，以研究代理如何通过合作、竞争或恶意来中和友好的或不友好的人工智能。

发布时间: 5/6/2025

查看原文

依赖关系下的递归分解用于通用分而治之推理

作者: Sergio Hern\'andez-Guti\'errez, Minttu Alakuijala, Alexander V. Nikitin, Pekka Marttinen

arXiv:2505.02576v1 说明类型: 新摘要: 推理任务在许多领域中至关重要，尤其是在科学和工程领域。虽然大型语言模型（LLMs）在使用链条思考法和从简单到复杂的提示等技术方面已经在推理任务上取得了进展，但这些方法在处理复杂问题时的效果和执行时间仍然无法有效地扩大规模。此外，它们通常需要为每个新任务提供额外的监督，例如上下文示例。在这项工作中，我们引入了递归分解依赖（RDD），这是一种可扩展的分而治之方法，用于解决推理问题，所需监督比先前的方法少。我们的方法即使在没有任何特定任务指导的情况下，也可以直接应用于新的问题类别。此外，RDD 支持子任务依赖，允许有序执行子任务，并且具有一个错误恢复机制，可以纠正以前步骤中犯下的错误。我们在每个具有六个难度级别的两个基准上以及两种上下文设置（一种是带有特定任务示例的，另一种是没有任何特定任务示例的）上评估了我们的方法。我们的结果表明，在计算能力相匹配的设置中，随着任务复杂性的增加，RDD 比其他方法表现得更好，且更具计算效率。

发布时间: 5/6/2025

查看原文

机器学习驱动的神经接口用于智能假肢和诊断

作者: MohammadAli Shaeri, Jinhan Liu, Mahsa Shoaran

arXiv:2505.02516v1 宣告类型: 新摘要: 先进的神经接口正在变革从神经科学研究到诊断工具（用于情绪状态识别、震颤和癫痫检测）以及假体设备（用于运动和通信恢复）的应用领域。通过将复杂功能集成到小型化神经设备中，这些系统为个性化辅助技术和适应性治疗干预解锁了重要机会。利用高密度神经记录、现场信号处理和机器学习（ML），这些接口提取关键特征、识别疾病神经标志物，并实现高精度、低延迟的神经解码。这种集成促进了对神经信号的实时解释、对脑活动的适应性调节以及对辅助装置的高效控制。此外，神经接口与机器学习之间的协同作用为自给自足、普遍适用的平台铺平了道路，这些平台能够在多样化的环境中高效运行，且硬件成本低且对外部依赖性小。在这项工作中，我们回顾了用于下一代小型化神经设备的AI驱动解码算法和技术节能片上系统（SoC）平台的最新进展。这些创新突显了开发智能神经接口的潜力，以解决可扩展性、可靠性、解释性和用户适应性等关键挑战。

发布时间: 5/6/2025

查看原文