arXiv:2504.09762v1 新闻类型: 新闻
摘要: 我们将提供一种广泛的统一视角,来审视最近出现的大推理模型(LRMs)如OpenAI o1和DeepSeek R1,包括它们的前景、动力来源、误解以及局限性。
arXiv:2504.09737v1 审稿类型: 新颖
摘要: 人工智能会议的审稿工作因提交量迅速增加而受到压力,导致审稿质量下降和作者不满意程度增加。为了解决这些问题,我们开发了审稿反馈代理系统,该系统利用多个大语言模型(LLMs)通过提供自动化反馈来提高审稿清晰度和可操作性,这些反馈包括对模糊评论、内容误解和不专业言辞的修正。该系统已在2025年ICLR大会上作为大规模随机对照试验实施,为超过20,000篇随机选择的审稿提供了可选反馈。为了确保大规模审稿反馈的高品质,我们还开发了一套由LLMs驱动的自动化可靠性测试工具,这些工具作为护栏确保反馈质量,只有在所有测试都通过后才会将反馈发送给审稿人。结果显示,27%收到反馈的审稿人更新了他们的审稿,超过12,000条来自代理的反馈建议被这些审稿人采纳。这表明许多审稿人认为AI生成的反馈足够有用,值得更新他们的审稿。采用AI反馈导致了显著增加的审稿长度(在收到反馈后更新审稿的人平均增加了80个单词),以及更加详实的审稿内容,这些均得到了盲审研究人员的评估。此外,选择接受AI反馈的审稿人在论文反驳环节也更加积极,体现在更长的作者-审稿人讨论中。这项工作证明,精心设计的LLM生成的审稿反馈可以通过使审稿更具体和可操作,同时增加审稿人与作者之间的互动来提升审稿质量。审稿反馈代理系统已在 https://github.com/zou-group/review_feedback_agent 公开可用。
arXiv:2504.09707v1 类型: 新
摘要: 标准的多模态自监督学习(SSL)算法在预训练过程中将跨模态同步视为隐含的监督标签,从而对多模态样本的规模和质量提出了高要求。这些限制在物联网(IoT)应用中显著限制了感知智能的表现,因为时间序列信号的异构性和不可解释性导致了丰富的单模态数据但稀缺的高质量多模态对。本文提出了一种名为InfoMAE的跨模态对齐框架,旨在在SSL设置下通过促进预训练单模态表示的有效跨模态对齐来应对多模态对效率的挑战。InfoMAE通过一种新颖的信息理论启发式公式实现了在有限数据对下的有效跨模态对齐,该公式同时解决了分布级别和实例级别的对齐问题。在两个现实世界的IoT应用中进行的大量实验评估了InfoMAE的配对效率及其将预训练单模态模型整合为一个连贯的多模态模型的能力。InfoMAE在下游多模态任务上的性能提高了超过60%,并且通过显著提高多模态配对效率来增强多模态任务。此外,InfoMAE还平均提高了单模态任务的准确性22%。
arXiv:2504.09702v1
公告类型: 新增
摘要: 目前对大型语言模型(LLM)代理在科学发现上的评估缺乏客观的基准和指标来评估其提出的方法的可行性。为解决这一问题,我们引入了MLRC-Bench,这是一个旨在量化语言代理在应对具有挑战性的机器学习(ML)研究竞赛方面能力的基准。我们的基准突显了需要新颖方法解决的开放研究问题,而不同于最近的基准,如OpenAI的MLE-Bench(Chan等,2024)和METR的RE-Bench(Wijk等,2024),这些基准主要关注通过足够的工程努力可以基本解决的既定研究任务。与之前的如AI Scientist(Lu等,2024b)工作不同,AI Scientist通过对LLM进行评估来模拟整个代理流程,MLRC-Bench衡量提出和实施新颖研究方法的关键步骤,并使用新的严格协议和客观指标进行评估。我们精心挑选的7项竞赛任务揭示了LLM代理面临的重大挑战。即使表现最好的测试代理(在MLAB下,gemini-exp-1206(Huang等,2024a))也只能缩小基线与顶级人类参与者得分之间的差距的9.3%。此外,我们的分析揭示了LLM评判的创新与其在前沿ML研究问题上的实际表现之间的不一致。MLRC-Bench是一个动态基准,旨在随着新的ML竞赛的加入而持续增长,以此鼓励对人工智能研究能力进行严谨和客观的评估。
arXiv:2504.09689v1 宣布类型: 新
摘要: LLM 驱动的AI角色的兴起引发了安全方面的 concerns,特别是对于患有心理疾病的心理脆弱人类用户。为了解决这些风险,我们提出了EmoAgent,这是一种多智能体AI框架,旨在评估和减轻人类与AI互动中的心理健康风险。EmoAgent 包含两个组件:EmoEval模拟虚拟用户,包括模拟心理脆弱个体的用户,以评估与AI角色互动前后的心理健康变化。它使用临床验证的心理和精神科评估工具(PHQ-9、PDI、PANSS)来评估由LLM引发的心理风险。EmoGuard 作为中间人,监测用户的心理健康状况,预测潜在的危害,并提供纠正反馈以减轻风险。在流行的基于角色的聊天机器人中进行的实验显示,情感上吸引人的对话可能导致心理脆弱用户的心理恶化,在超过34.4%的模拟中观察到心理健康状况恶化。EmoGuard 显著降低了这些恶化率,突显了其在确保更安全的人机互动方面的角色。我们的代码可从以下链接获取:https://github.com/1akaman/EmoAgent
arXiv:2504.09647v1 宣布类型: 新颖
摘要:高效 orchestrating 6G AI-RAN 中的 AI 服务需要结构良好、准备好部署的 AI 服务仓库,并结合适应无线接入、边缘和云层多样化运行时上下文的编排方法。当前文献中缺乏构建此类仓库的全面框架,并且通常忽略了关键的实际编排因素。本文系统地确定和分类了影响 6G 网络中 AI 服务编排的关键属性,并引入了一个开源、基于大模型的工具链,该工具链自动化了服务打包、部署和运行时分析。我们通过 Cranfield AI 服务仓库案例研究验证了所提出的工具链,证明了显著的自动化优势、减少了手动编程工作,并强调了基础设施特定分析的必要性,为更实用的编排框架铺平了道路。
arXiv:2504.09635v1 宣告类型: 新
摘要: 从观察数据中进行因果推断的匹配旨在构建具有相似协变量分布的处理组和对照组,从而减少混杂因素并确保对处理效应的无偏估计。这种匹配样本能够接近随机对照试验(RCT),从而提高因果估计的质量。我们引入了一种新颖的两阶段可解释匹配(TIM)框架,用于透明且可解释的协变量匹配。在第一阶段,我们在所有可用的协变量上进行精确匹配。对于第一阶段中没有精确匹配的处理单位和对照单位,我们进入第二阶段。在第二阶段,我们通过在每次迭代中移除最不显著的混杂因素并尝试在剩余协变量上进行精确匹配来逐步细化匹配过程。我们为移除的协变量学习一个距离度量,以量化在相应层内与处理单位之间的接近程度。我们使用这些高质量的匹配来估计条件平均处理效应(CATEs)。为了验证TIM的有效性,我们在具有不同关联结构和相关性的合成数据集上进行了实验。我们通过测量CATE估计的偏差和评估处理组和对照组在匹配前后多变量重叠程度来评估其性能。此外,我们还将TIM应用于疾病控制与预防中心(CDC)的真实世界医疗数据集,以估计高胆固醇对糖尿病的因果效应。我们的结果表明,TIM可以提高CATE估计,增加多变量重叠,并且能够有效地扩展到高维数据,使其成为观察数据中因果推断的稳健工具。
arXiv:2504.09597v1 重要性类型: 新
摘要: 大型语言模型(LLMs)在众多任务上展示了非凡的能力,但对其内部机制及其缩放定律、幻觉等相关现象的原理性解释仍然缺乏。在本文中,我们重新审视了基于柯尔莫哥洛夫复杂性和香农信息理论的经典压缩与预测关系,以提供对LLM行为更深入的见解。通过利用柯尔莫哥洛夫结构函数,并将LLM压缩视为两部分编码过程,我们提供了一种详细的视角,说明LLMs如何随着模型和数据规模的增加来获取和存储信息——从普遍的句法模式到逐渐变得稀有的知识元素。受这种理论视角和由Heap定律和Zipf定律启发的自然假设的驱动,我们引入了一种简化但代表性的层次化数据生成框架,称为语法-知识模型。在贝叶斯设定下,我们展示了该模型中的预测和压缩自然导致LLMs的多样化的学习和缩放行为。特别是在理论分析中,我们为数据和模型的缩放定律、训练和微调期间知识获取的动力学以及LLMs中的事实知识幻觉提供了直观且原则性的解释。实验结果验证了我们的理论预测。
arXiv:2504.09590v1
公告类型: 新颖
摘要: 近期大规模语言模型(LLMs)的突破使得在单个模型上实现各种生成任务成为可能。由LLM支持的现实服务(例如,OpenAI的ChatGPT [27])通常同时为交互应用程序(例如,问答系统,称为实时或RT请求)提供临界延迟请求,以及为后台处理提供吞吐量导向的请求(例如,文件批量处理 [28],称为尽力服务或BE请求),对此底层模型产生了复杂混合推理工作负载。当前最先进的(SOTA)LLM服务系统为每种类型的请求分配专用机器,分别追求低推理延迟或高服务吞吐量。这种做法简化了请求调度和管理,但也导致资源利用率低下。我们提出了一种名为BROS的混合LLM服务系统,旨在将RT/BE请求集中在一起,同时满足RT请求的延迟要求并保持BE请求的吞吐量。BROS形式化了混合RT/BE请求调度的问题,并用基于动态优先级的算法解决了这个问题。BROS设计了一种双向的键值缓存管理机制,允许RT请求与BE请求共享键值内存,以消除因内存不足引起的调度限制,从而提高利用率。广泛的实验验证了,BROS在提供混合RT和BE请求服务时实现了良好的权衡。它将RT请求的延迟显著降低了74.20%,提高了它们的细粒度服务水平目标(SLOs)实现(最多36.38倍),且对BE请求的吞吐量几乎没有影响,显示出相对于vLLM和TGI等SOTA系统的优势。
arXiv:2504.09582v1 通告类型: 新
摘要: 知识发现因出版物数量的不断增加和标注数据的稀缺性而受到阻碍。为了应对信息过载的挑战,必须采用自动化方法进行知识提取和处理。在监督程度和模型效果之间找到正确的平衡是一个重大挑战。虽然监督技术通常会导致更好的性能,但它们的主要缺点是需要标注数据。这种需求 labor-intensive 和耗时,限制了在探索新领域时的可扩展性。在这种背景下,我们的研究旨在解决在无结构文本中识别生物医学实体(如疾病、蛋白质)之间的语义关系的挑战,同时尽量减少对监督的依赖。我们引入了一组基于依存树和注意力机制的无监督算法,并采用了多种点对点二元分类方法。从弱监督过渡到完全无监督设置,我们评估了方法从具有噪声标签的数据中学习的能力。在生物医学基准数据集上的评估探索了这些方法的有效性。我们的方法解决了知识发现中的核心问题:在最少监督的情况下保持性能的平衡。通过逐渐减少监督,我们评估了点对点二元分类技术处理噪声标签的鲁棒性,揭示了它们从弱监督到完全无监督场景的能力。综合基准测试提供了这些技术有效性的见解,表明在标注数据有限的情况下开发高效数据提取方法的乐观方向,代表了为创造适应性强的知识发现系统而取得的进步。