LLM2D

arXiv 论文列表

作者: Daniel Romero-Alvarado, Fernando Mart\'inez-Plumed, Jos\'e Hern\'andez-Orallo
arXiv:2502.00365v1 评估类型: 交叉学科 摘要:AI评估器是一个外部的、理想的独立系统,它可以预测另一个AI系统的指标,例如损失值。评估器可以从许多其他AI系统的测试结果中获取信息,并具有灵活性,可以根据任何损失函数或评价规则进行训练:从平方误差到毒性度量。在这里我们提出一个问题:是否总是最优的评估器都是为了目标度量进行训练?或者,是否通过训练不同的度量然后再将预测映射回目标度量会更好?我们使用二十个涉及表格数据的回归和分类问题进行了实验研究,分别探讨了分别针对单调和非单调映射的回归损失和分类得分的问题,发现与直觉相反,优化更具有信息性的度量通常并不是始终更好的选择。令人惊讶的是,一些单调转换是具有前景的。例如,逻辑损失对于最小化回归中的绝对或二次误差是有用的,而对数得分有助于最大化分类中的二次或球形得分。
发布时间: 2/4/2025
查看原文
作者: Jia Li, Wenjie Zhao, Ziru Huang, Yunhui Guo, Yapeng Tian
arXiv:2502.00358v1 交叉公告类型 摘要: 与传统视觉分割不同,视听分割(AVS)不仅需要模型识别和分割对象,还需要确定这些对象是否是声源。近期利用变换器架构和强大的基础模型(如SAM)的视听分割方法在标准基准测试上取得了令人印象深刻的表现。然而,仍有一个重要的问题:这些模型是否真正整合了视听线索来分割发声对象?在本文中,我们系统地研究了这个问题在稳健性视听分割的背景下。我们的研究揭示了当前方法的基本偏差:它们倾向于主要基于视觉显著性生成分割掩码,而不考虑音频上下文。这种偏差导致在声音不存在或无关时预测不可靠。为了解决这一挑战,我们引入了AVSBench-Robust这一全面基准,其中包括多种负音频场景,例如静默、背景噪声和幕前声音。我们还提出了一种简单而有效的结合平衡训练、负样本以及分类器引导的相似性学习的方法。我们的大量实验表明,最先进的视听分割方法在负音频条件下表现一致地不佳,这证明了视觉偏差的普遍性。相比之下,我们的方法在标准度量和鲁棒性度量上均实现了显著改进,同时保持了近乎完美的假阳性率和高质量的分割性能。
发布时间: 2/4/2025
查看原文
作者: Yu Feng, Yangli-ao Geng, Yifan Zhu, Zongfu Han, Xie Yu, Kaiwen Xue, Haoran Luo, Mengyang Sun, Guangwei Zhang, Meina Song
arXiv:2502.00354v1 宣布类型: cross 摘要: 联邦学习(FL)因其隐私保护和协作学习的能力而引起了广泛关注。由于显著的统计异质性,传统的FL难以在多样化数据域中泛化共享模型。个性化联邦学习通过将模型分为一个全球共享部分和一个本地私有部分来解决这一问题,本地模型纠正由全局模型引入的表示偏差。然而,局部收敛的参数更能捕捉域特定的知识,而当前方法忽视了这些参数的潜在好处。为了应对这些局限性,我们提出了一种PM-MoE架构。该架构结合了个性化模块的混合以及基于能量的个性化模块去噪,使每个客户端能够从其他客户端选择有益的个性化参数。我们将PM-MoE架构应用于九种最近的基于模型划分的个性化联邦学习算法,实现性能改进,且额外训练量极小。在六个广泛采用的数据集和两个异质性设置下的广泛实验验证了我们方法的有效性。源代码可在https://github.com/dannis97500/PM-MOE获得。
发布时间: 2/4/2025
查看原文
作者: Yao Liu, Zhilan Liu, Tien Ping Tan, Yuxin Li
arXiv:2502.00351v1 交叉公告类型: 摘要:社会事件检测(SED)是一项专注于识别特定现实世界事件的任务,具有在各种领域广泛应用的潜力。它对于具有社交功能的许多移动应用程序至关重要,包括像Twitter、微博和Facebook这样的主要平台。通过使企业能够分析社会事件,SED为企业理解消费者偏好提供了有价值的信息,并支持公共服务机构处理紧急情况和灾害管理。由于事件检测数据具有层次结构,传统在欧氏空间中的方法往往难以捕捉到这种复杂的关系。尽管欧氏空间和双曲空间中现有的方法显示出了令人鼓舞的结果,但它们往往会忽视事件之间的多级关系。为了应对这些限制,本文提出了一种名为多级双曲图卷积与聚合注意力(MOHGCAA)的新型框架,旨在增强SED的性能。实验结果表明,在监督和无监督设置下均取得了显著的改进。为进一步验证所提框架的有效性和鲁棒性,我们在多个数据集上进行了广泛的评估,确认其在解决社会事件检测中的常见挑战方面的优越性。
发布时间: 2/4/2025
查看原文
作者: Zhongming Yu, Hejia Zhang, Yujie Zhao, Hanxian Huang, Matrix Yao, Ke Ding, Jishen Zhao
arXiv:2502.00350v1 Announce Type: cross 摘要:大型语言模型(LLM)代理的最新进展正在革命性地改变自主软件工程(ASE),使自动化编码、问题修复和功能改进成为可能。然而,软件问题的定位——精确地识别软件问题并导航到相关代码段——仍然是一个重大挑战。当前的方法往往由于LLM代理和精确代码搜索机制之间缺乏有效的集成而产生次优结果。本文介绍了OrcaLoca,这是一种改进LLM代理框架,通过优先级调度、与相关性评分结合的动作分解以及距离感知上下文修剪来提高软件问题定位的准确性。实验结果表明,OrcaLoca在SWE-bench Lite的功能匹配率方面成为新的开源最佳性能(65.33%)。此外,通过其补丁生成集成,它还通过提高开源框架最终解决问题率6.33个百分点。
发布时间: 2/4/2025
查看原文
作者: Md Mainul Abrar, Parvat Sapkota, Damon Sprouts, Xun Jia, Yujie Chi
arXiv:2502.00346v1 支持类型: cross 摘要:背景:由于复杂的射束相互作用,IMRT的实时治疗计划具有挑战性。AI已经提高了自动化水平,但现有的模型需要大量的高质量数据集,并且缺乏普遍适用性。深度强化学习(DRL)通过模仿人类的尝试与错误规划提供了有前途的替代方案。 目的:开发一种基于随机策略的DRL代理,该代理具有高效的训练、广泛的应用性和对抗性攻击下的鲁棒性,并使用快速梯度符号方法(FGSM)。 方法:使用Actor-Critic with Experience Replay(ACER)架构,该代理在逆向规划中调整治疗计划参数(TPPs)。训练基于前列腺癌IMRT病例,使用剂量体积直方图(DVHs)作为输入。该模型在单个患者案例上进行训练,在两个独立案例上进行验证,并在三个数据集中测试了300多个计划。使用ProKnow分数评估计划质量,并通过对抗性攻击测试其鲁棒性。 结果:尽管仅在单个案例上进行训练,但模型 généralization 好。在基于ACER的规划之前,平均计划分数为6.20±1.84;之后,93.09%的病例达到了完美的9分,平均分为8.93±0.27。该代理有效地优先调整最优的TPPs,并且在对抗性攻击下保持鲁棒性。 结论:基于ACER的DRL代理能够实现高效、高质量的前列腺癌IMRT治疗计划,展示了强大的泛化能力和鲁棒性。
发布时间: 2/4/2025
查看原文
作者: Yurui Li, Yuxuan Chen, Li Zhang, Shijian Li, Gang Pan
arXiv:2502.00345v1 类型: cross 摘要:分工(DOL)在促进合作中的重要作用在实际应用中得到了广泛认可。许多协同多智能体强化学习(MARL)方法已经引入了DOL的概念,以提高智能体之间的合作。然而,目前用于测试的大多数任务通常不需要DOL即可实现最优策略。此外,由于缺乏合适的任务,DOL概念在MARL方法中的充分利用仍未能实现。为了增强MARL方法在实际场景中的通用性和适用性,有必要开发出需要多智能体分工与合作的任务。在本文中,我们提出了一系列旨在满足这些要求的任务,这些任务的设计以现实世界的规则为指导。我们保证DOL和合作是完成任务的必要条件,并引入了三个因素来扩展所提任务的多样性,以涵盖更多的现实情况。我们对提出的任务进行了10种协同MARL方法的评估。结果表明,所有基线方法在这种任务中表现不佳。为了进一步验证这些任务的可解性,我们还提出了所提任务的简化版本。实验结果表明,基线方法能够处理这些简化版本,为所提任务的可解性提供了证据。源代码可在https://github.com/Yurui-Li/CTC获得。
发布时间: 2/4/2025
查看原文
作者: Xin Xu, Qiyun Xu, Tong Xiao, Tianhao Chen, Yuchen Yan, Jiaxin Zhang, Shizhe Diao, Can Yang, Yang Wang
arXiv:2502.00334v1 交叉类型 摘要:大型语言模型(LLMs)在解决复杂推理任务方面展示了 remarkable 的能力,尤其在数学方面。然而,物理推理的领域提出了独特的挑战,这些挑战受到了显著的关注不足。现有的基准测试在评估LLMs在本科水平物理的广度和深度方面往往表现不佳,突显了进行全面评估的必要性。为填补这一缺口,我们引入了UGPhysics,这是一个大规模且全面的基准测试,专门设计用于评估大型语言模型在本科水平物理(UGPhysics)推理方面的表现。UGPhysics 包含了5,520个本科水平的物理问题,涵盖13个学科,有七种不同的答案类型和四种不同的物理推理技能,并且所有这些数据都经过严格的数据泄漏筛查。此外,我们还开发了一个名为Model-Assistant Rule-based Judgment(MARJ)的管道,专门用于评估物理问题的答案正确性,确保评估的准确性。我们对31个领先的大型语言模型的评估显示,整体准确率最高为49.8%(由OpenAI-o1-mini实现),这突显了需要比数学能力更强的物理推理能力的模型的必要性。我们希望UGPhysics与MARJ能够推动未来人工智能在物理推理方面的进步。
发布时间: 2/4/2025
查看原文
作者: Xingchen Wan, Han Zhou, Ruoxi Sun, Hootan Nakhost, Ke Jiang, Sercan \"O. Ar{\i}k
arXiv:2502.00330v1 类型: cross 摘要: 近年来,在长上下文大语言模型(LLMs)方面的进展导致了多种示例上下文学习(ICL)中的新兴范式,观察到在常规的少量示例设置之外,扩展更多的演示示例可以带来性能提升。然而,尽管具有这种潜力,仍不清楚哪些方面主导了这些好处,以及是否简单地扩展到更多的示例是提高多种示例ICL最有效的方法。在这项工作中,我们首先对驱动多种示例ICL的因素进行了分析,并发现1)多种示例性能仍然可以归因于少数几个异常重要的示例,2)识别这样的重要示例("优化")并使用它们生成新的示例("生成")可以带来进一步的改进。受到这些发现的启发,我们提出了一种BRIDGE算法,该算法交替进行使用贝叶斯优化进行"优化"步骤以发现具有影响力的示例集和"生成"步骤以重新利用此集自动扩展示例的推理路径,回到多种示例范式。在不同规模的Gemini、Claude和Mistral大语言模型上,我们在符号推理、数值推理和代码生成等多样化的任务中展示了BRIDGE的显著改进。
发布时间: 2/4/2025
查看原文
作者: Jiani Zhang, Hengrui Zhang, Rishav Chakravarti, Yiqun Hu, Patrick Ng, Asterios Katsifodimos, Huzefa Rangwala, George Karypis, Alon Halevy
arXiv:2502.00329v1 Announce Type: cross 摘要:大规模语言模型(LLMs)有可能通过自然语言交互简化数据发现和SQL查询合成等任务,从而彻底改变数据分析师的领域。这项工作标志着为数据分析师应用設計的基础模型开发迈出里程碑式的一步。为了进一步推进这一愿景,我们透露了一种用于后训练LLMs的新数据食谱,增强了它们对数据管理的理解,并使它们能够应对复杂的现实世界分析任务。具体而言,我们的创新方法包括一种可扩展的合成数据生成方法,该方法使能够围绕数据表示和操作创建广泛的主题。此外,我们引入了两项新的任务,这些任务能够无缝连接表和文本。我们展示出这些任务能够增强模型对数据库模式构建以及自然语言与表格数据微妙转换的理解。借助这种数据食谱,我们基于Mistral-NeMo-12B训练了一个新的基础模型,名为CoddLLM。为了评估LLMs在数据分析领域的语言理解和推理能力,我们贡献了一个包含数千个数据库、数据分析和机器学习多选题的基准测试,称为AnalyticsMMLU。我们对数据发现的关注,导致贡献了三个全面的基准测试,这些基准测试涵盖了数据库和数据湖场景。CoddLLM不仅在性能上表现出色,而且设定了新的标准,在八个数据集上的平均准确率达到最高。在AnalyticsMMLU上的性能上,CoddLLM超越了GPT-3.5-Turbo,表选择方面超过了GPT-4o 12.1% 的优势,并且在Text-to-SQL的表现上平均领先于基础模型24.9%。
发布时间: 2/4/2025
查看原文