arXiv:2504.20131v1 类型: cross
摘要: 我们引入了LZ惩罚,这是一种专门用于减少自回归语言模型中的退化重复现象而不损失能力的惩罚。该惩罚基于LZ77通用无损压缩算法中的码长。通过预测-压缩二元性的眼光来看,解码LZ惩罚可以被解释为在删除高度可压缩信息后从残差分布中进行采样。我们证明LZ惩罚使最先进的开源推理模型能够在零温度解码下运行,而不会损失能力,也不会出现退化重复现象。行业标准的频率惩罚和重复惩罚均无效,导致高达4%的退化重复率。
arXiv:2504.20125v1 任务类型: 交叉
摘要:月球任务规划的关键因素之一是对当地原材料可用性的评估。然而,许多潜在相关的测量数据分散在各种科学出版物中。本文考虑通过利用大型语言模型(LLM)快速处理大量的科学出版物来获取月球成分数据的可能性。尽管从科学文档中获取知识利用LLM并不新鲜,但这种特定的应用由于月球样本的异质性和其特征化过程中涉及的细微之处,带来了独特的挑战。准确性和不确定性量化尤其重要,因为许多材料特性可能会对成分上的小变化非常敏感。我们的研究结果表明,现成的LLM通常能够有效地提取这些文档中常见的表格数据。然而,对于这种初始方法,仍然有进一步细化提取数据的机会,特别是捕捉详细的矿物学信息以及提高对更微妙/复杂信息的性能。
arXiv:2504.20124v1 交叉公告类型
摘要:儿童哮喘的早期检测对于预防长期呼吸并发症并减少急诊干预至关重要。本文介绍了一个基于AI的诊断管道,该管道利用Google的健康声学表示(HeAR)模型从儿科呼吸音中检测哮喘的早期迹象。使用SPRSound数据集,这是第一个开放访问的1个月至18岁儿童标注的呼吸音集合,从中提取2秒的音频片段,这些片段被标记为喘鸣、啰音、哮鸣音、喘息或正常。每个片段通过HeAR(在包括1亿个咳嗽声音的3亿个健康相关的音频片段上预训练的基础模型)嵌入到512维表示中。使用这些嵌入,训练了包括SVM、随机森林和MLP在内的多个分类器,以区分哮喘症状和正常声音。该系统实现了超过91%的准确性,在阳性病例的精确召回度量上表现出色。除了分类外,学习到的嵌入通过PCA进行可视化,通过波形回放分析错分类,提供ROC和混淆矩阵见解。此方法表明,当由基础音频模型支持时,短时、低资源的儿科录音可以实现快速、无创的哮喘筛查。该方法尤其适用于偏远或服务不足的医疗保健环境中的数字诊断。
arXiv:2504.20119v1 类别: cross
摘要:检索增强生成(RAG)在近年来取得了显著进步。RAG 系统涉及多个组件——如索引、检索和生成——以及许多其他参数,这为系统的系统性评估和质量提升带来了重大挑战。先前的研究指出,评估 RAG 系统对于记录进展、比较配置以及识别适用于特定领域的有效方法至关重要。本研究系统地回顾了 63 篇学术文章,提供了对最先进的 RAG 评估方法的全面概述,重点关注四个关键领域:数据集、检索器、索引和数据库,以及生成器组件。我们观察到利用能够生成评估数据集并进行评估的大型语言模型(LLM),可以自动化评估 RAG 系统的每个组件的可行性。此外,我们发现进一步的实际研究对于向企业提供明确的指导是非常必要的,即在实施和评估 RAG 系统时应该做些什么和不应该做些什么。通过综合关键 RAG 组件的评估方法,强调为基准测试创建和适应特定领域的数据集,我们促进了系统性评估方法的发展,并提高了 RAG 系统评估严谨性的改进。此外,通过分析利用 LLM 的自动化方法和人类判断之间的互动,我们促进了自动化与人类输入之间平衡的讨论,澄清了它们各自的贡献、局限性和挑战,以实现稳健和可靠的评估。
arXiv:2504.20118v1 宣告类型: cross
摘要:传统中医药(TCM)代表了丰富的古代医学知识宝库,至今在现代医疗保健中仍发挥着重要作用。由于TCM文献的复杂性和广泛性,集成AI技术对于其现代化和更广泛的可获取性至关重要。然而,这种集成面临着诸多挑战,包括解释晦涩的古典中文文本以及建模TCM概念之间错综复杂的语义关系。在本文中,我们开发了基于LLM的OpenTCM系统,该系统结合了一个特定领域的TCM知识图谱和基于图的检索增强生成(GraphRAG)。首先,在中医经典文献数据库中,借助TCM和妇科学专家的帮助,我们提取了来自68本妇科书籍的超过373万个古典中文字符。其次,我们构建了一个全面的多关系知识图谱,包含了超过48,000个实体和152,000种相互关系,使用定制的提示和面向中文的LLM(如DeepSeek和Kimi),以确保高保真语义理解。最后,我们将OpenTCM与该知识图谱集成,从而在不进行模型微调的情况下实现高保真成分知识检索和诊断问答。实验评估表明,我们的提示设计和模型选择显著提高了知识图谱的质量,精确度达到98.55%,F1分数达到99.55%。此外,在成分信息检索和诊断问答任务中,OpenTCM分别获得了4.5和3.8的专家平均分数,优于现实世界中医应用场景中的最新解决方案。
arXiv:2504.20117v1 Announce Type: 跨领域
摘要:在这篇论文中,我们介绍了ResearchCodeAgent,这是一种新颖的多智能体系统,利用大规模语言模型(LLMs)智能体来自动化机器学习文献中描述的研究方法的编码过程。该系统解决了高层面研究概念与其实际实现之间的差距,允许研究人员自动生成基准测试或在文献中指定的现有方法上构建的代码,该方法具有部分或完整的起始代码。ResearchCodeAgent采用了灵活的智能体架构和一套全面的动作集,使其能够与研究环境进行上下文相关的交互。系统包含了一个动态规划机制,利用短期和长期记忆来迭代地调整其方法。我们在数据增强、优化和数据批处理这三个具有不同任务复杂度的不同部分的机器学习任务上评估了ResearchCodeAgent。我们的结果表明该系统的有效性和泛化能力,生成的代码中有46.9%高质量且无错误,25%显示了相对于基线实现的性能改进。实证分析显示,与手动实现相比,平均代码编写时间减少了57.9%。对于更复杂的任务,我们观察到更高的收益。ResearchCodeAgent代表了一个在研究实施流程自动化方面的重要进展,可能加速机器学习研究的步伐。
arXiv:2504.20115v1 交叉公告类型
摘要:机器学习(ML)研究通过学术论文传播,这些论文包含丰富的多模态内容,包括文本、图表和表格结果。然而,将这些多模态元素转化为可执行代码依然是一项具有挑战性和耗时的过程,需要大量的ML专业知识。我们引入了“论文到代码”(P2C),这是一种新颖的任务,可以将科学出版物中的多模态内容转化为完全可执行的代码仓库,超越了现有的代码生成框架,后者仅将文本描述转化为孤立的代码片段。为自动化P2C过程,我们提出了基于大型语言模型的多智能体框架AutoP2C,该框架处理研究论文中的文本和视觉内容,生成完整的代码仓库。具体来说,AutoP2C包含四个阶段:(1)从现有代码库中提取仓库蓝图,(2)多模态内容解析,将文本、公式和图表中的信息结合起来,(3)层次任务分解,以实现结构化的代码生成,以及(4)迭代的反馈驱动调试,以确保功能性和性能。在八篇研究论文的基准测试上证明了AutoP2C的有效性,它可以成功为八篇论文生成可执行的代码仓库,而OpenAI-o1或DeepSeek-R1只能为一篇论文生成可运行的代码。代码可在https://github.com/shoushouyu/Automated-Paper-to-Code找到。
arXiv:2504.20114v1 宣告类型: cross
摘要: 在多跳问答(MHQA)中,检索增强生成(RAG)系统面临着重大挑战,复杂的查询需要跨多个文档片段综合信息。现有的方法通常依赖于迭代的LLM驱动查询重写和路由,导致由于反复调用LLM和多阶段过程而产生高昂的计算成本。为了解决这些局限性,我们提出了TreeHop,这是一种无需LLM进行查询优化的嵌入级别框架。TreeHop动态更新查询嵌入,通过融合先验查询和检索文档的语义信息来实现嵌入空间操作驱动的迭代检索。这种方法用简化的“检索-嵌入-检索”循环取代了传统的“检索-重写-向量化-检索”周期,显著减少了计算开销。此外,还引入了一种基于规则的停止标准,进一步减少了冗余检索,平衡了效率和召回率。实验结果表明,TreeHop在三个开放领域MHQA数据集中的性能可与先进的RAG方法相媲美,仅使用5%-0.4%的模型参数量,并且与同时进行的方法相比,查询延迟减少了大约99%。这使TreeHop成为多种知识密集型应用部署的一个更快且更经济有效的解决方案。为了便于可再现性,代码和数据在此处提供:https://github.com/allen-li1231/TreeHop。
arXiv:2504.20112v1 宣布类型: cross
摘要:准确的材料性质预测有助于发现具有定制功能的新材料。深度学习模型在捕捉结构-性质关系方面已经展示了卓越的准确性和灵活性。然而,这些模型通常依赖于监督学习,这需要大量注释良好的数据集,这是一个昂贵且耗时的过程。自我监督学习(SSL)通过在大型未标注数据集上进行预训练,开发出可以在材料性质预测中进行微调的基础模型,提供了一种有前景的替代方案。在本文中,我们提出了监督预训练的方法,其中可用的类别信息充当代理标签,以引导学习,即使下游任务涉及不相关的材料性质。我们评估了这一策略在两个最先进的SSL模型上的表现,并引入了一种新的监督预训练框架。为了进一步增强表示学习,我们提出了一种基于图的扩增技术,该技术通过注入噪声来提高鲁棒性,而不对材料图进行结构变形。由此产生的基础模型被用于六项具有挑战性的材料性质预测任务,与基线模型相比,在平均绝对误差(MAE)上取得了显著的性能提升,范围从2%到6.67%的改善,并在材料性质预测中建立了新的基准。这项研究代表了在材料性质预测中首次探索使用代理标签的监督预训练,推进了该领域的研究方法和应用。
arXiv:2504.20106v1 宣介类型: cross
摘要:确保大语言模型(LLMs)既有益又能避免有害是一个关键挑战,因为过于严格的约束可能导致过度拒绝,而过于宽松的模型则面临生成有害内容的风险。现有方法,如基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO),试图在这些权衡中寻求平衡,但会遭受性能冲突、受限的可控性和较差的可扩展性。为了应对这些问题,我们提出了偏好向量这一新颖框架,该框架受到任务算术的启发。我们不是在单一目标中优化多种偏好,而是针对单一偏好分别训练模型,提取行为变化作为偏好向量,并在测试时动态合并它们。这种模块化方法使得细粒度的、用户可控的偏好调整成为可能,并且便于无缝集成新的偏好而无需重新训练。实验结果表明,我们提出的偏好向量框架能够在不增加过度保守性的前提下提高有益性,允许平滑地控制偏好权衡,并支持可扩展的多偏好对齐。