arXiv:2502.04095v1 宣布类型: cross
摘要:本文提出了一种针对可持续性报告领域的特定领域知识助手的定制方法,该方法基于国际财务报告准则(IFRS)。在这一领域,没有公开可用的问题-答案数据集,这阻碍了高质量聊天机器人的开发,以支持使用IFRS进行报告的公司。因此,该项目的两个主要贡献是:
(1) 基于IFRS可持续性标准的高质量合成问题-答案(QA)数据集,使用一种新颖的生成和评估流水线,利用大型语言模型(LLMs)创建。该数据集包括1,063个多样化的QA对,涵盖了可持续性报告中潜在用户查询的广泛范围。使用各种基于LLM的技术创建数据集,包括链式推理和少样本提示。开发了一个自定义评估框架,从多个维度评估问题和答案的质量,包括忠实度、相关性和领域特异性。该数据集在这些指标上的平均得分为8.16分(满分为10分)。
(2) 两个可持续性报告领域的问答架构——一个RAG流水线和一个完全基于LLM的流水线。这些架构通过在QA数据集上进行实验、微调和训练而开发。最终流水线包含一个基于领域特定数据微调的LLM和一个行业分类组件,以改善复杂查询的处理。RAG架构在单行业单项选择问题上的准确率为85.32%,在跨行业多项选择问题上的准确率为72.15%,分别比基线方法高出4.67个和19.21个百分点。基于LLM的流水线在单行业多项选择问题上的准确率为93.45%,在跨行业多项选择问题上的准确率为80.30%,分别比基线高出12.80个和27.36个百分点。
arXiv:2502.04083v1 交叉类型
摘要:新辅助化疗(NAC)已成为利用18F-FDG正电子发射断层扫描(PET)在乳腺癌中缩小肿瘤的标准临床实践。我们的工作旨在利用PET成像对乳腺病变进行分割。重点是开发一个自动系统,准确分割原发肿瘤区域,并从中提取关键生物标志物,以提供对首次NAC疗程后的乳腺癌演变的洞察。分别收集了243例基线18F-FDG PET扫描(PET_Bl)和180例随访18F-FDG PET扫描(PET_Fu)。首先,开发了一种基于深度学习的乳腺肿瘤分割方法。针对基线检查的理想基线模型(在基线检查上训练的模型)在15例随访检查中进行了微调,并使用主动学习对PET_Fu中的肿瘤区域进行了分割。该管道计算了最大标准化摄取值(SUVmax)、代谢肿瘤体积(MTV)和总病变葡萄糖代谢(TLG)等生物标志物,以评估PET_Fu和PET_Bl之间的肿瘤演变。实施了质量控制措施以排除异常离群值。nnUNet深度学习模型在PET_Bl上的肿瘤分割中表现出色,达到了Dice相似系数(DSC)0.89和Hausdorff距离(HD)3.52 mm。经过微调后,该模型在PET_Fu检查中的DSC为0.78,HD为4.95 mm。生物标志物分析显示,无论如何,手动分割区域和自动预测区域之间的相关性都非常强烈。SUVmax、MTV和TLG的显著平均下降分别为5.22、11.79 cm³和19.23 cm³。本方法展示了一种从18F-FDG PET中自动分割乳腺肿瘤的系统。通过提取的生物标志物,我们的方法使癌症进展的自动评估成为可能。
arXiv:2502.04066v1 交叉发布类型: cross
摘要: OpenAI 的 GPT-4 技术报告建议,可以在训练前预测模型在特定任务上的性能,尽管具体的实现方法尚未说明。这种方法对于优化资源分配和确保数据与目标任务对齐至关重要。为了实现这一愿景,我们专注于预测封闭问题回答能力(CBQA)任务的性能,这些任务与预训练数据和知识保留密切相关。我们面临三个主要挑战:1) 掌握整个预训练过程,特别是数据构建;2) 评估模型的知识保留能力;以及 3) 使用仅可获得的训练前信息预测任务特定的知识保留。为了解决这些挑战,我们使用 560,000 美元和 520,000 GPU 小时预训练了三个大型语言模型(即 1.6B、7B 和 13B)。我们使用知识三元组分析预训练数据,并使用已建立的方法评估知识保留情况。此外,我们引入了 SMI 指标,这是一种信息论度量,量化预训练数据、模型大小与任务特定知识保留之间的关系。我们的实验表明,SMI 指标与不同大小模型(即 1.1B、1.6B、7B 和 13B)在 CBQA 任务上的准确性之间存在强烈的线性相关性($\text{R}^2 > 0.84$)。数据集、模型和代码可在 https://github.com/yuhui1038/SMI 获得。
arXiv:2502.04043v1 类别: cross
摘要:语言模型(LMs)可以生成看似准确且连贯的文本,但其中可能包含虚假或有毒的内容。在推理时对隐藏激活进行编辑的方法在引导LMs生成 desirable 生成方面显示出了令人鼓舞的结果。现有的激活干预方法通常包含一个激活探针来检测不 desirable 的生成,从而触发激活修改以引导后续生成。本文提出了一种名为 FLORAIN 的探针-free 干预方法,适用于特定激活层的所有注意力头。这种方法消除了训练用于探针目的的分类器的需求。干预函数由样本-wise 的非线性低秩映射参数化,通过最小化修改后的激活与其在 desirable 内容流形上的投影之间的距离来训练。在流形和投影距离的具体构造下,我们展示了可以通过求解平滑优化问题来高效地计算干预策略。基于多个基模型的实验结果表明,FLORAIN 在提升模型的准确性和质量方面,在生成和多项选择任务中均能一致地优于几种基线方法。
arXiv:2502.04040v1 声明类型: cross
摘要: 训练安全的大语言模型是最重要的研究挑战之一。然而,常用的 Refusal Training (RT) 方法难以在这种变种的 OOD 监狱破解攻击中泛化。许多安全训练方法已被提出以解决这一问题。虽然它们提供了宝贵的看法,但我们希望通过研究 OOD 攻击是否真的超出了 RT 模型的能力来补充这一研究方向。使用 BoN 进行评估时,我们观察到当 N 增加时泛化能力有显著提高。这表明模型拥有足够的与安全性相关的潜在知识,但 RT 模型无法一致地引发和利用这些知识来应对 OOD 攻击。基于领域适应的进一步分析表明,直接拒绝训练导致模型依赖于表面的捷径,从而学习到不稳健的表示映射。基于我们的发现,我们提议训练模型对每一个查询进行安全推理。推理监督鼓励模型进行更多的计算,明确地引发和利用通过推理获取的潜在知识。为了实现这一目标,我们基于预先的指导方针合成了推理监督,训练模型按照它们进行推理,从而有效地从多个角度来看引发和利用潜在知识。广泛的实验表明,我们的方法在应对 OOD 攻击时显著提高了泛化性能。
arXiv:2502.04034v1 宣告类型: cross
摘要: 准确预测药物反应仍然是一个严峻的挑战,特别是在单细胞水平和临床治疗环境中。一些研究采用迁移学习技术来预测单个细胞和患者中的药物反应,但这些方法在训练过程中需要访问目标领域数据,而这些数据通常不可用或只能在未来获得。在本研究中,我们提出了一种新颖的领域泛化框架,称为panCancerDR,以应对这一挑战。我们将每种癌症类型视为一个独特的源领域,其细胞系作为领域特定的样本。我们的主要目标是从不同癌症类型的细胞系表达谱中提取领域不变特征,从而将预测能力推广到分布外样本。为了增强鲁棒性,我们引入了一个潜在独立投影(LIP)模块,鼓励编码器提取信息但非冗余的特征。此外,我们提出了一种非对称自适应聚类约束,该约束将敏感样本聚类成一个紧凑的组,同时在潜在空间中将耐药样本驱散到单独的聚类中。我们的实验证明,panCancerDR能够从多样化的源领域中学习相关任务特征,并在训练过程中对未见的癌症类型实现准确的药物反应预测。此外,在针对单细胞水平和患者水平预测任务的评估中,仅基于体外细胞系数据进行训练、无需访问目标领域信息的我们的模型,始终优于并匹配当前最先进的方法。这些发现突显了我们方法在实际临床应用中的潜力。
arXiv:2502.04008v1 类型: cross
摘要:车辆API测试验证了车辆内部系统与外部应用之间的交互是否符合预期,确保用户可以访问和控制各种车辆功能和数据。然而,这项任务本质上是复杂的,需要对齐和协调API系统、通信协议,甚至车辆模拟系统,以开发有效的测试案例。在实际工业场景中,各种文档和系统规范之间的不一致、模糊性和依赖性对测试构成了重大挑战。本文提出了一套用于自动测试车内API的系统。通过明确定义和划分测试过程,我们使大型语言模型(LLMs)专注于特定任务,确保稳定的、受控的测试工作流程。在超过100个API上的实验表明,我们的系统能够有效地自动执行车辆API测试。实验结果还证实,LLMs能够高效处理需要人类判断的繁琐任务,使其在类似的工业环境中完全自动化成为可能。
arXiv:2502.03998v1 类型: cross
摘要:在竞争游戏中,如Elo这样的等级评定被广泛用于量化玩家技能并通过更好地考虑技能差异来支持匹配对手。然而,标量等级评定无法处理复杂交错关系,比如井字棋中的制胜策略。为了解决这个问题,最近的工作引入了神经等级表和神经制胜类别表,其将标量等级评定与离散的制胜类别结合来建模交错关系。尽管这有效,但这些方法依赖于神经网络的训练,无法进行实时更新。在本文中,我们提出了一种在线更新算法,其将Elo原则扩展以结合实时学习制胜类别。该方法在每次比赛后动态调整评分和制胜关系,保持标量评分的可解释性,同时解决了交错关系问题。实验在零和竞争游戏中展示了其实用性,特别是在没有复杂团队组合的情况下。
arXiv:2502.03992v1 类型: cross
摘要: 大多数现有的知识图谱问答(KGQA)方法都是针对特定的知识图谱进行设计的,比如Wikidata、DBpedia或Freebase。由于底层图模式、拓扑结构和断言的异质性,大多数KGQA系统在没有资源密集型训练数据的情况下无法转移到未见过的知识图谱(KGs)中。我们提出了OntoSCPrompt,这是一种基于大型语言模型(LLM)的具有两阶段架构的KGQA方法,该架构将语义解析与KG依赖交互分开。OntoSCPrompt首先生成SPARQL查询结构(包括SELECT、ASK、WHERE这样的SPARQL关键词以及缺失token的占位符),然后用特定于KG的信息填充这些占位符。为了增强对底层KG的理解,我们提出了一种基于本体的混合提示学习策略,将KG本体整合到混合提示(例如,离散和连续向量)的学习过程中。我们还提出了几种任务特定的解码策略,以确保两阶段生成的SPARQL查询的正确性和可执行性。实验结果表明,在诸如CWQ、WebQSP和LC-QuAD 1.0等KGQA数据集上,OntoSCPrompt在资源高效的方式下与SOTA方法表现相当,并且能够很好地泛化到未见过的特定领域知识图谱,如DBLP-QuAD和CoyPu KG。代码: \href{https://github.com/LongquanJiang/OntoSCPrompt}{https://github.com/LongquanJiang/OntoSCPrompt}
arXiv:2502.03984v1 Announce Type: cross
摘要:由于其巨大的规模,像BERT这样的大规模预训练语言模型在推理中速度缓慢且内存占用高。最近压缩BERT的方法依赖于迭代修剪和知识蒸馏,然而,这些方法通常过于复杂且计算成本高昂。本文提出了一种针对BERT的新型半结构化一次性修剪方法,称为“Permutation and Grouping for BERT”(PGB),该方法在保持准确性的条件下实现了高压缩效率和稀疏性。为此,PGB通过排列识别单个权重的重要组,并在多头注意力层和前向传播层中修剪所有其他权重。此外,如果特定层中未形成重要组,PGB会丢弃整个层以生成更紧凑的模型。我们在BERT_BASE上的实验结果表明,PGB在计算成本和准确性的保留方面优于最先进的结构化修剪方法。