arXiv 论文列表

作者: Zifeng Wang, Benjamin Danek, Ziwei Yang, Zheng Chen, Jimeng Sun

arXiv:2410.21591v2 通知类型: 替换摘要：数据科学在生物医学研究中发挥着关键作用，但需要具备编码和医疗数据分析专业知识的专家。大型语言模型（LLMs）在支持医疗任务和一般编码测试中显示出巨大潜力。然而，现有的评估未能评估其在生物医学数据科学方面的能力，特别是在处理多样化的数据类型，例如基因组和临床数据方面。为应对这一缺口，我们开发了一个基准测试，该基准测试源自对39篇已发表研究的分析。该基准包括293个编码任务（其中128个是Python的，165个是R的），这些任务是基于真实的TCGA类型基因组和临床数据进行的。我们的研究结果表明，原始提示的LLMs表现不佳，这主要是由于在遵循输入指令、理解目标数据以及遵守标准分析实践方面存在不足。接下来，我们对六种最先进的LLMs和高级适应方法进行了基准测试，发现其中两种方法特别有效：chain-of-thought提示，它为数据分析提供了一个逐步计划，代码准确性提高了21%（56.6%相比35.3%）；以及自我反思，使LLMs能够迭代地改进错误代码，代码准确性提高了11%（45.5%相比34.3%）。基于这些见解，我们开发了一个平台，将LLMs集成到数据科学工作流中，以供医疗专业人员使用。在一项涉及五名医疗专业人员的用户研究中，我们发现LLMs虽然无法完全自动化编程任务，但能够显著简化编程过程。我们发现，他们提交的80%的代码解决方案是由LLM生成的代码提供的，某些情况下高达96%的代码重用。我们的分析强调了在专业工作流程中集成LLMs在生物医学研究中增强数据科学效率的潜力。

发布时间: 4/10/2025

查看原文

Medical-GAT：利用图基残差网络进行有限数据场景下的癌症文档分类

作者: Elias Hossain, Tasfia Nuzhat, Shamsul Masum, Shahram Rahimi, Noorbakhsh Amiri Golilarz

arXiv:2410.15198v4 公告类型：替换摘要：准确分类与癌症相关的医学摘要对于医疗管理和研究至关重要。然而，由于隐私问题和临床数据的复杂性，在医疗领域获得大规模、标注的数据集具有挑战性。标注数据的匮乏阻碍了有效机器学习模型在癌症文档分类中的发展。为应对这一挑战，我们提供了一个由1,874篇生物医药摘要组成的精选数据集，这些摘要分为甲状腺癌、结肠癌、肺癌和通用主题。我们的研究重点在于利用这一数据集提高分类性能，特别是在数据稀缺的情况下。我们引入了一个结合了多层图注意力层的残差图注意网络（R-GAT），以捕捉与癌症相关的文档中的语义信息和结构关系。我们的R-GAT模型与包括基于Transformer的技术如双向编码器表示变换器（BERT）、RoBERTa，以及领域特定模型如BioBERT和Bio+ClinicalBERT在内的多种技术进行了比较。我们还评估了深度学习模型（CNNs、LSTMs）和传统的机器学习模型（逻辑回归、SVM）。此外，我们探索了将深度学习模型组合的集成方法以提高分类效果。各种特征提取方法也被评估，包括使用单词和双词的词频-逆文档频率（TF-IDF）、Word2Vec以及来自BERT和RoBERTa的分词器。R-GAT模型在甲状腺癌、结肠癌、肺癌和通用主题的精度、召回率和F1分数分别为0.99、0.97和0.98；0.96、0.94和0.95；0.96、0.99和0.97；0.95、0.96和0.95。

发布时间: 4/10/2025

查看原文

生成式AI投票：公平集体决策具有对抗LLM偏差和不一致性的能力

作者: Srijoni Majumdar, Edith Elkind, Evangelos Pournaras

arXiv:2406.11871v4 宣布类型：替换摘要：扩大审慎和投票参与是一项长期的努力——这是直接民主和合法的集体选择的核心。最近在生成型人工智能（AI）和大型语言模型（LLMs）领域的突破揭示了AI个人助手的新能力，克服了人类的认知带宽限制，为大规模的人类投票者提供决策支持，甚至直接代表他们。然而，这种代表的质量以及将集体决策委托给LLMs时表现出的潜在偏见是需要紧急应对的重要挑战。通过在306场现实世界投票选举中以高度真实的方式模拟超过50,000个LLM投票人格，我们拆分了LLMs（GPT 3、GPT 3.5和Llama2）不同偏见的本质。复杂的偏好投票格式显示出与更简单的多数选举相比的巨大不一致性，后者显示出更高的一致性。然而，令人惊讶的是，通过首次在现实世界中展示直接民主中的比例代表制，我们还能够证明公平的选票聚合方法（如等分）是一个双赢：对人类和AI的公平代表性都有好处，尤其是对那些可能弃权的投票者。这种新颖的内在关系在低选举参与度和AI代表支持的选民疲劳情况下对于进步的民主创新至关重要：弃权的投票者通过恢复更公平的选票结果得到缓解。这些跨学科的见解为科学家、政策制定者和公民提供了开发防止和增强AI在民主创新中的风险的关键基础。

发布时间: 4/10/2025

查看原文

雕塑子空间：受限全面微调在LLMs中的连续学习中应用

作者: Nikhil Shivakumar Nayak, Krishnateja Killamsetty, Ligong Han, Abhishek Bhandwaldar, Prateek Chanda, Kai Xu, Hao Wang, Aldo Pareja, Oleg Silkin, Mustafa Eyceoz, Akash Srivastava

arXiv:2504.07097v1 宣告类型: cross 摘要: 在大规模语言模型（LLMs）中连续学习容易发生灾难性遗忘，即适应新任务会显著降低之前学习任务的表现。现有方法通常依赖于低秩、参数高效的更新，这限制了模型的表达能力，并为每个任务引入了额外的参数，导致可扩展性问题。为了解决这些限制，我们提出了一种新的连续全微调方法，利用自适应奇异值分解（SVD）。我们的方法动态地识别任务特定的低秩参数子空间，并约束更新与先前任务相关的关键方向正交，从而有效减少干扰，而不增加额外的参数开销或存储先前任务的梯度。我们使用编码器-解码器（T5-Large）和仅解码器（LLaMA-2 7B）模型在标准连续学习基准上广泛评估了我们的方法，这些任务包括分类、生成和推理。实验结果表明，我们的方法达到了最先进的效果，平均准确率比最近的基线方法如O-LoRA高出7%，并且在整个连续学习过程中，我们的方法有效地减少了遗忘，几乎可以忽略不计，从而保持了模型的通用语言能力、指令跟随准确性和安全性。我们的自适应SVD框架有效地平衡了模型的可塑性和知识的保留，为大规模语言模型中的连续学习场景提供了一种实用、理论支持且计算上可扩展的解决方案。

发布时间: 4/10/2025

查看原文

我们已经完成以对象为中心的学习了吗？

作者: Alexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh

arXiv:2504.07092v1 宣告类型: cross 摘要: 对象中心学习(OCL)旨在学习仅编码一个对象的表示，而不受场景中其他对象或背景线索的影响。这种方法支撑了各种目标，包括出分布(OOD)泛化、高效采样组合和结构化环境建模。大多数研究重点是开发无监督机制，将对象分离到表示空间中的离散槽中，并通过无监督对象发现进行评估。然而，随着最近的高效采样分割模型，我们可以在像素空间中分离对象，并独立编码它们，这在OOD对象发现基准测试中实现了令人瞩目的零样本性能，且可以扩展到基础模型，并可以处理标准外的任意数量的槽。因此，OCL方法获得对象中心表示的目标已基本实现。尽管取得了这些进展，但一个关键问题仍然存在：场景中分离对象的能力如何有助于更广泛的OCL目标，如OOD泛化？我们通过从OCL的角度探讨这种由虚假背景线索引起的OOD泛化挑战来解决这一问题。我们提出了一种新的、无需训练的探测器$\textbf{Object-Centric Classification with Applied Masks (OCCAM)}$，证明了基于分割的独立个体对象编码显著优于基于槽的OCL方法。然而，在实际应用中仍存在挑战。我们为OCL社区提供了可扩展的对象中心表示工具箱，并专注于实际应用和根本性问题，如理解人类认知中的对象感知。我们的代码可在此处获取 $\href{https://github.com/AlexanderRubinstein/OCCAM}{here}$。

发布时间: 4/10/2025

查看原文

KG-LLM-Bench：一种用于评估LLM在文本化知识图上推理能力的可扩展基准

作者: Elan Markowitz, Krupa Galiya, Greg Ver Steeg, Aram Galstyan

arXiv:2504.07087v1 宣布类型: cross 摘要：知识图谱已成为向大型语言模型（LLMs）注入最新、事实性知识的一种流行方法。这通常是通过将知识图谱转换为LLM可以进行上下文处理的文本来实现的。虽然提出了多种知识图谱编码方法，但这种文本化过程对LLM性能的影响仍较少被探索。我们提出了KG-LLM-Bench，这是一个涵盖五个知识图谱理解任务的综合且可扩展的基准测试，并评估了不同编码策略在各种基础模型上的性能影响。我们的广泛实验涉及七种语言模型和五种文本化策略，提供了优化LLM在知识推理任务上性能的见解。

发布时间: 4/10/2025

查看原文

自我引导的语言模型

作者: Gabriel Grand, Joshua B. Tenenbaum, Vikash K. Mansinghka, Alexander K. Lew, Jacob Andreas

arXiv:2504.07081v1 交叉公告类型：cross 摘要：虽然测试时推理使语言模型能够应对复杂的任务，但在自然语言中进行搜索或规划可能会变得缓慢、昂贵且容易出错。但即使当语言模型在模拟解决问题所需的精确推理步骤方面遇到困难时，它们通常在描述问题的抽象结构方面表现出色——包括如何验证解决方案以及如何寻找它们。本文介绍了一种名为“自我引导”的方法——规划器模型生成一个针对特定任务的推理程序，该程序由一群跟随者模型执行。我们的方法为语言模型提供了编写递归搜索程序的能力，这些程序可以引导语言模型的推理，从而实现可验证且高效的推理。当使用小型跟随者（例如 Llama-3.2-1B）实例化时，DisCIPL 在具有挑战性的受限生成任务上可以与（甚至有时超过）GPT-4o 和 o1 等更大规模的模型相匹敌。通过将规划与执行分离，我们的工作开辟了一种高性能并行蒙特卡洛推理策略的设计空间，这些策略优于标准的最佳N抽样，不需要微调，并且可以通过现有的语言模型自动实现。

发布时间: 4/10/2025

查看原文

DeduCE：作为评估大语言模型推理能力框架的演绎一致性

作者: Atharva Pandey, Kshitij Dubey, Rahul Sharma, Amit Sharma

arXiv:2504.07080v1 类型:跨领域摘要:尽管在奥林匹克级推理问题上表现出色，前沿的大语言模型在面对标准化基准之外的高中数学新问题时仍然可能会遇到困难。着眼于最终准确率之外，我们提出了一种演绎一致性度量来分析语言模型（LMs）的链式思考输出。形式上，演绎推理涉及两个子任务：理解输入前提集以及推理从这些前提得出的结论。提出的方法研究了LMs在这两个子任务上的表现，旨在解释LMs在新问题上的推理错误：随着上下文长度的增加，LMs理解输入前提的能力如何，以及它们能够在多次推理跳跃中推断哪些结论？由于现有的基准可能被记忆化，我们开发了一个管道来评估LMs在具有扰动版本的基准问题上的演绎一致性。在新的小学数学问题（GSM-8k）上，我们发现LMs对输入前提的数量增加表现出相当的鲁棒性，但在推理跳跃的数量增加时，准确性会显著下降。有趣的是，这些错误在原始基准中被隐藏，因为所有模型都达到了接近100%的准确性。当我们使用合成数据集增加解决方案步骤的数量时，多次跳跃的预测仍然是的主要出错点，而非理解输入前提。其他因素，如语言风格的变化或早期错误的自然传播，不能解释这种趋势。我们的分析为LM推理提供了一个新的视角，即作为输入前提和推理跳跃窗口上的计算，这可以提供跨问题领域的统一评估。

发布时间: 4/10/2025

查看原文

HalluciNot：通过上下文和常识验证的幻觉检测

作者: Bibek Paudel, Alexander Lyzhov, Preetam Joshi, Puneet Anand

arXiv:2504.07069v1 Announce Type: cross 摘要：本文介绍了一个全面的系统，用于在企业环境中检测大型语言模型（LLM）输出中的幻觉。我们提出了一种针对企业应用中幻觉的新型分类法，将其分为基于上下文、常识、企业特定和无关紧要的陈述。我们的幻觉检测模型HDM-2根据上下文和一般公认的事实（常识）验证LLM的响应。它提供幻觉评分和词级注释，使问题内容的精确识别成为可能。为了在基于上下文和常识的幻觉上评估它，我们引入了一个新的数据集HDMBench。实验结果表明，HDM-2在RagTruth、TruthfulQA和HDMBench数据集中优于现有方法。本工作针对企业部署的具体挑战，包括计算效率、领域专业化和细粒度错误识别。我们的评估数据集、模型权重和推理代码是公开可用的。

发布时间: 4/10/2025

查看原文

RayFronts：开放集语义射线前沿用于在线场景理解与探索

作者: Omar Alama, Avigyan Bhattacharya, Haoyang He, Seungchan Kim, Yuheng Qiu, Wenshan Wang, Cherie Ho, Nikhil Keetha, Sebastian Scherer

arXiv:2504.06994v1 Announce Type: cross 摘要：开放集语义映射对于开放世界机器人至关重要。当前的映射方法要么受限于深度范围，要么仅限于在受限环境中映射超出范围的实体，整体上它们无法将范围内外的观测结果结合起来。此外，这些方法在细节语义和效率之间做出权衡。我们引入了RayFronts这一统一表示，使其能够实现密集和超出范围的高效语义映射。RayFronts对范围内的体素和映射边界处编码的超出范围射线编码任务无关的开放集语义，从而使机器人能够显著减少搜索体积，并在范围内外做出有根据的决策，同时在Orin AGX上运行速度达到8.84 Hz。在范围内的语义上进行基准测试表明，RayFronts的详细图像编码提供了1.34倍的零样本3D语义分割性能，同时提高了16.5倍的吞吐量。传统上，实时映射性能与其他系统组件交织在一起，增加了评估的复杂性。我们提出了一种规划器无关的评估框架，能够捕捉超出范围搜索和探索的实用性，并显示RayFronts比最近的实时基线更高效地减少了2.2倍的搜索体积。

发布时间: 4/10/2025

查看原文