arXiv 论文列表

FuzzRisk：基于深度aware物体检测的模糊推理在线碰撞风险估计方法针对自主车辆

作者: Brian Hsuan-Cheng Liao, Yingjie Xu, Chih-Hong Cheng, Hasan Esen, Alois Knoll

arXiv:2411.08060v2 宣告类型: replace-cross 摘要：本文提出了一种新的监控框架，该框架基于自动驾驶车辆（AV）的物体检测性能来推断碰撞风险水平。该框架从两个不同的算法预测集中获取预测，并通过模糊推理将它们的一致性问题与碰撞风险关联起来。第一组预测是通过从深度图中检索安全关键的2.5D物体获得的，而第二组预测来自普通AV的3D物体检测器。实验验证表明，基于交并比（IoU）和深度差异度量，这两组预测的一致性问题强烈地与3D物体检测器相对于实际情况的误差相关联。这种相关性允许我们构建一个模糊推理系统，并将不一致性度量映射到一个AV碰撞风险指标。特别是，我们针对一个现有的离线指标优化了模糊推理系统，该指标与AV碰撞率吻合得很好。最后，我们利用大规模的nuScenes数据集验证了我们监控系统生成相关风险估计的能力，并展示了它可以在闭环仿真中保护AV。

发布时间: 2/20/2025

查看原文

MetaSSC：通过元学习和长序列建模增强自动驾驶中的3D语义场景完成

作者: Yansong Qu, Zixuan Xu, Zilin Huang, Zihao Sheng, Tiantian Chen, Sikai Chen

arXiv:2411.03672v2 宣告类型: replace-cross 摘要：语义场景补全（SSC）对于实现自动驾驶系统的全面感知至关重要。然而，现有的SSC方法往往忽略了实际应用中的高部署成本。传统的架构，如3D卷积神经网络（3D CNNs）和自我注意机制，在有效地捕捉3D体素网格内的长程依赖关系方面面临挑战，限制了它们的有效性。为了解决这些问题，我们提出了MetaSSC，一种基于元学习的新型SSC框架，利用可变形卷积、大内核注意力以及Mamba（D-LKA-M）模型。我们的方法首先通过基于体素的语义分割（SS）预训练任务，旨在探究不完整区域的语义和几何特征，同时获取可转移的元知识。使用模拟的协同感知数据集，我们利用来自多个相邻连接式自动驾驶车辆（CAVs）的聚合传感器数据监督单个车辆的感知训练，生成更丰富和更全面的标签。然后，通过不增加额外模型参数的双阶段训练策略将这些元知识适应目标域，实现高效的部署。为了进一步增强模型在3D体素网格内捕捉长序列关系的能力，我们将Mamba块与可变形卷积和大内核注意力整合到骨干网络中。广泛的实验表明，MetaSSC 达到了最先进的性能，显著优于竞争模型，并且降低了部署成本。

发布时间: 2/20/2025

查看原文

率、解释与引用 (REC): 大型语言模型在自动评估中增强的解释与归因

作者: Aliyah R. Hsu, James Zhu, Zhichao Wang, Bin Bi, Shubham Mehrotra, Shiva K. Pentyala, Katherine Tan, Xiang-Bo Mao, Roshanak Omrani, Sougata Chaudhuri, Regunathan Radhakrishnan, Sitaram Asur, Claire Na Cheng, Bin Yu

arXiv:2411.02448v2 宣布类型: 交叉替换摘要: 大规模语言模型(LLMs)在生成连贯且高质量文本方面展现了令人印象深刻的技能，使其在多种文本生成任务中都具有很高的价值。然而，对生成内容的严格评估仍然是一个关键挑战，因为确保其质量依然受到诸如事实不准确和诡辩等持续问题的影响。本论文引入了三种通用的大规模语言模型自动评估器——REC-8B、REC-12B 和 REC-70B——专门用于从多个维度评估生成文本的质量：忠实性、指令遵循性、连贯性和完整性。这些模型不仅能为这些度量标准提供评分，还能提供详细的解释和可验证的引用，从而增强对内容的信任。此外，该模型支持多种引用模式，以满足不同对延迟和粒度的要求。针对多种基准的广泛评估表明，在通用语言模型自动评估器方面，我们的 REC-70B 在 RewardBench 领导板中排名第一，以模型名称 TextEval-Llama3.1-70B 的身份在 2025 年 2 月 15 日之前在生成模型类别中表现出色。在内容评估方面，它凭借更高质量的解释和引用，并具有最小的偏见。我们的 REC 数据集和模型可在 https://github.com/adelaidehsu/REC 获取。

发布时间: 2/20/2025

查看原文

推理加速对大型语言模型偏见的影响

作者: Elisabeth Kirsten, Ivan Habernal, Vedant Nanda, Muhammad Bilal Zafar

arXiv:2410.22118v2 宣告类型: replace-cross 摘要：近年来，大型语言模型（LLMs）的能力取得了前所未有的进步。这些进步有望惠及广泛的应用领域。然而，由于其庞大的规模，使用LLMs进行推理既昂贵又缓慢。因此，近期有大量的研究工作提出了提高推理效率的策略，例如量化、剪枝和缓存。这些加速策略通过多种方式降低了推理成本和延迟，同时在通过常用基准测量的预测性能方面保留了大部分性能。在本文中，我们探讨了LLM性能的另一个关键方面：由于推理加速优化导致的模型生成中的代表性偏差。我们使用一系列指标从多个角度探查模型输出中的偏差。对加速前后输出的分析显示，偏差有很大的变化。令人担忧的是，这些偏差效应是复杂且不可预测的。一种加速策略与一种偏差类型在某个模型上可能几乎不改变偏差，但在另一个模型上可能会导致很大的影响。我们的结果强调了在修改模型以加速推理后，需要进行深入且个案研究的偏差评估。

发布时间: 2/20/2025

查看原文

数学神经外科：仅使用前向传递隔离语言模型的数学推理能力

作者: Bryan R. Christ, Zack Gottesman, Jonathan Kropko, Thomas Hartvigsen

arXiv:2410.16930v2 宣告类型: replace-cross 摘要：数学推理是大型语言模型（LLM）研究的一个活跃领域，因为它是人工智能的标志，并在包括数学教育在内的多个领域具有重要意义。然而，很少有研究探讨数学推理是如何在LLM参数中编码的，以及这种能力是否可以在模型中隔离。通过这样做，可以在不改变非数学行为的情况下，针对数学表现进行干预，同时也能够增进对模型如何编码数学推理的理解。我们引入了数学神经外科（MathNeuro），这是一种计算效率高的方法，我们使用仅正向传递来隔离LLM中的数学专用参数。MathNeuro 基于现有的工作，通过使用权重和激活来计算参数的重要性，但通过过滤掉对通用语言任务重要的参数来隔离数学专用参数。通过修剪MathNeuro识别出的参数，我们在不显著影响模型通用语言能力的情况下删除了LLM的数学推理能力。通过对识别出的参数进行微小常数的缩放，可以在GSM8K上提高预训练或指令调优的LLM 4-17%的性能，在MATH上则提高5-35%的性能，同时不会改变非数学行为。MathNeuro还具有数据效率：在其识别数学专用参数方面的大部分有效性当仅使用一个样本时仍然成立。MathNeuro突显了未来工作干预数学专用参数的潜在可能性。

发布时间: 2/20/2025

查看原文

大型语言模型的半监督 fine-tuning

作者: Junyu Luo, Xiao Luo, Xiusi Chen, Zhiping Xiao, Wei Ju, Ming Zhang

arXiv:2410.14745v2 宣告类型: replace-cross 摘要：监督微调（SFT）在将大型语言模型（LLMs）适应特定领域或任务方面至关重要。然而，在实际应用中，可用的标记数据量非常有限，这给SFT带来了严重的挑战，使其难以获得令人满意的结果。因此，一个能够充分利用标记数据和未标记数据以提高LLM微调效率的高效框架非常亟待出现。为了解决这一问题，我们提出了一种半监督微调（SemiFT）任务以及一种名为SemiEvol的框架，该框架从传播和选择的方式进行LLM对齐。在知识传播方面，SemiEvol采用了一种多层次的方法，通过权重内传播和上下文内传播将知识从标记数据传播到未标记数据。在知识选择方面，SemiEvol结合了一种协作学习机制，选择更高质量的伪响应样本。我们在GPT-4o-mini和Llama-3.1上使用了七个通用或特定领域的数据集进行了实验，证明了在目标数据上的模型性能得到了显著提升。此外，我们还将SemiEvol与SFT和自我进化方法进行了比较，突显了它在混合数据场景中的实用性。

发布时间: 2/20/2025

查看原文

大型语言模型之间的偏见相似性

作者: Hyejun Jeong, Shiqing Ma, Amir Houmansadr

arXiv:2410.12010v2 宣告类型: replace-cross 摘要：机器学习模型中的偏差，特别是大语言模型中的偏差，是一个关键问题，因为这些系统塑造着重要的社会决策。尽管之前的研究所探讨了单个LLM中的偏差，但模型之间偏差的比较仍然鲜有研究。为了解决这个问题，我们分析了五大家族中的13个LLM，通过两个数据集（4K和1M问题）在多个维度上评估输出分布以评估偏差。结果显示，微调对输出分布的影响很小，而自有的模型倾向于过度回应未知内容以最小化偏差，这牺牲了准确性和实用性。此外，开源模型如Llama3-Chat和Gemma2-it在公平性方面与自有的模型如GPT-4表现相当，挑战了越大、封闭的模型就天然偏差越小的假设。我们还发现，二义性问题的偏差得分更为极端，引发了逆向歧视的担忧。这些发现强调了改进偏差缓解策略和更全面的公平性评价指标的必要性。

发布时间: 2/20/2025

查看原文

大规模持续指令助手

作者: Jingyang Qiao, Zhizhong Zhang, Xin Tan, Yanyun Qu, Shouhong Ding, Yuan Xie

arXiv:2410.10868v3 公告类型: replace-cross 摘要：连续指令调优（CIT）被采用以逐步指导大型语言模型遵循人类意图数据。观察到现有的梯度更新会在CIT过程中严重破坏先前数据集的性能。相反，指数移动平均（EMA）具备追踪以前参数的能力，这有助于减少遗忘。然而，其稳定平衡权重无法应对不断变化的数据集，导致可塑性和稳定性之间的不平衡。在本文中，我们提出了一种通用的连续指令调优框架以应对这一挑战。从可取的权衡前提和EMA更新开始，我们提出了理想条件下的可塑性和稳定性。基于损失函数的泰勒展开，我们发现最优的平衡权重可以通过梯度和学习到的参数自动确定。因此，我们提出了一种稳定性和可塑性平衡系数以避免知识混淆。基于指令的语义相似性，我们可以确定是重新训练还是扩展训练参数，并为测试实例分配最合适的参数。在多个连续指令调优基准测试中的广泛实验表明，我们的方法不仅增强了抗遗忘能力，还显著提高了整体连续调优性能。例如，基于LLaVA-7B，遗忘率从5.42降低到1.93。我们的代码将在不久的将来公开。

发布时间: 2/20/2025

查看原文

增强天文学同行评审：ALMA 的评审员分配的机器学习和优化方法

作者: John M. Carpenter, Andrea Corvill\'on, Nihar B. Shah

arXiv:2410.10009v2 宣布类型: 替换-交叉摘要：越来越多需要进行同行评审的论文和提案突显了需要更大程度自动化以有效管理日益增长的数量的重要性。在这项研究中，我们介绍了用于2023年提交提案周期（Cycle 10）中开发的阿塔卡马毫米/亚毫米阵列（ALMA）提案分配和评估的机器学习和优化技术的部署与评估。使用主题建模算法，我们识别提案的主题，并基于他们之前提交的ALMA提案评估评审员的专业领域。然后，我们应用PeerReview4All（Stelmakh等人，2021）中的一种适应版本的分配优化算法，以最大化提案主题与评审员专业领域的匹配程度。我们的评估显示评审员专业领域的匹配度有了显著提高：提案主题与评审员专业领域的平均相似度分数提高了51个百分点，报告在他们被分配的提案中拥有专业领域的评审员比例提高了20个百分点。此外，分配过程非常有效，没有因显著不匹配而需要重新分配的提案，从而节省了3到5天的手动工作时间。

发布时间: 2/20/2025

查看原文

代理信息检索

作者: Weinan Zhang, Junwei Liao, Ning Li, Kounianhua Du, Jianghao Lin

arXiv:2410.09713v3 宣告类型: replace-cross 摘要：自20世纪70年代以来，信息检索（IR）一直被定义为从预定义的语料中获取相关的信息项，以满足用户的信息需求。传统的IR系统虽然在诸如网络搜索的领域有效，但受限于其对静态、预定义信息项的依赖。为了解决这一问题，本文引入了代理信息检索（Agentic IR），这是一种由大型语言模型（LLMs）和AI代理驱动的变革性的下一代IR范式。Agentic IR的核心转变在于从静态、预定义的信息项到动态、情境依赖的信息状态的变化。信息状态指的是用户在动态环境中所处的具体信息情境，不仅包括已获取的信息项，还包括实时的用户偏好、情境因素以及决策过程。通过这种方式，传统的信息检索，专注于基于用户查询获取相关的信息项，可以自然地扩展到根据用户指令实现目标信息状态，从而定义了代理信息检索。本文从任务定义、架构、评估、案例研究以及挑战和未来展望等多个方面系统地讨论了代理信息检索。我们认为，本文介绍的代理信息检索的概念不仅拓宽了信息检索研究的范围，也为更为适应、互动和智能的下一代IR范式奠定了基础。

发布时间: 2/20/2025

查看原文