arXiv 论文列表

作者: Huiyong Li, Boxuan Ma

arXiv:2504.03068v1 宣传类型: 跨学科摘要: 大型语言模型（LLM）工具通过提供即时且个性化的反馈，展现了其在有效编程教育中的巨大潜力。然而，许多这些工具与机构的学习管理系统（LMS）独立运行，这造成了一定的脱节。这种隔离限制了利用学习材料和练习上下文生成特定化、情境感知反馈的能力。此外，关于自我调节学习和LLM支持的先前研究主要集中在知识获取上，而没有涵盖培养重要自我调节技能。为了应对这些挑战，我们开发了CodeRunner Agent，这是一种基于LLM的编程助手，将CodeRunner（一种学生提交代码的执行和自动评分插件）融入Moodle中。CodeRunner Agent使教育者能够通过整合讲义材料、编程问题、学生答案和执行结果的详细上下文，自定义AI生成的反馈。此外，它通过提供基于策略的AI回应增强了学生的自我调节学习能力。这种集成、情境感知且以技能为导向的方法为数据驱动的编程教育改进提供了有前景的途径。

发布时间: 4/7/2025

查看原文

基于上下文的自适应调整以实现领域泛化

作者: Hao Yan, Yuhong Guo

arXiv:2504.03064v1 宣告类型: cross 摘要：域泛化旨在开发适合在源训练域中进行学习的算法，使得模型能够在不同的未见过的测试域中表现出良好的泛化能力。我们提出了一种新颖的两阶段方法，称为情境感知自适应（CASA）方法，用于域泛化。CASA 模拟了近似的元泛化场景，并结合了一个自适应模块，以便调整预训练的元源模型以适应元目标域，同时在元源域中保持其预测能力。自适应的核心概念是利用上下文信息（例如 mini-batch 特征的均值）作为域知识，自动适应在第一阶段训练的模型，使其适应第二阶段的新上下文。最后，我们使用多个元源模型的组合来进行测试域的推理。实验结果表明，我们提出的方法在标准基准测试中取得了最先进的性能。

发布时间: 4/7/2025

查看原文

多设备边缘网络中实时三维人体姿态估计的协同推理

作者: Hyun-Ho Choi, Kangsoo Kim, Ki-Ho Lee, Kisong Lee

arXiv:2504.03052v1 宣告类型: cross 摘要: 在资源受限和动态环境中进行准确且实时的三维(3D)姿态估计具有挑战性，因为其计算复杂度很高。为解决这一问题，本研究提出了一种在移动边缘计算(MEC)网络中进行实时3D人体姿态估计的新型协同推理方法。在所提方法中，多个配备轻量级推理模型的末端设备使用双重置信度阈值来过滤存在歧义的图像。只有经过过滤的图像才会被传输到具有更强大推理模型的边缘服务器进行重新评估，从而在计算和通信约束下提高估计精度。我们从推理准确性和端到端延迟两个方面对所提推理方法的性能进行了数值分析，并制定了一个关节优化问题，以确定每个设备的最佳置信度阈值和传输时间，目标是在满足所需的端到端延迟约束的同时，最小化每关节位置误差均值(MPJPE)。为解决这一问题，我们证明了最小化MPJPE等同于最大化所有设备的推理准确性的总和，将问题分解为可管理的子问题，并提出了一种低复杂度优化算法以获得接近最优的解决方案。实验结果表明，MPJPE和端到端延迟之间在不同的置信度阈值下存在权衡。此外，结果证实，所提出的协同推理方法通过最佳选择置信度阈值和传输时间，实现了显著的MPJPE减少，同时在各种MEC环境中一直满足端到端延迟要求。

发布时间: 4/7/2025

查看原文

基于任务上下文提示的大语言模型在准确医学症状编码中的应用

作者: Chengyang He, Wenlong Zhang, Violet Xinying Chen, Yue Ning, Ping Wang

arXiv:2504.03051v1 类型: cross 摘要：从疫苗安全报告等未结构化的临床文本中准确地编码医疗症状是一项关键任务，应用于药物警戒和安全性监测。如本研究中所定制的，症状编码涉及识别并链接细致的症状提及到标准化词汇表（如MedDRA），这与更广泛的医疗编码任务不同。传统方法将症状提取和链接视为独立的工作流，往往难以处理临床叙述的多样性和复杂性，尤其是对于罕见病例。近期大型语言模型（LLMs）的进步带来了新的机会，但也面临着在一致性表现上达到预期的挑战。为解决这些问题，我们提出了一种名为Task as Context (TACO) 提示的新框架，该框架通过将任务特定的背景信息嵌入到LLM提示中，统一了提取和链接任务。我们的研究还引入了SYMPCODER数据集，该数据集源自疫苗不良事件报告系统（VAERS）报告，并提出了一种两阶段评估框架，以全面评估症状链接和提及准确性。我们对多个人工智能语言模型进行全面评估，包括Llama2-chat、Jackalope-7b、GPT-3.5 Turbo、GPT-4 Turbo和GPT-4o，展示了TACO在提升定制任务如症状编码的灵活性和准确性方面的有效性，为更具体的编码任务铺平道路，并推动了临床文本处理方法的发展。

发布时间: 4/7/2025

查看原文

安全调制：通过成本调整奖励增强强化学习中的安全性

作者: Hanping Zhang, Yuhong Guo

arXiv:2504.03040v1 交叉公告类型摘要：安全强化学习（Safe RL）旨在训练一个强化学习（RL）代理，在遵守安全约束的情况下最大化其实时环境中的性能，因为超出安全违规限制可能会导致严重后果。在这篇论文中，我们提出了一种新颖的安全强化学习方法，称为安全调制策略优化（SMPO），通过安全调制奖励在标准策略优化框架内实现安全的策略函数学习。特别地，我们将安全违规成本视为与标准奖励并行的来自RL环境的反馈，并引入了一个Q成本函数作为安全评判者，以估计预期的未来的累计成本。然后，我们提出使用成本意识加权函数对奖励进行调制，该加权函数精心设计，基于安全评判者的估计确保安全限值，同时最大化预期奖励。策略函数和安全评判者通过在与环境进行在线交互时的梯度下降同时进行学习。我们使用多个RL环境进行了实验，实验结果表明，我们的方法在总体安全性能方面优于几种经典和最先进的比较方法。

发布时间: 4/7/2025

查看原文

基于对象中心注意力的深度强化学习

作者: Jannis Bl\"uml, Cedric Derstroff, Bjarne Gregori, Elisabeth Dillies, Quentin Delfosse, Kristian Kersting

arXiv:2504.03024v1 类型: cross 摘要：在原生像素输入上训练的深度强化学习代理人常常无法超越其训练环境，依赖于虚假的相关性和无关的背景细节。为了解决这一问题，最近出现了以对象为中心的代理人。然而，它们需要针对具体任务定制的不同表示。与深度代理人不同，没有单一的对象中心架构可以应用于任何环境。受到认知科学原则和奥卡姆剃刀原理的启发，我们引入了对象中心注意力通过屏蔽（OCCAM），它选择性地保留与任务相关的事物，同时过滤掉无关的视觉信息。具体而言，OCCAM 利用了以对象为中心的归纳偏置。在 Atari 基准上的实验评估表明，OCCAM 显著提高了对新型扰动的鲁棒性，并减少了样本复杂性，同时显示与传统基于像素的强化学习相当或更好的性能。这些结果表明，结构化抽象可以在不需要显式符号表示或特定领域对象提取流水线的情况下增强泛化能力。

发布时间: 4/7/2025

查看原文

归纳的双重路径模型

作者: Sheridan Feucht, Eric Todd, Byron Wallace, David Bau

arXiv:2504.03022v1 Announce Type: cross 摘要：关于上下文内复制的早期工作表明存在归纳头，这些头会在复制过程中注意并促进个别词元。在这项工作中，我们引入了一种新的归纳头类型：概念级归纳头，这些头会复制整个词块而不是个别词元。概念归纳头学习在训练过程中注意多词词组的结尾部分，并与词元级归纳头并行工作，以复制有意义的文本。我们表明，这些头对词级翻译等语义任务负责，而词元归纳头对于只能逐字完成的任务，如复制无意义的词元，至关重要。这两种“路径”独立运作：事实上，我们表明，去除词元归纳头会导致模型在本应逐字复制的地方进行改写。鉴于这些发现，我们认为尽管词元归纳头对于特定任务至关重要，但概念归纳头可能在上下文内学习中更具广泛的相关性。

发布时间: 4/7/2025

查看原文

局部定义与分布式推理：通过激活补丁方法进行的机制可解释性概念验证研究

作者: Nooshin Bahador

arXiv:2504.02976v1 宣告类型：交叉摘要：本研究利用因果层归因通过激活补丁（CLAP）方法，探讨了对微调后的GPT-2模型的知识表示进行定位。CLAP方法用于识别负责正确答案生成的关键神经层。该模型在9,958篇PubMed摘要上进行了微调（癫痫：20,595次提及，EEG：11,674次提及，发作：13,921次提及），采用两种配置并在验证损失监控下进行早期停止。CLAP涉及以下步骤：（1）缓存干净（正确答案）和损坏（错误答案）的激活；（2）计算logit差异以量化模型的偏好；（3）用干净的激活替换损坏的激活以评估恢复情况。结果显示了三项发现：首先，修补第一前馈层恢复了56%的偏好，这表明关联性知识分布在多个层中。其次，修补最终输出层完全恢复了准确性（100%的恢复），表明定义性知识是局部化的。对于定义性问题，干净logit差异的增强进一步支持了这种局部化的表示。第三，卷积层修补的恢复效果最小（13.6%），表明低级特征对高级推理的贡献较小。统计分析表明，在层特异性方面存在显著影响（p<0.01）。这些发现表明，事实性知识更局部化，关联性知识依赖于分布式的表示。我们还表明，编辑效果取决于任务类型。我们的发现不仅调和了关于模型编辑中局部化观察的矛盾，还强调了适应性技术在可靠、可解释更新中的重要性。

发布时间: 4/7/2025

查看原文

改进的紧凑遗传算法配以高效缓存

作者: Prasanta Dutta, Anirban Mukhopadhyay

arXiv:2504.02972v1 类型:交叉学科摘要:紧凑遗传算法(cGAs)是经典遗传算法(GAs)的浓缩变体，它们使用概率向量表示种群，而不是完整的种群。cGAs已被证明可以在减少所需函数评估次数的同时，产生与经典GAs相似的结果。然而，当cGAs接近收敛时，它们倾向于反复生成相同的染色体，这会导致对相同染色体的不必要的评估。本文引入了在cGAs中使用缓存的概念，以避免重复评估相同的染色体。我们提出的方法等效于cGAs，但通过减少函数评估次数增强了算法的时间效率。我们还提出了一种高效缓存维护的数据结构，以确保低开销。提出的缓存方法在平均情况下具有渐近恒定的时间复杂度。此外，该方法进一步将缓存机制推广至基于精英主义的cGAs，并具有更高的选择压力。我们基于两个广为人知的缓存替换策略在基准优化问题上的实验进行了严格分析。结果表明，缓存可以显著减少所需的功能评估次数，同时保持相同水平的性能准确性。

发布时间: 4/7/2025

查看原文

全局秩序GFlowNets

作者: Llu\'is Pastor-P\'erez, Javier Alonso-Garcia, Lukas Mauch

arXiv:2504.02968v1 Announce Type: cross 摘要：序保留（Order-Preserving, OP）GFlowNets已经在使用随机优化技术解决复杂多目标（multi-objective, MOO）的黑盒优化问题上展现了显著的成功。具体而言，它们能够在线训练以高效地采集 Pareto 前沿附近的多样化候选解。OP GFlowNets 的一个重要优势是它们能够基于 Pareto 占优对训练样本进行局部排序，从而消除对尺度归一化（scalarization）的需求，这种需求在其他方法，如偏好条件 GFlowNets 中是常见的。然而，我们发现 OP GFlowNets 一个重要的局限性是：对训练样本施加局部排序可能导致优化目标间的冲突。为解决这一问题，我们引入了全局序 GFlowNets，该方法将局部排序转换为全局排序，从而解决这些冲突。我们在各种基准上的实验评估证明了所提方法的有效性和前景。

发布时间: 4/7/2025

查看原文