arXiv 论文列表

作者: Barbera de Mol, Davide Barbieri, Jan Viebahn, Davide Grossi

arXiv:2502.08681v2 Announce Type: replace-cross 摘要：由于可再生能源发电量的增加，电网运行正在变得越来越复杂。最近一系列运行电力网络的学习竞赛（L2RPN）鼓励使用人工代理来辅助人类调度员进行电网操作。然而，动作空间的组合性质对传统的优化器和学习控制器都构成了挑战。动作空间分解，即通过分解决策任务为更小的子任务来解决维度灾难，是一种应对方法。在此研究中，我们提出了一种中心协调多代理（CCMA）架构来实现动作空间分解。在此方法中，区域代理提出行动，然后协调代理选择最终行动。我们调查了几种CCMA架构的实现，并在不同的实验设置中与各种L2RPN基线方法进行了基准测试。CCMA架构在样本效率和最终性能上都优于基线方法。这些结果表明，CCMA方法在更高维度的L2RPN以及实际电网设置中具有很高的应用潜力。

发布时间: 5/16/2025

查看原文

远程 sensing 图像中的非法废物检测：一项案例研究

作者: Federico Gibellini, Piero Fraternali, Giacomo Boracchi, Luca Morandini, Thomas Martinoli, Andrea Diecidue, Simona Malegori

arXiv:2502.06607v3 宣告类型: replace-cross 摘要：环境犯罪是全球第三大犯罪活动，其经济效益主要来自固体废物非法管理。得益于 Very High Resolution Remote Sensing (VHR RS) 图像的日益可用性和成本下降，如今可以依赖现代图像分析工具支持照片解释，用于扫描广大地区以寻找非法废物倾倒地点。本文展示了与一个地区环境保护局合作开发的半自动废物检测管道，用于在 VHR RS 图像中检测候选的非法倾倒地点。为了优化废物检测器的有效性，广泛的实验评估了诸如网络架构、输入图像的地面分辨率和地理范围以及预训练程序等设计选择。最佳模型取得了显著的性能，达到了 92.02% 的 F1 分数和 94.56% 的准确率。泛化研究评估了检测器在处理与训练时使用的区域差别较大的图像时的性能变化，仅造成了轻微的性能损失，即 F1 分数下降 6.5%。最后，实验人员将拍照解释员在使用和未使用废物检测器支持的情况下对区域扫描付出的努力进行了比较，评估了在专业环境管理局使用计算机辅助图像分析工具的实际好处。结果表明，废物站点检测所需时间可以减少多达 30%。

发布时间: 5/16/2025

查看原文

大型语言模型通过分析、检索和推理进行问答

作者: Yuwei Yin, Giuseppe Carenini

arXiv:2502.04689v3 宣告类型: replace-cross 摘要：大规模语言模型（LLMs）在复杂的评估基准测试中展现了令人印象深刻的能力，其中许多测试形式上是问答（QA）任务。在问答上下文中提高LLMs的性能变得越来越重要，这对于推进其发展和应用具有重要意义。本文引入了ARR，这是一种直观、有效且通用的问答解决方法，明确地包含三个关键步骤：分析问题的意图、检索相关信息以及逐步推理。值得注意的是，这是首次在问答中引入意图分析，它在ARR中起到了关键作用。在10个不同的问答任务中的全面评估表明，ARR在所有任务中始终优于基线方法。消融实验和案例研究进一步证实了每个ARR组件的积极贡献。此外，涉及提示设计变化的实验表明，ARR在其特定提示形式下依然保持其有效性。此外，各种模型规模、LLM系列和生成设置下的广泛评估进一步证明了ARR的有效性、鲁棒性和通用性。

发布时间: 5/16/2025

查看原文

ImprovNet -- 使用迭代 Corruption 完善生成可控的即兴音乐

作者: Keshav Bhandari, Sungkyun Chang, Tongyu Lu, Fareza R. Enus, Louis B. Bradshaw, Dorien Herremans, Simon Colton

arXiv:2502.04522v3 宣布类型: replace-cross 摘要：尽管深度学习在各种领域实现了风格转换的显著进展，但在完整符号表示的音乐作品中生成可控制的性能级别音乐风格转换仍然是一个具有挑战性的研究领域。这主要是由于数据集有限，尤其是在爵士等流派方面，以及缺乏能够处理多种音乐生成任务的统一模型。本文提出了一种基于变换器的架构—ImprovNet，通过自我监督的污染-精炼训练策略生成具有表现性和可控制性的音乐即兴创作。这种即兴风格转换旨在对原始作品的一个或多个音乐元素（旋律、和声或节奏）进行有针对性的修改，以符合目标流派。ImprovNet 统一了多种能力于单一模型中：它可以进行跨流派和同一流派的即兴创作，根据特定流派风格对旋律进行和声化，并执行短提示继续和填补任务。模型的迭代生成框架允许用户控制风格转换和结构相似性的程度。客观和主观评估表明，ImprovNet 在生成音乐连贯的即兴创作方面有效，同时保持与原始作品的结构关系。在短续写和填补任务中，该模型优于预期音乐变换器，并成功实现了可识别的流派转换，其中79%的参与者能够正确识别出古典作品的爵士风格即兴创作。我们的代码和演示页面可以在 https://github.com/keshavbhandari/improvnet 查看。

发布时间: 5/16/2025

查看原文

Lightspeed 几何数据集距离通过分层最优传输

作者: Khai Nguyen, Hai Nguyen, Tuan Pham, Nhat Ho

arXiv:2501.18901v2 通告类型: replace-cross 摘要: 我们介绍了一种模型无关、嵌入无关的数据集比较方法——切片最优运输数据集距离(s-OTDD)，该方法无需训练，对类别数量的变化具有鲁棒性，并能够处理不连续的标签集。核心创新是矩变换投影(MTP)，它可以将标签（表示为特征的分布）映射到一个实数。使用MTP，我们推导出一个数据点投影，将数据集转换成一维分布。s-OTDD定义为在随机投影参数下投影分布的期望 Wasserstein 距离。利用一维最优运输的闭形式解，s-OTDD在数据点数量和特征维度的数量上实现了接近线性的计算复杂度，并且与类别数量无关。借助其几何上有意义的投影，s-OTDD与最优运输数据集距离高度相关，同时比现有数据集差异度量更为高效。此外，s-OTDD与迁移学习中的性能差距和数据增强中的分类准确性也高度相关。

发布时间: 5/16/2025

查看原文

基于生成式AI在客观结构化临床考试（OSCEs）中评分医学学生面试的基准测试

作者: Jadon Geathers, Yann Hicke, Colleen Chan, Niroop Rajashekar, Justin Sewell, Susannah Cornes, Rene F. Kizilcec, Dennis Shung

arXiv:2501.13957v2 通知类型: 替换交叉摘要：结构化临床考试（OSCEs）广泛用于评估医学生沟通技能，但评分面试评估耗时且可能受到人为偏见的影响。本研究探讨了大型语言模型（LLMs）利用大师面试评分量表（MIRS）自动化OSCE评估的潜力。我们比较了四款最先进的LLMs（GPT-4o、Claude 3.5、Llama 3.1和Gemini 1.5 Pro）在零样本、链式思考（CoT）、少量样本和多步提示条件下，对MIRS所有28项内容及其10个OSCE病例的专家共识评分进行评估的表现。模型在10个OSCE病例的数据集上进行了基准测试，该数据集包含174个专家共识评分。通过三个准确性指标（精确、近似一个单位、阈值）衡量模型性能。在所有MIRS项目和OSCE病例的平均值上，LLMs的精确度较低（0.27到0.44），但其近似一个单位和阈值的准确度较高（0.67到0.87和0.75到0.88）。零温度参数确保了GPT-4o的高内评价信度（α = 0.98）。链式思考、少量样本和多步提示技术在针对特定评估项目时证明是很有价值的。模型表现一致，与接见阶段和沟通领域无关。我们展示了AI辅助OSCE评估的可行性，并提供了多种LLMs在多种提示技术下的基准测试。我们的工作为LLMs提供了一个基准性能评估，为未来研究自动化评估临床沟通技能奠定了基础。

发布时间: 5/16/2025

查看原文

表示收敛：互 ++; user 纠正一下，应该是“互相蒸馏实际上是正则化的一种形式”

作者: Zhengpeng Xie, Jiahang Cao, Qiang Zhang, Jianxiong Zhang, Changwei Wang, Renjing Xu

arXiv:2501.02481v4 宣告类型: replace-cross 摘要: 在本文中，我们认为强化学习策略之间的互 information 教练充当了一种隐含的正则化手段，防止它们对不相关信息特征过度拟合。我们强调了两个关键贡献：(a) 理论上，首次证明增强策略对不相关信息特征的鲁棒性可以提高泛化性能。(b) 实验上，我们展示了策略之间的互 information 教练有助于这种鲁棒性的增强，使得像素输入上出现不变表示的自发出现。总体而言，我们的发现挑战了传统上认为信息转移仅仅是知识传递手段的观点，为深度强化学习中的泛化提供了一个新的视角。

发布时间: 5/16/2025

查看原文

基于目标条件的监督学习多目标推荐

作者: Shijun Li, Hilaf Hasson, Jing Hu, Joydeep Ghosh

arXiv:2412.08911v3 宣告类型: replace-cross 摘要：多目标学习旨在使用单一模型同时优化多个目标，以在多样的目标之间实现高且均衡的性能。然而，这通常会带来一个更复杂的问题，尤其是在权衡目标之间潜在冲突时，这会导致更高的内存需求和计算复杂性。本文引入了一种多目标条件监督学习（MOGCSL）框架，用于从离线序列数据中自动学习实现多个目标。MOGCSL通过将目标从一维标量重新定义为多维向量，扩展了传统的GCSL方法，使其在多目标场景中获益于自然地消除了复杂架构和优化约束的需要。此外，MOGCSL有效地过滤掉了无法在多个目标上实现期望的长期奖励的无信息或噪声实例。我们还为MOGCSL引入了一种新颖的目标选择算法，用于建模和识别适合推理的“高”可实现目标。尽管MOGCSL非常通用，但我们专注于其在商用推荐系统中下一动作预测问题的应用。在这个上下文中，任何可行的解决方案都需要具有合理的扩展性，同时也要对这种应用空间中大量的噪声数据具有鲁棒性。通过在实际推荐数据集上的广泛实验，我们展示了MOGCSL在这两个方面的卓越表现。此外，还包括了分析和实验，以解释其在具有多个目标的推荐系统训练数据中排除噪声部分的强大力量。

发布时间: 5/16/2025

查看原文

并非所有适配器都重要：用于语言模型高效微调的选择性适配器冻结

作者: Hyegang Son, Yonglak Son, Changhoon Kim, Young Geun Kim

arXiv:2412.03587v2 宣告类型: 替换-交叉摘要: 基于变压器的大规模预训练模型取得了巨大成功。在下游任务中利用这些模型的标准做法是进行微调。在微调方法中，适配器微调通过引入轻量级的可训练模块而保持大部分预训练参数冻结，从而实现参数高效的微调。然而，现有的适配器微调方法仍然导致了大量的资源使用。通过我们的研究，我们发现每个适配器对任务性能和资源使用的影响是不均衡的。基于这一洞察，我们提出了选择性适配器冻结 (SAFE)，该方法早期冻结不重要的适配器，以减少不必要的资源使用，同时保持性能。在我们的实验中，SAFE 将内存使用量、计算量和训练时间分别减少了 42.85%，34.59% 和 11.82%，同时与基线相比，任务性能同等或更优。此外，我们还证明了 SAFE 具有正则化效应，从而平滑了损失地形，使模型通过避免尖锐的极小值更好地泛化。

发布时间: 5/16/2025

查看原文

大语言模型测试时计算量的简单可证明缩放法则

作者: Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou

arXiv:2411.19477v3 确认类型: replace-cross 摘要: 我们提出了两种简单、原理上明确且实用的算法，这些算法具有可证明的测试时计算扩展定律，适用于大型语言模型 (LLMs)。第一个算法是两阶段淘汰赛风格的算法：给定一个输入问题，它首先生成多个候选解决方案，然后通过淘汰锦标赛来汇总这些解决方案以生成最终输出。假设该LLM能够以非零概率生成正确的解决方案，并且相对于一对正确和不正确的解决方案，它能够表现得比随机猜测更好，我们理论上证明，随着该算法的测试时计算量增加，其失败概率会以指数级或幂律（具体方式取决于扩展方式）收敛至零。第二个算法是两阶段联赛风格的算法，在这种算法中，每个候选者是根据其多次对阵多个对手的平均胜率来进行评估的，而不是在输给单一对手后被直接淘汰。在类似的但更具鲁棒性的假设下，我们证明，随着测试时计算量的增加，其失败概率也会以指数级收敛至零。这两种算法只需要一个黑盒LLM（不需要验证器或奖励模型）即可实现，这使其适用于实际应用，并且容易适应不同的任务。通过使用各种不同的模型和数据集进行广泛的实验，我们验证了提出的理论，并展示了这两种算法的出色扩展特性。

发布时间: 5/16/2025

查看原文