arXiv 论文列表

作者: Guixian Zhang, Guan Yuan, Debo Cheng, Lin Liu, Jiuyong Li, Shichao Zhang

arXiv:2409.20052v2 通知类型: replace-cross 摘要：大型语言模型（LLMs）的快速发展为推荐系统带来了新的机会，尤其是在利用这些模型生成的侧信息（例如项目的描述和分析）方面。然而，将这种侧信息与历史交互中的合作信息对齐仍然面临着重大挑战。LLMs内部固有的偏差可能扭曲推荐结果，导致用户的体验失真和潜在的不公平性。另一方面，倾向偏差使得侧信息以一种方式对齐，倾向于在低维子空间中表示所有输入，导致所谓的维度坍缩现象，这对推荐系统的用户偏好和行为捕捉能力造成了严重限制。为了解决这些问题，我们引入了一个名为对抗性LLMs推荐（CLLMR）的新型框架。具体而言，我们提出了一种基于光谱的侧信息编码器，该编码器隐式地将历史交互中的结构信息嵌入到侧信息表示中，从而避免了维度坍缩的风险。此外，我们的CLLMR方法探索了基于LLMs的推荐系统中固有的因果关系。通过利用反事实推理，我们抵消了LLMs引入的偏差。大量实验表明，我们的CLLMR方法能够一致地提升各种推荐模型的性能。

发布时间: 4/14/2025

查看原文

Meta-RTL：基于强化学习的低资源常识推理元迁移学习

作者: Yu Fu, Jie He, Yifan Yang, Qun Liu, Deyi Xiong

arXiv:2409.19075v4 宣布类型：替换-交叉摘要：元学习已被广泛用于利用富含资源的源任务来提高低资源目标任务的性能。不幸的是，大多数现有的元学习方法将不同的源任务平等对待，忽视了源任务与目标任务在知识转移方面的相关性。为了解决这一问题，我们提出了一种基于强化学习的多源元转移学习框架（Meta-RTL），用于低资源常识推理。在该框架中，我们提出了一种基于强化学习的方法，用于动态估计源任务权重，这些权重衡量相应任务在元转移学习中对目标任务的贡献。采样的目标数据上的元特定时序模型的通用损失与任务特定损失之间的差异被作为奖励输入到强化学习模块的策略网络中。策略网络基于LSTMs构建，可以捕获元学习迭代过程中源任务权重估计的长期依赖关系。我们使用BERT和ALBERT作为元模型的主干，在三个常识推理基准数据集上评估了提出的Meta-RTL。实验结果表明，Meta-RTL显着优于强大的基线方法和先前的任务选择策略，并在极度低资源设置中实现了更大的改进。

发布时间: 4/14/2025

查看原文

基于多视图扩散模型的高斯点云生成对象插入

作者: Hongliang Zhong, Can Wang, Jingbo Zhang, Jing Liao

arXiv:2409.16938v2 宣告类型: replace-cross 摘要：在3D内容中生成并插入新对象是实现多样化场景重现的一种令人信服的方法。现有的方法依赖于SDS优化或单视角插值，往往难以产生高质量的效果。为了解决这一问题，我们提出了一种基于高斯插值表示3D内容的物体插入新方法。我们的方法引入了一种多视角扩散模型，称为MVInpainter，在这种模型中，基于预训练的稳定视频扩散模型以促进视角一致的对象插值。在MVInpainter中，我们引入了一个基于ControlNet的条件注入模块，以实现更可控和更具预测性的多视角生成。在生成多视角插值结果后，我们进一步提出了一种掩码感知的3D重构技术，以细化这些稀疏插值视图的高斯插值重构。通过利用这些技术，我们的方法能够产生多样化的结果，确保视图一致且和谐的插入，并生产出更好的物体质量。广泛的实验证明，我们的方法优于现有方法。

发布时间: 4/14/2025

查看原文

在线SLA分解：使网络系统随时间演化时能够实现实时适应

作者: Cyril Shih-Huan Hsu, Danny De Vleeschauwer, Chrysa Papagianni, Paola Grosso

arXiv:2408.08968v4 通知类型: replace-cross 摘要：当一个网络切片跨越多个技术领域时，每个领域都有责任维护与该切片相关的端到端（E2E）服务级别协议（SLA）。因此，E2E SLA 必须正确地分解为分部分级协议，这些分部分级协议分配给每个涉及的领域。在具有两层架构的网络切片管理系统中，包含端到端服务协调器和本地领域控制器，我们考虑协调器只能访问本地控制器对于先前请求的响应历史数据，并利用这些信息为每个领域构建风险模型。在这项研究中，我们扩展了我们之前的成果，研究了现实世界系统动态性的本质，并引入了一种在线学习和分解框架来应对这种动态性。我们提出了一种框架，能够在最新的反馈基础上持续更新风险模型。该方法利用了在线梯度下降和FIFO内存缓冲等关键组件，以增强整体过程的稳定性和鲁棒性。我们基于分析模型的模拟器进行的经验研究表明，所提出的框架在不同条件和数据限制下比最先进的静态方法表现更佳，提供了更精准和更抗扰动的SLA分解。此外，我们还提供了解决方案的全面复杂性分析。

发布时间: 4/14/2025

查看原文

Patched MOA：优化多样化的软件开发任务推理

作者: Asankhaya Sharma

arXiv:2407.18521v3 宣布类型: replace-cross 摘要: 本文介绍了Patched MOA（混合智能体）推理优化技术，该技术显著提升了大型语言模型（LLMs）在多种软件开发任务中的性能。我们评估了三种推理优化算法——Best of N、Mixture of Agents和Monte Carlo Tree Search，并展示了Patched MOA能够提升较小模型的性能，使其超越更大、更昂贵的模型。值得注意的是，我们的方法在Arena-Hard-Auto基准测试中将gpt-4o-mini模型的性能提高了15.52%，成本仅为gpt-4-turbo的几分之一。我们还将Patched MOA应用于各种软件开发工作流程，展示了在任务完成率上的持续改进。我们的方法是模型无关的、对最终用户是透明的，并且可以很容易地集成到现有的LLM管道中。这项工作促进了LLM优化领域的增长，提供了一种无需微调或更大模型即可提升模型性能的低成本解决方案。我们的实现是开源的，并可在https://github.com/codelion/optillm获得。

发布时间: 4/14/2025

查看原文

基于代码结构引导的强化学习的Verilog生成大语言模型

作者: Ning Wang, Bingkun Yao, Jie Zhou, Xi Wang, Zhe Jiang, Nan Guan

arXiv:2407.18271v3 公告类型: replace-cross 摘要: 近年来，大规模语言模型（LLMs）的进步引发了对自动生成寄存器传输级（RTL）设计的广泛关注，特别是使用Verilog进行生成。目前，该领域的研究主要集中在预训练和指令微调上，但这些方法的有效性受到训练数据有限的限制，因为公开的Verilog代码远少于软件代码。具体来说，这些方法难以有效捕捉Verilog并行代码结构，而这些结构与大多数软件编程语言中典型的命令式、顺序控制流不同。本文介绍了VeriSeek，这是一种通过有限的高质量训练数据增强的强化学习方法，实现了高效的Verilog代码生成性能。我们的强化学习方法利用代码结构信息作为反馈信号来完善预训练模型，使其能够有效地从具有并行结构的Verilog代码中学习重要模式。实验结果表明，VeriSeek在多个基准测试中优于现有最先进的方法。

发布时间: 4/14/2025

查看原文

修补rtc：评估LLM在多样化的软件开发任务中的表现

作者: Asankhaya Sharma

arXiv:2407.16557v2 宣告类型: replace-cross 摘要：本文介绍了Patched Round-Trip Correctness (Patched RTC)，这是一种应用于各种软件开发任务的新颖评估技术，特别是针对如 bug 修复、代码审查和文档更新等“外环”活动。Patched RTC 扩展了原始的 Round-Trip Correctness 方法，使其能够与任何大型语言模型 (LLM) 和下游任务协同工作，提供一个自我评估框架，无需人工干预即可衡量模型响应的一致性和鲁棒性。研究显示了Patched RTC 得分与任务特定准确性度量之间的关联，并将其作为一种替代LLM作为评判者的范式，用于开放领域任务评估。我们通过开放源代码框架patchwork 实现了Patched RTC，允许在各种补丁流中进行透明评估。比较GPT-3.5和GPT-4模型在不同软件开发任务中的实验结果显示，Patched RTC 有效地区分了模型性能和任务难度。本文还探讨了保持一致性提示对提高模型准确性的影响，建议Patched RTC 可以指导提示优化和复杂软件开发工作流程中模型的选择。

发布时间: 4/14/2025

查看原文

DragPoser：通过潜在空间优化从变稀疏跟踪信号重构运动

作者: Jose Luis Ponton, Eduard Pujol, Andreas Aristidou, Carlos Andujar, Nuria Pelechano

arXiv:2406.14567v2 宣告类型: replace-cross 摘要：通过配备大量传感器的高端动作捕捉系统，可以实现高质的信任用户动作跟踪的运动重建。然而，使用较少的输入设备来获得这样的动画质量越来越受到欢迎，因为它使动作捕捉更接近普通公众。主要挑战包括基于学习的方法在末端执行器精度方面的损失，或者基于IK的方法在自然性和平滑度方面的不足。此外，此类系统通常需要精细调整特定数量的追踪器，并且对缺失数据高度敏感，例如，在传感器被遮挡或故障的情况下。为应对这些挑战，我们引入了DragPoser，这是一种新颖的基于深度学习的动作重建系统，能够准确表示刚性和动态的实时约束，实现超实时高精度的末端执行器位置。这一目标是通过在结构化的潜在空间中进行姿态优化实现的。我们的系统只需要在大型人类动作数据集上进行一次训练，然后可以根据需要动态定义约束（作为损失），通过在潜在空间内计算这些损失的梯度来逐步优化姿态。为了进一步增强我们的方法，我们引入了一个时间预测网络，该网络利用Transformer架构直接在潜在空间中编码时间特性。该网络确保姿态优化局限于有效姿态的流形上，并利用过去的姿态数据来预测时间连贯的姿态。结果显示，DragPoser 在实现精确的末端执行器定位方面超过了基于IK的方法和最新的数据驱动方法，同时生成自然的姿态和时间连贯的运动。此外，我们的系统展示了对实时约束修改的鲁棒性，并表现出对各种输入配置和变化的出色适应性。

发布时间: 4/14/2025

查看原文

CoSQA+：以测试驱动代理引领多选项代码搜索基准

作者: Jing Gong, Yanghui Wu, Linxi Liang, Yanlin Wang, Jiachi Chen, Mingwei Liu, Zibin Zheng

arXiv:2406.11589v5 宣布类型: replace-cross 摘要：语义代码搜索，即检索与给定自然语言查询匹配的代码，是提高软件工程生产力的重要任务。现有代码搜索数据集存在局限性：它们依赖于通过语义理解而非功能验证来进行代码评估的人工标注员，这可能导致潜在的不准确性和可扩展性问题。此外，当前的评价指标往往忽略了代码搜索的多选择性质。本文介绍了CoSQA+，它将高质量的查询与多个合适的代码配对。我们开发了一个自动化的管道，具备多种基于模型的候选选择和新的基于测试的代理标注系统。在单个大型语言模型(LLM)标注员和未经基于测试验证的Python专家标注员中，代理利用基于测试的验证并实现了最高的准确率92.0%。通过广泛的实验，CoSQA+已经展示了比CoSQA更优的质量。在CoSQA+上训练的模型表现更好。我们在https://github.com/DeepSoftwareAnalytics/CoSQA_Plus 提供了代码和数据。

发布时间: 4/14/2025

查看原文

DAG-计划：为双臂协同规划生成有向无环依赖图

作者: Zeyu Gao, Yao Mu, Jinye Qu, Mengkang Hu, Shijia Peng, Chengkai Hou, Lingyue Guo, Ping Luo, Shanghang Zhang, Yanfeng Lu

arXiv:2406.09953v3 宣告类型: replace-cross 摘要：双臂机器人通过同时操作多个物体或使用双臂协同执行任务，相比于单臂机器人提供了增强的灵活性和效率。然而，双臂系统在长期任务中的协调仍然面临着重大挑战，源于子任务之间复杂的时序和空间依赖性，需要关于动作在双臂之间分配以及最优执行顺序的智能决策。现有的任务规划方法主要关注单臂机器人，或者依赖预先定义的双臂操作来使用大型语言模型(LLMs)生成具有线性时序依赖性的任务序列，未能充分利用双臂系统的全部能力。为了解决这一局限性，我们提出了DAG-Plan，一种为双臂机器人定制的任务规划框架。DAG-Plan利用LLMs将复杂的任务分解为可执行的子任务，并将这些子任务作为有向无环图(DAG)内的节点表示。关键的是，DAG-Plan根据实时环境观测动态分配这些子任务给合适的臂，从而实现并行和适应性执行。我们在Dual-Arm Kitchen Benchmark上评估了DAG-Plan，该基准包括5个连续任务和44个子任务。广泛实验表明，DAG-Plan优于直接使用LLMs生成线性任务序列，其效率比单臂任务规划高52.8%，比双臂任务规划的成功率高出48%。与迭代方法相比，DAG-Plan由于查询时间更少，执行效率提高了84.1%。有关更多演示和信息，请访问 https://sites.google.com/view/dag-plan。

发布时间: 4/14/2025

查看原文