arXiv 论文列表

作者: Yi Zhang, Ruihong Qiu, Jiajun Liu, Sen Wang

arXiv:2407.13163v2 宣告类型: 替换-交叉摘要：离线强化学习（RL）是有效用于实际推荐系统的技术，因为它能够模拟动态用户兴趣并且具有交互特性。当前大多数离线 RL 推荐系统集中在基于模型的 RL 上，通过从离线数据中学习世界模型并与此模型交互来构建推荐策略。尽管这些方法在推荐性能上取得了进步，但基于模型的离线 RL 方法的效果往往受限于对奖励模型估计的准确性和模型不确定性，主要由于离线记录数据与用户在在线平台上的实际数据在交互方面的极大差异。为填补这一差距，需要更准确的奖励模型和不确定性估计。本文提出了一个名为 ROLeR 的新颖基于模型的奖励塑形方法，用于推荐系统中的奖励和不确定性估计。具体而言，设计了一种非参数化奖励塑形方法来改进奖励模型。此外，设计了一种更加灵活且更具代表性的不确定性惩罚，以满足推荐系统的需求。在四个基准数据集上的广泛实验表明，ROLeR 在与现有基线相比时实现了最先进的性能。源代码可以从 https://github.com/ArronDZhang/ROLeR 下载。

发布时间: 5/13/2025

查看原文

CodeV：通过多级总结增强LLMs的HDL生成能力

作者: Yang Zhao, Di Huang, Chongxiao Li, Pengwei Jin, Muxin Song, Yinan Xu, Ziyuan Nan, Mingju Gao, Tianyun Ma, Lei Qi, Yansong Pan, Zhenxing Zhang, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Xing Hu

arXiv:2407.10424v5 宣告类型: replace-cross 摘要：处理器设计流程，特别是在硬件描述语言（HDL）如Verilog和Chisel中，是复杂且成本高昂的。虽然近期在大型语言模型（LLMs）方面取得了显著进展，使得在软件语言如Python中的编码任务得到了大幅改善，但在HDL生成方面应用仍受到限制，这主要是由于高质量HDL数据的稀缺性。传统上，为了适应硬件设计的LLMs方法主要依赖于合成的HDL数据集，而这些数据集往往质量较低，即使是像GPT这样的高级LLMs在HDL域的表现也较差。此外，这些方法主要集中在聊天任务和Verilog语言上，限制了它们的应用场景。在这篇论文中，我们观察到以下几点：（1）从现实世界中收集的HDL代码比LLMs生成的代码质量更高。（2）像GPT-3.5这样的LLMs在归纳总结HDL代码方面表现突出，而不是生成代码。（3）显式的语言标签在数据不足时可以帮助LLMs更好地适应目标语言。基于这些观察，我们提出了一种高效的HDL生成LLM微调管道，该管道结合了多层次归纳总结数据合成过程和一种新颖的Chat-FIM-Tag监督微调方法。该管道增强了从自然语言描述生成HDL代码的能力，并使处理各种任务，如聊天和填补代码片段成为可能。利用这一管道，我们介绍了CodeV系列HDL生成LLMs。其中，CodeV-All不仅具备更广泛的语言能力，即Verilog和Chisel，并且涵盖了更广泛的任务，如聊天和中间填补（FIM），而且还实现了在VerilogEval上的性能与仅在Verilog上微调的CodeV-Verilog相当甚至更好，使它们成为第一个设计用于多场景HDL生成的开源LLMs系列。

发布时间: 5/13/2025

查看原文

MedualTime：一种用于医疗时间序列-文本多模态学习的双适配器语言模型

作者: Jiexia Ye, Weiqi Zhang, Ziyue Li, Jia Li, Meng Zhao, Fugee Tsung

arXiv:2406.06620v3 通知类型: 替换交叉摘要：近期语言模型（LMs）在医疗时间序列-文本多模态学习方面取得了快速进展，引起了广泛关注。然而，现有的基于对比学习和提示驱动的LM方法往往存在偏差，倾向于赋予时间序列模态主要角色，而将文本模态视为次要角色。我们将这些方法归类为基于时间优先的范式，这可能会忽视文本模态（如临床报告）中嵌入的独特且关键的任务相关信息，从而未能充分利用不同模态之间的互补性和互惠性。为了弥补这一缺口，我们提出了一种新的文本-时间多模态学习范式，使得任一模态都可以作为主要角色，并从中受益，从而有效捕捉模态特定的信息，并促进跨模态交互。具体而言，我们设计了MedualTime，这是一种由双适配器组成的语言模型，能够同时实现时间优先和文本优先建模。在每个适配器中，轻量级的适应标记被注入到LM的顶层，以促进高级模态融合。双适配器共享的LM流水线不仅实现了适配器对齐，还使高效微调成为可能，从而减少了计算资源的消耗。实验证明，MedualTime在医疗数据上表现出了卓越的性能，在监督设置中分别实现了8%的准确率提升和12%的F1分数提升。此外，通过从粗粒度到细粒度医疗数据的少量标记转移实验，验证了MedualTime的迁移性。https://github.com/start2020/MedualTime

发布时间: 5/13/2025

查看原文

朝向一种经典的降维模型：UMAP和t-SNE的概率视角

作者: Aditya Ravuri, Neil D. Lawrence

arXiv:2405.17412v5 Announce Type: replace-cross 摘要：本文表明，如UMAP和t-SNE这样的降维方法可以近似重构成Ravuri等人（2023年）引入的一种模型的MAP推断方法，该模型使用威沙特分布来描述图拉普拉斯矩阵（数据精度矩阵的估计值），其均值由应用于潜在变量的非线性协方差函数给出。这种解释为这些算法提供了更深刻的理论和语义洞察，并通过展示可以使用已知核来描述由图拉普拉斯矩阵隐含的协方差，将这些方法与高斯过程潜在变量模型连接起来。我们还介绍了用于研究类似降维方法的工具。

发布时间: 5/13/2025

查看原文

多智能体舰队：大规模语言模型协同问题解决

作者: Lars Klein, Nearchos Potamitis, Roland Aydin, Robert West, Caglar Gulcehre, Akhil Arora

arXiv:2405.06691v3 宣布类型: replace-cross 摘要：尽管已经开发出了许多框架来增强大语言模型（LLMs）的推理能力，但在成本和质量之间的权衡方面有效的方法却非常稀缺。在本文中，我们介绍了一种新颖且直观且有原则的框架 Fleet of Agents (FoA)，它利用 LLMs 作为代理通过动态树搜索进行导航，并采用了一种类似遗传算法的粒子滤波方法。FoA 启动了大量代理，每个代理在搜索空间中自主探索，随后是一个选择阶段，在该阶段，基于启发式价值函数的重采样优化了探索和利用之间的平衡。这种机制实现了动态分支，根据发现的解决方案调整探索策略。我们在三个基准任务——“24点游戏”、“迷你数独”和“WebShop”——上进行了广泛实验，使用了四种不同的 LLMs，“GPT-3.5”、“GPT-4”、“LLaMA3.2-11B”和“LLaMA3.2-90B”。在所有任务和 LLMs 的平均表现上，FoA 比之前的方法节省了大约 60% 的成本，同时提高了大约 5% 的质量。值得注意的是，我们的分析揭示了以下两点：(1) FoA 在所有基准方法中实现了最佳的成本-质量权衡；(2) FoA + LLaMA3.2-11B 超过了 Llama3.2-90B 模型。FoA 在 https://github.com/au-clan/FoA 公开可用。

发布时间: 5/13/2025

查看原文

Msmsfnet：一种多流和多尺度融合网络用于边缘检测

作者: Chenguang Liu, Chisheng Wang, Feifei Dong, Xiayang Xiao, Xin Su, Chuanhua Zhu, Dejin Zhang, Qingquan Li

arXiv:2404.04856v3 宣告类型: replace-cross 摘要：边缘检测一直是计算机视觉中的一个长期问题。尽管现有算法的效率很高，但它们的性能却严重依赖于在ImageNet数据集上预训练的骨干网络权重。在先前的方法中使用预训练权重显著增加了在边缘检测中设计新模型的难度，尤其是在不依赖于现有的ImageNet训练模型的情况下。这主要是因为预训练模型在ImageNet数据集上的训练成本高昂，并且为了确保比较的公平性，预训练变得不可或缺。此外，预训练和微调策略并不总是有用的，有时甚至是不可用的。例如，由于光学图像和SAR图像统计特性之间的巨大差异，ImageNet数据集上的预训练权重对SAR图像的边缘检测可能没有帮助。此外，尚无与ImageNet数据集规模相当的数据集可供SAR图像处理使用。在本文中，我们研究了在公共可用的数据集中，最先进的基于深度学习的边缘检测器在从零开始训练时能达到的性能，并设计了一种新的网络架构——多流和多尺度融合网络（msmsfnet），专用于边缘检测。在我们的实验中，我们通过从零开始训练所有模型，证明了我们的模型在三个公共可用的数据集中优于最先进的边缘检测器。我们还展示了在没有有用的预训练权重的情况下，我们的模型在SAR图像边缘检测中的效率。最后，我们展示了使用预训练权重时，我们的模型在BSDS500数据集上能够实现竞争性的性能。

发布时间: 5/13/2025

查看原文

关于黑盒部署策略对边缘AI的延迟和模型性能影响的研究

作者: Jaskirat Singh, Emad Fallahzadeh, Bram Adams, Ahmed E. Hassan

arXiv:2403.17154v3 宣告类型：replace-cross 摘要：确定在边缘AI层级中使用哪些操作符组合以满足特定的延迟和模型性能要求是MLOps工程师面临的开放问题。本文旨在实证评估不同黑盒边缘AI部署策略的准确率与推理时间之间的权衡，即不同部署操作符和部署层级的组合。在本文中，我们进行了涉及3种部署操作符（即分割、量化、提前退出）和3种部署层级（即移动设备、边缘、云端）及其组合的推理实验，以从MLOps开发者的角度来看待最优策略。我们的研究结果表明，在中等准确率损失下，当需要更快的延迟时，可以优先采用混合量化+提前退出操作符进行边缘部署，而不是非混合操作符（边缘设备上的量化/提前退出，移动边缘设备上的分割）。然而，当减少准确率损失是优先考虑的问题时，MLOps工程师应优先选择在边缘设备上只使用量化操作符，以换取延迟的减少或提高，而不是提前退出/分割（在边缘/移动边缘设备上）和量化提前退出（在边缘设备上）的操作符。在受限于移动CPU/RAM资源的场景中，观察到在移动设备和边缘设备层级上进行分割的偏好超过了移动设备部署。对于输入数据样本较小的模型（如FCN），网络受限的云端部署也可以作为一个比移动设备/边缘设备部署和分割策略更好的替代方案。对于输入数据样本较大的模型（如ResNet、ResNext、DUC），具有高于云端/移动设备网络/计算能力的边缘设备层级可能比分割和移动设备/云端部署策略更具可行性。

发布时间: 5/13/2025

查看原文

AIOS: LLM代理操作系统

作者: Kai Mei, Xi Zhu, Wujiang Xu, Wenyue Hua, Mingyu Jin, Zelong Li, Shuyuan Xu, Ruosong Ye, Yingqiang Ge, Yongfeng Zhang

arXiv:2403.16971v4 宣传类型: 替换-交叉摘要：基于LLM的智能代理在部署方面面临着重大的挑战，尤其是资源管理方面。允许对LLM或工具资源的无限制访问可能会导致代理的资源分配和利用效率低下，甚至可能具有潜在的危害性。此外，当前代理设计中缺乏适当调度和资源管理机制阻碍了并发处理，并限制了整个系统的效率。随着代理的多样性和复杂性的不断增加，解决这些资源管理问题对于基于LLM的代理系统变得越来越关键。为了解决这些挑战，本文在管理基于LLM的代理的背景下，提出了AIOS（基于LLM的AI代理操作系统）的架构。该论文介绍了为代理服务引入的一种新颖架构，通过将资源和LLM特定服务隔离到AIOS内核中，实现对代理应用程序的隔离。AIOS内核提供了基础服务（例如，调度、上下文管理、内存管理、存储管理、访问控制）和运行时代理资源的有效管理（例如，LLM和外部工具）。为了提高易用性，AIOS还包含了一个AIOS-Agent SDK，这是一个针对利用AIOS内核提供的功能设计的全面API套件。实验结果显示，使用AIOS可以实现高达2.1倍的代理服务执行速度。源代码可在 https://github.com/agiresearch/AIOS 获取。

发布时间: 5/13/2025

查看原文

可解释性布局会影响人类对 Offensive 语句的感知吗？

作者: Thiago Freitas dos Santos, Nardine Osman, Marco Schorlemmer

arXiv:2403.05581v2 宣传类型: replace-cross 摘要：本文通过用户研究评估三种机器学习（ML）可解释性布局在评估含有仇恨言论的句子时是否会影响参与者的意见，重点关注“蔑视女性”和“种族主义”两类。鉴于文献中存在分歧的结论，我们通过问卷调查的统计和定性分析提供了关于在线社区中使用ML可解释性的实证证据。广义加性模型估计了参与者的评分，考虑了被试内和被试间的设计。尽管我们的统计分析表明，没有任何一种可解释性布局显著影响参与者的观点，但我们的定性分析展示了ML可解释性的优势：1) 在参与者的意见与其模型预测不一致时，促使参与者提供纠正性反馈，2) 提供了超越传统性能指标来评估模型行为的见解。

发布时间: 5/13/2025

查看原文

将大型语言模型集成到因果发现中：一种统计因果方法

作者: Masayuki Takayama, Tadahisa Okuda, Thong Pham, Tatsuyoshi Ikenoue, Shingo Fukuma, Shohei Shimizu, Akiyoshi Sannai

arXiv:2402.01454v5 宣布类型: replace-cross 摘要: 在实际统计因果发现（SCD）中，将领域专家知识嵌入算法作为约束对于合理反映领域专家广泛知识的因果模型非常重要，尽管系统获取背景知识面临着挑战。为了克服这些挑战，本文提出了一种新的因果推理方法，该方法通过“面向大语言模型的统计因果提示（SCP）”将SCD与大型语言模型（LLM）的知识基础因果推理（KBCI）结合在一起，并对SCD进行先验知识增强。本文中的实验表明，LLM-KBCI和使用LLM-KBCI增强的SCD的结果接近真实值，而不是没有先验知识的SCD结果。此外，实验还表明，如果LLM经过SCP处理，SCD结果可以进一步改进。此外，使用一个未公布的实际数据集，我们证明了LLM提供的背景知识可以改善该数据集的SCD，即使该数据集从未包含在LLM的训练数据中。对于本方法在未来在医疗保健等重要领域的实际应用，本文还详细讨论了限制、关键错误的风险、围绕LLM的技术改进预期、以及将结果的专家检查整合到此自动过程中的现实性，包括在成功和失败情景下的各种条件下进行SCP模拟。因此，适当应用本文提出的方法，并针对每个领域进行改进和定制，可以解决数据偏差和限制等问题，展示了LLM在不同科学领域的数据驱动因果发现方面的潜力。本文中使用的所有代码均可在以下链接获取：www.github.com/mas-takayama/LLM-and-SCD

发布时间: 5/13/2025

查看原文