arXiv 论文列表

GLoCIM：面向新闻推荐的全局视角长链兴趣建模

准确地向用户推荐候选新闻文章一直是新闻推荐系统的核心挑战。新闻推荐通常需要对用户兴趣进行建模，以匹配候选新闻。最近的努力主要集中在从所有用户的点击新闻序列构建的全局点击图中提取局部子图信息。然而，提取全局点击图信息的计算复杂性阻碍了利用全局点击图中两个距离较远的节点之间隐藏的深层联系，从而在相似用户之间进行协作。为了克服上述问题，我们提出了一种用于新闻推荐的全局视角长链兴趣建模方法（GLoCIM），该方法将来自全局点击图的邻居兴趣与长链兴趣相结合，利用相似用户之间的协作来增强新闻推荐。因此，我们设计了一种长链选择算法和长链兴趣编码器，从全局点击图中获取全局视角的长链兴趣。我们设计了一个门控网络，将长链兴趣与邻居兴趣相结合，以实现相似用户之间的协作兴趣。随后，我们将其与局部新闻类别增强表示进行聚合，以生成最终的用户表示。然后，可以形成候选新闻表示，以匹配用户表示，从而实现新闻推荐。在真实世界数据集上的实验结果验证了我们的方法在提高新闻推荐性能方面的有效性。

发布时间: 9/25/2024

查看原文

人工智能能否帮助人类做出更明智的决策？一种实验评估的方法框架

人工智能（AI），或更一般地说，数据驱动算法，已在当今社会无处不在。然而，在许多情况下，尤其是当风险很高时，人类仍然做出最终决定。因此，关键问题是，与单独的人类或单独的 AI 系统相比，AI 是否能帮助人类做出更好的决策。我们引入了一种新的方法框架，以在没有额外假设的情况下通过实验回答这个问题。我们根据基线潜在结果，使用标准分类指标来衡量决策者做出正确决策的能力。我们考虑单盲实验设计，其中 AI 生成的建议的提供在人类做出最终决策的案例中是随机的。在这种实验设计下，我们展示了如何比较三种替代决策系统——单独的人类、人类与 AI 以及单独的 AI 的性能。我们还展示了何时向人类决策者提供 AI 建议，以及何时他们应该遵循这些建议。我们将提出的方法应用于我们自己关于审前风险评估工具的随机对照试验的数据。我们发现，风险评估建议并没有提高法官决定是否判处现金保释的分类准确率。我们的分析还表明，单独的风险评估决策通常比有或没有算法辅助的人类决策表现更差。

发布时间: 9/25/2024

查看原文

从密集模型到专家混合模型：面向通用任务指令微调的参数高效稀疏化方法

大型语言模型 (LLMs) 在众多自然语言处理 (NLP) 任务中展现出显著的效能。指令微调作为一种成功的范式，增强了 LLMs 遵循自然语言指令的能力，并在通用任务中展现出强大的泛化能力。然而，由于模型容量受限，这些模型在跨多个任务时往往会遇到性能限制。在指令微调阶段扩展模型容量面临着重大挑战。为了解决这个问题，我们引入了参数高效稀疏性构造 (PESC)，该方法使用专家混合 (MoE) 架构将密集模型构造为稀疏模型。PESC 将适配器集成到稀疏模型的 MoE 层中，在不改变这些层中各个权重的同时区分专家。该方法显著降低了计算成本和 GPU 内存需求，通过最小化参数增加来促进模型容量扩展，同时保证了与原始稀疏升级相比，函数空间中的近似质量。我们的实证评估证明了 PESC 方法的有效性。在指令微调期间使用 PESC，我们最好的稀疏模型优于其他稀疏和密集模型，并展现出比 GPT-3.5 更好的通用能力。我们的代码可在 https://github.com/wuhy68/Parameter-Efficient-MoE 获取。

发布时间: 9/25/2024

查看原文

基于 SAM2 跟踪的在线轴估计用于关节物体操控

关节式物体操作需要精确的物体交互，其中物体的轴线必须仔细考虑。以往的研究采用交互式感知来操纵关节式物体，但通常，开环方法往往会忽略交互动力学。为了解决这一限制，我们提出了一种将交互式感知与从分割后的3D点云中在线估计轴线相结合的闭环管道。我们的方法利用任何交互式感知技术作为交互式感知的基础，诱发轻微的物体运动，从而生成不断变化的动态场景的点云帧。然后使用 Segment Anything Model 2 (SAM2) 对这些点云进行分割，之后对物体移动的部分进行掩蔽，以实现准确的运动在线轴线估计，从而指导后续的机器人动作。我们的方法显著提高了涉及关节式物体的操作任务的精度和效率。在模拟环境中的实验表明，我们的方法优于基线方法，尤其是在需要精确的基于轴线的控制的任务中。项目页面：https://hytidel.github.io/video-tracking-for-axis-estimation/.

发布时间: 9/25/2024

查看原文

世界田野：用于全球农业田界分割的机器学习基准数据集

作物田地边界是农业监测和评估的基础数据集，但人工收集成本很高。从遥感图像中自动提取田地边界的机器学习 (ML) 方法可以帮助实现全球范围内对这些数据集的需求。然而，现有的用于田地实例分割的 ML 方法缺乏足够的地理覆盖范围、准确性和泛化能力。此外，由于缺乏代表全球农业田地多样性的标记数据集，改进 ML 方法的研究受到限制。我们提出了“世界田地” (FTW)——一个新的 ML 基准数据集，用于农业田地实例分割，涵盖四大洲（欧洲、非洲、亚洲和南美洲）的 24 个国家。FTW 比以前的数据集大一个数量级，包含 70,462 个样本，每个样本都包含实例和语义分割掩码，与多日期、多光谱 Sentinel-2 卫星图像配对。我们提供了新 FTW 基准的基线模型结果，表明在 FTW 上训练的模型在保留国家中比没有使用多样化数据集预训练的模型具有更好的零样本和微调性能，并且在现实场景中展示了 FTW 模型的积极定性零样本结果——在埃塞俄比亚运行 Sentinel-2 场景。

发布时间: 9/25/2024

查看原文

标签增强数据集蒸馏

传统的**数据集蒸馏**主要关注图像表示，而往往忽略了标签的重要作用。在这项研究中，我们介绍了**标签增强数据集蒸馏 (LADD)**，这是一种新的数据集蒸馏框架，通过标签增强来增强数据集蒸馏。LADD 对每个合成图像进行子采样，生成额外的密集标签以捕获丰富的语义。这些密集标签仅需增加 2.5% 的存储空间（ImageNet 子集），就能带来显著的性能提升，提供强大的学习信号。我们的标签生成策略可以补充现有的数据集蒸馏方法，显著提高其训练效率和性能。实验结果表明，LADD 在计算开销和准确率方面优于现有方法。凭借三种高性能数据集蒸馏算法，LADD 在准确率方面平均实现了 14.9% 的显著提升。此外，我们的方法在各种数据集、蒸馏超参数和算法中都证明了其有效性。最后，我们的方法提高了蒸馏数据集的跨架构鲁棒性，这在应用场景中至关重要。

发布时间: 9/25/2024

查看原文

基于生存变换器、极端梯度提升和 Cox 比例风险模型预测轻度认知障碍的恶化

本文提出了一种利用 ADNI 队列中代谢组学数据预测轻度认知障碍 (MCI) 个体认知恶化的生存转化器和极端梯度提升模型的新方法。通过在生存分析中应用先进的机器学习和基于转换器的技术，该方法突出了这些技术在更准确地早期检测和干预阿尔茨海默病痴呆方面的潜力。这项研究还强调了非侵入性生物标志物和创新建模工具在提高痴呆风险评估准确性方面的重要性，为临床实践和患者护理提供了新的途径。一项包含 100 次嵌套交叉验证重复的综合蒙特卡罗模拟程序，其中模型得到训练和评估，表明基于 Transformer 和 XGBoost 的生存机器学习模型实现了最高的平均 C 指数性能，分别为 0.85 和 0.8，并且优于传统的生存分析 Cox 比例风险模型，该模型的平均 C 指数为 0.77。此外，根据蒙特卡罗模拟中获得的 C 指数性能的标准差，我们确定上述两种生存机器学习模型比传统的统计模型更稳定。

发布时间: 9/25/2024

查看原文

微调很好，如果经过校准

微调可能是将预训练模型（例如基础模型）调整到下游应用的最直接方法，但它也存在丢失模型在预训练中学习到的宝贵知识的风险。例如，将能够识别大量类别的预训练分类器微调以掌握手头的类别子集，已被证明会大幅降低模型在之前学习到的其他类别中的准确性。因此，当微调后的模型遇到超出微调数据的类别时，很难进一步使用它。在本文中，我们系统地剖析了这个问题，旨在回答一个基本问题，“微调后的模型中究竟发生了什么损坏？”令我们惊讶的是，我们发现微调后的模型既没有忘记其他类别之间的关系，也没有降低识别这些类别的特征。相反，微调后的模型通常会为这些其他类别产生更多判别性特征，即使它们在微调期间缺失！{真正影响准确性的是微调类别和其他类别之间的对数几率尺度差异}，这意味着简单的后处理校准将恢复预训练模型的能力，同时揭示所有类别的特征改进。我们进行了广泛的实证研究来证明我们发现的稳健性，并提供了对其背后的初步解释，为未来的理论分析指明了新的方向。我们的代码可在 https://github.com/OSU-MLB/Fine-Tuning-Is-Fine-If-Calibrated 获取。

发布时间: 9/25/2024

查看原文

利用大型语言模型增强对话式用户界面中的链接数据检索

尽管大型语言模型 (LLMs) 近年来在各个领域得到广泛应用，但其在提取和探索链接数据 (LD) 和资源描述框架 (RDF) 三元组存储库方面丰富信息系统的潜力尚未得到充分探索。本文考察了将 LLMs 整合到现有系统中，重点强调了对话式用户界面 (UI) 的增强及其通过生成更准确的 SPARQL 查询来提取数据的能力，而无需模型重新训练。通常，对话式 UI 模型需要在引入新数据集或更新时进行重新训练，限制了它们作为通用提取工具的功能。我们的方法通过将 LLMs 整合到对话式 UI 工作流程中来解决这一局限性，从而显着增强了它们理解和处理用户查询的能力。通过利用 LLMs 先进的自然语言理解能力，我们的方法提高了采用传统聊天机器人的 Web 系统中 RDF 实体的提取。这种整合促进了更细致入微、更具上下文感知的交互模型，这对于处理 RDF 数据集和链接开放数据 (LOD) 端点中经常遇到的复杂查询模式至关重要。对该方法的评估表明系统表达能力和对用户查询的响应准确性显着提高，表明了该领域未来研究的一个有希望的方向。这项调查不仅强调了 LLMs 在增强现有信息系统方面的多功能性，而且为进一步探索其在 Web 信息系统的更专门领域中的潜在应用奠定了基础。

发布时间: 9/25/2024

查看原文

面向问题的聚类自动机器学习

面向问题的聚类自动机器学习 (PoAC) 框架提出了一种新颖且灵活的方法来自动化聚类任务，它克服了传统自动机器学习解决方案的缺点。传统方法通常依赖于预定义的内部聚类有效性指标 (CVI) 和静态元特征，限制了它们在各种聚类任务中的适应性和有效性。相比之下，PoAC 在聚类问题、CVI 和元特征之间建立了动态连接，允许用户根据其任务的特定上下文和目标来定制这些组件。PoAC 的核心是使用一个代理模型，该模型在先前聚类数据集和解决方案的大型元知识库上进行训练，使其能够推断新聚类管道的质量并为未见数据集合成最佳解决方案。与许多受固定评估指标和算法集约束的自动机器学习框架不同，PoAC 是算法无关的，可以无缝地适应不同的聚类问题，而无需额外的训练数据或重新训练。实验结果表明，PoAC 不仅在各种数据集上优于最先进的框架，而且在数据可视化等特定任务中也表现出色，并突出了其根据数据集复杂性动态调整管道配置的能力。

发布时间: 9/25/2024

查看原文