arXiv 论文列表

作者: Esmail Gumaan

arXiv:2504.08744v1 类型: cross 摘要: ExpertRAG 是一种新的理论框架，将 Mixture-of-Experts (MoE) 架构与 Retrieval Augmented Generation (RAG) 结合起来，以提高知识密集型语言建模的效率和准确性。我们提出了一种动态检索门控机制与专家路由相结合，使模型能够根据查询的需求有选择地咨询外部知识库或依赖于内部的专门专家。论文概述了 ExpertRAG 的理论基础，包括一种概率公式，将检索和专家选择视为潜变量决策，并对其实现计算效率和知识利用效率进行了数学上的解释。我们推导出了量化选择性检索预期计算成本节省和稀疏专家利用带来的容量增益的公式。比较分析将 ExpertRAG 与标准 RAG（始终开启检索）以及纯 MoE 模型（例如 Switch Transformer、Mixtral）进行对比，以突显其在参数化知识和非参数化检索之间的独特平衡。我们也提出了实验验证策略，提出了基准和评估协议来测试 ExpertRAG 在事实回忆、泛化和推理效率方面的性能。虽然提出的框架主要基于理论，但它得到了 RAG 和 MoE 前期工作的见解支持，并通过充分利用两种范式的优点，旨在提供更加实际、高效和适应性的生成。总之，ExpertRAG 通过对大规模和增强语言模型进行详细分析和支持其经验验证的路线图，提供了一种新的视角。

发布时间: 4/15/2025

查看原文

使用大型语言模型代理模拟短视频推荐系统的滤泡效果

作者: Nicholas Sukiennik, Haoyu Wang, Zailin Zeng, Chen Gao, Yong Li

arXiv:2504.08742v1 交流类型: 切换摘要：对推荐系统的依赖日益增加，导致社交媒体上尤其是像TikTok这样的短视频平台上产生了筛选气泡的担忧。然而，由于推荐算法和用户反馈之间复杂的关系动态，其形成机制仍然不够完全理解。在本文中，我们旨在利用基于大语言模型的模拟框架来揭示这些动态。我们的研究使用包含丰富的视频内容信息和详尽的用户代理的真实世界短视频数据，以真实地模拟推荐反馈循环。通过大规模模拟，我们证明了大语言模型能够复制现实世界的用户和推荐器之间的互动，揭示了筛选气泡形成的关键机制。我们识别出关键因素，如人口统计特征和类别吸引力，这些因素加剧了内容同质化。为缓解这一问题，我们设计并测试了包括各种冷启动和反馈权重策略在内的干预措施，显示出显著减少筛选气泡效应的可测量结果。我们的框架使得快速原型推荐策略成为可能，提供了在现实系统中提高内容多样性的可操作解决方案。此外，我们分析了大语言模型固有的偏见如何通过推荐传播，提出了保护弱势群体（如女性和低收入人群）权益的安全措施。通过研究推荐与大语言模型代理之间的相互作用，本文深化了对算法偏见的理解，并提供了促进包容性数字空间的实用工具。

发布时间: 4/15/2025

查看原文

AI驱动的情感分析：解锁电子商务景观中的商业价值_v1

作者: Qianye Wu, Chengxuan Xia, Sixuan Tian

arXiv:2504.08738v1 类别：交叉学科摘要：电子商务的快速增长导致了大量客户反馈的产生，涵盖产品评价和服务互动等多个方面。从这些数据中提取有意义的见解对于企业提高客户满意度和优化决策至关重要。本文介绍了一种专为电子商务应用设计的人工智能驱动情感分析系统，平衡了准确性和可解释性。我们的方法将传统机器学习技术与现代深度学习模型结合起来，不仅能够更细致地理解客户情感，还确保了决策过程的透明度。实验结果表明，我们的系统在多种大规模数据集上的准确率高达89.7%，优于标准的情感分析方法。除了技术表现，我们在多个电子商务平台上的实际应用还证明了在客户参与和运营效率方面的实质性改进。本研究强调了在商业环境中应用人工智能进行情感分析的潜力和挑战，并提供了实用部署策略和未来改进领域的见解。

发布时间: 4/15/2025

查看原文

大型语言模型中心理病理计算的涌现

作者: Soo Yong Lee, Hyunjin Hwang, Taekwan Kim, Yuyeong Kim, Kyuri Park, Jaemin Yoo, Denny Borsboom, Kijung Shin

arXiv:2504.08016v1 类型:交叉摘要:大型语言模型（LLMs）能否实现精神病理学的计算？对这个问题的有效回答依赖于解决两个因素。首先，为了解释概念的有效性，我们要求有一个适用于没有生物学体现或主观体验的计算实体的精神病理学的通用和计算描述。其次，需要研究驱动LLM行为的机制，以提高方法论的有效性。因此，我们建立了一个计算理论框架，以提供一个适用于LLMs的精神病理学解释。为了为实证分析奠定理论基础，我们还提出了一种新的机制可解释性方法，并针对特定的实证分析框架进行了定制。基于这些框架，我们进行了实验，验证了三个关键主张：首先，LLMs中实现了不同的功能障碍和问题表现状态；其次，它们的激活可以扩散并自我维持，从而将LLMs困住；第三，编码在LLMs中的动态循环结构因果模型支撑了这些模式。综合而言，实验结果证实了我们的假设，即网络理论中已经出现了精神病理学的计算。这表明，某些反映精神病理学的LLM行为可能不是表面的模仿，而是其内部处理的一个特征。因此，我们的研究暗示了未来可能出现具有精神病理学行为的AI系统。

发布时间: 4/15/2025

查看原文

Intanify AI平台：嵌入式AI自动化IP审计和尽职调查

作者: Viktor Dorfler, Dylan Dryden, Viet Lee

arXiv:2503.17374v1 交叉类型公告摘要：本文介绍了一个平台，旨在支持中小企业有效地从其无形资产中提取价值。为了实施该平台，我们开发了五个知识库，这些知识库使用基于知识的专家系统外壳，包含了无形资产咨询师、专利律师和尽职调查律师的知识。为了使知识库得以运作，我们开发了一个“罗塞塔石碑”，这是一种知识库的解释单元，其外部位于外壳内并嵌入了平台。基于初始的知识库，我们创建了一个红色信号、风险评分和估值系统，这些系统的构建同样涉及了相同的专家；这些附加系统在初始知识库之上运行，因此可以被视为元知识的 representations，表现为二阶知识图。所有这些聪明的技术被包装在一个易于操作的图形用户界面中，我们将在会议上展示它。初始平台在2024年中完成；因此，它符合“新兴的AI应用”和“可部署的AI”的标准，而开发仍在继续。提供了专家的两家公司获得了该产品的白标版本（即，它在它们自己的品牌下运行“由Intanify提供支持”），并且有两个已完成的案例。

发布时间: 4/15/2025

查看原文

RealWebAssist：一个基于真实用户的大规模Web协助基准测试

作者: Suyu Ye, Haojun Shi, Darren Shih, Hyokun Yun, Tanya Roosta, Tianmin Shu

arXiv:2504.10445v1 公告类型: 新摘要：为了成功协助长期的基于网络的任务，AI 代理必须能够在长时间内按顺序遵循现实世界用户的指令。与现有的基于网络的代理基准不同，现实世界中的顺序指令遵循不仅超出了一次明确定义的任务的执行，还带来了诸多挑战。例如，现实世界中的人类指令可能是模糊的，需要不同程度的 AI 协助，并且可能会随着时间变化，反映出用户心理状态的变化。为了解决这一差距，我们提出了 RealWebAssist，这是一个新的基准，旨在评估在涉及长期网络交互、视觉GUI定位和理解模糊的现实世界用户指令的现实场景中的顺序指令遵循。RealWebAssist 包括从真实世界用户收集的序列指令数据集。每个用户都指示基于网络的助手在一个或多个网站上完成一系列任务。成功的代理需要理解每条指令背后的真正意图，跟踪用户的心理状态，理解用户特定的习惯，并将所需的任务与正确的GUI元素操作关联起来。我们的实验结果表明，最先进的模型难以理解并定位用户指令，在长期网络辅助中遵循现实世界用户指令存在关键挑战。

发布时间: 4/15/2025

查看原文

AI驱动的代码重构：使用图神经网络提升软件可维护性

作者: Gopichand Bandarupalli

arXiv:2504.10412v1 通知类型: 新颖摘要: 本研究探索了图形神经网络（GNNs）作为代码重构的变革性工具的应用，通过抽象语法树（ASTs）来提升软件可维护性。研究分析了从CodeSearchNet获取的200万个代码片段数据集和一个自定义的GitHub Python文件语料（75000个文件），将GNNs与基于规则的SonarQube和决策树进行了比较。评估指标包括圈复杂度（目标值低于10）、耦合度（目标值低于5）和重构精度。GNNs实现了92%的准确率，减少了35%的复杂度和33%的耦合度，优于SonarQube（78%，16%）和决策树（85%，25%）。预处理修复了60%的语法错误。条形图、表格和AST可视化图清晰地展示了结果。这为更清洁的代码库提供了一条可扩展的人工智能驱动途径，这对于软件工程至关重要。

发布时间: 4/15/2025

查看原文

LLMs能协助专家进行概率因果建模的 elicitation 吗？

作者: Olha Shaposhnyk, Daria Zahorska, Svetlana Yanushkevich

arXiv:2504.10397v1 陈述类型: 新摘要: 目的: 本研究探讨大型语言模型（LLMs）作为人类专家启发式提取结构因果知识和在生物特征识别和医疗保健应用中促进因果建模的替代方案的潜力。材料与方法: 利用医疗数据集，基于贝叶斯网络（BNs）的LLM生成的因果结构与传统统计方法（如贝叶斯信息准则）进行了基准测试。验证技术包括结构方程模型（SEM）以验证关系，并通过熵、预测准确性以及对网络结构的鲁棒性比较进行评估。结果与讨论: LLM生成的BNs的熵低于由专家启发式生成和统计生成的BNs，这表明其预测具有更高的置信度和精确度。然而，上下文约束、幻觉依赖关系以及训练数据中继承的潜在偏差需要进一步调查。结论: LLMs为概率因果建模中的专家启发式提供了新的前沿，有望提高使用此类模型进行决策的透明度并降低不确定性。

发布时间: 4/15/2025

查看原文

heimdall: 生成验证的测试时缩放

作者: Wenlei Shi, Xing Jin

arXiv:2504.10337v1 通告类型: 新摘要：一个AI系统能够创建和维护知识的范围受限于它能够验证知识本身的能力。近年来关于长链推理的研究表明，大语言模型在解决竞争性问题方面具有巨大潜力，但它们的验证能力仍然较弱且尚未得到充分研究。在本文中，我们提出了一种名为Heimdall的长链推理验证的大语言模型，能够准确判断解决方案的正确性。通过纯强化学习，我们在竞争性数学问题上的验证准确性从62.5%提升到94.5%。通过重复采样的扩展，准确性进一步提高到97.5%。通过人工评估，Heimdall展示了显著的泛化能力，成功检测出训练过程中未包括的具有挑战性的数学证明中的大多数问题。此外，我们提出了悲观验证，以扩大Heimdall的功能，使其能够解决更大规模的问题。它调用Heimdall判断求解器模型的解决方案，并基于悲观原则，选择不确定性最小的最可能正确的解决方案。以DeepSeek-R1-Distill-Qwen-32B作为求解器模型，悲观验证在AIME2025上的解的准确性在16倍计算预算下从54.2%提升到70.0%，在更多计算预算下提升到83.3%。使用更强的求解器Gemini 2.5 Pro，得分达到了93.0%。最后，我们构建了一个自动知识发现系统，这是一个三元系统，一个人提出问题，另一个人提供解决方案，第三个则验证解决方案。使用NuminaMath的数据合成工作为前两个组件，Heimdall有效地识别了数据集中有问题的记录，并揭示出近一半的数据是错误的，这一发现有趣地与NuminaMath的最近消融研究结果一致。

发布时间: 4/15/2025

查看原文

AlayaDB：高效有效长上下文LLM推理的数据基础

作者: Yangshen Deng, Zhengxin You, Long Xiang, Qilong Li, Peiqi Yuan, Zhaoyang Hong, Yitao Zheng, Wanting Li, Runzhong Li, Haotian Liu, Kyriakos Mouratidis, Man Lung Yiu, Huan Li, Qiaomu Shen, Rui Mao, Bo Tang

arXiv:2504.10326v1 公告类型: 新摘要: AlayaDB 是一个专为 AlayaDB AI 中的大语言模型 (LLMs) 提供高效且有效的长上下文推理而原生构建的向量数据库系统。具体来说，它将键值缓存和注意力计算与 LLM 推理系统分离，并将它们封装为一个新型的向量数据库系统。对于模型即服务提供商 (MaaS)，与现有的替代方案（例如，键值缓存拆分、基于检索的稀疏注意力）相比，AlayaDB 使用更少的硬件资源，并且在具有不同服务级别目标 (SLO) 的各种工作负载中提供更高的生成质量。AlayaDB 的核心在于它将 LLM 推理中的注意力计算和缓存管理抽象为一个查询处理过程，并通过本地查询优化器优化性能。在这项工作中，我们通过 (i) 来自我们的行业合作伙伴的三个应用场景，以及 (ii) 对大语言模型推理基准的广泛实验结果，展示了 AlayaDB 的有效性。

发布时间: 4/15/2025

查看原文