LLM2D

arXiv 论文列表

作者: Henrik Br{\aa}dland, Morten Goodwin, Per-Arne Andersen, Alexander S. Nossum, Aditya Gupta
arXiv:2505.02171v1 分类: 剪贴 摘要:文档分块对检索增强生成(RAG)的基本影响在于确定在索引前如何分割源材料。尽管有证据表明大型语言模型对检索数据的布局和结构敏感,但目前还没有框架来分析不同分块方法的影响。在本文中,我们介绍了一种新的方法论,用于在三个层次上定义分块过程的基本特征:内在段落属性、外在段落属性和段落与文档的一致性。我们提出了HOPE(全面段落评价),这是一种普适的自动评估指标,用于量化和聚合这些特征。在七个领域进行的经验评估表明,HOPE指标与多种RAG性能指标显著相关(p > 0.13),揭示了外在和内在段落属性重要性之间的差异。段落之间的语义独立对系统性能至关重要,在事实准确性方面可获得高达56.2%的性能提升,在答案准确性方面可获得21.1%的性能提升。相反,关于段落内保持概念统一的传统假设对性能影响甚微。这些发现为优化分块策略提供了可操作的见解,从而提高RAG系统设计的性能,以生成更准确的事实性回答。
发布时间: 5/6/2025
查看原文
arXiv:2505.02170v1 类别: cross 摘要: 幻想足球是一个价值数十亿美元的行业,有数百万参与者。受限于固定预算,决策者需要挑选一支队伍,这些球员在接下来的几周内预计能表现出色,从而最大化总分数。本文提出了新颖的确定性和鲁棒整数编程模型,用于选择最佳首发十一人和队长。该模型使用可解释的人工智能框架和比赛表现数据构建了一个新的混合评分指标。介绍了用于编程模型的多种目标函数和估计技术。据我所知,这是首次通过这种方式研究幻想足球的论文。通过2023/24赛季英超联赛的数据评估了这些模型的性能。结果显示,提议的混合方法在保持一致性能的同时获得了最高分数。利用蒙特卡洛模拟展示了在样本外期间,平均技术选择策略和提议的混合方法的有效性。本文还对模型选择的最优阵型和球员进行了详细的分析,提供了有关有效幻想足球策略的有价值见解。
发布时间: 5/6/2025
查看原文
作者: Ioannis Avgerinos, Ioannis Mourtos, Nikolaos Tsompanidis, Georgios Zois
arXiv:2505.02158v1 类型: cross 摘要:本文研究了允许车辆在途中进行货物交换且所有地点严格遵守时间窗口的收货和送货问题的泛化。我们提出了一种新颖的逻辑基础贝恩德分解(LBBD),该方法在文献中所有基准测试中都改进了最优性差距,并能够处理更大规模的问题。为了应对更大的实例,我们引入了一种改进的大型邻域搜索(LNS)算法,该算法改进了LNS的适应性,超越了相关文献中出现的特定配置。 为了弥合基准可用性的差距,我们开发了一个实例生成器,允许进行广泛的实验。对于中等规模的数据集(25和50个请求),我们评估了LBBD和LNS两种算法的性能,前者能够缩小差距,后者能够提供接近最优的解决方案。对于更大的实例(75和100个请求),我们重新创建了指示性的最先进的元启发式算法,以突出我们改进的LNS优化所带来的改进,并验证其可扩展性。
发布时间: 5/6/2025
查看原文
作者: Minzheng Wang, Yongbin Li, Haobo Wang, Xinghua Zhang, Nan Xu, Bingli Wu, Fei Huang, Haiyang Yu, Wenji Mao
arXiv:2505.02156v1 类别: cross 摘要: 有效的社会智能模拟需要语言代理动态调整推理深度,这是一种当前方法中缺乏的能力。虽然现有的方法要么缺乏这种推理能力,要么要求在所有场景中统一使用长链推理,导致过度使用标记并在社会模拟中不当使用。在本文中,我们提出了基于实时上下文从四种思考模式(直觉反应 → 深思熟虑)中战略性地进行选择的 $\textbf{A}$daptive $\textbf{M}$ode $\textbf{L}$earning ($\textbf{AML}$)。我们框架的核心创新,$\textbf{A}$daptive $\textbf{M}$ode $\textbf{P}$olicy $\textbf{O}$ptimization ($\textbf{AMPO}$) 算法,相比现有方法引入了三项关键改进:(1) 多粒度思考模式设计,(2) 社交互动中上下文感知模式切换,以及 (3) 通过深度适应处理实现高效推理。在社会智能任务上的广泛实验表明,AML 在任务性能上比最新方法高出 15.6%。值得注意的是,与 GRPO 相比,尽管推理链较短 32.8%,但我们的方法的性能提高了 7.0%。这些结果表明,在 AMPO 中实现的上下文感知思考模式选择能够比 GRPO 的固定深度方法实现更接近人类的自适应推理。
发布时间: 5/6/2025
查看原文
arXiv:2505.02154v1 交叉类型: 摘要:本再现性研究分析并扩展了论文《公理化因果干预在神经检索模型中反向工程相关性计算中的研究》,该论文探讨了神经检索模型如何编码与任务相关的特点,如词频。我们再现了原始论文中的关键实验,确认查询词的信息被模型编码所捕获。在此基础上,我们通过应用激活补丁到西班牙语和汉语数据集,并探索文字段落长度信息是否也被编码进模型。我们的结果显示,设计的激活补丁方法能够将模型的行为隔离到特定组件和标记中。此外,我们的研究发现词频的位置在不同语言中具有普适性,并且在后期层中,序列级任务的信息在CLS标记中有所体现。研究结果突显了在信息检索中增强可解释性以及在机器学习研究中保持可重现性的进一步研究需求。我们的代码可在https://github.com/OliverSavolainen/axiomatic-ir-reproduce获取。
发布时间: 5/6/2025
查看原文
arXiv:2505.02139v1 宣传类型: 交叉 摘要: 限价订单簿(LOB)是金融市场中最重要的数据之一,提供了市场动态的精细视角,但由于其强烈的自相关性、跨特征约束和特征尺度差异,给受推崇的深度模型带来了重大挑战。现有方法往往以端到端的方式紧密地将表示学习与特定下游任务耦合在一起,无法单独和明确地分析学习到的表示,限制了它们的再利用性和泛化能力。本文首次系统地比较了订单簿表示学习,旨在识别有效提取可迁移、紧凑特征的方法,这些特征能够捕捉到订单簿的基本属性。我们引入了LOBench,这是一款标准化基准,使用真实的中国A股市场数据,提供了精心准备的数据集、统一的预处理、一致的评估指标以及强大的基准模型。广泛实验验证了订单簿表示在各种下游任务中的充分性和必要性,并突显了它们优于传统特定任务端到端模型和先进表示学习模型的时间序列泛化优势。我们的工作确立了一个可复制的框架,并为未来的研究提供了清晰的指导。数据集和代码将在 https://github.com/financial-simulation-lab/LOBench 公开可用。
发布时间: 5/6/2025
查看原文
arXiv:2505.02129v1 类型:跨领域 摘要:在多维分类空间中组织资源是一种高效管理大量资源和查询的方法。本文定义了一种在每个维度的部分顺序坐标树上定义的子空间范围内的聚合查询,其中每个点包含沿着部分顺序关系路径聚合的资源,这样在子空间内的每个点就可以衡量、排序和选择聚合的资源。为了高效地定位大型子空间中的非空点,提出了一种生成图索引的方法,通过在维度坐标之间建立部分顺序关系的包含链接,使子空间查询能够通过遵循索引链接到达非空点,并沿索引路径汇总资源回到其超点。由于索引节点的子节点数量可能非常大,生成这样的索引成本很高,因此索引节点的总数没有上限。所提出的方法通过以下策略降低了成本:(1) 在两个索引节点之间添加交集链接,这不仅能更好地减少查询处理成本,还能控制图索引中的节点数量;(2) 根据用于估计两个节点之间添加交集成本的概率分布,在两个节点之间添加交集链接;(3) 通过在另一个维度的坐标分解一个维度中具有更多资源的坐标,以平衡索引节点持有的资源数量;(4) 在坐标树的同胞坐标之间添加捷径链接,以便在线性序坐标上进行高效的查询。分析和实验验证了生成的索引在支持子空间聚合查询方面的有效性。本工作对基于多维分类的数据模型的发展做出了重大贡献。
发布时间: 5/6/2025
查看原文
作者: Xiao Zhou, Zhongxiang Zhao, Hanze Guo
arXiv:2505.02120v1 通知类型:交叉 摘要:在线平台汇总了广泛用户的多样行为反馈,提供了增强用户参与度的重要资源。然而,传统的推荐系统通常针对单一目标行为进行优化,并且用单一向量表示用户偏好,限制了它们处理多种重要行为或优化目标的能力。传统方法也难以捕捉用户兴趣的完整范围,导致在候选生成过程中项目池过于狭窄。为了解决这些限制,我们提出了Tricolore,这是一种多功能多向量学习框架,用于发现不同行为类型之间的联系,以实现更稳健的候选生成。Tricolore的自适应多任务结构也可以根据特定平台需求进行定制。为了管理不同行为类型之间的稀疏性变化,我们引入了一个行为层面的多视图融合模块,以动态增强学习。此外,采用受欢迎程度平衡策略确保推荐列表能够平衡准确性和项目受欢迎程度,从而促进多样性和整体性能改进。在公共数据集上进行的广泛实验表明,Tricolore在从短视频平台到电子商务的各种推荐场景中都显示出有效性。通过利用共享的基础嵌入策略,Tricolore还显著提高了冷启动用户的性能。源代码已公开:https://github.com/abnering/Tricolore。
发布时间: 5/6/2025
查看原文
作者: Joy Lim Jia Yin, Daniel Zhang-Li, Jifan Yu, Haoxuan Li, Shangqing Tu, Yuanchun Wang, Zhiyuan Liu, Huiqin Liu, Lei Hou, Juanzi Li, Bin Xu
arXiv:2505.02078v1 声明类型:交叉 摘要:评估基于幻灯片的多媒体教学的质量具有挑战性。现有的方法,如人工评估、基于参考的度量标准和大型语言模型评估器,在可扩展性、上下文捕捉或偏差方面存在局限性。在本文中,我们引入了LecEval,这是一种基于梅耶的认知多媒体学习理论的自动化度量标准,用于评估基于幻灯片的学习中的多模态知识获取。LecEval 使用四个评量标准来评估有效性:内容相关性 (CR)、表达清晰度 (EC)、逻辑结构 (LS) 和观众参与度 (AE)。我们精编了一个包含超过 2,000 张来自超过 50 门在线课程视频的大规模数据集,并在其上进行了细微的人工注释。基于此数据集训练的模型在准确性和适应性方面均优于现有度量标准,填补了自动化评估与人工评估之间的差距。我们在 https://github.com/JoylimJY/LecEval 上发布了我们的数据集和工具包。
发布时间: 5/6/2025
查看原文
arXiv:2505.02077v1 宣布类型:交叉学科 摘要:去中心化的AI代理很快将在互联网平台上相互交互,这将带来传统网络安全和AI安全框架之外的新安全挑战。开放形式的协议对于AI任务泛化至关重要,但也会引发新的威胁,如秘密共谋和有组织的蜂群攻击。网络效应可以迅速传播隐私违规、错误信息、脱牢房攻击和数据污染,而多代理分散和隐蔽优化有助于对手逃避监督,从而在系统层面创造新的持久威胁。尽管这些安全挑战至关重要,但它们的研究仍被分散在包括AI安全、多代理学习、复杂系统、网络安全、博弈论、分布式系统和技术AI治理等不同的领域中。我们提出**多代理安全**,这是一个新的领域,专注于保护去中心化的AI代理网络免受通过其相互作用(无论是直接还是间接通过共享环境)而出现或放大的威胁,并并描述了基本的安全性能权衡。我们的初步工作(1)对交互AI代理引发的威胁景观进行了分类,(2)概述了去中心化AI系统中的安全性能权衡,并(3)提出了一项统一的研究议程,以解决设计安全代理系统和交互环境中的开放挑战。通过识别这些缺口,我们旨在指导在这个关键领域的研究,以解锁大规模代理在互联网上的部署带来的经济社会潜力,培养公众信任,并在关键基础设施和国防背景下减轻国家安全风险。
发布时间: 5/6/2025
查看原文