arXiv:2504.10340v2 修复类型: 交叉替换
摘要: 临床病例报告包含了丰富的患者随时间变化的轨迹,但传统依赖结构化数据的机器学习方法往往未能充分利用这些信息。在这项工作中,我们介绍了从文本时间序列进行预测的问题,其中通过LLM辅助注释管道提取的时间戳临床发现作为预测的主要输入。我们系统地评估了包括微调的基于解码器的大语言模型和基于编码器的变换器在内的各种模型,用于事件发生预测、时间排序和生存分析任务。我们的实验表明,基于编码器的模型在短期和长期事件预测中的F1分数和时间一致性方面始终表现出色,而微调的掩码方法则提升了排名性能。相比之下,在生存分析任务中,指令调整的解码器模型在早期预后设置中表现出相对优势。进一步的敏感性分析表明,时间排序相较于文本排序(LLM传统上训练的文本输入格式),在临床时间序列构建方面更具重要性。这强调了有序文本语料库的优势,特别是在广泛使用LLM的时代,对于时间任务有重要的影响。
arXiv:2504.09775v3 宣告类型: 替换-交叉
摘要:大型语言模型(LLMs)的迅速发展推动了日益复杂的推理管道和硬件平台的需求。现代LLM服务超出了传统的预填-解码工作流程,融入了多个阶段的过程,如检索增强生成(RAG)、键值(KV)缓存检索、动态模型路由和多步推理。这些阶段展示出多样的计算需求,需要集成了GPU、ASIC、CPU和基于内存的架构的分布式系统。然而,现有的模拟器缺乏模拟这些异构、多引擎工作流程的精度,限制了它们为架构决策提供信息的能力。
为了解决这一差距,我们引入了HERMES,这是一个异构多阶段LLM推理执行模拟器。HERMES 模拟多样化的请求阶段,包括RAG、KV检索、推理、预填和解码,跨越复杂的硬件层次结构。HERMES 支持异构客户端并发执行多个模型,不同于先前的框架,同时还包含先进的批处理策略和多级内存层次结构。通过将实际硬件追踪与分析建模相结合,HERMES 捕捉关键权衡,例如在混合CPU-加速器部署中的内存带宽争用、跨集群通信延迟和批处理效率。通过案例研究,我们探索了推理阶段对端到端延迟的影响、混合管道的最佳批处理策略,以及远程KV缓存检索的架构影响。HERMES 使系统设计师能够导航正在演变的LLM推理景观,并提供有关优化硬件-软件协同设计以适应下一代AI工作负载的操作性见解。
arXiv:2504.09602v2 宣传类型: 交叉替换
摘要: 配置计算流体动力学(CFD)模拟通常需要广泛的领域专业知识,限制了更广泛的访问。尽管大型语言模型(LLMs)已经推动了科学研究计算的进步,但在自动化CFD工作流方面的应用仍然不足。我们介绍了一种以领域特定LLM适应为中心的新方法。通过在Qwen2.5-7B-Instruct上对自然语言到OpenFOAM配置的28716对进行微调,并附带思维链(CoT)注释,我们能够直接将自然语言描述翻译为可执行的CFD设置。一个多代理框架协调整个过程,自主验证输入、生成配置、运行模拟并纠正错误。在包含21个不同流动案例的基准测试中,展示了最先进的性能,达到88.7%的解决方案准确率和82.6%的一次成功率。这显著优于更大的通用模型Qwen2.5-72B-Instruct、DeepSeek-R1和Llama3.3-70B-Instruct,并且需要更少的纠正迭代次数,同时保持高计算效率。结果突显了在部署LLM助手用于复杂工程工作流中的领域特定适应的重要性。我们的代码和微调模型已经存放在https://github.com/YYgroup/AutoCFD。
arXiv:2504.09428v2 通知类型: replace-cross
摘要:由于移动设备的便利性,网络游戏已成为现实生活中用户娱乐的重要组成部分,从而产生了在线游戏中的朋友推荐需求。然而,现有的方法都无法有效地将多模态用户特征(例如,图像和文本)与友谊图中的结构信息结合起来,存在以下局限性:(1)其中一些方法忽略了用户之间的高阶结构临近性;(2)一些方法未能在模态特定级别学习用户之间的成对相关性;(3)一些方法无法捕捉不同模态上用户的同时局部和全局偏好。通过解决这些问题,本文提出了一种端到端模型FROG,以更好地建模潜在朋友用户偏好。在腾讯进行的离线评估和在线部署综合实验中,FROG 的优越性已经得到了证实。
arXiv:2504.09014v2 宣布类型:替换交叉
摘要:现代前沿AI应用程序正在快速发展中的异构、新兴硬件设备上开发。这需要频繁重写AI软件堆栈,以适应新的硬件自底向上的变化,这对通用软件库来说需要花费时间。因此,实际应用通常会开发特定硬件和特定工作负载优化的自定义软件堆栈。自定义堆栈有助于快速开发和优化,但在编写非便携代码方面会付出很多重复努力。本文讨论了为AI应用提供的替代通信库接口,该接口在减少重复努力的同时保持自定义灵活性,并提供了便携性和性能。我们提出了基于关注点分离的GPU通信的新抽象MSCCL++:(1)基本接口提供最少的硬件抽象,作为软件开发人员和硬件开发人员编写自定义通信的共同基础;(2)高级可移植接口和专门实现使不同工作负载和硬件环境下的优化成为可能。这种方法使基本接口在应用之间重复使用,同时实现高度灵活的优化。与最先进的基线(NCCL、RCCL和MSCCL)相比,MSCCL++在集体通信方面的速度提高了5.4倍,在实际AI推理工作负载方面提高了高达15%。MSCCL++正在微软Azure提供的多个AI服务中进行生产和使用,并且也被AMD维护的GPU集体通信库RCCL采用。MSCCL++是开源的,并可在https://github.com/microsoft/mscclpp 获取。
arXiv:2504.08201v3 宣告类型: replace-cross
摘要: 近期研究表明,大规模的多动物模型是表征神经活动与行为之间关系的强大工具。然而,当前大规模的方法仅专注于从行为预测神经活动(编码)或从神经活动预测行为(解码),这限制了它们捕捉神经活动和行为之间的双向关系的能力。为了解决这一差距,我们引入了一个多模态多任务模型,该模型能够大规模同时进行神经编码和解码(NEDS)。我们方法的核心是新颖的多任务掩蔽策略,该策略交替进行神经掩蔽、行为掩蔽、同一模态内掩蔽和跨模态掩蔽。我们使用国际脑实验室(IBL)的重复站点数据集对方法进行预训练,该数据集包括83只动物在同一视觉决策任务中的记录。与其它大规模模型相比,我们在预训练后在新动物上进行微调,展示了NEDS在编码和解码方面都达到了最先进的性能。出乎意料的是,NEDS学习到的嵌入表现出 emergent 特性:即使没有显式的训练,它们也能高度预测每个记录中的大脑区域。总体而言,我们的方法朝着一个能无缝转换神经活动与行为的脑基础模型迈进了一步。
arXiv:2504.08169v2 通知类型: 替换-交叉
摘要:点击率(CTR)和转化率(CVR)的预测在广告推荐系统的成功中起着至关重要的作用。一个深层层次集成网络(DHEN)已经被提出,其通过整合多个特征交叉模块并取得了在CTR预测方面的巨大成功。然而,在广告出价转化设定中,DHEN 对CVR预测的表现仍不清楚,该设定中广告针对用户在第三方网站或应用程序上的离站行为进行出价,包括购买、添加购物车、注册等。DHEN 面临的一些建议:1)应该包括哪些特征交叉模块(例如MLP、DCN、Transformer 等)?2)DHEN 应该有多深和宽才能在效率和效果之间取得最佳平衡?3)每个特征交叉模块中的哪些超参数应该被选择?与模型结构相关,输入个性化特征也对模型性能有很大的影响。本文我们解决了这个问题,并从应用数据科学的角度提出了我们的贡献,包括:
首先,我们提出了一种基于 DHEN 的多任务学习框架,以单个骨干模型架构的形式预测所有CVR任务,并详细研究了如何在实践中使 DHEN 有效;其次,我们构建了离站转化事件序列和在站实时用户行为序列以用于CVR预测,进行了对此重要性的消融研究;最后但并非最不重要的是,我们提出了一种自监督辅助损失来预测输入序列中的未来行为,以帮助解决CVR预测中的标签稀疏问题。
我们的方法在先前的单一特征交叉模块(预训练用户个性化特征)相比取得了最先进的性能。
arXiv:2504.07532v2 宣告类型: replace-cross
摘要:AI生成的文本正在跨越各个领域普及开来,从创意写作和新闻报道到市场内容和科学论文。模型可以根据用户提供的指令生成连贯且语法正确的输出,但在本文中,我们研究了一个更根本的问题:我们如何评估和提高AI生成文本的写作质量?写作质量评估在社区中受到的关注较少,部分原因是它本质上是主观的,并且需要专业知识。我们首先通过将五种写作偏好数据集合并成4,729个写作质量判断,引入了写作质量基准(WQ)。我们的实验表明,许多竞争Baseline,包括在推理任务方面表现出色的最先进的大语言模型(LLM),在WQ上仅略微优于随机Baseline。随后,我们针对写作质量评估训练了不同规模的专业写作质量奖励模型(WQRM),这些模型在四个分布外测试集上展示了较强的泛化能力,并在WQ基准上达到了74%的准确性。为了进一步展示WQRM在推理过程中的实际应用益处,我们利用额外的测试时计算能力生成并排名多个候选修订版本,从而允许我们从初稿中选择更高质量的输出。9名有经验的作者的人类评估确认,基于WQRM的选择产生66%的整体由专家偏好的写作样本,当奖励差距大于1分时,这一比例为72.2%。我们发布了我们的数据集和模型,以鼓励社区参与写作质量评估,并促进更符合人类偏好的AI写作系统的开发。
arXiv:2504.06868v2 通知类型: 替换-跨类别
摘要:人工智能代理在复杂的互动和决策任务中扮演着越来越重要的角色,但如何使它们的行为符合期望的人类价值观仍然是一个开放的挑战。在这项工作中,我们研究了人类特征人格特质如何影响代理在基于文本的交互环境中的行为和表现。我们介绍了 PANDA:个性适配神经决策代理,这是一种新的方法,用于将人类的人格特质投影到代理上以指导其行为。为了在基于文本的游戏代理中诱导人格特征,我们采取了两项措施:(i) 训练一个人格分类器来识别代理行为体现的人格类型,(ii) 直接将人格档案整合到代理的学习策略流程中。通过在25款基于文本的游戏中小规模部署16种不同的人格类型代理,并分析其轨迹,我们展示了代理行动决策可以导向特定的人格特征。此外,某些人格类型,如开放性较高的人格类型,显示出了明显的表现优势。这些发现强调了适用于人格的人工智能代理在促进更对齐、更有效和以人类为中心的决策中的潜力。
arXiv:2504.05694v2
公告类型: replace-cross
摘要: 大型语言模型(LLMs)因其实现出色的世界知识能力而在推荐系统中引起了广泛关注。然而,现有的依赖欧几里得空间的方法在捕捉文本和语义数据中固有的丰富层次信息方面存在困难,而这种层次信息对于捕捉用户偏好是至关重要的。双曲空间的几何特性为解决这一问题提供了有希望的解决方案。不过,将基于LLMs的方法与双曲空间结合以有效地提取和融合各种层次信息并不简单。为了解决这个问题,我们提出了一种模型无关的框架,命名为HyperLLM,该框架从结构和语义两个视角提取和整合层次信息。从结构上看,HyperLLM 使用大型语言模型生成具有层次化父子关系的多级分类标签,以供每个项目使用。然后,通过对比学习,共同学习和对齐标签项和用户项的交互,从而为模型提供清晰的层次信息。从语义上看,HyperLLM 引入了一种新颖的元优化策略,从语义嵌入中提取层次信息,并弥合语义空间和协作空间之间的差距,实现无缝集成。广泛的实验表明,HyperLLM 在双曲空间和LLMs基础上的推荐系统中显著表现出色,性能提升了超过40%。此外,HyperLLM 不仅提高了推荐系统的性能,还增强了训练稳定性,突显了层次信息在推荐系统中的关键作用。