LLM2D

arXiv 论文列表

作者: Lee Yeung Ping, Patrick Wong, Tan Cheng Han
arXiv:2505.08673v1 类型:新 摘要:本文将三种算法(时间序列、随机森林(RF)和深度强化学习)综合分析应用于三种库存模型(失销损失模型、双源库存模型和多级库存模型)。这些方法在超市情境下进行了应用。主要目的是分析数据驱动的有效方法。报告中考虑了它们的可能性、潜力和当前面临的挑战。通过比较每个模型的结果,基于几个关键性能指标(包括预测准确性、对市场变化的适应性以及总体上对库存成本和客户满意度的影响)来评估每种算法的有效性。数据可视化工具和统计指标是这些比较的指标,展示了明显的趋势和模式,可以指导库存管理中的决策。这些工具不仅使管理者能够实时跟踪不同算法的表现,还能深入特定数据点以了解库存波动的底层原因。这种详细程度对于确定供应链中的无效环节和改进领域至关重要。
发布时间: 5/14/2025
查看原文
作者: Dvir Cohen, Lin Burg, Sviatoslav Pykhnivskyi, Hagit Gur, Stanislav Kovynov, Olga Atzmon, Gilad Barkan
arXiv:2505.08643v1 通知类型: 新 摘要: 收藏增强生成 (RAG) 是现代问答 (QA) 系统的基石,使其能够基于外部知识提供具体的答案。尽管最近的进展主要得益于通用领域数据集,但企业 QA 系统需要能够反映日常支持场景中用户提出的具体、领域特定问题的数据集。至关重要的是,评价端到端 RAG 系统需要包括问题-答案对以及答案来源的具体知识库 (KB) 截图的基准测试。为了满足这一需求,我们引入了 WixQA,这是一个基准套件,其中包括精确基于发布的 KB 语料库的 QA 数据集,从而实现对检索和生成组件的整体评估。WixQA 包含三个源自 Wix.com 客户支持互动并基于公共 Wix Help Center 知识库截图的独特 QA 数据集:(i) WixQA-ExpertWritten,200 条实际用户查询,配以专家撰写的多步答案;(ii) WixQA-Simulated,200 经专家验证的问题-答案对,从中提取自用户对话;以及 (iii) WixQA-Synthetic,包含 6,222 个来自大型语言模型 (LLM) 生成的问题-答案对,每个问题-答案对都系统地来源于知识库中的每篇文章。我们根据 MIT 许可证发布了知识库截图和数据集,并提供了全面的基础线结果,形成了对企业 RAG 系统在现实企业环境中进行评估的独特基准。
发布时间: 5/14/2025
查看原文
作者: Darshan Deshpande, Varun Gangal, Hersh Mehta, Jitin Krishnan, Anand Kannappan, Rebecca Qian
arXiv:2505.08638v1 宣布类型: 新 摘要: 随着剂型工作流在各种领域的广泛应用,迫切需要能够大规模和系统性地评估这些系统生成的复杂轨迹。当前的评估方法依赖于对长时间工作流轨迹进行手动的、领域特定的人类分析——这种方法无法应对剂型输出日益增长的复杂性和数量。在这些环境中,外部工具输出与语言模型推理之间的相互作用使得错误分析比传统的软件调试更加复杂。在本文中,我们(1)阐述了为剂型工作流轨迹开发稳健且动态的评估方法的需求,(2)引入了一种正式的剂型系统中遇到的错误类型的分类体系,以及(3)提出了一个基于现有剂型基准构建的由这些分类体系指导的148个人标注的轨迹集合(TRAIL)。为了确保生态效度,我们从单个和多代理系统中收集轨迹,重点关注如软件工程和开放世界信息检索等实际应用领域。我们的评估结果显示,现代的长上下文语言模型在轨迹调试方面表现较差,最佳的Gemini-2.5-pro模型在TRAIL上的得分仅为11%。我们的数据集和代码已公开发布,以支持并加速未来在可扩展评估方面的研究。
发布时间: 5/14/2025
查看原文
作者: Yichen Zhao, Yuhua Wang, Xi Cheng, Junhao Fang, Yang Yang
arXiv:2505.08628v1 通知类型: 新 摘要: 代谢综合征(MetS)是一种以腹部肥胖、胰岛素抵抗、高血压和高脂血症为特征的医疗状况。它增加了大多数慢性疾病的发病风险,包括2型糖尿病,并影响全球约四分之一的人口。因此,早期检测和及时干预对于代谢综合征至关重要。代谢综合征成分的标准诊断需要在医疗机构内进行血液检测。然而,这种情况经常被低估,导致代谢综合征患者护理需求未得到满足。本研究旨在利用在日常生活中容易获得的最少生理数据和与锻炼相关活动的自由文本数据来诊断代谢综合征。我们在一家养老院收集了40名志愿者的数据,并通过数据增强来减少数据不平衡。我们提出了一种结合自然语言处理(NLP)和运动监测的深度学习框架来分类代谢综合征。结果显示,通过三折交叉验证的最好模型的AUC值为0.806,召回率为76.3%。特征重要性分析显示,每日文本和最低心率在代谢综合征分类中贡献最大。这项研究展示了可以轻松测量的日常数据在代谢综合征早期诊断中的潜在应用,这可能有助于降低代谢综合征人群筛查和管理的成本。
发布时间: 5/14/2025
查看原文
作者: Donghoon Kim, Minji Bae, Kyuhong Shim, Byonghyo Shim
arXiv:2505.08622v1 生成类型: 新 摘要: 文本到图像生成模型,如DALL-E和Stable Diffusion,已在广告、个性化媒体和设计原型设计等各种应用中革新了视觉内容创作。然而,要有效地制定文本提示以指导这些模型仍具有挑战性,往往需要大量的尝试与错误。现有的提示反向工程方法,如软提示和硬提示技术,并不十分有效,因为它们的可解释性和不一致的提示生成有限。为了应对这些问题,我们提出了一种基于视觉引导解码(VGD)的方法,这是一种无需梯度的策略,利用大型语言模型(LLMs)和基于CLIP的指导来生成连贯且语义对齐的提示。本质上,VGD利用LLMs的强大文本生成能力来生成人类可读的提示。此外,通过使用CLIP分数来确保与用户指定的视觉概念对齐,VGD提高了提示生成的可解释性、通用性和灵活性,而无需额外的训练。我们的实验表明,VGD在生成可理解且上下文相关性高的提示方面优于现有提示反向工程技术,从而使得与文本到图像模型的交互更加直观和可控。
发布时间: 5/14/2025
查看原文
arXiv:2505.08620v1 宣告类型: 新增 摘要: 大型语言模型在自然语言处理方面取得了显著进展,但它们对硬件的高资源需求给硬件 accessibility 和能耗带来了严峻挑战。本文对旨在通过终端用户优化大型语言模型推理效率的后训练量化(PTQ)技术进行了集中而高层次的review,包括各种量化方案、粒度和权衡的具体细节。目标是在后训练量化理论与应用之间提供一个平衡的概述。
发布时间: 5/14/2025
查看原文
作者: Hao Luo, Yuhao Lin, Xiao Yan, Xintong Hu, Yuxiang Wang, Qiming Zeng, Hao Wang, Jiawei Jiang
arXiv:2505.08542v1 宣传类型: 新 摘要: 智能合约是一种基于区块链技术的自执行代码,具有广泛的应用场景,但传统的生成方法依赖于手工编码和专家审核,这具有较高的门槛和较低的效率。尽管大型语言模型(LLMs)在编程任务中显示出巨大的潜力,但在智能合约的生成方面,它们在有效性和安全性方面仍然面临挑战。为了解决这些问题,我们提出了一种基于有限状态机(FSM)和LLMs的智能合约生成框架FSM-SCG,该框架通过将用户需求抽象为生成FSM,指导LLMs生成智能合约,并通过编译和安全检查的反馈进行迭代优化,显著提高了生成代码的质量。实验结果表明,FSM-SCG 显著提高了智能合约生成的质量。与最佳基线相比,FSM-SCG 将生成智能合约代码的编译成功率最多提高48%,并将平均漏洞风险评分降低约68%。
发布时间: 5/14/2025
查看原文
作者: Kai Sauerwald, Arne Meier, Juha Kontinen
arXiv:2505.08522v1 宣布类型: 新 摘要: 本文考虑了在命题逻辑中,带有团队语义和依赖原子,也称为命题依赖逻辑环境下,KLM风格的偏好推理的复杂性和性质。显示偏好团队为基础的推理具有累积性,但违反了系统P。我们给出了直观的条件,这些条件完全刻画了那些偏好命题依赖逻辑满足系统P的情况。我们展示了这些刻画,在意外的情况下,并不适用于偏好团队为基础的命题逻辑。此外,我们展示了古典蕴含和依赖逻辑蕴含可以如何用非平凡的偏好模型来表达。最后,我们给出了两种自然表示下的偏好团队为基础的推理的复杂性。这包括关于经典(非团队为基础的)偏好推理的新颖复杂性结果。
发布时间: 5/14/2025
查看原文
作者: Majd Abdallah, Sigve Nakken, Mariska Bierkens, Johanna Galvis, Alexis Groppi, Slim Karkar, Lana Meiqari, Maria Alexandra Rujano, Steve Canham, Rodrigo Dienstmann, Remond Fijneman, Eivind Hovig, Gerrit Meijer, Macha Nikolski
arXiv:2505.08508v1 宣言类型: 新 摘要:患者招募仍然是临床试验中的一个主要瓶颈,因此需要可扩展且自动化的解决方案。我们提出了TrialMatchAI,这是一种基于AI的推荐系统,通过处理异构临床数据,包括结构化记录和未结构化的医生笔记,自动进行患者与试验的匹配。该系统基于一个检索增强生成框架中的微调开源大规模语言模型(LLMs),确保透明性和可重复性,并维持适合临床环境的轻量级部署足迹。该系统规范化生物医学实体,使用结合了词法和语义相似性的混合搜索策略检索相关试验,重新排名结果,并使用医学链式推理进行标准级别的资格评估。该流程提供了可解释的输出,并具有可追溯的决策依据。在实际验证中,92%的肿瘤患者在前20个推荐中至少检索到一个相关试验。跨合成和真实临床数据集的评估确认了其最先进的性能,专家评估验证了标准级别资格分类的准确率超过90%,特别是在生物标志物驱动的匹配方面表现出色。为模块化和隐私设计,TrialMatchAI 支持 Phenopackets 标准化的数据,允许安全的本地部署,并允许随着更先进模型的出现无缝替换 LLM 组件。通过提高效率和可解释性,并提供轻量级、开源部署,TrialMatchAI 为精准医疗中的AI驱动的临床试验匹配提供了可扩展的解决方案。
发布时间: 5/14/2025
查看原文
作者: Nicholas Attolino, Alessio Capitanelli, Fulvio Mastrogiovanni
arXiv:2505.08492v1 宣布类型: 新 摘要: 基于PDDL的符号任务规划在机器人自主方面仍然至关重要,但由于可扩展性、重新规划的需求以及计划可用性延迟的问题,它在动态人机协作中遇到了困难。尽管以前有一些神经符号框架已经利用了GPT-3等LLM来应对这些挑战,但依赖于远程闭源模型带来的限制包括:第三方依赖性、响应时间不一致、计划长度和复杂性的限制,以及多领域可扩展性问题。我们提出了Gideon,这是一种新颖的框架,它使过渡到现代、更小的本地LLM成为可能,这些模型具有扩展的上下文长度。Gideon集成了一个新颖的问题生成器,以系统地为任何领域生成大型实际领域-问题-计划三元组数据集,并且它能够对本地LLM进行神经符号规划的调整,使得设备上执行和为多领域支持提供扩展的上下文成为可能。在单领域场景下,使用Qwen-2.5 1.5B进行初步实验并在8k-32k样本上训练,展示了66.1%(32k模型)的有效计划百分比,并表明通过增加数据,这个比例可以进一步扩展。在16k样本上的多领域测试中,有效计划验证率达到了70.6%,证明了其在各领域扩展能力,并表明数据多样性对学习效率具有积极影响。尽管长期规划和缩小模型尺寸使得Gideon的训练效率远低于基于大型LLM的基线模型,但由于训练后的模型大小约为基线模型的120倍小,因此在推断效率、可扩展性和多领域适应性上仍能取得重大优势,这些都是人机协作中的关键因素。通过Gideon简洁的数据生成管道,可以缓解训练效率问题。
发布时间: 5/14/2025
查看原文