LLM2D

arXiv 论文列表

arXiv:2409.14412v1 公告类型: 交叉 摘要: 离线强化学习允许在来自实际部署的数据上训练强化学习模型。然而,它仅限于选择训练数据中存在的行为组合中的最佳组合。相比之下,尝试复制实际环境的模拟环境可以替代实际数据,但这种方法受限于模拟与现实之间的差距,导致偏差。为了兼顾两者的优势,我们提出了一种结合不完美的模拟环境和目标环境数据的方法,以训练离线强化学习策略。我们的实验表明,所提出的方法在多样且具有挑战性的动态场景中优于最先进的CQL、MOPO和COMBO方法,并在各种实验条件下表现出稳健的行为。结果表明,即使在无法直接与现实世界互动的情况下,使用模拟器生成的数据也能有效增强离线策略学习,尽管存在模拟与现实之间的差距。
发布时间: 9/24/2024
查看原文
arXiv:2409.14399v1 公告类型: 交叉 摘要: 借助大型语言模型,当前的对话推荐系统(CRS)在说服用户接受推荐项目方面展现出强大的能力。尽管这些CRS具有高度说服力,但它们可能会在解释中融入不可信的信息,从而误导用户,最终损害用户与CRS之间的长期信任。为解决这一问题,我们提出了一种简单而有效的方法,称为PC-CRS,旨在增强CRS在说服过程中的解释可信度。该方法通过我们提出的可信度感知说服策略引导解释生成,并通过事后自我反思逐步优化解释。实验结果表明,PC-CRS在促进说服性和可信解释方面具有显著效果。进一步分析揭示了当前方法产生不可信解释的原因,以及可信解释提高推荐准确性的潜力。
发布时间: 9/24/2024
查看原文
光纤放大器是当前光网络中的关键组件。这些组件的故障会导致网络运营商的收入损失巨大,因为受影响的链路上的通信流量会中断。在预测性维护(PdM)的背景下应用剩余使用寿命(RUL)预测,以光纤放大器为目标,在早期阶段预测即将发生的系统故障,从而通过规划有针对性的维护行动来最小化网络中断,确保可靠性和安全性。光纤放大器是复杂的系统,在各种操作条件下工作,这使得准确预测变得困难。系统监控能力的增强产生了有助于应用数据驱动RUL预测方法的数据集。特别是深度学习模型已经显示出良好的性能,但基于相对较小的数据集进行RUL预测的泛化是困难的。本文提出了一种新的RUL预测方法——稀疏低秩自注意力Transformer(SLAT)。SLAT基于编码器-解码器架构,其中两个并行工作的编码器提取传感器和时间步的特征。通过利用自注意力机制,可以从长序列中学习长期依赖关系。在注意力矩阵中实现稀疏性和低秩参数化可以减少过拟合并增强泛化能力。对光纤放大器(以EDFA为例)以及来自涡轮风扇发动机的参考数据集的实验应用表明,SLAT优于最先进的方法。
发布时间: 9/24/2024
查看原文
大型语言模型(LLMs)在为初学者生成代码注释方面显示出潜力,但其教育效果仍未得到充分评估。本研究评估了GPT-4、GPT-3.5-Turbo和Llama2生成的代码注释的教学质量,与专家开发的注释进行比较,重点关注其对初学者的适用性。通过分析LeetCode上“简单”级别的Java解决方案数据集,我们发现GPT-4在关键方面(如清晰度、初学者友好性、概念阐释和逐步指导)与专家注释的质量相当。GPT-4在讨论复杂性方面优于Llama2(卡方检验 = 11.40,p = 0.001),并且在Mann-Whitney U统计中被认为对初学者支持度显著高于GPT-3.5和Llama2(U统计量 = 300.5 和 322.5,p = 0.0017 和 0.0003)。本研究突显了LLMs在生成适合初学者的代码注释方面的潜力。
发布时间: 9/24/2024
查看原文
arXiv:2409.14327v1 公告类型: 交叉 摘要: 本文探讨了一种新的时间序列数据分析方法,旨在克服传统挖掘技术在处理多维时间序列数据时的局限性。时间序列数据广泛应用于各个领域,包括用于监控和优化IT基础设施的后端服务、通过持续患者监测和健康趋势分析进行医疗诊断,以及用于跟踪用户行为和预测销售的互联网业务。然而,由于时间序列数据中的有效信息往往隐藏在序列片段中,其长度、数量和形态变量的不确定性给挖掘带来了挑战。为此,本文提出了一种新的时空特征表示方法,通过将空间变化的事件转换为多维时间序列(MTS),并将其转换为一维事件序列,使用一系列事件符号来表示序列中多维耦合的空间结构信息,具有良好的可解释性。接着,本文引入了一种可变长度的元组挖掘方法,用于提取事件序列中的非冗余关键事件子序列,作为运动序列的时空结构特征。该方法是一种无监督方法,不依赖于大规模训练样本,并定义了一种新的模型来表示多维时间序列的时空结构特征。通过多种运动序列的模式分类实验,验证了STEM模型的优越性能。本文的研究结果为理解和预测人类行为模式提供了重要的理论基础和技术支持,具有深远的实际应用价值。
发布时间: 9/24/2024
查看原文
arXiv:2409.14324v1 公告类型: 交叉 摘要: 配备链式思维(CoT)提示的大型语言模型(LLMs)在数学、常识和逻辑等事实内容中展示了显著的多步骤推理能力。然而,它们在叙事推理中的表现,这种推理需要更强的抽象能力,仍未被探索。本研究利用电影剧情简介中的套路来评估最先进LLMs的抽象推理能力,并发现其表现不佳。我们引入了一种套路化的查询方法来应对这些挑战,并将F1分数提高了11.8分。此外,尽管先前的研究表明CoT增强了多步骤推理,但本研究发现CoT会在叙事内容中产生幻觉,降低了GPT-4的性能。我们还引入了一种对抗性注入方法,将套路相关的文本标记嵌入到没有明确套路的电影剧情简介中,揭示了CoT对这种注入的高度敏感性。我们的全面分析为未来的研究方向提供了见解。
发布时间: 9/24/2024
查看原文
扩散模型在各种图像生成任务中表现出色,但其高昂的计算成本和大内存占用阻碍了其在实际场景中的低延迟应用。量化是压缩和加速模型的有前途的方法。然而,由于扩散模型中激活范围广泛且随时间变化,现有方法无法同时保持低比特量化的精度和效率。为解决这一问题,我们提出了DilateQuant,一种新颖的扩散模型量化框架,能够在保持高效率的同时提供可比的精度。具体而言,我们敏锐地意识到许多未饱和的通道内权重,这些权重可以通过巧妙利用来减少激活范围,而无需额外的计算成本。基于这一洞察,我们提出了权重膨胀(Weight Dilation, WD),通过数学等效的缩放将未饱和的通道内权重最大程度地膨胀到受限范围内。WD无成本地将激活量化误差吸收到权重量化中。激活范围的减少使得激活量化变得容易,而权重范围保持不变,使得模型在训练阶段易于收敛。考虑到时间网络导致激活随时间变化,我们设计了时间并行量化器(Temporal Parallel Quantizer, TPQ),该量化器设置时间步长量化参数,并支持不同时间步长的并行量化,显著提高了性能并降低了时间成本。为进一步增强性能同时保持效率,我们引入了块级知识蒸馏(Block-wise Knowledge Distillation, BKD),以块级对齐量化模型与全精度模型。时间步长量化参数和权重的同步训练最小化了所需时间,而较短的反向传播路径减少了量化过程的内存占用。
发布时间: 9/24/2024
查看原文
在研究中,我们旨在通过一种动态评估方案来调查当前大型语言模型(LLMs)对医学事实知识的掌握情况,该方案能够为每个医学事实知识点自动生成多个测试样本。由LLMs直接生成的测试样本通常会引入事实错误,并且在知识表达方式上缺乏多样性。为了克服这些缺点,我们提出了一种新的评估方法——谓词文本双重变换(Predicate-text Dual Transformation, PretextTrans),通过将谓词变换引入动态评估方案中。具体而言,每个医学知识点首先被转换为谓词表达式;然后,通过谓词变换生成一系列变体;最后,将生成的谓词变体转换回文本表达,从而产生一系列既具有事实可靠性又具有表达多样性的测试样本。利用所提出的PretextTrans方法,我们系统地调查了12个知名LLMs对基于两个医学数据集的医学事实知识的掌握情况。比较结果显示,当前的LLMs在全面掌握医学知识方面仍存在显著不足,这可能解释了为什么尽管在公共基准上取得了相当的成绩,但LLMs在实际医疗场景中的表现仍不尽如人意。我们提出的方法为医学领域中LLMs的评估提供了一种有效的解决方案,并为开发专门针对医学的LLMs提供了宝贵的见解。
发布时间: 9/24/2024
查看原文
arXiv:2409.14292v1 公告类型: 交叉 摘要: 本文对社交媒体数据进行情感分析,以研究公众对海上风能的看法。我们采用了三种机器学习模型,即TextBlob、VADER和SentiWordNet,因为每个模型提供了不同的功能。TextBlob不仅提供主观性分析,还进行极性分类。VADER提供累积的情感评分。SentiWordNet则根据上下文考虑情感并进行分类。利用自然语言处理技术从社交媒体的文本数据中提取意义。数据可视化工具被适当地用于展示整体结果。这项工作与公民科学和通过公众意见参与的智能治理高度一致,为决策支持提供指导。它展示了机器学习和自然语言处理在此领域的作用。
发布时间: 9/24/2024
查看原文
arXiv:2409.14285v1 公告类型: 交叉 摘要: 尽管大型语言模型(LLMs)在各个领域展现出显著的实用性,但它们同时也容易被用于不道德的目的,包括学术不端和传播虚假信息。因此,AI生成文本检测系统应运而生,成为一种应对措施。然而,这些检测机制在面对规避技术时表现出脆弱性,并且对文本操作缺乏鲁棒性。本文引入回译作为一种新颖的规避检测技术,强调了增强当前检测系统鲁棒性的必要性。所提出的方法涉及通过多种语言翻译AI生成文本,然后再回译为英语。我们提出了一种模型,该模型结合这些回译文本生成原始AI生成文本的操纵版本。我们的研究结果表明,操纵后的文本保留了原始语义,同时显著降低了现有检测方法的真阳性率(TPR)。我们在九种AI检测器上评估了这一技术,包括六种开源系统和三种专有系统,揭示了它们对回译操纵的脆弱性。针对现有AI文本检测器的不足,我们提出了一种增强鲁棒性的应对措施。我们的结果显示,在回译操纵后,所提出方法的真阳性率仅下降了1.85%。此外,我们构建了一个包含72万条文本的大型数据集,使用了八种不同的LLMs。我们的数据集包含不同领域和写作风格的人类创作文本和LLM生成文本,以评估我们的方法和现有检测器的性能。该数据集已公开共享,以造福研究社区。
发布时间: 9/24/2024
查看原文