arXiv 论文列表

ProcessTBench：一个用于流程挖掘的LLM计划生成数据集

大型语言模型（LLMs）在计划生成方面展示了显著的潜力。然而，现有数据集往往缺乏高级工具使用场景所需的复杂性，例如处理转述的查询语句、支持多种语言以及管理可以并行执行的操作。这些场景对于评估LLMs在实际应用中的不断演进能力至关重要。此外，当前的数据集无法从过程角度研究LLMs，特别是在理解在不同条件或表述下执行相同过程时的典型行为和挑战方面。为了填补这些空白，我们提出了ProcessTBench合成数据集，这是TaskBench数据集的扩展，专门设计用于在过程挖掘框架内评估LLMs。

发布时间: 9/20/2024

查看原文

变化环境中基于分解状态表示的鲁棒策略学习课程

arXiv:2409.09169v2 公告类型: 替换-交叉摘要: 稳健的策略使强化学习智能体能够有效适应并操作于不可预测、动态且不断变化的现实世界环境。分解表示法将复杂的状态和动作空间分解为不同的组成部分，可以提高策略学习中的泛化能力和样本效率。本文探讨了使用分解状态表示的智能体的课程如何影响所学策略的稳健性。我们通过实验展示了三种简单的课程，例如仅在不同情节之间改变最高遗憾的变量，这些课程可以显著增强策略的稳健性，为复杂环境中的强化学习提供了实用见解。

发布时间: 9/20/2024

查看原文

IFAdapter：基于实例特征控制的接地式文本到图像生成

arXiv:2409.08240v2 公告类型: 替换-交叉摘要: 尽管文本到图像 (T2I) 扩散模型在生成单个实例的视觉吸引人的图像方面表现出色，但它们在准确放置和控制多个实例的特征生成方面仍存在困难。布局到图像 (L2I) 任务通过引入边界框作为空间控制信号来解决定位挑战，但在生成精确的实例特征方面仍显不足。为此，我们提出了实例特征生成 (IFG) 任务，旨在确保生成实例的位置准确性和特征保真度。为解决 IFG 任务，我们引入了实例特征适配器 (IFAdapter)。IFAdapter 通过结合额外的外观标记并利用实例语义图来对齐实例级特征与空间位置，从而增强特征描述。IFAdapter 作为即插即用模块引导扩散过程，使其适应各种社区模型。为了评估，我们贡献了一个 IFG 基准，并开发了一个验证管道，以客观比较模型在生成具有准确位置和特征的实例方面的能力。实验结果表明，IFAdapter 在定量和定性评估中均优于其他模型。

发布时间: 9/20/2024

查看原文

Instagram上的猴痘叙事：用于情感、仇恨言论和焦虑分析的标注多语言Instagram帖子数据集

arXiv:2409.05292v3 公告类型: 替换-交叉摘要: 当前，全球正经历一场猴痘疫情的爆发，世界卫生组织已将其宣布为国际关注的公共卫生紧急事件。此前，与社交媒体挖掘相关的研究并未专注于开发关于猴痘疫情的Instagram帖子数据集。本文旨在填补这一研究空白，并为此领域做出两项科学贡献。首先，本文介绍了一个包含60,127条关于猴痘的Instagram帖子的多语言数据集，这些帖子发布于2022年7月23日至2024年9月5日之间。该数据集可通过https://dx.doi.org/10.21227/7fvc-y093获取，涵盖了52种语言的Instagram帖子。对于每个帖子，数据集分别列出了帖子ID、帖子描述、发布日期、语言以及帖子的翻译版本（使用Google Translate API翻译成英文）。在开发此数据集后，进行了情感分析、仇恨言论检测和焦虑或压力检测。这一过程包括将每个帖子分类为（i）情感类别之一，即恐惧、惊讶、喜悦、悲伤、愤怒、厌恶或中性，（ii）仇恨或非仇恨，以及（iii）检测到焦虑/压力或未检测到焦虑/压力。这些结果作为数据集中的独立属性呈现。其次，本文展示了进行情感分析、仇恨言论分析和焦虑或压力分析的结果。情感类别的变化——恐惧、惊讶、喜悦、悲伤、愤怒、厌恶和中性——分别为27.95%、2.57%、8.69%、5.94%、2.69%、1.53%和50.64%。在仇恨言论检测方面，95.75%的帖子不包含仇恨言论，而剩余的4.25%的帖子包含仇恨言论。最后，72.05%的帖子未显示任何焦虑/压力，而剩余的27.95%的帖子表现出某种形式的焦虑/压力。

发布时间: 9/20/2024

查看原文

通过高斯近似非线性传感器来规划避免模糊状态：主动推理代理中的策略

arXiv:2409.01974v2 公告类型: 替换-交叉摘要: 在自然界中，主动推理代理必须学习如何从对世界的观察中推断出自身的状态。在工程领域，传感器的物理原理通常已知得相当准确，测量函数可以纳入生成模型中。当测量函数为非线性时，通常会用高斯分布近似变换后的变量，以确保推理的可处理性。我们表明，对测量函数的曲率敏感的高斯近似，如二阶泰勒近似，会产生一个状态依赖的模糊项。这会根据从观察中推断状态的准确性，诱导出对状态的偏好。我们通过机器人导航实验展示了这种偏好，其中代理规划轨迹。

发布时间: 9/20/2024

查看原文

Booster：通过减弱有害扰动来应对大型语言模型的有害微调

arXiv:2409.01586v3 公告类型: 替换-交叉摘要: 有害微调问题 \citep{qi2023fine} 对大型语言模型的微调即服务提出了严重的安全担忧。尽管现有的防御措施 \citep{huang2024vaccine,rosati2024representation} 已被提出以缓解该问题，但其性能仍远未达到令人满意，且问题的根本原因尚未完全解决。本文首次在文献中指出，模型权重上的有害扰动应是导致有害微调对齐失效的根本原因。为了减轻有害扰动的负面影响，我们提出了一种对齐阶段解决方案，称为 Booster。从技术上讲，在原始对齐损失的基础上，我们在对齐阶段的优化中附加了一个损失正则化器。该正则化器确保模型在模拟有害扰动前后的有害损失减少得到缓解，从而降低后续微调的风险。实验结果表明，Booster 能有效降低微调模型的有害分数，同时保持下游任务的性能。我们的代码可在 \url{https://github.com/git-disl/Booster} 获取。

发布时间: 9/20/2024

查看原文

疾病诊断中的大型语言模型：范围综述

arXiv:2409.00097v2 公告类型: 替换-交叉摘要: 自动疾病诊断在临床实践中变得越来越有价值。大型语言模型（LLMs）的出现推动了人工智能领域的范式转变，越来越多的证据支持LLMs在诊断任务中的有效性。尽管这一领域受到越来越多的关注，但仍缺乏一个全面的视角。许多关键方面仍然不明确，例如LLMs应用于哪些疾病和临床数据、所采用的LLM技术以及使用的评估方法。本文对基于LLM的疾病诊断方法进行了全面综述。我们的综述从多个维度审视了现有文献，包括疾病类型及其相关临床专科、临床数据、LLM技术以及评估方法。此外，我们为应用和评估LLMs进行诊断任务提供了建议。此外，我们还评估了当前研究的局限性，并讨论了未来的发展方向。据我们所知，这是首个针对基于LLM的疾病诊断的全面综述。

发布时间: 9/20/2024

查看原文

编解码器的重要性：探讨音频语言模型中编解码器的语义缺陷

arXiv:2408.17175v2 公告类型: 替换-交叉摘要: 近期音频生成技术的显著进步在很大程度上得益于大型语言模型（LLMs）的能力。现有的音频LLM研究主要集中在增强音频语言模型的架构和规模，以及利用更大的数据集，通常使用声学编解码器，如EnCodec，进行音频标记化。然而，这些编解码器最初是为音频压缩设计的，这可能导致在音频LLM的背景下性能不佳。我们的研究旨在解决当前音频LLM编解码器的不足，特别是它们在生成的音频中保持语义完整性的挑战。例如，现有的方法如VALL-E，在文本转录的基础上生成声学标记，由于对声学标记的语义误解，常常导致内容不准确和词错误率（WER）升高，从而出现跳词和错误。为了克服这些问题，我们提出了一种简单而有效的方法，称为X-Codec。X-Codec在残差向量量化（RVQ）阶段之前结合了预训练语义编码器的语义特征，并在RVQ之后引入了语义重建损失。通过增强编解码器的语义能力，X-Codec显著降低了语音合成任务中的WER，并将这些优势扩展到非语音应用，包括音乐和声音生成。我们在文本到语音、音乐续写和文本到声音任务中的实验表明，整合语义信息显著提高了语言模型在音频生成中的整体性能。我们的代码和演示已公开（演示: https://x-codec-audio.github.io 代码: https://github.com/zhenye234/xcodec）

发布时间: 9/20/2024

查看原文

无地图视觉重定位：通过实例知识与深度知识的增强

无地图重定位技术在自主导航和增强现实应用中至关重要，但依赖预建地图往往不切实际。由于匹配方法的局限性和单目图像固有的尺度缺失，该技术面临重大挑战。这些问题导致实际场景中出现显著的旋转和度量误差，甚至重定位失败。大匹配误差显著影响整体重定位过程，影响旋转和位移精度。由于相机本身的固有限制，从单张图像中恢复度量尺度至关重要，这显著影响位移误差。为应对这些挑战，我们提出了一种增强实例知识和深度知识的无地图重定位方法。通过利用基于实例的匹配信息来改进全局匹配结果，我们的方法显著降低了不同对象间匹配错误的可能性。场景中实例知识的鲁棒性帮助特征点匹配模型聚焦于相关区域，提高匹配精度。此外，我们使用单张图像估计的度量深度来减少度量误差，提高尺度恢复精度。通过集成针对大幅位移和旋转误差缓解的方法，我们的方法在无地图重定位技术中展现出卓越性能。

发布时间: 9/20/2024

查看原文

FiSTECH：无幻觉的金融风格转换，提升大型语言模型的创造力

arXiv:2408.05365v2 公告类型: 替换-交叉摘要: 使用通用大型语言模型 (LLMs) 生成财务报告面临两大挑战，即复合句的缺乏和幻觉现象。先进的提示工程和检索增强生成 (RAG) 技术在解决这些写作风格差异方面作用有限。本文提出了一种新颖的两阶段微调 (FT) 过程，其中公共领域的财务报告被处理成提示-完成对，并通过简单的 LLM 提示进行增强，从而能够使用最少的指令和表格数据输入生成分节财务报告。所提出的微调过程利用了 LLMs 的自学习能力，允许在第一阶段出现幻觉，并在第二阶段展示修正。我们提出的微调框架使正确问题答案的数量翻倍，并将幻觉现象减少了 50% 以上。此外，两阶段 FT 模型具有更低的困惑度、改进的 ROUGE、TER 和 BLEU 分数，更高的创造力和知识密度，以及更低的不确定性和交叉熵。因此，所提出的框架可以推广到特定领域的微调任务，并在最小化的调优成本下实现。

发布时间: 9/20/2024

查看原文