arXiv:2407.17226v4 宣告类型: replace-cross
摘要:我们研究了一类连续时间线性-二次(LQ)控制问题的强化学习(RL),其中状态是标量值的,运行控制奖励不存在,但状态过程的波动性取决于状态变量和控制变量。我们采用一种模型无关的方法,既不需要知道模型参数也不需要估计参数,并设计了一个RL算法来直接学习最优策略参数。我们的主要贡献包括介绍了一个探索计划和对所提出算法的遗憾分析。我们提供了策略参数向最优参数收敛的速度,并证明所提出的算法在对数因子范围内达到了遗憾边界 $O(N^{\frac{3}{4}})$,其中 $N$ 是学习回合的数量。我们进行了模拟研究来验证理论结果,并展示了所提算法的有效性和可靠性。我们还对我们的方法与适应状态和控制依赖波动性的最近基于模型的随机LQ RL研究进行了数值比较,证明了前者在遗憾边界方面的更好性能。
arXiv:2407.02994v3 宣告类型: replace-cross
摘要:在医疗领域开发人工智能应用日益引起关注,但受到高质量数据集缺乏的阻碍,主要原因是隐私相关问题。此外,最近视觉语言模型(VLM)的增加导致了对包含临床报告和发现的多模态医疗数据集的需求,这些报告和发现应与相应的医学影像相关联。本文概述了构建 MedPix 2.0 数据集的整个工作流程。基于主要用于医生、护士和医疗保健学生继续医学教育的多模态数据集 MedPix,开发了一个半自动管道以提取视觉和文本数据,随后进行手动处理,删除了嘈杂的样本,从而创建了一个 MongoDB 数据库。除了数据集,我们还开发了一个图形用户界面,旨在高效地导航 MongoDB 实例并获取可用于训练和/或微调 VLM 的原始数据。为了强调这一点,在本工作中,我们首先回顾了基于 MedPix 2.0 训练的 DR-Minerva 模型,这是一种检索增强生成的 VLM 模型。DR-Minerva 预测输入图像的身体部位和扫描方式。我们还提出扩展 DR-Minerva,使用知识图谱和 Llama 3.1 Instruct 8B,并利用 MedPix 2.0。最终生成的架构可以作为一个端到端的查询系统,作为医学决策支持系统。MedPix 2.0 可在 GitHub 上获取 https://github.com/CHILab1/MedPix-2.0
arXiv:2407.02511v2 通知类型: 替换-跨越
摘要:路径规划是机器人和自主导航领域中的一个基本科学问题,要求从起点到目的地有效地规划路线,同时避开障碍物。传统算法如A*及其变体能够在确保路径有效性的同时,但在状态空间增长时会遭受显著的计算和内存效率低下问题。相反,大型语言模型(LLMs)擅长通过上下文理解进行广泛环境分析,提供环境的全局洞见。然而,它们在详细的空间和时间推理方面做得不够好,经常导致无效或低效的路线。在本文中,我们提出了一种新的基于LLM的路径规划方法LLM-A*,它将A*精确的路径搜索能力和LLMs的全局推理能力相结合。这种混合方法旨在在时间和空间复杂性方面提高路径搜索效率,同时保持路径有效性的完整性,特别是在大规模场景中。通过整合这两种方法的优势,LLM-A*解决了传统算法的计算和内存限制,同时不牺牲有效路径规划所需的路径有效性。
arXiv:2406.16899v2 宣告类型: replace-cross
摘要:本研究探讨了大型语言模型(LLMs)评估由传统统计因果发现方法生成的因果图中的因果关系的能力——这是一个传统上依靠领域专家手工评估的任务。为弥补因果关系评估中的这一缺陷,LLMs 被用于通过判断能否从文本上下文中推断变量对之间的因果联系来评估因果关系。我们的研究比较了两种方法:(1)基于提示的方法进行零样本和少样本因果推理,以及(2)针对因果关系预测任务微调语言模型。虽然基于提示的 LLMs 在各种 NLP 任务中展现出了很强的灵活性,但在针对生物医学和通用领域数据集的实验中,我们发现微调模型始终表现出优越性,即使使用参数量较小的语言模型,F1 分数的提升也达到了 20.5 点。这些发现为进一步探索因果图评估中两种方法的优势和局限性提供了宝贵的见解。
arXiv:2406.10999v4 宣告类型:替换-交叉
摘要:本文探讨了认知偏见在大型语言模型(LLMs)的决策过程中的作用,挑战了消除所有偏见的传统目标。当适当平衡时,我们展示了某些认知偏见可以通过理性的偏差和启发式捷径来提高决策效率。通过引入启发式调节和一个弃权选项(当不确定时,允许LLMs拒绝回应),我们降低了错误率,提高了决策准确性,并优化了决策率。使用由专家协作开发的Balance Rigor and Utility(BRU)数据集,我们的发现表明,针对认知偏见的审查能使LLM的决策更接近人类推理,提高可靠性,并建议了未来改进的策略。这种方法为利用认知偏见提高LLM在各种应用中的实际效用提供了一种新的方式。
arXiv:2405.20216v3 宣告类型: replace-cross
摘要:由于其广泛的应用前景,人类图像生成是图像合成的关键研究领域,但即使细微的解剖、姿态或细节不准确也会破坏写实性。为解决这些挑战,我们探讨了直接偏好优化(DPO)方法,该方法训练模型生成偏好(获胜)图像的同时避免生成非偏好(失败)图像。然而,传统的DPO方法使用生成的图像作为获胜图像,限制了其写实性。为了克服这一限制,我们提出了一种增强的DPO方法,该方法结合了高质量的实际情况图像作为获胜图像,促使输出更接近实际情况图像而非生成图像。然而,实现这一概念并不容易。因此,我们的方法,HG-DPO(通过DPO的人类图像生成),采用了一种新颖的递进学习框架,逐步提高模型输出的写实度,从而使训练更为可行。此外,HG-DPO能够有效适应个性化的文本到图像任务,生成高质量且身份特定的图像,突显了我们方法的实际价值。
arXiv:2404.17975v2 宣告类型: 替换-交叉
摘要:在自然语言处理(NLP)快速发展的背景下,大型语言模型(LLMs)已成为许多任务的强大工具,例如从大量文本数据中提取有价值的信息。在本研究中,我们对LLMs在从TripAdvisor和Reddit帖子中提取旅行客户需求方面的性能进行了比较分析。利用包括开源和专有模型在内的多种模型,如GPT-4和Gemini,我们旨在阐明这些模型在该专业领域中的优缺点。通过使用BERTScore、ROUGE、BLEU等指标进行评估过程,我们评估了每个模型在准确识别和总结客户需求方面的表现。我们的发现强调了开源LLMs的效果,特别是Mistral 7B,在实现与更大封闭模型相当的性能的同时,具备成本效益和可定制性优势。此外,我们强调在选择最合适的LLM进行客户需求分析任务时,需要考虑模型大小、资源需求和性能指标等因素的重要性。总体而言,本研究为寻求利用先进NLP技术提高客户体验并推动旅游行业运营效率的企业提供了有价值的见解。
arXiv:2404.02948v4 宣布类型: 替换交叉
摘要: 为了参数高效地微调(PEFT)大型语言模型(LLMs),洛拉(LoRA)方法通过两个矩阵 $A \in \mathbb{R}^{m \times r}$ 和 $B \in \mathbb{R}^{r \times n}$ 的乘积来近似模型变化 $\Delta W \in \mathbb{R}^{m \times n}$,其中 $r \ll \min(m, n)$,$A$ 用高斯噪声初始化,$B$ 用零初始化。LoRA 固定原始模型 $W$ 并更新“噪声与零”适配器,这可能会导致收敛速度慢。为了克服这一限制,我们引入了主奇异值和奇异向量适配(PiSSA)。PiSSA 与 LoRA 具有相同的架构,但使用原始矩阵 $W$ 的主成分初始化适配器矩阵 $A$ 和 $B$,并将剩余的成分放入一个残差矩阵 $W^{res} \in \mathbb{R}^{m \times n}$,在微调过程中冻结。与 LoRA 相比,PiSSA 更新主成分同时冻结“残差”部分,允许更快的收敛和增强的性能。对 12 个不同模型进行的比较实验包括 184M 到 70B 不同规模,涵盖 5 项自然语言生成(NLG)和 8 项自然语言理解(NLU)任务,结果显示 PiSSA 在相同的实验设置下始终优于 LoRA。在 GSM8K 基准测试中,使用 PiSSA 微调的 Mistral-7B 的准确率为 72.86%,高于 LoRA 的 67.7% 5.16%。由于具有相同的架构,PiSSA 也可以与量化兼容,进一步减少微调所需的内存需求。与 QLoRA 相比,QPiSSA 在初始阶段表现出更小的量化误差。对 GSM8K 的 LLaMA-3-70B 微调,QPiSSA 达到了 86.05% 的准确率,超过了 QLoRA 的 81.73%。利用快速 SVD 技术,PiSSA 只需几秒钟即可初始化,从 LoRA 到 PiSSA 的过渡成本可忽略不计。代码可在 https://github.com/GraphPKU/PiSSA 获取。
arXiv:2403.20331v2 宣布类型: replace-cross
摘要:本文介绍了一个新颖的任务,以评估大尺寸多模态模型(LMMs)的稳健理解能力,称为 **无法解决问题检测(UPD)**。多项选择题回答(MCQA)广泛用于评估LMMs的理解能力,但它并不能保证LMMs真正理解答案。UPD 评估LMM在遇到MCQA中的不可解问题时保持不作答的能力,验证模型是否真正理解了答案。UPD 包含三个问题:缺失答案检测(AAD)、不兼容答案集检测(IASD)和不兼容视觉问题检测(IVQD),涵盖了诸如答案缺乏或选择不兼容以及图像-问题不匹配等不可解情况。为了进行评估,我们引入了 MM-UPD 基准,这是一个用于评估多方面性能标准的基准。我们的实验表明,即使在现有基准测试中表现出良好性能的大多数LMMs,在 MM-UPD 方面仍然存在显著困难,突显出当前基准测试所忽视的一个新的值得信赖方面。详细的分析显示,LMMs 有不同的瓶颈,逻辑思维和自我反思改善了在 LLM 能力瓶颈中的 LMMs 的性能。我们希望我们的见解能够促进更广泛地了解和开发更可靠的LMMs。
arXiv:2402.14664v2 宣布类型: replace-cross
摘要: 在交互系统中,动作往往相关,这为大型动作空间中的离策略评估(OPE)和学习(OPL)提供了更样本高效的途径。我们引入了一个统一的贝叶斯框架来通过结构化和信息性的先验捕捉这些相关性。在这个框架中,我们提出了sDM,这是一种基于算法和理论基础的通用贝叶斯方法,用于OPE和OPL。值得注意的是,sDM能够在不牺牲计算效率的情况下利用动作的相关性。此外,受在线贝叶斯搏弈的启发,我们引入了评估算法在多个问题实例上平均性能的贝叶斯度量,这与传统的最坏情况评估有所不同。我们分析了sDM在OPE和OPL中的表现,突出了利用动作相关性的益处。实验证据展示了sDM的出色性能。