arXiv 论文列表

MMPT：面向零样本指令学习的多模态提示微调

多模态大型语言模型 (MLLMs) 在广泛的领域展现出卓越的性能，越来越重视增强其在跨各种模态的未见任务中的零样本泛化能力。指令微调已成为一种有效的策略，通过对预训练模型进行微调以实现零样本泛化，使其能够处理各种多模态任务。随着 MLLMs 规模的不断增长，参数高效微调变得越来越重要。然而，大多数现有的参数高效方法只关注单一模态，并且在微调过程中往往忽略了多模态特征。在这项工作中，我们提出了一种新颖的多模态提示微调 (MMPT) 方法，用于高效地对 MLLMs 进行指令微调。MMPT 在微调过程中有效地将视觉提示和文本提示分别整合到视觉编码器和语言处理器中，促进跨模态特征的提取和对齐。在各种多模态评估数据集上的实证结果表明，我们的方法与几个最先进的基线相比具有优越的性能。一组全面的消融研究验证了我们提示设计的有效性和我们方法的效率。

发布时间: 9/25/2024

查看原文

Synatra：将间接知识转化为大规模数字代理的直接演示

大型语言模型 (LLM) 现已取代传统方法，在许多自然语言处理任务中发挥作用。然而，在命名实体识别 (NER) 任务中，现有的基于 LLM 的方法...

发布时间: 9/25/2024

查看原文

物理增强残差策略学习（PERPL）用于混合交通编队中执行器和通信延迟下的安全巡航

线性控制模型因其简单性、易用性和对稳定性分析的支持，在车辆控制中得到了广泛应用。然而，这些模型缺乏对不断变化的环境和多目标设置的适应性。另一方面，强化学习 (RL) 模型提供了适应性，但缺乏可解释性和泛化能力。本文旨在开发一个由物理信息策略增强的 RL 控制器家族，利用基于物理模型（数据高效且可解释）和 RL 方法（灵活地适应多个目标和快速计算）的优势。我们提出了物理增强残差策略学习 (PERPL) 框架，其中物理组件提供模型可解释性和稳定性。基于学习的残差策略调整基于物理的策略以适应不断变化的环境，从而改进物理模型的决策。我们将提出的模型应用于连接和自动驾驶车辆 (CAV) 和人类驾驶车辆 (HV) 混合交通排队的分散控制，使用恒定时间间隙 (CTG) 策略进行巡航，并结合执行器和通信延迟。实验结果表明，在人为极端条件和真实先行车辆轨迹的情况下，我们的方法比单独的线性模型和 RL 实现了更小的车头间距误差和更好的振荡抑制。在宏观层面上，随着采用 PERPL 方案的 CAV 渗透率的增加，总体交通振荡也减少了。

发布时间: 9/25/2024

查看原文

SEAL：用于评估大型语言模型 API 使用情况的套件

大型语言模型 (LLMs) 在处理需要实时访问外部 API 的任务方面存在局限性。虽然已经开发了 ToolBench 和 APIGen 等多个基准来评估 LLM 的 API 使用能力，但它们往往存在一些问题，例如缺乏泛化能力、多步推理覆盖范围有限，以及由于实时 API 波动而导致的不稳定性。本文介绍了 SEAL，一个端到端的测试平台，旨在评估 LLM 在现实世界 API 使用中的表现。SEAL 标准化了现有的基准，集成了一个代理系统来测试 API 检索和规划，并通过引入一个由 GPT-4 驱动的 API 模拟器（带有缓存功能）来解决实时 API 的不稳定性，以进行确定性评估。我们的测试平台提供了一个全面的评估流程，涵盖 API 检索、API 调用和最终响应，为在各种现实场景中进行结构化性能比较提供了可靠的框架。SEAL 公开可用，并持续更新以支持新的基准。

发布时间: 9/25/2024

查看原文

从文本到处理效果：一种处理文本混淆的元学习方法

因果机器学习的核心目标之一是从观察数据中准确估计异质性治疗效果。近年来，元学习作为一种灵活的、模型无关的范式出现，可以利用任何监督学习模型来估计条件平均治疗效果（CATE）。本文考察了当混杂变量嵌入文本时，元学习者的性能。通过合成数据实验，我们表明，与仅依赖表格变量的学习者相比，使用混杂变量的预训练文本表示的学习者能够获得更好的 CATE 估计，尤其是在数据量充足的情况下。然而，由于文本嵌入的纠缠性质，这些模型的性能与具有完美混杂变量知识的元学习者并不完全匹配。这些发现突出了预训练文本表示在因果推断方面的潜力和局限性，并为未来的研究开辟了有趣的途径。

发布时间: 9/25/2024

查看原文

RAM2C：基于检索增强型多角色多专家协作的人文教育聊天机器人

近年来，许多研究都集中在将大型语言模型（LLMs）应用于教育对话中。特别是在文科对话中，除了学科知识本身之外，教育者还必须平衡**人性化**的沟通、**教学**专业知识和**安全伦理**（**HTS**）。然而，由于从现实世界中收集大量符合 HTS 的教学对话作为训练语料库成本高昂，现有 LLMs 在教学对话中的输出达不到人类的标准。为了解决这个问题，我们设计了一个**检索增强型多角色多专家协作（RAM2C）**框架，以自动生成此类对话数据。具体来说，我们首先建立了 HTS 指导的知识库，涵盖教学技能、心理学和安全伦理三个领域知识。然后，RAM2C 将通过上述不同知识库进行检索增强的 LLMs 组织成具有不同角色的多专家组，以生成符合 HTS 的教育对话数据集。然后，我们使用该数据集对 LLMs 进行了微调。实证评估表明，由 RM2C 增强的 LLMs 在中文阅读教学方面表现出色，提供更个性化、更安全和合乎伦理的教学响应，证明了 RAM2C 的实用性和高质量。我们在 \hyperlink{https://github.com/ram2c/ram2c}{https://github.com/ram2c/ram2c} 发布了实验结果。

发布时间: 9/25/2024

查看原文

管家：自然语言网页自动化

近年来，大型语言模型（LLM）在作为 AI 助手基础方面展现出非凡的能力。LLM 的一项新兴应用，即在各种网页上浏览网站并与 UI 元素交互，仍未得到充分探索。我们介绍了 Steward，这是一种新型的 LLM 驱动的网页自动化工具，旨在作为一种经济高效、可扩展的端到端解决方案，用于自动化网页交互。传统的浏览器自动化框架，如 Selenium、Puppeteer 和 Playwright，对于大规模的网页交互任务（例如，研究 YouTube 和 Twitter 等平台上的推荐算法）来说，并不具备可扩展性。这些框架需要手动编码交互，限制了它们在大规模或动态环境中的实用性。Steward 通过将 LLM 功能与浏览器自动化相结合来解决这些限制，从而实现对网站的自然语言驱动交互。Steward 通过接收自然语言指令并对网站上的操作序列进行反应式规划和执行，循环直到完成，使其成为开发者和研究人员使用的实用工具。它实现了高效率，以每动作 0.028 美元或每任务平均 0.18 美元的成本在 8.52 到 10.14 秒内完成操作，通过缓存机制，成本进一步降低到 4.8 秒和 0.022 美元。它在真实网站上运行任务，完成成功率为 40%。我们讨论了各种设计和实现挑战，包括状态表示、动作序列选择、系统响应能力、检测任务完成和缓存实现。

发布时间: 9/25/2024

查看原文

基于模糊规则的复杂事件处理智能心血管疾病预测

心血管疾病 (CVDs) 由于不健康饮食、缺乏体育锻炼和其他因素，正在迅速成为全球关注的问题。根据世界卫生组织 (WHO) 的数据，主要危险因素包括血压升高、血糖升高、血脂升高和肥胖。最近的研究集中在准确及时地预测疾病，以降低风险和死亡率，通常依赖于在大型数据集上训练的预测模型，这些模型需要密集的训练。针对 CVDs 患者的智能系统可以通过有效分析健康参数，极大地帮助做出明智的决策。复杂事件处理 (CEP) 已成为一种有价值的方法，用于通过聚合感兴趣的模式及其对最终用户的因果关系来解决实时挑战。在这项工作中，我们提出了一种基于模糊规则的系统，用于监测临床数据，以提供实时决策支持。我们根据临床和 WHO 标准设计了模糊规则，以确保准确的预测。我们的集成方法使用 Apache Kafka 和 Spark 进行数据流式传输，使用 Siddhi CEP 引擎进行事件处理。此外，我们将众多与心血管疾病相关的参数通过 CEP 引擎，以确保快速可靠的预测决策。为了验证我们方法的有效性，我们模拟了实时、未见过的数据来预测心血管疾病。使用合成数据（1000 个样本），我们将其分为“极低风险、低风险、中等风险、高风险和极高风险”。验证结果表明，20% 的样本被归类为极低风险，15-45% 为低风险，35-65% 为中等风险，55-85% 为高风险，75% 为极高风险。

发布时间: 9/25/2024

查看原文

潜变量视角下的 LLMs 认知幻象

大型语言模型 (LLM) 正在越来越多地应用于现实世界，因此需要更好地理解它们的行為。它们的规模和复杂性使得传统的评估方法难以应用，导致了受心理学领域启发的替代方法的出现。最近的研究对 LLM 进行了心理测量问卷调查，报告了 LLM 中存在类似人类的特征，这些特征可能影响 LLM 的行为。然而，这种方法存在效度问题：它预设了这些特征存在于 LLM 中，并且可以用为人类设计的工具进行测量。典型的程序很少承认 LLM 中的效度问题，而是比较和解释 LLM 的平均得分。本研究通过使用两个经过验证的性格问卷，比较了人类和三个 LLM 之间的性格潜在结构，来调查这个问题。研究结果表明，为人类设计的问卷不能有效地测量 LLM 中的类似结构，并且这些结构可能根本不存在于 LLM 中，这突出了对 LLM 响应进行心理测量分析以避免追逐认知幻影的必要性。

发布时间: 9/25/2024

查看原文

GaRField++：用于大规模三维场景重建的强化高斯辐射场

本文提出了一种基于 3D 高斯散射 (3DGS) 的大规模场景重建新框架，旨在解决现有方法在可扩展性和准确性方面面临的挑战。为了解决可扩展性问题，我们将大型场景划分为多个单元格，并通过基于可见性的相机选择和渐进式点云扩展来关联每个单元格的候选点云和相机视图。为了增强渲染质量，与传统的 3DGS 相比，我们对 3DGS 进行了三个显著改进，包括光线-高斯交点策略和用于学习效率的新型高斯密度控制，基于 ConvKAN 网络的外观解耦模块，用于解决大规模场景中的不均匀光照条件，以及一个包含颜色损失、深度畸变损失和法线一致性损失的改进最终损失。最后，执行无缝拼接过程，以合并各个高斯辐射场，从而实现跨不同单元格的新视图合成。对 Mill19、Urban3D 和 MatrixCity 数据集的评估表明，与最先进的大规模场景重建方法相比，我们的方法始终生成更高保真度的渲染结果。我们进一步通过渲染由商用无人机拍摄的自采集视频片段来验证所提方法的通用性。

发布时间: 9/24/2024

查看原文