arXiv 论文列表

关于人工智能的五个问答

人工智能（AI）的快速发展在社会中引起了许多争议，而这些争议往往缺乏科学依据。正如 20 世纪初电力引入等其他新兴技术的出现一样，人工智能既令人着迷又令人恐惧。遵循哲学家 R.W. 埃默森的建议：“知识是克服恐惧的解药”，本文旨在为传播人工智能知识做出贡献。为此，本文探讨了以下问题：人工智能的起源、其未来可能的演变、其展现情感的能力、相关的威胁和危险，以及人工智能奇点的概念。

发布时间: 9/25/2024

查看原文

学习通用策略的对称性和表达需求

状态对称性在规划和泛化规划中起着重要作用。在第一种情况下，状态对称性可用于减少搜索空间；在第二种情况下，可用于减少训练集的大小。然而，在泛化规划的情况下，区分非对称状态也至关重要，即表示非同构关系结构的状态。然而，虽然一阶逻辑语言能够区分非对称状态，但用于表示和学习泛化策略的语言和架构却不能。特别是，最近用于学习泛化策略的方法使用从描述逻辑中推导出的状态特征，或者通过图神经网络 (GNN) 学习得到，而这些方法的表达能力被限制在 C_2，即具有两个变量和计数功能的一阶逻辑。在这项工作中，我们解决了在规划和泛化规划中检测对称性的问题，并利用结果评估了在各种规划领域学习泛化策略的表达要求。为此，我们将规划状态映射到普通图，运行现成的算法来确定两个状态是否相对于目标同构，并运行着色算法来确定通过逻辑或 GNN 计算的 C_2 特征是否能够区分非同构状态。对称性检测结果导致更有效的学习，而无法检测到非对称性会导致在某些领域无法学习到泛化策略。

发布时间: 9/25/2024

查看原文

基于上下文的集成方法提升了视频语言模型在低级工作流理解中的表现，该模型通过人类演示进行训练。

标准操作程序 (SOP) 基于视频演示，为业务软件工作流程定义了一个低级、逐步的书面指南。SOP 是实现端到端软件工作流程自动化的关键步骤。手动创建 SOP 可能非常耗时。大型视频语言模型的最新进展为通过分析人类演示的记录来自动生成 SOP 提供了可能性。然而，当前的大型视频语言模型在零样本 SOP 生成方面面临挑战。我们探索了视频语言模型的上下文学习以生成 SOP。我们报告说，上下文学习有时有助于视频语言模型生成 SOP。然后，我们提出了一种上下文集成学习，以进一步增强模型在 SOP 生成方面的能力。

发布时间: 9/25/2024

查看原文

从被动观看到主动学习：用 AI 视频助手赋能数字课堂的积极参与

在在线教育中，创新工具对于提升学习效果至关重要。SAM（与 AI 导师学习）是一个先进的平台，它将教育视频与基于大型语言模型的上下文感知聊天界面相结合。SAM 鼓励学生实时提出问题并探索不清楚的概念，提供个性化的、上下文相关的帮助，包括公式、幻灯片和图像的解释。在一项涉及 140 名参与者的众包用户研究中，通过前后知识测试评估了 SAM，并将使用 SAM 的组别与对照组进行比较。结果表明，SAM 用户取得了更大的知识增长，答题准确率为 96.8%。参与者还对 SAM 的可用性和有效性给予了积极的反馈。SAM 的主动学习方法不仅增强了学习效果，还使学生能够完全掌控自己的学习体验，代表了在线学习工具的未来发展方向。

发布时间: 9/25/2024

查看原文

SwiftDossier：基于大型语言模型和智能体的定制化药物发现自动档案系统

人工智能算法的进步使其在生物医学等多个领域得到应用。包括大型语言模型 (LLM) 在内的人工智能系统在药物发现方面具有特别优势，而药物发现是一个非常漫长且昂贵的过程。然而，LLM 本身缺乏对特定领域的深入了解，并且可能生成不准确的信息。此外，它们无法执行更复杂的操作，这些操作需要使用外部工具。我们的工作重点关注这两个问题。首先，我们展示了如何实现先进的 RAG 系统来帮助 LLM 生成更准确的药物发现相关问题答案。结果表明，使用 RAG 系统的 LLM 生成的答案质量超过了没有 RAG 的模型生成的答案。其次，我们展示了如何使用 LLM 创建自动目标档案，并将它们与外部工具相结合，以便它们可以执行更复杂的任务来收集数据，例如访问数据库和执行代码。结果是生成一个可投入生产的目标档案，其中包含以 PDF 和 PowerPoint 演示文稿形式汇总的获取信息。

发布时间: 9/25/2024

查看原文

哮喘助手：面向哮喘患者的多模态、多语言检索增强生成系统

全球范围内哮喘患病率不断上升，其驱动因素包括环境和生活方式因素。特别是发展中国家，人们难以获得即时医疗服务，因此迫切需要自动化支持系统。ChatGPT（聊天生成预训练变压器）和 Gemini 等大型语言模型已在自然语言处理领域，特别是问答方面取得了重大进展，但它们容易产生事实错误的答案（即幻觉）。检索增强型生成系统通过整合精选文档，可以提高大型语言模型的性能并降低幻觉发生率。我们推出了 AsthmaBot，这是一个多语言、多模态的检索增强型生成系统，用于哮喘支持。对哮喘相关常见问题数据集的评估表明了 AsthmaBot 的有效性。AsthmaBot 拥有一个额外的交互式直观界面，整合了不同的数据模式（文本、图像、视频），使其能够被更广泛的公众所使用。AsthmaBot 可通过 \url{asthmabot.datanets.org} 在线获取。

发布时间: 9/25/2024

查看原文

CLSP：用于智能体状态表示的高保真对比语言-状态预训练

随着人工智能的快速发展，多模态学习已成为一个重要的研究领域。对于智能代理而言，状态是传递精确信息的关键模态，与图像、视频和语言等常见模态并列。随着强化学习和多模态大型语言模型的广泛应用，这一点变得尤为明显。然而，状态模态的表示仍然滞后于发展。为此，我们提出了一种高保真对比语言-状态预训练（CLSP）方法，该方法可以将状态信息准确地编码为通用表示，适用于强化学习和多模态大型语言模型。具体来说，我们首先基于分类设计了一个预训练任务，以训练具有粗粒度信息的编码器。接下来，我们利用预训练的编码器来初始化 CLSP 编码器，构建状态和语言描述的数据对。然后，我们部署对比学习来训练 CLSP 编码器，以有效地表示精确的状态信息。此外，我们使用随机傅里叶特征 (RFF) 方法来增强数值信息的表示，以实现高保真映射。大量实验表明，我们的表示具有卓越的精度和泛化能力，在文本-状态检索、强化学习导航任务和多模态大型语言模型理解方面取得了优异的成果。

发布时间: 9/25/2024

查看原文

STEM 领域多模态答卷的自动评估

在教育领域，技术的整合开启了一个变革时代，重塑了传统的学习模式。这一演变的核心是评分过程的自动化，特别是在涵盖科学、技术、工程和数学的 STEM 领域。虽然在文学等学科领域已经做出了自动化评分的努力，但 STEM 评估的多方面性质带来了独特的挑战，从定量分析到手写图表的解释。为了应对这些挑战，本研究致力于通过实施使用人工智能 (AI) 的自动化评估技术来开发高效可靠的评分方法。我们的贡献体现在两个关键领域：首先，开发了一个用于评估 STEM 中文本答案的稳健系统，利用样本答案进行精确比较和评分，这得益于先进的算法和自然语言处理技术。其次，重点关注在 STEM 环境中增强图表评估，特别是流程图，通过将图表转换为文本表示，以便使用大型语言模型 (LLM) 进行细致的评估。通过弥合视觉表示和语义含义之间的差距，我们的方法确保了准确的评估，同时最大限度地减少了人工干预。通过整合 CRAFT 等用于文本提取的模型和 YoloV5 等用于目标检测的模型，再加上 Mistral-7B 等 LLM 用于文本评估，我们的方法促进了对多模式答卷的全面评估。本文详细介绍了我们的方法、遇到的挑战、结果和影响，强调了人工智能驱动方法在彻底改变 STEM 教育评分实践方面的潜力。

发布时间: 9/25/2024

查看原文

物联网边缘设备上的实时行人检测：一种轻量级深度学习方法

人工智能（AI）已成为我们日常生活不可或缺的一部分。计算机视觉已经发展到可以扮演安全关键的角色，例如在智能交通系统中检测道路交叉口的行人，并向车辆交通发出潜在碰撞的警报。集中式计算分析摄像头馈送并为附近的车辆生成警报。然而，实时应用面临着延迟、有限的数据传输速度以及生命损失风险等挑战。边缘服务器为实时应用提供了一种潜在的解决方案，它提供本地化的计算和存储资源，并缩短响应时间。不幸的是，边缘服务器的处理能力有限。轻量级深度学习 (DL) 技术使边缘服务器能够利用压缩的深度神经网络 (DNN) 模型。该研究探讨了在物联网人工智能 (AIoT) 边缘设备上实现轻量级 DL 模型。一个基于 You Only Look Once (YOLO) 的优化 DL 模型被部署用于实时行人检测，检测事件使用消息队列遥测传输 (MQTT) 协议传输到边缘服务器。仿真结果表明，优化后的 YOLO 模型可以实现实时行人检测，推理速度快至 147 毫秒，帧速率为每秒 2.3 帧，准确率为 78%，与基线模型相比有显著改进。

发布时间: 9/25/2024

查看原文

大型语言模型在精神疾病诊断中的全面评估

大型语言模型在包括医疗保健在内的各个领域都展现出潜力。在本研究中，我们使用社交媒体数据对心理健康任务中大型语言模型进行了全面评估。我们探讨了包括 GPT-4、Llama 3、Gemini 等在内的各种大型语言模型在诸如二元疾病检测、疾病严重程度评估和精神病学知识评估等任务上的零样本 (ZS) 和少样本 (FS) 能力。我们的评估涉及 33 个模型，测试了跨任务的 9 个主要提示模板。主要发现表明，GPT-4 和 Llama 3 等模型在二元疾病检测中表现出优异的性能，在某些数据集上的准确率高达 85%。此外，提示工程在提高模型性能方面发挥了至关重要的作用。值得注意的是，Mixtral 8x22b 模型的性能提高了 20% 以上，而 Gemma 7b 的性能也获得了类似的提升。在疾病严重程度评估任务中，我们观察到 FS 学习显着提高了模型的准确性，突出了上下文示例在复杂评估中的重要性。值得注意的是，Phi-3-mini 模型的性能大幅提升，从 ZS 学习到 FS 学习，均衡准确率提高了 6.80% 以上，平均误差降低了近 1.3。在精神病学知识任务中，最新的模型总体上优于较老的、较大的模型，Llama 3.1 405b 的准确率达到了 91.2%。尽管取得了可喜的成果，但我们的分析也发现了一些挑战，包括跨数据集的性能差异以及对谨慎的提示工程的需求。此外，许多大型语言模型提供商实施的道德防护措施阻碍了对其性能的准确评估，因为它们倾向于不回复可能敏感的查询。

发布时间: 9/25/2024

查看原文