arXiv 论文列表

增强儿童学习和社交互动的 AR/VR、大型语言模型、UI/UX 和机器人技术交汇点：系统综述

作者: Biplov Paneru, Bishwash Paneru

本综述研究探讨了大型语言模型 (LLMs)、增强现实 (AR) 和用户界面/用户体验 (UI/UX) 设计在儿童治疗中的结合，特别是针对自闭症谱系障碍 (ASD) 等疾病的治疗。通过对 PubMed、ACM、IEEE Xplore、Elsevier 和 Google Scholar 等数据库进行全面文献检索，共发现了 150 篇相关出版物；其中 42 篇因其严谨的 методология 和相关性被选为深入研究对象。本综述涵盖了三个主要方面：AR 如何提高社会和学习成果；LLMs 如何帮助交流；以及 UI/UX 设计如何影响这些技术的有效性。结果表明，虽然 LLMs 可以提供个性化的学习和交流支持，但 AR 已证明有望增强社交技能、动机和注意力。对于患有 ASD 的儿童而言，易于使用且有趣的干预措施在很大程度上依赖于有效的 UI/UX 设计。为了优化这些技术在 ASD 治疗中的益处，该研究强调需要进行更多研究以解决与定制、可访问性和集成相关的难题。

发布时间: 9/30/2024

查看原文

通过再生核巴拿赫空间的无穷和分解单层神经网络

作者: Seungcheol Shin, Myungjoo Kang

本文利用 RKBS 的刻画定理定义了 RKBS 的和，并证明了 RKBS 的和与特征空间的直和相容。此外，我们将积分 RKBS 分解为 $p$ 范数 RKBS 的和。最后，我们提供了对积分 RKBS 类结构理解的应用。

发布时间: 9/30/2024

查看原文

UniEmoX：跨模态语义引导的大规模预训练用于通用场景情感感知

作者: Chuang Chen, Xiao Sun, Zhi Liu

视觉情感分析在计算机视觉和心理学领域都具有重要的研究价值。然而，现有的视觉情感分析方法由于情感感知的模糊性和数据场景的多样性，存在泛化能力有限的问题。为了解决这个问题，我们引入了 UniEmoX，这是一个跨模态语义引导的大规模预训练框架。受心理学研究强调情感探索过程与个体与其环境之间相互作用不可分割的启发，UniEmoX 整合了以场景为中心和以人为中心的低级图像空间结构信息，旨在推导出更细致入微和更具辨别力的情感表征。通过利用配对和非配对图像-文本样本之间的相似性，UniEmoX 从 CLIP 模型中提取丰富的语义知识，以更有效地增强情感嵌入表征。据我们所知，这是第一个将心理学理论与当代对比学习和掩码图像建模技术相结合的大规模预训练框架，用于跨不同场景的情感分析。此外，我们开发了一个名为 Emo8 的视觉情感数据集。Emo8 样本涵盖了卡通、自然、现实、科幻和广告封面风格等多种领域，涵盖了几乎所有常见的情感场景。在两个下游任务的六个基准数据集上进行的综合实验验证了 UniEmoX 的有效性。源代码可在 https://github.com/chincharles/u-emo 获取。

发布时间: 9/30/2024

查看原文

利用节点剪枝和辅助选项缓解选择偏差

作者: Hyeong Kyu Choi, Weijie Xu, Chi Xue, Stephanie Eckman, Chandan K. Reddy

大型语言模型（LLMs）在回答多项选择题时，经常会对某些选项表现出不合理的偏好，这对 LLM 自动化系统带来了重大的可靠性问题。为了缓解这种选择偏差问题，之前的解决方案利用去偏方法来调整模型的输入和/或输出。相比之下，我们的工作研究了模型对选择偏差的内部表示。具体来说，我们提出了一种新颖的去偏方法，即偏差节点剪枝（BNP），该方法消除了导致偏差的线性层参数。此外，我们还提出了辅助选项注入（AOI），这是一种简单而有效的输入修改技术，可以用于去偏，即使在黑盒 LLM 中也能兼容。为了对选择偏差进行更系统的评估，我们回顾了现有的指标，并引入了选择 Kullback-Leibler 散度 (CKLD)，它解决了常用指标对标签不平衡的敏感性问题。实验表明，我们的方法在应用于三个 LLM 时，在各种数据集上都具有鲁棒性和适应性。

发布时间: 9/30/2024

查看原文

带工具的大语言模型：综述

作者: Zhuocheng Shen

将工具集成到大型语言模型中，为提高这些模型在处理特定复杂任务时的效率和准确性提供了一种新方法。本文深入探讨了在教导大型语言模型使用外部工具方面的方法、挑战和发展，从而将它们的能力扩展到预先存在的知识库之外。我们介绍了一种标准化的工具集成范式，该范式由一系列函数引导，这些函数将用户指令映射到可执行计划及其执行，强调理解用户意图、工具选择和动态计划调整的重要性。我们的探索揭示了遇到的各种挑战，例如工具调用时机、选择准确性和对健壮推理过程的需求。为了应对这些挑战，我们研究了微调和上下文学习范式中的技术，重点介绍了确保多样性、增强数据集和改进泛化的创新方法。此外，我们研究了使大型语言模型不仅能够利用工具，而且能够自主创建工具的视角，这可能重新定义它们的角色，从单纯的工具使用者转变为工具创造者。最后，我们重现了 Chameleon 在 ScienceQA 上的结果并分析了代码结构。

发布时间: 9/30/2024

查看原文

基于隐式非线性动力学模型的示范学习

作者: Peter David Fagan, Subramanian Ramamoorthy

从示范中学习（LfD）是一种用于训练策略的实用范式，这些策略可以解决涉及复杂运动的任务。在实践中，LfD 的成功应用需要克服策略执行过程中的误差累积，即由于误差随时间累积而导致的漂移问题，以及随之而来的非分布行为。现有的工作试图通过扩展数据收集、通过人机交互校正策略错误、时间集成策略预测或通过学习动态系统模型的参数来解决这个问题。在这项工作中，我们提出并验证了一种克服这个问题的替代方法。受储层计算的启发，我们开发了一种新的神经网络层，该层包含一个具有可调动态特性的固定非线性动态系统。我们使用 LASA 人类手写数据集验证了我们的神经网络层在复制人类手写动作任务中的有效性。通过实证实验，我们证明将我们的层纳入现有的神经网络架构可以解决 LfD 中的误差累积问题。此外，我们对现有方法进行了比较评估，包括策略预测的时间集成和回声状态网络 (ESNs) 实现。我们发现，我们的方法在手写任务中产生了更高的策略精度和鲁棒性，同时也能推广到多个动力学机制，并保持有竞争力的延迟分数。

发布时间: 9/30/2024

查看原文

约束分配任务的自回归策略优化

作者: David Winkel, Niklas Strau{\ss}, Maximilian Bernhard, Zongyue Li, Thomas Seidl, Matthias Schubert

资源分配任务是一类问题，其中有限的资源必须在每个时间步分配给一组实体。这类任务的典型例子包括投资组合优化或跨服务器分配计算工作负载。资源分配任务通常受线性约束的约束，这些约束描述了必须始终严格满足的实际需求。例如，在投资组合优化中，投资者可能被要求在任何投资期间将不超过 30% 的资金分配到特定行业。此类约束以复杂的方式限制了允许分配的动作空间，这使得学习避免违反约束的策略变得困难。在本文中，我们提出了一种基于自回归过程的新方法，用于约束资源分配任务，该方法按顺序为每个实体采样分配。此外，我们引入了一种新颖的去偏方法来抵消顺序采样引起的初始偏差。我们在三个不同的约束资源分配任务上展示了我们方法优于各种约束强化学习 (CRL) 方法的性能：投资组合优化、计算工作负载分配和一个合成分配基准。我们的代码可在以下地址获取：https://github.com/niklasdbs/paspo。

发布时间: 9/30/2024

查看原文

面向模型驱动的语义通信的语义模型组件实现

作者: Haotai Liang, Mengran Shi, Chen Dong, Xiaodong Xu, Long Liu, Hao Chen

模型驱动的语义通信的关键特征是模型的传播。语义模型组件 (SMC) 被设计为驱动智能模型在物理信道中传输，从而使智能信息能够流经网络。根据具有公共和个体模型参数的神经网络的特点，本文设计了跨源域和跨任务语义组件模型。考虑到基本模型部署在边缘节点上，大型服务器节点仅将语义组件模型传输到边缘节点，从而更新边缘节点，使边缘节点能够处理不同的源和不同的任务。此外，本文还讨论了信道噪声如何影响模型的性能，并提出了注入噪声和正则化的方法来提高模型的抗噪能力。实验表明，SMC 使用更小的模型参数来实现跨源、跨任务的功能，同时保持性能并提高模型对噪声的容忍度。最后，实施了一个基于组件传输的无人驾驶车辆跟踪原型，以验证模型组件在实际应用中的可行性。

发布时间: 9/30/2024

查看原文

KALE-LM：通过知识和逻辑增强的大模型释放人工智能在科学领域的力量

作者: Weichen Dai, Yezeng Chen, Zijie Dai, Zhijie Huang, Yubo Liu, Yixuan Pan, Baiyang Song, Chengli Zhong, Xinhe Li, Zeyu Wang, Zhuoying Feng, Yi Zhou

人工智能正逐渐展现其巨大的潜力，人们越来越关注如何利用人工智能来推动科学研究。在这篇展望论文中，我们阐述了关于人工智能如何更好地辅助科学探究的观点，并探讨了相应的技术方法。我们提出并开源了 KALE-LM 模型系列中的一款大型模型 Llama3-KALE-LM-Chem-8B，该模型在化学领域相关任务中取得了优异的性能。我们希望我们的工作能成为一个强有力的起点，帮助实现更智能的人工智能，促进人类科学技术和社会发展。

发布时间: 9/30/2024

查看原文

面向开放式学习智能体的通用可解释世界模型

作者: Lancelot Da Costa

我们提出了一种通用的、可组合的、可解释的生成式世界模型类别，它支持开放式学习的智能体。这是一种稀疏的贝叶斯网络类别，能够近似模拟各种随机过程，从而使智能体能够以一种可解释且计算可扩展的方式学习世界模型。这种方法将贝叶斯结构学习与内在动机（基于模型的）规划相结合，使智能体能够主动开发和完善其世界模型，这可能导致开放式学习以及更稳健、更适应的行为。

发布时间: 9/30/2024

查看原文