arXiv 论文列表

作者: Ghazal Kaviani, Yavuz Yarici, Seulgi Kim, Mohit Prabhushankar, Ghassan AlRegib, Mashhour Solh, Ameya Patil

arXiv:2504.17696v3 宣布类型: replace-cross 摘要: 人类活动记录 (DARai，读作"Dahr-ree") 是一个多模态、分层注释的数据集，旨在理解在现实世界环境中的人类活动。DARai 包括 10 种不同环境中的 50 名参与者连续的脚本化和非脚本化记录，总数据量超过 200 小时，包括多个摄像头视角、深度和雷达传感器、可穿戴惯性测量单元 (IMU)、肌电图 (EMG)、足底压力传感器、生理监测传感器和眼球追踪器等 20 种传感器。为了捕捉人类活动的复杂性，DARai 在三个层次上进行了注释：(i) 高级活动 (L1)，这些是独立的任务；(ii) 较低级的动作 (L2)，这些是不同活动之间的共享模式；(iii) 细粒度的执行步骤 (L3)，这些详细描述了动作的精确执行步骤。该数据集的注释和记录设计使得 22.7% 的 L2 动作在 L1 活动之间共享，14.2% 的 L3 执行步骤在 L2 动作之间共享。DARai 的重叠性和非脚本化特性使其能够包含数据集中的一些反事实活动。使用各种机器学习模型的实验展示了 DARai 在揭示以人类为中心的应用中的重要挑战方面的价值。具体而言，我们在所有分层注释级别上进行了单一模态和多模态传感器融合实验，用于识别、时间定位和未来动作预测。为了突出单个传感器的局限性，我们还进行了由 DARai 多传感器和反事实活动设计设置启用的领域变异性实验。代码、文档和数据集在专门的 DARai 网站上提供：https://alregib.ece.gatech.edu/software-and-datasets/darai-daily-activity-recordings-for-artificial-intelligence-and-machine-learning/

发布时间: 5/14/2025

查看原文

无监督城市土地利用映射：基于街道视图对比聚类及地理先验

作者: Lin Che, Yizi Chen, Tanhua Jin, Martin Raubal, Konrad Schindler, Peter Kiefer

arXiv:2504.17551v2 更新类型: replace-cross 摘要：城市用地分类和制图对于城市规划、资源管理及环境监测至关重要。现有的遥感技术在复杂的城市环境中往往精度不高，因为缺乏地面细节。与空中视角不同，街景图像提供了地面视角，能够捕捉到更多与复杂城市场景用地相关的社会活动和人类活动。现有的基于街景的方法主要依赖于监督分类，而这种方法在高质量标注数据稀缺和难以在不同城市景观间进行泛化时面临挑战。本研究介绍了一种具有内置地理先验的无监督对比聚类模型，以增强聚类性能。结合简单的聚类视觉分配，我们的方法提供了针对城市规划者特定需求量身定制的土地利用制图的灵活且可定制解决方案。我们实验证明，我们的方法可以从两个城市的带有地理标签的街景图像数据集中生成土地利用地图。由于我们的方法依赖于地理空间数据的普遍空间一致性（托伯定律），它可以适应各种可用街景图像的设置，以实现可扩展的、无监督的土地利用制图与更新。该方法的代码将在 https://github.com/lin102/CCGP 获取。

发布时间: 5/14/2025

查看原文

评估来源于互联网的视频用于自动检测牛蹄病的可行性

作者: Md Fahimuzzman Sohan, A. H. Abdul Hafez, Raid Alzubi

arXiv:2504.16404v2 申明类型: replace-cross 摘要：牛的跛行通常由蹄部损伤或趾间皮炎引起，导致疼痛，并显著影响如行走、进食和饮水等基本生理活动。本研究提出了一种基于深度学习的模型，利用公开视频数据检测牛的跛行、疾病或步态异常。数据集包含来自40头牛的50个独特视频，视频在室内和室外不同角度记录。数据集的一半代表自然行走（非跛行）的牛，另一半包括表现出步态异常（跛行）的牛。为了增强模型的稳健性和通用性，对训练数据进行了数据增强。然后，预处理后的视频使用两种深度学习模型：ConvLSTM2D和3D CNN进行分类。结果的比较分析显示出强大的分类性能。特别是，3D CNN模型在视频级别的分类准确率为90%，精确度、召回率和F1分数分别为90.9%、90.9%和90.91%。ConvLSTM2D模型的准确性略低，为85%。本研究强调了直接将分类模型应用于从视频数据中学习时空特征的有效性，为传统的涉及对象检测、姿态估计和特征提取的多阶段方法提供了替代方案。此外，研究结果表明，提出的深度学习模型，尤其是3D CNN，有效地在简化处理管道的同时对牛的跛行进行分类和检测。

发布时间: 5/14/2025

查看原文

LLMs迎战联邦学习：实现可扩展和安全的物联网管理

作者: Yazan Otoum, Arghavan Asad, Amiya Nayak

arXiv:2504.16032v2 宣传类型: replace-cross 摘要：物联网生态系统的快速扩张带来了可扩展性、安全性和实时决策方面的严重挑战。传统的集中式架构在延迟、隐私问题和过度资源消耗方面存在困难，使得它们不适合现代大规模物联网部署。本文提出了一种新颖的联邦学习驱动的大语言模型（FL-LLM）框架，旨在增强物联网系统的智能，同时确保数据隐私和计算效率。该框架结合了生成式物联网（GIoT）模型与梯度感知联邦策略（GSFS），根据实时网络条件动态优化模型更新。通过利用混合边缘-云处理架构，我们的方法在分布式物联网环境中平衡了智能、可扩展性和安全性。在IoT-23数据集上的评估表明，我们的框架提高了模型准确性，减少了响应延迟，并增强了能源效率，超越了传统的方法（例如，FedAvg、FedOpt）。这些发现突显了将基于LLM的联邦学习集成到大规模物联网生态系统中的潜力，为更安全、更可扩展和更适应性的物联网管理解决方案铺平了道路。

发布时间: 5/14/2025

查看原文

渐进二分查找和维度扩张：大规模语言模型中激活量化的一种通用方法

作者: Lucas Maisonnave, Cyril Moineau, Olivier Bichler, Fabrice Rastello

arXiv:2504.13989v2 更新类型: 交叉替换摘要：大型语言模型（LLMs）已成为人工智能的核心，展现出强大的推理、理解和生成数据的能力。然而，由于其庞大的规模，通常达到数十亿参数，其在边缘设备上的部署受到限制。量化是一种广泛使用的减少内存使用和推理时间的方法，但是LLMs由于其激活中的异常值普遍存在而带来了独特的挑战。在本工作中，我们利用Hadamard矩阵相对于随机旋转矩阵的理论优势，推动了LLMs量化边界的进一步发展。我们证明了Hadamard矩阵在减少异常值方面更为有效，异常值是实现低位量化的主要障碍。基于逐步二分搜索的方法使权重、激活和键值（KV）缓存能够实现3位量化，相对于最新技术方法在常见基准上的准确率提高了40%。我们通过使用Paley算法将旋转矩阵的应用扩展到支持非2的幂嵌入维度，类似于Qwen架构。我们理论上证明了Hadamard矩阵在减少异常值方面的优越性。我们实现了对权重、激活和KV缓存的3位量化，显著提升了模型性能。我们在Mistral、LLaMA和Qwen等多种模型家族上的实验结果证明了我们方法的有效性，超越了现有方法，并使实际的3位量化成为可能。

发布时间: 5/14/2025

查看原文

探索政府领域中的生成AI技术：一个案例研究

作者: Sunyi Liu, Mengzhe Geng, Rebecca Hart

arXiv:2504.10497v2 宣传类型: 交叉替换摘要：生成人工智能（GenAI）的迅速发展，尤其是大型语言模型（LLMs），正在重塑数字景观。认识到这一变革性潜力，加拿大国家研究理事会（NRC）于2024年5月推出了一个试点项目，旨在将其日常运营整合进GenAI技术以提高性能卓越，共有22个项目启动。在这22个项目中，本文以智能代理Pubbie的研发为例，探讨了在NRC中实现对性能测量、数据管理和洞察报告的自动化。该研究涉及了最新的技术，包括LLM编排和通过RoBERTa实现的语义嵌入，同时采用了策略性微调和少量示例学习的方法，以在较低成本下融入专业知识。Pubbie用户友好的界面允许一般政府用户以自然语言输入查询，并通过简单的按钮点击上传或下载文件，极大地减少了手动工作量和访问障碍。

发布时间: 5/14/2025

查看原文

超越单轮对话：大规模语言模型多轮互动综述

作者: Yubo Li, Xiaobin Shen, Xinyu Yao, Xueying Ding, Yidi Miao, Ramayya Krishnan, Rema Padman

arXiv:2504.04717v3 宣告类型：replace-cross 摘要：近期大型语言模型（LLMs）的发展已经彻底改变了它们处理单轮任务的能力，但现实世界的应用需求更加复杂的多轮交互。本文综述了最近在评估和增强LLMs中的多轮交互方面的进展。本文聚焦于特定任务场景，从数学和编程等不同领域的指令跟随到复杂的情景剧对话、医疗、教育，甚至敌对的监狱逃脱设置中的对话交互，系统地探讨了在长时间对话中保持上下文、连贯性、公平性和响应性的挑战。该论文将当前的评估基准和数据集组织成一系列反映多轮对话评估演变趋势的类别。此外，本文还回顾了在多轮场景下的一系列增强方法，包括模型中心策略（上下文学习、监督微调、强化学习和新的架构）、外部整合方法（增强记忆的方法、检索基方法和知识图谱），以及基于代理的技术以支持协作交互。最后，本文讨论了存在的挑战，并提出了未来研究的方向，以进一步提高LLMs中多轮交互的可靠性和有效性。相关资源和论文可在 https://github.com/yubol-cmu/Awesome-Multi-Turn-LLMs 获取。

发布时间: 5/14/2025

查看原文

基于LLMs的AI招聘：一种考虑上下文和可解释的多代理框架用于简历筛选

作者: Frank P. -W. Lo, Jianing Qiu, Zeyu Wang, Haibao Yu, Yeming Chen, Gao Zhang, Benny Lo

arXiv:2504.02870v2 更新通知类型: 交叉更新摘要：简历筛选是人才招聘过程中一个至关重要的但耗时的过程，要求招聘人员分析大量的求职申请，同时保持客观、准确和公平。随着大型语言模型（LLMs）的发展，它们的推理能力和广泛的知识库展现了简化和自动化招聘流程的新机会。在本文中，我们提出了一种使用LLMs的多代理框架，用于系统地处理和评估简历。该框架包含四个核心代理，包括简历提取器、评估器、摘要生成器和评分格式化器。为了增强候选人评估的上下文相关性，我们在简历评估器中整合了检索增强生成（RAG）技术，允许整合外部知识源，如行业特定的专业知识、专业认证、大学排名和公司特定的招聘标准。这种动态适应性能够实现个性化的招聘，并弥合了AI自动化与人才获取之间的差距。我们通过将AI生成的评分与人力资源专业人士对匿名在线简历提供的评分进行比较，评估了该方法的有效性。研究结果突显了多代理RAG-LLM系统在自动简历筛选中的潜力，能够实现更高效和更具扩展性的招聘工作流程。

发布时间: 5/14/2025

查看原文

带有量子退火的Steiner旅行商问题

作者: Alessia Ciacco, Francesca Guerriero, Eneko Osaba

arXiv:2504.02388v3 宣布类型: replace-cross 摘要：Steiner旅行商问题（STSP）是旅行商问题的一个变体。STSP涉及引入Steiner节点，这些节点不是原始访问集的一部分，但可以添加到路径中以增强整体解决方案并最小化总旅行成本。鉴于STSP的NP难问题性质，我们提出了一种量子方法来解决这个问题。具体而言，我们使用D-Wave的硬件来量子退火，探索其解决此问题的潜力。为了提高计算可行性，我们开发了一种有效的预处理方法，可有效减少网络规模。我们的实验结果表明，这种方法大大减少了问题的复杂性，使二次无约束二元优化形式更适合现有量子硬件。此外，结果突出了量子退火作为解决STSP的一种有前途和创新方法的潜力。

发布时间: 5/14/2025

查看原文

远程 sensing 视觉定位的高效适应

作者: Hasan Moughnieh, Mohamad Chalhoub, Hasan Nasrallah, Cristiano Nattero, Paolo Campanella, Giovanni Nico, Ali J. Ghandour

arXiv:2503.23083v2 宣告类型: replace-cross 摘要：适应预训练模型已成为人工智能中的一种有效策略，提供了一种比从头开始训练模型更具扩展性和高效性的替代方案。在遥感(RS)领域，其中视觉定位(VG)仍处于未充分探索的状态，这种方法使得能够部署强大的视觉-语言模型，以实现鲁棒的跨模态理解，同时显著降低计算开销。为了解决这一问题，我们应用参数高效微调(PEFT)技术来适应这些模型以应对RS特有的VG任务。具体而言，我们在Grounding DINO的不同模块中评估了LoRA的放置，并使用BitFit和适配器对预训练于通用VG数据集的OFA基础模型进行了微调。该方法在计算成本显著降低的同时达到了当前最佳模型（SOTA）相当或超越的性能。本研究突显了PEFT技术在推动RS中高效和精确的多模态分析方面的潜力，提供了一种比全部模型训练更具实用性和成本效益的替代方案。

发布时间: 5/14/2025

查看原文