arXiv 论文列表

作者: Lizhe Chen, Binjia Zhou, Yuyao Ge, Jiayi Chen, Shiguang NI

arXiv:2504.16574v1 宣告类型: cross 摘要: 大型语言模型（LLMs）已经在各个自然语言处理任务中取得了显著进展，显示出了前所未有的能力。然而，与这种卓越性能相关的高昂成本限制了LLMs的广泛应用，突显了提示压缩的必要性。现有的提示压缩方法主要依赖启发式截断或摘要化技术，从根本上忽视了LLMs的内在机制，并且缺乏生成过程中重要性标记的系统评估。在此项工作中，我们提出了提示重要性采样（PIS），这是一种新颖的压缩框架，通过基于隐藏状态注意力分数的分析动态压缩提示，选择重要标记。PIS采用了双重压缩机制：1）在标记级别，我们使用LLM内生的注意力分数量化显著性，并通过一个轻量级的9层强化学习（RL）网络实现自适应压缩；2）在语义级别，我们提出了一种用于句子级别重要性采样的俄式轮盘赌采样策略。在多个领域基准上的全面评估表明，我们的方法实现了最先进的压缩性能。值得注意的是，我们的框架通过优化上下文结构意外地提高了推理效率。这项工作通过为LLMs提供理论基础和实际效率的上下文管理，推动了提示工程的发展。

发布时间: 4/24/2025

查看原文

PsyCounAssist: 一个全周期人工智能心理辅导助理系统

作者: Xianghe Liu, Jiaqi Xu, Tao Sun

arXiv:2504.16573v1 交叉类型: cross 摘要：心理辅导是一个高度个性化和动态的过程，要求治疗师不断监测情绪变化、记录会谈洞察，并保持治疗连续性。本文介绍了一种名为PsyCounAssist的全面AI辅助心理辅导助理系统，该系统专门设计用于增强心理辅导实践。PsyCounAssist结合使用语音和光电容积脉冲图(PPG)信号的多模态情绪识别，以实现准确的实时情感分析；使用大型语言模型(LLU)自动结构化报告会谈内容，并提供个性化的人工智能生成的后续支持。该系统部署在基于Android的平板设备上，在现实世界的心理咨询场景中展示了实际适用性和灵活性。实验评估证实了基于PPG的情绪分类的可靠性，并强调了该系统在非侵入性和隐私知情情感支持方面的重要潜力。PsyCounAssist代表了一种新的伦理有效地将AI集成到心理辅导工作流程中的方法。

发布时间: 4/24/2025

查看原文

AI驱动的动态AR内容面向用户和环境的自适应 vision

作者: Julian Rasch, Florian M\"uller, Francesco Chiossi

arXiv:2504.16562v1 宣告类型: cross 摘要: 增强现实(Augmented Reality, AR)正在改变我们与物理世界中虚拟信息交互的方式。通过在现实环境上叠加数字内容，AR能够创造新的沉浸式和引人入胜的体验形式。然而，现有的AR系统往往难以有效管理AR呈现的众多交互可能性。本文设想了基于人工智能的方法来实现适应性AR内容布局，根据用户的移动和环境变化动态调整内容。通过利用机器学习方法，这样的一种系统能够智能地管理集成到外部环境中的AR投影内容和固定静态内容之间的内容分布，从而实现平滑的UI布局并可能减少用户的认知负担。通过探索基于人工智能的动态AR内容布局的可能性，我们旨在构想各个行业——从城市导航和工作效率到沉浸式学习——的新创新和改进机会。本文勾勒出了一种开发更直观、更具吸引力和更有效的基于人工智能的AR体验的愿景。

发布时间: 4/24/2025

查看原文

使用大规模语言模型探索人类-SAV交互：心理所有权和拟人化对用户体验的影响

作者: Lirui Guo, Michael G. Burke, Wynita M. Griggs

arXiv:2504.16548v1 交叉公告类型摘要：关于心理因素如何影响共享自主车辆（SAVs）的采用，已有大量先前研究进行了探索，例如拟人化的影响。然而，关于在大语言模型（LLM）驱动的SAV用户界面（UI）中使用提示策略如何影响用户感知、体验及其采用此类技术的意向，的研究则相对有限。在本文中，我们探讨了由LLM驱动的对话型UI如何驱动这些心理因素和心理所有权，即用户可能对其未依法拥有的实体或物体产生的占有感。我们设计了四种具有不同程度拟人化特征和心理所有权触发器的SAV UI。在接受SAV交互后，我们收集了关于心理所有权、拟人化、服务质量、信息披露倾向、SAV回应的情感以及总体接受度的定量措施。我们也收集了关于在交互过程中心理所有权体验的定性反馈。结果表明，设计得更具拟人化且能激发心理所有权的SAV对话型UI，可以使用户对SAV的人类特质有更积极的感知，并且与控制条件相比，SAV的回应情感也得到了改善。这些发现为设计增强用户SAV体验和采用的基于LLM的对话型UI提供了实用指导。

发布时间: 4/24/2025

查看原文

Transformer在知识超图上的复杂查询回答

作者: Hong Ting Tsang, Zihao Wang, Yangqiu Song

arXiv:2504.16537v1 交叉公告类型: 摘要：复杂查询回答（CQA）近年来得到了广泛研究。为了更好地模拟真实世界的分布，引入了具有不同模态的知识图谱。三元组知识图谱（Triple KGs），作为由二元实体和关系组成的经典知识图谱，对现实世界的事实表示能力有限。现实世界的数据更为复杂。尽管已引入了超关系图，但在表示包含相同贡献实体的多种 arity 关系方面仍存在局限性。为了解决这一问题，我们采样了新的 CQA 数据集：JF17k-HCQA 和 M-FB15k-HCQA。每个数据集包含各种查询类型，包括投影、否定、合取和析取等逻辑操作。为了回答知识超图（KHG）存在的一阶逻辑查询，我们提出了一种两阶段变换器模型，即逻辑知识超图变换器（LKHGT），该模型由原子投影编码器和复杂逻辑操作编码器组成。两端编码器都配备了类型感知偏差（TAB），以捕获词元之间的交互。CQA 数据集上的实验结果表明，LKHGT 是一种在 KHG 上处于最先进的 CQA 方法，并且能够泛化到未见过的查询类型。

发布时间: 4/24/2025

查看原文

从层次结构思考，动态行动：视觉-语言导航中的层次多模态融合与推理

作者: Junrong Yue, Yifan Zhang, Chuan Qin, Bo Li, Xiaomin Lie, Xinlei Yu, Wenxin Zhang, Zhendong Zhao

arXiv:2504.16516v1 Announce Type: cross 摘要：视觉-语言导航（VLN）旨在使具身智能体能够遵循自然语言指令并到达现实世界环境中的目标位置。尽管先前的方法通常依赖于全局场景表示或物体级特征，但这些方法不足以捕捉进行准确导航所必需的跨模态复杂交互。在本文中，我们提出了一种多级融合和推理架构（MFRA）以增强智能体对视觉观察、语言指令和导航历史进行推理的能力。具体而言，MFRA 引入了一种分层融合机制，该机制在多种模态之间聚合从低级视觉线索到高级语义概念的多级特征。我们进一步设计了一个推理模块，该模块利用融合表示通过指令导向的注意力和动态上下文集成来推断导航动作。通过选择性地捕捉和组合相关视觉、语义和时间信号，MFRA 提高了复杂导航场景中的决策准确性。在基准 VLN 数据集 REVERIE、R2R 和 SOON 上的广泛实验表明，MFRA 的性能优于现有最先进的方法，验证了多级模态融合在具身导航中的有效性。

发布时间: 4/24/2025

查看原文

边缘设备中具有可扩展准确性和计算复杂度的低秩单-shot 图像检测模型的联邦学习

作者: Abdul Hannaan, Zubair Shah, Aiman Erbad, Amr Mohamed, Ali Safa

arXiv:2504.16515v1 宣告类型: 宽带摘要：本文介绍了一种名为LoRa-FL的新联邦学习框架，该框架旨在训练部署在边缘设备上的低秩一次性图像检测模型。通过将低秩适应技术集成到一次性检测架构中，我们的方法在保持可扩展的准确性的前提下，显著减少了计算和通信开销。所提出的框架利用联邦学习协作训练轻量级图像识别模型，能够在异构的、资源受限的设备上实现快速适应和高效部署。在MNIST和CIFAR10基准数据集上进行的实验评估，无论是独立且同分布（IID）还是非IID设置，都表明我们的方法在显著降低通信带宽和计算复杂性的同时，仍能实现可竞争的检测性能。这使其成为一种有前景的解决方案，可以在不牺牲模型准确性的前提下，适应性地减少通信和计算能耗。

发布时间: 4/24/2025

查看原文

放大脆弱性：基于LLM的多代理辩论结构化逃狱攻击

作者: Senmao Qi, Yifei Zou, Peng Li, Ziyi Lin, Xiuzhen Cheng, Dongxiao Yu

arXiv:2504.16489v1 通告类型: 横向摘要：多智能体辩论（MAD），通过大型语言模型（LLMs）之间的协作互动，旨在增强复杂任务的推理能力。然而，其迭代对话和角色扮演特性，尤其是容易受到引发有害内容的脱管攻击的安全影响，仍然严重未被充分探索。本文系统地研究了四种基于领先商用LLMs（GPT-4o、GPT-4、GPT-3.5-turbo和DeepSeek）构建的MAD框架的脱管漏洞，而不会削弱内部智能体的能力。我们引入了一种全新的结构化提示重写框架，专门设计用于通过故事情节封装、角色驱动升级、迭代精炼和修辞混淆来利用MAD动态特性。我们广泛的实验表明，MAD系统本质上比单智能体设置更为脆弱。至关重要的是，我们提出的攻击方法显著增强了这种脆弱性，将平均有害性从28.14%提高到80.34%，并在某些场景中实现了高达80%的攻击成功率。这些发现揭示了MAD架构中的固有脆弱性，并强调了在实际部署之前迫切需要开发强大且专门的防御措施。

发布时间: 4/24/2025

查看原文

开发者对其提交的AI生成代码的自我声明分析：一种实践分析

作者: Syed Mohammad Kashif, Peng Liang, Amjed Tahir

arXiv:2504.16485v1 宣布类型: 横向摘要: AI 代码生成工具在开发人员中获得了显著的流行，他们利用这些工具来协助软件开发，因为这些工具能够生成代码。现有研究主要探讨了 AI 生成代码的质量，如正确性和安全性，而在实际软件开发中，先决条件是区分 AI 生成代码和由人工编写的代码，这强调了开发人员明确声明 AI 生成代码的必要性。为此，本研究旨在了解开发人员如何自我声明 AI 生成代码，并探讨开发人员选择声明或不声明的原因。我们进行了一个混合方法研究，分为两个阶段。在第一阶段，我们挖掘了 GitHub 仓库，并收集了 613 个 AI 生成代码片段。在第二阶段，我们进行了后续的工业调查，收到了 111 份有效回复。我们的研究揭示了开发人员自我声明 AI 生成代码的做法。大多数实践者（76.6%）总是或有时会自我声明 AI 生成代码。相比之下，其他实践者（23.4%）表示他们从不自我声明 AI 生成代码。自我声明 AI 生成代码的原因包括跟踪和监控代码以便在未来进行审核和调试，以及道德考虑。不自我声明 AI 生成代码的原因包括对 AI 生成代码进行大量修改，以及开发人员认为自我声明是一项不必要的活动。最后，我们为实践者提供了关于如何自我声明 AI 生成代码的指南，以解决伦理和代码质量方面的关切。

发布时间: 4/24/2025

查看原文

原子的舞蹈-基于扩散模型的从头蛋白质设计

作者: Yujie Qin, Ming He, Changyong Yu, Ming Ni, Xian Liu, Xiaochen Bo

arXiv:2504.16479v1 类别: cross 摘要: 蛋白质从头设计是指创造具有特定结构和功能的人工蛋白质，这些蛋白质在自然界中并不存在。近年来，高质量的蛋白质结构和序列数据的积累以及技术进步为使用生成式人工智能（AI）模型在蛋白质设计中的成功应用铺平了道路。这些模型已超越了依赖片段和生物信息学的传统方法，显著提高了从头蛋白质设计的成功率，并降低了实验成本，从而推动了该领域的突破。在各种生成式AI模型中，蛋白质设计中扩散模型取得了最令人鼓舞的结果。在过去两到三年中，基于扩散模型的蛋白质设计模型超过了十种。其中，代表性模型RFDiffusion在25项蛋白质设计任务中的成功率远超传统方法和其他基于AI的方法，如RFjoint和hallucination。本文将系统地探讨扩散模型在生成蛋白质主链和序列中的应用。我们将探讨不同模型的优势和局限性，总结使用扩散模型进行蛋白质设计的成功案例，并讨论未来的发展方向。

发布时间: 4/24/2025

查看原文