LLM2D

arXiv 论文列表

arXiv:2505.09115v1 类别:交叉学科 摘要:预先医疗照护规划(Advance Care Planning,ACP)允许个体在因受伤或终末疾病(例如:昏迷、癌症、痴呆)而失去行动能力之前,指定他们所偏好的生命维持治疗方式。虽然在线预医疗照护规划提供了高访问性,但它缺乏临床咨询的关键优势,包括个性化价值探索和即时决策后果澄清。为了弥合这一差距,我们进行了两项形成性研究:1)观察并采访了3个包含医生、护士和社会工作者的预医疗照护团队(总计18名患者),2)采访了14名使用预医疗照护网站的用户。基于这些见解,我们与6名预医疗照护专业人士合作设计了PreCare。PreCare是一个网站,包含3个基于AI的助手,旨在引导用户探索个人价值观、获取预医疗照护知识,并支持知情决策。可用性研究(n=12)显示,PreCare获得了优秀的系统可用性量表(SUS)评分。对比评估(n=12)显示,PreCare的AI助手显著提高了个人价值观、知识探索以及决策信心,并且92%的参与者更倾向于使用PreCare。
发布时间: 5/15/2025
查看原文
作者: Fernando Cladera, Zachary Ravichandran, Jason Hughes, Varun Murali, Carlos Nieto-Granda, M. Ani Hsieh, George J. Pappas, Camillo J. Taylor, Vijay Kumar
arXiv:2505.09108v1 交叉类型:cross 摘要:随着自主机器人系统日益成熟,用户将希望以任务的意图层面而非低级别的细节层面来指定任务。语言是对此类任务指定的一种表达性和直观性很强的媒介。然而,实现语言指导的机器人团队需要克服重大的技术障碍。解释和实现语言指定的任务需要高级语义推理。成功的异构机器人必须有效地协调行动并在不同的视角之间共享信息。此外,机器人的通信通常是非连续的,需要利用通信机会制定健壮的策略,以维持协调并实现任务目标。在本文中,我们提出了一套首创的系统,该系统使无人飞行器(UAV)和无人地面车辆(UGV)能够在自然语言指定的任务下互相协作完成任务,并在任务指定发生变化时做出实时反应。我们利用大型语言模型(LLM)驱动的计划器,在航空器和地面机器人之间在线构建并机遇性地共享语义-度量地图来进行推理。我们将任务驱动的导航应用于城市和农村地区。我们的系统必须推断出与任务相关的意义,并通过语义映射主动获取信息。在地面和空地团队协作实验中,我们在公里尺度的导航中演示了系统对七个不同自然语言规定任务的应用。
发布时间: 5/15/2025
查看原文
arXiv:2505.09091v1 生成类型: cross 摘要:近年来,生成对抗网络(GANs)在生成音频序列方面取得了显著进展。然而,这些模型通常依赖于带宽受限的梅尔谱图,这限制了生成音频序列的分辨率,并在条件生成期间导致模式崩溃。为了解决这一问题,我们提出了一种新颖的基于拉普拉斯周期核的GAN(DPN-GAN)架构,该架构通过引入基于核的周期ReLU激活函数,以在音频生成中引入周期偏置。这一创新方法增强了模型捕捉和再现复杂音频模式的能力。特别是,我们提出的模型包含一个DPN模块,用于利用变形卷积操作的多分辨率生成,允许适应性的感受野,从而提高合成音频的质量和保真度。此外,我们还利用变形卷积增强了鉴别器网络,以便更好地区分真实样本和生成样本,进一步提高音频质量。我们训练了两个版本的模型:DPN-GAN小(38.67M参数)和DPN-GAN大(124M参数)。为了评估,我们使用了五个不同的数据集,涵盖了语音合成和音乐生成任务,以显示DPN-GAN的效率。实验结果表明,DPN-GAN在分布外和噪声数据上均显示出更优的性能,展示了其鲁棒性和适应性。跨多种数据集训练的DPN-GAN在标准评估指标上优于现有最先进的GAN架构,并在合成音频上展示出了增强的鲁棒性。
发布时间: 5/15/2025
查看原文
作者: Jiaxuan Chen, Yu Qi, Yueming Wang, Gang Pan
arXiv:2505.09085v1 标题类型: cross 摘要:近年来,深度神经网络(DNNs),尤其是大规模语言模型,在图像和自然语言理解方面展示了非凡的能力。尽管随着训练数据体量的增加,通过扩大模型参数规模逐步提升了DNN的能力,但在实现复杂认知能力——如理解抽象概念、推理和适应新颖场景等方面,这些能力仍面临重大挑战,这些能力是人类认知中固有的。在本研究中,我们展示了利用一小部分脑信号进行大脑在环监督学习的有效性,可以将人类的概念结构转移到DNN中,显著提高了它们对抽象乃至未见过的概念的理解能力。实验结果进一步表明,增强的认知能力在具有挑战性的任务中,如少样本/零样本学习和分布外识别,带来了显著的性能提升,同时还产生了高度可解释的概念表示。这些发现强调,人机协作监督可以有效地增强大型模型的复杂认知能力,为进一步开发更具人类特征的认知能力提供了有前景的途径。
发布时间: 5/15/2025
查看原文
arXiv:2505.09082v1 交叉类别 摘要:大型语言模型(LLMs)在最近的进展中展示了卓越的中文文本处理能力,特别是在中文拼写纠正(CSC)方面。尽管LLMs在准确性和鲁棒性方面优于传统的BERT基模型,但在可靠性和泛化方面仍然存在挑战。本文提出了一种名为CEC-Zero的新型强化学习(RL)框架,该框架使LLMs能够在无需外部监督的情况下通过自主学习错误策略来进行自我纠正。通过将RL与LLMs的生成能力结合,该方法消除了对标注数据或辅助模型的依赖。实验结果表明,增强学习的LLMs在工业可接受的准确性和跨域泛化方面表现出色,提供了一种可扩展的方案以在中文NLP应用中优化可靠性。这一突破使得LLMs能够在实际的中文文本校正场景中得到部署,并建立了自改进语言模型的新范式。
发布时间: 5/15/2025
查看原文
arXiv:2505.09081v1 Announce Type: cross 摘要:当代基于代理的建模(ABM)在社会系统中的方法传统上侧重于基于规则的行为,限制了它们通过超越预定义规则并利用人类社会互动中语境理解来捕捉复杂动态的能力。本文介绍了SALM(社会代理语言模型框架),这是一种将语言模型(LMs)集成到社会网络模拟中的新方法,在多代理场景中实现了前所未有的时间稳定性。我们的主要贡献包括:(1)分层指令架构,能够在超过4000个时间步的情况下保持稳定的模拟,同时降低词汇量使用73%;(2)基于注意力的记忆系统,在次线性内存增长9.5%的情况下,达到80%的缓存命中率(95%置信区间[78%,82%]);以及(3)人格稳定性的正式界线。通过与SNAP自我网络的广泛验证,我们展示了第一个基于LLM的框架,能够在保持实证验证的行为保真度的同时建模长期社会现象。
发布时间: 5/15/2025
查看原文
arXiv:2505.09062v1 类型: cross 摘要: 近期的源代码摘要技术利用了基于变换器的预训练模型,包括代码大型语言模型(LLMC),以自动化和提升代码摘要的生成质量。然而,现有的方法往往集中在为给定的源代码生成高质量的单一摘要,忽视了生成的摘要可能不足,而需要备选选项的场景。本文中,我们引入了变分前缀调谐(VPT)这一新颖的方法,增强预训练模型生成多样化且准确的摘要集的能力,使用户能够为给定的源代码选择最合适的摘要。我们的方法将条件变分自编码器(CVAE)框架作为模块化组件集成到预训练模型中,使我们能够建模观测目标摘要的概率分布,并采样连续嵌入作为前缀,以在解码过程中引导生成多样化的输出。重要的是,我们以参数高效的方式构建了该方法,避免了昂贵的模型重新训练的需求,尤其是在使用LLMC时。此外,我们采用一种双标准重新排名方法来选择生成的摘要子集,优化提供给用户的选择的多样性和准确性。我们使用广泛使用的数据集和当前最先进的预训练代码摘要模型进行了详尽的实验评估,以证明我们方法的有效性和其在不同模型上的适应性。
发布时间: 5/15/2025
查看原文
作者: Owen Kwon, Abraham George, Alison Bartsch, Amir Barati Farimani
arXiv:2505.09040v1 交叉公告类型:cross 摘要:本文介绍了RT-cache,这是一种新颖的轨迹记忆流水线,通过利用大数据检索和经验学习加速现实世界的机器人推理。虽然现代视觉-语言-动作(VLA)模型能够处理多种机器人任务,但它们通常在每步推理成本高昂,导致显著的延迟,有时每任务需要几分钟。相比之下,RT-cache 存储了一大規模的之前成功的机器人轨迹记忆,并检索相关的多步运动片段,极大地减少了推理开销。通过结合记忆构建器与轨迹检索,我们开发了一个高效且针对大数据集仍然可管理的检索过程。RT-cache 灵活地积累真实的实践经验,并在当前场景与以往状态匹配时重新播放它们,仅通过少量额外样本即可快速适应新的或未见过的环境。在Open-X 体感数据集和其他现实世界数据上的实验表明,RT-cache 在完成任务速度更快且成功率更高,这表明RT-cache 是一种实用的数据驱动实时操纵解决方案。
发布时间: 5/15/2025
查看原文
arXiv:2505.09027v1 类别: cross 摘要: 我们引入了WebApp1K,这是一种新型基准,用于评估大型语言模型(LLMs)在测试驱动开发(TDD)任务中的性能,其中测试用例既作为代码生成的提示,也作为验证工具。与依赖自然语言提示的传统方法不同,我们的基准强调LLMs直接从测试用例中解释和实现功能的能力,反映了实际软件开发实践。该基准包括20个应用领域内的1000个多样化挑战,评估LLMs在上下文长度和多特征复杂性约束下的代码生成能力。我们的研究结果强调,指令遵循和上下文内学习对于TDD的成功至关重要,超过了通用编码技能或预训练知识的重要性。通过全面评估19个前沿模型,我们揭示了性能瓶颈,例如长提示中的指令损失,并提供了多个根本原因的详细错误分析。这项工作突显了TDD特定基准的实际价值,并为在严格的,应用驱动的编码场景中提升LLM能力奠定了基础。
发布时间: 5/15/2025
查看原文
作者: Annan Yu, N. Benjamin Erichson
arXiv:2505.09022v1 Announce Type: cross 摘要:Mamba 通过引入输入依赖的动力学扩展了早期的状态空间模型 (SSMs),并在包括语言 modeling、计算机视觉和基础模型在内的多种领域中展示了强大的实证性能。然而,一个令人惊讶的弱点仍然存在:尽管 Mamba 被设计用于处理长距离依赖性,但在长距离序列任务上表现不佳。理解并解决这一差距对于提高 Mamba 的通用性和灵活性至关重要。在本文中,我们从三个角度来看分析 Mamba 的局限性:表达能力、归纳偏见和训练稳定性。我们的理论结果展示了与早期 SSMs 如 S4D 相比,Mamba 在每个方面的表现都逊色之处。为了应对这些问题,我们提出了 $\text{B}_2\text{S}_6$,这是一种对 Mamba 的 S6 单元的简单扩展,结合了块内选择性动力学和通道特定的偏置。我们证明这些更改为模型提供了更具适合性的归纳偏见,提高了其表达能力和稳定性。从实验来看,$\text{B}_2\text{S}_6$ 在 Long-Range Arena (LRA) 任务上优于 S4 和 S4D,同时在语言 modeling 标准测试中保持了 Mamba 的性能。
发布时间: 5/15/2025
查看原文