arXiv:2404.17962v2 宣告类型: replace-cross
摘要:最近的工作表明,深度学习在增强射频(RF)信号软件处理方面具有巨大的潜力。与此同时,基于 Rydberg 原子的量子 RF 传感器的硬件发展正在打破在频率范围、分辨率和灵敏度方面的长期障碍。在本文中,我们描述了我们对射频信号分类的量子 Ready 机器学习方法的实现。我们的主要目标是延迟:尽管深度学习提供了一种更强大的计算范式,但它也传统上引起了延迟开销,这阻碍了其更广泛的部署。我们的工作涵盖了三个维度。(1) 一种新颖的基于连续小波变换(CWT)的循环神经网络(RNN)架构,该架构能够在采样时间减少的情况下,灵活地对射频信号进行在线分类。(2) 适用于 GPU 和 CPU 的低延迟推理技术,推理时间减少了超过 100 倍,实现了毫秒级的低延迟实时操作。(3) 通过将我们的模型应用于基于物理学模拟的 Rydberg 原子 QRF 传感器,验证了量子 Ready 性。总之,我们的工作将下一代使用量子技术超越先前物理限制的 RF 传感器与优化延迟的人工智能/机器学习软件相结合,适用于实时部署。
arXiv:2403.16354v4 宣告类型: replace-cross
摘要:调试是程序员的一项关键但具有挑战性的任务。本文提出了一种名为 ChatDBG 的人工智能辅助调试助手。ChatDBG 通过集成大型语言模型 (LLMs),显著增强了传统调试器的能力和用户友好性。ChatDBG 允许程序员与调试器进行协作对话,让他们能够提出关于程序状态的复杂问题,进行崩溃或断言失败的根本原因分析,以及探索开放式查询,例如“为什么 x 为空?”为了处理这些查询,ChatDBG 赋予了 LLM 自主性,使其能够“接管”:它可以作为独立代理,能够查询和控制调试器以导航堆栈并检查程序状态。然后它报告其发现,并将控制权交还给程序员。通过利用嵌入在 LLM 中的现实世界知识,ChatDBG 可以诊断仅通过领域特定推理使用才能识别的问题。我们的 ChatDBG 原型与标准调试器(包括 LLDB、GDB 用于原生代码以及 Pdb 用于 Python 代码)集成。针对不同代码的综合评估,包括包含已知错误的 C/C++ 代码和一系列 Python 代码,包括独立脚本和 Jupyter 笔记本,表明 ChatDBG 可以成功分析根本原因,解释错误,并为广泛的实际错误生成准确的修复方案。对于 Python 程序,单次查询有 67% 的时间导致可操作的错误修复;一个额外的后续查询将成功率提高到 85%。ChatDBG 已经广泛采用;迄今为止,它已经下载超过 75,000 次。
arXiv:2403.05720v5 通知类型: 替换-交叉
摘要:简短住院总结(BHC)是临床文件,总结患者的住院情况。虽然大型语言模型(LLMs)在自动化现实世界任务方面展现了显著的能力,但它们在健康医疗应用领域,如从临床笔记合成简短住院总结的能力尚未得到证明。我们引入了一个新颖的预处理数据集,MIMIC-IV-BHC,它包含临床笔记和简短住院总结(BHC)配对,以适应LLMs进行简短住院总结的合成。此外,我们介绍了一个总结性能基准,其中包括两种通用语言模型和三种医疗保健适应的语言模型。我们使用临床笔记作为输入,应用基于提示(使用上下文学习)和基于微调的适应策略来适应三个开源语言模型(Clinical-T5-Large、Llama2-13B、FLAN-UL2)以及两种专有的语言模型(GPT-3.5、GPT-4)。我们使用自然语言相似度度量对这些语言模型进行跨多个上下文长度输入的评估。此外,我们进行了一项包含五名临床医生的临床研究,比较了临床医生撰写的和由LLM生成的简短住院总结,重点关注它们通过改进摘要质量增强临床决策制定的潜力。我们发现,在定量评估指标BLEU和BERT-Score的前提下,微调后的Llama2-13B模型优于其他领域适应模型。尽管微调后的Llama2-13B模型在临床笔记输入的上下文长度增加时显示出了更高的鲁棒性,但在GPT-4结合上下文学习的情况下,读者研究显示出对生成的GPT-4摘要比微调后的Llama2-13B摘要和原始摘要有明显偏好的倾向,这突显了进行定性临床评估的必要性。
arXiv:2401.00477v2 公告类型:替换交叉
摘要:尽管用户合作无法提高独立噪声的高斯双向信道(GTWC)的容量,但它可以提高通信可靠性。本工作中,我们旨在通过联合设计用户编码器和译码器来最小化错误概率总和,从而增强并平衡GTWC中的通信可靠性。我们首先制定了通用的编码/译码函数,其中用户合作通过用户编码过程的耦合来捕获。耦合效应使得编码器/译码器的设计变得非平凡,需要有效的译码来捕获这种效应,以及在功率约束下的编码器的高效功率管理。为了解决这些挑战,我们提出了两种不同的双向编码策略:线性编码和基于学习的编码。对于线性编码,我们提出了最优的线性译码,并讨论了关于用户合作的新见解以平衡可靠性。然后,我们提出了联合编码器/译码器设计的高效算法。对于基于学习的编码,我们引入了一种基于递归神经网络(RNN)的新编码架构,其中我们提出了交互式的RNN和一个功率控制层用于编码,并结合双向RNN和注意机制用于译码。通过 simulations,我们展示了我们的双向编码方法在总错误性能方面显著优于传统的信道编码方案(这些方案未利用用户合作)。我们还证明了我们的线性编码在高信噪比(SNR)下表现出色,而我们的基于RNN的编码在低SNR下表现最佳。我们进一步探讨了我们的双向编码策略的功率分布、双向编码效益、不同的编码率和块长增益。
arXiv:2209.15157v2 宣告类型: replace-cross
摘要:在这篇论文中,我们 argue 认为在组织或社会背景下训练和评估机器学习模型的方法往往未能考虑它们的实际应用,这些模型旨在为人们创造有益的价值。我们建议从一个新的角度来看待问题,重新定义模型的评估和选择,强调将机器预测与人类专业知识结合到工作流程中,特别是在需要人类干预来处理低置信度预测的情景中。传统的准确性和 F 值等指标未能在这样的混合设置中捕捉到模型的有益价值。为了应对这一挑战,我们引入了一个简单而理论上坚实的价值指标,该指标考虑了特定任务的成本,包括正确预测、错误和拒绝的成本,提供了一种实际的框架来评估实际应用。通过广泛的实验,我们展示了现有指标无法捕捉到实际需求,通常在使用这些指标对分类器进行排名时会导致价值方面的次优选择。此外,我们强调了校准在确定模型价值方面的关键作用,表明简单的校准良好的模型往往可以优于校准难度较大的更复杂模型。
arXiv:2112.01525v2 公告类型: replace-cross
摘要: 我们研究复值缩放作为复值测量和表示中自然且独特的对称性类型。复值深度网络(DCN)将实值代数扩展到复值域,但未解决复值缩放问题。SurReal 采用限制流形视角看待复数,采用距离度量实现复值缩放不变性,但损失了丰富的复值信息。我们分析了复值缩放作为辅域变换,并设计了针对这种特殊变换的新型不变和协变神经网络层函数。我们还提出了 RGB 图像的新型复值表示,其中复值缩放表示色调偏移或色通道间的相关变化。在 MSTAR、CIFAR10、CIFAR100 和 SVHN 上进行基准测试,我们发现辅域对称(CDS)分类器的准确率更高、泛化能力更好、对辅域变换具有更强的鲁棒性,并且模型偏差和方差更低,参数量远少于 DCN 和 SurReal。
arXiv:2504.15610v2 宣告类型: 替换
摘要:当前的研究描述了一种经济高效的方法,用于在考虑海外学习背景的同时适应大型语言模型(LLMs),并在低资源方法中应用于文化适应过程中的学业顾问。通过使用Mistral-7B-Instruct模型与低秩适应(LoRA)方法和4比特量化方法相结合,该模型在与本研究目的相关的两个阶段中进行了训练,以增强领域特定性的同时保持计算效率。在第一阶段中,模型通过Gemini Pro API 进行了与合成数据集的条件训练,在第二阶段中,通过StudyAbroadGPT项目中人工精选的数据集进行了训练,实现了更加具体和上下文相关的响应。技术革新包括高效的内存量化、参数高效的适应以及通过Weights & Biases进行连续训练分析。经过训练后,本研究显示了训练损失减少了52.7%,领域特定推荐达到了92%的准确率,支持了95%的基于Markdown的格式化,以及在标准的GPU设备上每秒运行100个样本的中位数速度。这些发现支持了指令调整后的LLMs在教育顾问中的有效应用,特别是在低资源机构场景中的应用。局限性包括降低了通用性,并且应用了合成生成的数据集,但该框架适用于添加新的多语言增强和实时学术咨询服务。未来的研究方向可能包括集成检索增强生成、应用动态量化程序以及连接到实时学术数据库以提高适应性和准确性。
arXiv:2504.14128v3 通知类型: 修改
摘要: 推理是使大规模语言模型(LLMs)能够与世界交互的基本技能。随着任务变得越来越复杂,它们需要更加复杂和多元的推理能力来进行序列决策,需要对上下文历史进行结构化推理以确定下一步的最佳行动。我们介绍了TALES,这是一种多样化的合成和人工编写的文字冒险游戏集合,旨在挑战和评估多元的推理能力。我们展示了多种LLM,包括全权重和部分权重,的表现,并对表现最佳的模型进行了定性分析。尽管在合成游戏中表现出色,即使是最优秀的LLM驱动代理在游戏中获得的分数也仅为15%,这些游戏是为人类享受而设计的。在 https://microsoft.github.io/tales 中可以找到实验的代码和可视化结果。
arXiv:2503.17604v4 宣告类型: 替换
摘要: 大型语言模型(LLMs)在推进科学知识和解决复杂挑战方面展现出了显著的潜力。在这项工作中,我们介绍了一种名为 OmniScience 的专门化大型推理模型,专门用于一般科学领域,通过三个关键组件开发:(1)在精心挑选的科学文献语料库上进行领域适应性预训练,(2)在专项数据集上进行指令调整以指导模型执行领域特定任务,以及(3)通过微调进行基于推理的知识精炼,以大幅增强其生成上下文相关且逻辑正确的响应的能力。我们通过开发一个电池代理,高效地对分子进行排名,以潜在电解质溶剂或添加剂的形式展示 OmniScience 的灵活性。全面评估显示,在 GPQA 石英石基准和专门的电池基准上,OmniScience 在与最新大型推理模型的竞争中表现出竞争力,同时在参数数量相似的情况下,其性能超过了所有公共推理和非推理模型。进一步的消融实验显示,领域适应性预训练和基于推理的知识精炼对于实现我们在各个基准上的性能水平至关重要。
arXiv:2503.16743v3 宣布类型: 替换
摘要: 我们介绍了一种基于算法概率原理的开放性测试,可以在评估前沿模型的强人工智能(AGI)和超级智能(ASI)声明时避免基准污染。与其他测试不同,该测试不依赖于统计压缩方法(如GZIP或LZW),这些方法更接近于香农熵而不是库尔莫哥洛夫复杂度,并且无法进行超越简单模式匹配的测试。该测试挑战与AI,特别是大型语言模型(LLM)相关的基础智能方面的能力,特别是在逆向问题(从观察中生成新知识)的背景下进行建模和合成。我们认为,基于模型抽象和推测(最优贝叶斯“推断”)的度量框架可以为测试智能提供稳健的框架,包括自然智能(人类和动物),窄人工智能,AGI和ASI。我们发现LLM模型版本往往是脆弱且增量的,结果表明,进步很可能是由训练数据量的大小驱动的。我们将结果与一种结合了神经符号方法进行了比较,该方法理论上基于算法概率和库尔莫哥洛夫复杂度的原则,保证了通用智能。该方法在短二进制序列上的概念验证中优于LLM。我们证明了压缩等同于系统预测能力,并且成正比。也就是说,如果一个系统能更好地预测,它就能更好地压缩,反之亦然。我们的发现加强了对LLM基本局限性的怀疑,揭示它们是优化为了掌握人类语言感知的系统。