LLM2D

摘要

arXiv:2505.01998v2 交叉公告类型摘要：本文介绍了一种新颖的框架，将非线性声计算与强化学习结合起来，以在复杂噪声和混响环境中增强高级人机交互。利用物理知情的波动方程（例如，韦斯特维尔特、KZK 方程），该方法捕捉到高阶现象，如谐波生成和冲击形成。通过将这些模型嵌入强化学习驱动的控制回路中，系统自适应地优化关键参数（例如，吸收、波束形成）以减轻多路径干扰和非稳态噪声。涵盖远场定位、弱信号检测和多语种语音识别的实验评估表明，这种混合策略超越了传统的线性方法和纯粹数据驱动的基线方法，在具有挑战性的现实场景中实现了卓越的噪声抑制、最小的延迟和鲁棒的准确性。所提出系统的应用前景广泛，适用于人工智能硬件、机器人、机器听觉、人工听觉和脑机接口等领域。