LLM2D

摘要

arXiv:2505.01998v1 宣告类型: cross 摘要: 本文提出了一种将非线性声学计算与强化学习结合起来的新颖框架，以增强在复杂噪声和混响环境下的高级人机交互。利用物理导向的波动方程（例如，韦斯特维尔特、KZK 方程），该方法捕捉到高阶现象，如谐波生成和冲击形成。通过将这些模型嵌入到由强化学习驱动的控制回路中，系统自适应地优化关键参数（例如，吸收、波束形成），以减轻多路径干扰和非平稳噪声。实验评估涵盖了远场定位、弱信号检测和多语言语音识别，结果显示这种混合策略超越了传统的线性方法和纯数据驱动的基础模型，实现了更优的降噪效果、最低的延迟和在严峻的现实场景中的稳健准确性。所提出系统展示出了广泛的应用前景，在人工智能硬件、机器人、机器听觉、人工听觉和脑-机接口等多个领域都有 potential。