arXiv:2409.11686v2 举报类型: replace-cross
摘要:腹部计算机断层扫描(CT)在临床环境中经常使用。机会性CT涉及重新利用常规CT图像以提取诊断信息,并是检测未诊断条件(如肌少症、肝脂肪变性和腹水)的新兴工具。本研究利用深度学习方法促进准确诊断和临床记录。我们分析了2,674例住院CT扫描,以确定成像表型(机会性CT扫描中提取的特征)与其对应的放射学报告和ICD编码之间的差异。通过对这些扫描的分析,我们发现通过机会性成像或放射学报告诊断的肌少症、肝脂肪变性和腹水(分别)的ICD编码比例仅为0.5%、3.2%和30.7%。我们的研究结果表明,机会性CT有助于提高诊断精度,并提高风险调整模型的准确性,为精准医疗领域提供了进步。
arXiv:2409.06635v4 宣告类型: 更换交叉引用
摘要:大型语言模型(LLMs)的迅速发展显着增强了自然语言处理能力,促进了既能处理和理解语音和音频输入又能处理文本的AudioLLMs的发展。现有的AudioLLMs通常结合了一个预训练的音频编码器和一个预训练的LLM,并在特定的音频任务上进行微调。然而,预训练的音频编码器在捕捉新任务和数据集的特征方面能力有限。为了解决这个问题,我们提议将“弱”编码器混合(MoWE)引入AudioLLM框架中。MoWE通过为基编码器添加一个相对较轻量级编码器的池,并根据音频输入选择性地激活它们,以增强特征提取而不显著增加模型大小。我们的实验结果表明,MoWE有效提升了多任务性能,使AudioLLMs能够应用到更多样化的音频任务中。
arXiv:2409.05286v3 任务类型: replace-cross
摘要:表格结构的复杂性和问题逻辑使得基于表格的问题回答(TQA)任务对大型语言模型(LLMs)具有挑战性,通常在解决这些问题之前需要简化任务。本文揭示了在任务简化过程中推理过程的价值可能超过简化后的任务本身,并旨在通过利用LLMs的推理能力来提高TQA性能。我们提出了一个“搜寻-解答”管道,该管道指示LLM首先搜索相关信息,然后回答问题,在推理层面将这两个阶段整合为一个连贯的“搜寻-解答”思维链(SS-CoT)。此外,我们从这个管道中提炼出一个单步TQA解决提示,并使用带有SS-CoT路径的示范来指导LLM在In-Context Learning设置下解决复杂的TQA任务。我们的实验表明,我们的方法在提高性能和可靠性方面更为高效。我们的发现强调了要有效地处理复杂TQA任务,激发LLMs的推理能力的重要性。
arXiv:2409.02871v2 宣告类型: replace-cross
摘要:随着nuPlan和Argoverse等开源数据集的发布,近年来基于学习的规划器的研究变得非常广泛。现有的系统在模仿人类驾驶行为方面表现出色,但在保证安全的闭环驾驶方面遇到了挑战。相反,基于优化的规划器在短期规划场景中提供了更大的安全性。为应对这一挑战,本文提出了一种新的混合运动规划器,结合了基于学习技术和基于优化的技术。首先,多层感知器(MLP)生成一个类似人类的轨迹,然后通过基于优化的组件对其进行细化。该组件不仅最小化跟踪误差,还计算出一条既动力学可行又与障碍物和道路边界无碰撞的轨迹。我们的模型有效地平衡了安全性和拟人类性,缓解了这两个目标之间的贸易-off。我们通过仿真实验验证了我们的方法,并进一步通过在实际自动驾驶车辆中部署该方法证明了其有效性。
arXiv:2408.11052v3 宣告类型: replace-cross
摘要:自我监督有望变革强化学习(RL),类似于它在其他机器学习领域实现的突破。虽然其他领域的自我监督学习旨在在一个固定的数据集中发现模式,自我监督的目标条件强化学习(GCRL)代理通过学习在与环境进行无结构交互过程中实现的目标来发现新的行为。然而,由于仿真环境数据不足以及缺乏稳定的算法,这些方法未能获得类似的成功。通过推出高性能的代码库和基准(JaxGCRL),我们朝着解决这两个问题迈出了一步,使研究人员能够在单个GPU上分钟内对代理进行百万环境步骤的训练。通过利用GPU加速的重播缓冲区、环境以及稳定的对比学习RL算法,我们将训练时间缩短了高达22倍。此外,我们评估了对比学习RL中的关键设计选择,确定了那些最有效地稳定和提升训练性能的选择。采用此方法,我们为未来的自监督GCRL研究奠定了基础,使研究人员能够快速迭代新想法,并在多样且具有挑战性的环境中进行评估。网站 + 代码:https://github.com/MichalBortkiewicz/JaxGCRL
arXiv:2408.07947v4 宣告类型: replace-cross
摘要:合成孔径雷达(SAR)成像技术的独特优势在于能够在各种天气条件和时间下收集数据。然而,SAR 图像表现出复杂的散射模式和斑点噪声,需要专业知识来进行解释。已经进行过将 SAR 图像转换为光学类似表示的研究,以帮助解释 SAR 数据。尽管如此,现有的研究主要使用低分辨率卫星图像数据集,并且大多基于生成对抗网络(GAN),而生成对抗网络因训练不稳定性和低保真度而著称。为了解决低分辨率数据使用和基于 GAN 的方法的这些限制,本文引入了一种基于布朗桥扩散模型(BBDM)的条件图像到图像转换方法。我们在 MSAW 数据集上进行了全面的实验,该数据集包含分辨率为 0.5 米的高分辨率(VHR)SAR 和光学图像配对集合。实验结果表明,在多种感知质量指标上,我们的方法均优于条件扩散模型(CDMs)和基于 GAN 的模型。
arXiv:2407.18271v4 宣告类型: replace-cross
摘要:大型语言模型(LLMs)的最新进展激发了对自动生成寄存器传输级(RTL)设计的显著兴趣,特别是使用Verilog。当前该领域的研究主要集中在预训练和指令调优上,但这些方法的有效性受到可用训练数据有限的限制,因为公开的Verilog代码远不如软件代码丰富。特别是,这些方法难以有效捕捉Verilog并行代码结构,这些结构与大多数软件编程语言中典型的命令式、顺序控制流程从根本上不同。本文介绍了VeriSeek,这是一种通过有限高质量训练数据增强的强化学习语言模型,能够在Verilog代码生成性能方面取得高成效。我们的强化学习方法利用代码结构信息作为反馈信号来细化预训练模型,使其能够有效学习来自Verilog并行结构代码的重要模式。实验表明,VeriSeek 在多个基准测试中优于现有最先进的方法。
arXiv:2407.17413v3 公告类型: replace-cross
摘要: 我们提出了一种新的算法,该算法结合了现有的基于凸规划的方法和启发式信息,以找到凸集合图(SPP-GCS)上最短路径问题的最优性和接近最优路径。我们的方法受到 $A^*$ 的启发,从一个指定的顶点子集开始,以一种类似于最佳优先的方式进行操作,并迭代地扩展它,直到进一步的增长既不可能也不会有好处。传统上,获得优化问题的解的界通常涉及求解一个松弛问题,将松弛的解修改为可行的解,然后比较这两种解来确定界限。然而,对于 SPP-GCS,我们展示了逆向处理这个过程在欧几里得旅行成本的情况下可以更加有利。换句话说,我们最初使用 $A^*$ 来为 SPP-GCS 找到一个可行的解,然后将这个解限制在 $A^*$ 探索的顶点上求解一个凸松弛问题以获得一个松弛的解,最后比较这些解来确定界限。我们展示了数值结果,以突出我们的算法在求解的凸程序规模和计算时间方面相对于现有方法的优势。
arXiv:2407.16741v3 Announce Type: replace-cross
摘要:软件是人类最强大的工具之一;它使熟练的程序员能够以复杂而深刻的方式与世界互动。同时,由于大型语言模型(LLMs)的进步,也迅速发展出与环境互动并对其产生影响的AI代理。在本文中,我们介绍了OpenHands(原名OpenDevin)平台,这是一个用于开发以类似人类开发者方式与世界互动的强大且灵活的AI代理的平台:通过编写代码、与命令行进行互动以及浏览网络。我们描述了该平台如何允许实现新的代理、在沙盒环境中安全地执行代码、代理之间的协调以及纳入评估基准。基于我们目前纳入的基准,我们在15项具有挑战性的任务上对代理进行了评估,包括软件工程(如SWE-BENCH)和网络浏览(如WEBARENA)等。OpenHands以宽容的MIT许可发布,是一个跨越学术界和工业界的社区项目,目前已有来自超过188位贡献者的2100多个贡献。
arXiv:2407.07890v3 通知类型: replace-cross
摘要:我们研究了一个在大型语言模型评估中 fundamentals 的问题,称之为在测试任务上的训练。与训练使用测试数据、泄露或数据污染等错误做法不同,训练在测试任务上并不是一种不道德的做法。相反,这一术语描述了一种越来越常见的实践,即在训练时使用关于评估任务的知识。我们证明,训练在测试任务上会混淆相对模型评估和关于新兴能力的声明。我们认为,一个模型家族优于另一个模型家族的表象可能可以由在测试任务上不同程度的训练来解释。为此,我们提出了一种有效的方法来调整训练在测试任务上对基准评估的影响。简而言之,即在评估之前,将每个要比较的模型微调在相同的任务相关数据上。然后我们证明,随着模型在测试任务上的训练,会出现的新兴行为会逐渐消失。我们的工作为大型语言模型的评估提供了一个新的视角,对基准测试和新兴能力研究都具有广泛的含义。