arXiv:2504.20808v1 公告类型: cross
摘要:本文介绍了一种名为SoccerDiffusion的基于变换器的扩散模型,该模型旨在直接从真实世界的足球比赛录制中学习人形机器人足球的端到端控制策略。利用RoboCup比赛收集的数据,该模型从多种传感器输入中预测关节命令轨迹,包括视觉、本体感觉和比赛状态。我们采用了一种蒸馏技术,使其能够在嵌入式平台上实现实时推理,将多步扩散过程缩减为一步。我们的结果表明,该模型能够在模拟和物理机器人中重现复杂的运动行为,如行走、踢球和摔倒后的恢复。尽管高级战术行为仍然有限,但本文为后续的强化学习或偏好优化方法提供了一个稳健的基础。我们将在以下网址发布数据集、预训练模型和代码:https://bit-bots.github.io/SoccerDiffusion
arXiv:2504.20799v1 标题类型: cross
摘要:近年来,在大规模语言模型(LLMs)领域的技术突破使得它们能够流畅地生成源代码。软件开发人员经常利用通用型和代码专用型LLMs来修订现有代码,甚至从头生成整个函数。这些能力在无代码或低代码环境中也非常有益,在这种环境中,即使没有技术背景也可以编写程序。然而,由于其内部设计,LLMs 容易生成幻觉代码,这些代码是不正确的、不合逻辑的并且难以辩解,但难以识别其存在。这一问题在生成源代码时也会出现。一旦生成了幻觉代码,用户往往很难识别并纠正它,特别是在某些特定执行路径下可以识别这些幻觉时。结果,这些幻觉代码可能在代码库中未被注意。这篇综述调查了与CodeLLMs生成的幻觉相关的最近研究和技术。我们对CodeLLMs生成的代码中的幻觉类型进行了分类,回顾了现有的基准测试和缓解策略,并指出了需要解决的问题。基于这些发现,这篇综述阐明了进一步研究方向,旨在检测和去除由CodeLLMs生成的幻觉代码。
arXiv:2504.20781v1 类型:交叉
摘要:软件架构决策的设计理由(DR)指的是架构选择背后的推理,在软件开发的不同阶段提供了有价值的见解。然而,在实践中,由于开发人员缺乏动机和努力,DR 经常未能充分记录。随着大型语言模型(LLMs)的最新进展,它们在文本理解、推理和生成方面的能力可能使生成和恢复架构决策的DR成为可能。在本研究中,我们评估了LLMs在生成架构决策DR方面的性能。首先,我们收集了50个Stack Overflow(SO)帖子、25个GitHub问题和25个GitHub讨论,涉及架构决策,以构建一个包含100个架构相关问题的数据集。然后,我们选择了五种LLMs,以三种提示策略生成架构决策的DR,包括零样本、思路链(CoT)和基于LLM的代理。以人类专家提供的DR为地面真实值,使用三种提示策略生成的LLM的DR精度范围为0.267到0.278,召回率范围为0.627到0.715, F1分数范围为0.351到0.389。此外,人类专家未提及的DR论据中有64.45%到69.42%是有帮助的,4.12%到4.87%的论据存在不确定的正确性,1.59%到3.24%的论据可能是误导性的。基于这些结果,我们进一步讨论了三种提示策略的优缺点以及LLM生成的DR的优点和局限性。
arXiv:2504.20776v1 类型: cross
摘要: 目前可用的用于自动声学识别欧洲昆虫的工具范围有限。为了使这些算法能够跨不同背景识别每种物种产生的细微而复杂的声学特征,当前需要大型且生态上异质的声学数据集,因此获取这样的数据集是其开发的关键要求。这里我们介绍了ECOSoundSet(欧洲蟪蝼科和直翅缎数据集),该数据集包含200种直翅目和24种蝉类(包括217种和26种各自亚种)在北欧、中欧和温带西欧(安道尔、比利时、丹麦、法国本土和科西嘉岛、德国、爱尔兰、卢森堡、摩纳哥、荷兰、英国、瑞士)的10,653个记录。其中部分记录通过南法国和加泰罗尼亚地区的针对性实地工作收集,部分记录来自于各种欧洲昆虫学家的贡献。数据集由粗略标注的记录和详细标注的记录组成,对于粗略标注的记录,我们只能推断目标物种在其某个时间点的存在(弱标注),而对于详细标注的记录,则知道录音中每种昆虫声音的具体时间和频率范围(强标注)。我们也提供了强标注记录的训练/验证/测试集划分,分别约为0.8、0.1和0.1的比例,以便于将其纳入深度学习算法的训练和评估中。该数据集可以作为北欧、中欧和温带西欧已在线可用的记录的有意义补充,用于训练用于直翅目和蝉类声学分类的深度学习算法。
arXiv:2504.20770v1 Announce Type: cross
摘要:基于原始化学分子分布发现新的分子在医学上非常重要。与传统的图网络相比,图变换器由于其高性能和可扩展性特点,在最近的研究中被广泛应用于图结构的应用中。然而,当前基于变换器的图解码器难以有效利用图信息,这限制了它们只能通过节点序列而不能利用分子图的复杂拓扑结构来发挥潜力。本文关注于构建一种基于图变换器的分子生成框架,我们称之为 \textbf{JTreeformer},因为它将图生成转化为接合树生成。它将GCN与多头注意力机制并行用作编码器。它将有向无环图GCN整合到基于图的变换器中,用作解码器,能够通过利用逐步构建的分子结构中的信息来逐步合成整个分子。此外,在编码器生成的潜在空间中插入一个扩散模型,以增强进一步采样的效率和有效性。实验证明,我们的新型框架在现有的分子生成方法中表现出色,因此提供了一个有望推进药物发现的工具(https://anonymous.4open.science/r/JTreeformer-C74C)。
arXiv:2504.20769v1 交叉类型:
摘要:链式思考提示在增强大语言模型的推理能力方面取得了巨大成功。在本文中,我们探讨了如何利用这些增强的推理能力来提高大语言模型在非必然以推理为核心的任务中的鲁棒性。特别是,我们展示了如何通过一种简单的称为链式防御思考的方法,即只提供少量具有结构化和防御性推理的范例作为示范,使大范围的大语言模型在参考被篡改的情况下显著提高鲁棒性。实验证明,这种方法的改进是惊人的,特别是考虑到该方法的简单性和适用性。例如,在自然问题任务中,当每提供10个参考中有1个被提示注入攻击篡改时,标准提示下的GPT-4o的准确率降到了60%,而使用链式防御思考提示的GPT-4o则保持了50%的准确率。
arXiv:2504.20752v1 类型: cross
摘要:Transformer 在众多自然语言处理任务中取得了巨大成功,但在多步事实推理方面依然表现出显著的不足,尤其是在现实世界知识稀少的情况下。最近关于“grokking”的进展表明,神经网络在检测到潜在逻辑模式之后,可以从记忆过渡到完全泛化——然而,这些研究主要使用的是小型合成任务。在本文中,我们首次将“grokking”扩展到现实世界的事实数据,并通过精心设计合成数据增强现有的知识图谱,以提高推断的事实与基础事实比率 $\phi_r$,使其超过实现“grokking”的阈值。令人惊讶的是,我们发现即使使用事实错误的合成数据,也能加强新兴的推理电路,而不是降低准确性,因为它迫使模型依赖于关系结构而非记忆。在多跳推理基准测试中,我们的方法在2WikiMultiHopQA 上达到了高达95-100% 的准确性,显著超过了强大的基线方法,并与当前最先进的结果相当或超过。我们进一步深入分析了如何增加 $\phi_r$ 促进 Transformer 内部泛化电路的形成。我们的发现表明,基于“grokking”的数据增强可以解锁隐式的多跳推理能力,为大型语言模型中更强大和可解释的事实推理开启了大门。
arXiv:2504.20741v1 类型: cross
摘要:自可解释AI运动的早期开始,事后解释因其潜在的好处而受到称赞,这些好处包括提高用户理解能力、促进信任并降低黑盒医疗AI系统的患者安全风险。然而,近期的批评家提出,事后解释的好处被过分夸大了,因为事后解释只是近似而不是完全复制黑盒系统得出输出的实际推理过程。在这篇文章中,我们旨在捍卫事后解释在近期批评中的价值。我们认为,即使事后解释没有完全复制黑盒系统的具体推理过程,它们仍然可以提高用户对黑盒系统的功能性理解,增加临床医生-AI团队的准确性,并帮助临床医生向其基于AI的决策提供正当性说明。虽然事后解释不是解决医疗AI黑盒问题的“灵丹妙药”,但我们得出结论,它们仍然是解决医疗AI黑盒问题的一个有用策略。
arXiv:2504.20734v1 交叉类型公告
摘要:检索增强生成(RAG)在通过将模型响应与相关查询的外部知识基础接地来提高事实准确性方面显示出了显著的潜力。然而,现有的大多数RAG方法仅限于文本_ONLY_语料库,尽管最近的努力已经将RAG扩展到了其他模态(如图像和视频)中,但它们通常在同一类型的专门语料库上操作。相比之下,实际查询在所需知识的类型上变化广泛,单一类型的知识来源无法解决这些问题。为了解决这个问题,我们引入了UniversalRAG,这是一种新的RAG框架,旨在从具有多种模态和粒度层次的知识来源中检索和整合知识。具体来说,鉴于将所有模态强制统一到源自单一合并语料库的统一表示空间中会导致模态差距,检索倾向于偏好与查询相同模态的项目,我们提出了一种模态意识路由机制,该机制能够动态确定最合适的模态特定语料库,并在其中执行针对性的检索。此外,我们不仅在模态层面进行组织,还将每个模态细分为多个粒度级别,这使得检索可以根据查询的复杂性和范围进行精确调整。我们在涵盖多种模态的8个基准上验证了UniversalRAG,显示出与专门的模态基线和统一基线相比的优势。
arXiv:2504.20733v1 交叉类型:公告
摘要:在本文中,我们研究了无需监督的异常检测算法,这些算法学习神经网络表示,即正常数据的常规模式,而异常则与其不同。受工程中类似概念的启发,我们将我们的方法称为替代异常检测。我们将替代异常检测的概念形式化为优化替代模型所需的公理,并提出了一种名为DEAN(深度集成异常检测)的新算法,旨在满足这些标准。我们在121个基准数据集上评估了DEAN,展示了其在与19种现有方法的竞争中的性能表现,并证明了我们方法的可扩展性和可靠性。