arXiv 论文列表

自动特征学习本质：汽车排序案例研究

arXiv:2409.15158v1 公告类型: 新提交摘要: 约束建模语言如Essence提供了一种在高层次描述组合问题的方法，即无需针对特定求解器或求解范式做出详细的建模决策。给定一个用Essence编写的问题描述，有多种方式将其翻译为低层次的约束模型。选择合适的低层次约束模型和目标约束求解器的组合对求解过程的有效性有显著影响。此外，最佳组合的选择可能是实例依赖的，即对于同一问题的所有实例，可能不存在一个普遍适用的最佳组合。本文考虑了构建机器学习模型来自动选择问题实例最佳组合的任务。学习过程中的一个关键部分是定义实例特征，这些特征作为选择模型的输入。我们的贡献是直接从问题实例的高层次表示中使用语言模型自动学习实例特征。我们使用Essence建模语言并通过涉及车辆排序问题的案例研究来评估我们方法的性能。

发布时间: 9/24/2024

查看原文

通过检索上下文增强医疗领域大语言模型

arXiv:2409.15127v1 公告类型: 新发布摘要: 大型语言模型 (LLMs) 在自然语言处理方面展示了显著的能力，然而，它们的事实不准确性和幻觉限制了其在医疗等关键领域的应用。上下文检索方法通过引入相关信息作为输入，已成为提高 LLM 事实性和可靠性的关键方法。本研究探讨了上下文检索方法在医疗领域的边界，优化其组件并将其性能与开放和封闭的替代方案进行基准测试。我们的研究结果揭示了开放 LLMs 在配备优化检索系统的情况下，如何在既定的医疗基准（多项选择题回答）上实现与最大私有解决方案相媲美的性能。认识到在问题中包含可能答案（仅在医学考试中出现的设置）缺乏现实性，并且在没有这些选项的情况下评估到 LLM 性能的显著下降后，我们扩展了上下文检索系统以应对这一方向。特别是，我们提出了 OpenMedPrompt 管道，该管道改进了更可靠的开放式答案的生成，使这项技术更接近实际应用。

发布时间: 9/24/2024

查看原文

对数正态突变及其在检测隐秘假图像中的应用

在许多情况下，对抗性攻击基于专门设计的算法，这些算法专门用于攻击自动图像分类器。这些算法表现出色，得益于初始攻击的出色特定分布。然而，由于其特定的初始分布，这些攻击很容易被检测到。因此，我们考虑其他基于通用黑箱优化工具的黑箱攻击，特别是对数正态算法。我们将对数正态方法应用于伪造检测器的攻击，并取得了成功的攻击：重要的是，这些攻击不会被专门针对经典对抗性攻击的检测器检测到。然后，结合这些攻击和深度检测，我们创建了改进的伪造检测器。

发布时间: 9/24/2024

查看原文

评估机器学习在GNSS干扰分类、特征化和定位中的鲁棒性

arXiv:2409.15114v1 公告类型: 新文章摘要: 干扰设备通过扰乱全球导航卫星系统（GNSS）的信号，对精确定位的鲁棒性构成重大威胁。检测频率快照中的异常对于有效对抗这些干扰至关重要。一项关键的初步措施涉及可靠地分类干扰、表征和定位干扰设备。本文介绍了一个广泛的包含从低频天线获取的快照的数据集，捕捉了在大规模环境中生成的各种干扰，包括受控的多径效应。我们的目标是评估ML模型对环境变化（如多径效应）、干扰属性变化（如干扰类别、带宽和信噪比）、干扰设备定位精度以及快照输入长度限制的适应能力。通过分析偶然不确定性和认知不确定性，我们展示了我们的模型在不同方面泛化的适应性，从而确立了其在实际应用中的适用性。https://gitlab.cc-asp.fraunhofer.de/darcy_gnss/controlled_low_frequency

发布时间: 9/24/2024

查看原文

ChatGPT 作为西班牙语编程考试的解答者和评分者

arXiv:2409.15112v1 公告类型: 新提交摘要: 评估大型语言模型(LLMs)在教育任务中辅助教师和学生的能力正受到越来越多的关注。本文评估了ChatGPT解决和评分西班牙语计算机科学学士学位认证考试中实际编程考试的能力。我们的研究结果表明,该AI模型仅在解决简单编码任务时有效。它在处理复杂问题或评估他人编写的解决方案方面的能力远未达到有效水平。作为这项研究的一部分,我们还发布了一个新的编程任务语料库以及相应的解决问题或评分解决方案的提示。该资源可被其他研究团队进一步利用。

发布时间: 9/24/2024

查看原文

SPformer：一种基于Transformer的深度强化学习决策方法，用于网联自动驾驶车辆

arXiv:2409.15105v1 公告类型: 新提交摘要: 在混合自主交通环境中，自动驾驶汽车的每一个决策都可能对交通系统产生重大影响。由于车辆之间的复杂交互，做出既能确保当前和未来高交通效率和安全的决策具有挑战性。连接自动化车辆（CAVs）由于其更强的感知和通信能力，在这一连续、高度动态和交互的环境中改善决策质量具有巨大潜力。对于基于深度强化学习（DRL）的多车辆协同决策算法，我们需要表示车辆之间的交互以获取交互特征。这方面的表示直接影响到学习效率和学习到的策略质量。为此，我们提出了一种基于transformer和强化学习算法的CAV决策架构。我们使用可学习的策略令牌作为多车辆联合策略的学习媒介，所有感兴趣区域内车辆的状态可以自适应地被注意到，以提取代理之间的交互特征。我们还设计了一种直观的物理位置编码，其冗余的位置信息优化了网络性能。仿真结果表明，我们的模型能够充分利用交通场景中所有车辆的状态信息，从而获得符合效率和安全目标的高质量驾驶决策。对比结果显示，我们的方法显著提升了现有的基于DRL的多车辆协同决策算法。

发布时间: 9/24/2024

查看原文

行为出于正当理由：创建理由敏感的人工道德代理

我们提出了一种强化学习架构的扩展，该架构使强化学习代理能够基于规范理由进行道德决策。该方法的核心是一个基于理由的盾牌生成器，它产生一个道德盾牌，将代理绑定到符合公认规范理由的行为上，从而使我们的整体架构限制代理仅执行（内部）道德上合理的行为。此外，我们描述了一种算法，该算法允许通过道德法官的基于案例的反馈来迭代改进基于理由的盾牌生成器。

发布时间: 9/24/2024

查看原文

类比对齐：数字“形式”与模拟的相遇

现代片上系统（SoCs）的复杂性不断增加，使得在短时间内交付可靠且可信的芯片变得越来越具有挑战性。特别是在测试芯片的情况下，其目的是研究设计的可行性，时间成为一个关键因素。硅前功能验证是产品开发周期中的主要贡献者之一。验证工程师通常对测试芯片进行松散的验证，这些芯片在硅上最终无法正常工作，最终导致昂贵的重新设计。为了将验证工作提前，形式验证是一种强大的方法，旨在全面验证设计，从而提高整体质量的信心。本文重点研究了一种混合信号知识产权（IP）的实用形式验证，该IP结合了数字和模拟模块。本文讨论了一种将模拟行为模型纳入形式验证设置的新方法。数字和模拟混合信号（AMS）设计在本质上存在根本差异，但在形式验证设置中无缝集成，这一概念可以称为“模拟对齐”。我们的形式验证设置利用了强大的形式技术，如FPV、CSR验证和连接性检查。用于FPV的属性是使用元建模框架自动生成的。本文还讨论了所面临的挑战，特别是与状态空间爆炸、形式验证与AMS模型的不兼容性以及缓解这些问题的技术（如k-归纳法）相关的问题。通过这种验证方法，我们能够在合理的时间内全面验证设计，并达到足够的覆盖率。我们还报告了在早期阶段发现的几处错误，使得整个设计验证过程变得迭代且有效。

发布时间: 9/24/2024

查看原文

ViBERTgrid BiLSTM-CRF：从非结构化财务文档中提取多模态关键信息的模型

多模态关键信息提取（KIE）模型在半结构化文档上的研究已经非常广泛。然而，它们在非结构化文档上的研究是一个新兴的研究课题。本文提出了一种方法，通过引入BiLSTM-CRF层，将多模态变压器（即之前在半结构化文档上探索的ViBERTgrid）适应于非结构化金融文档。所提出的ViBERTgrid BiLSTM-CRF模型在金融领域非结构化文档的命名实体识别性能上显示出显著的改进（高达2个百分点），同时在半结构化文档的KIE性能上保持不变。作为额外的贡献，我们公开发布了SROIE数据集的token级注释，以铺平其在多模态序列标注模型中的使用道路。

发布时间: 9/24/2024

查看原文

多模态生成式人工智能：多模态大语言模型、扩散模型及超越

多模态生成式人工智能在学术界和工业界都受到了越来越多的关注。特别是，两种主要的技术流派是：i) 多模态大型语言模型（MLLM），如GPT-4V，展示了卓越的多模态理解能力；ii) 扩散模型，如Sora，在视觉生成方面表现出显著的多模态能力。由此，一个自然的问题浮现：是否有可能构建一个既能理解又能生成的统一模型？为了回答这个问题，本文首先对MLLM和扩散模型进行了详细的综述，包括它们的概率建模过程、多模态架构设计以及在图像/视频大型语言模型和文本到图像/视频生成中的高级应用。接着，我们讨论了关于统一模型的两个重要问题：i) 统一模型应采用自回归还是扩散概率建模，以及 ii) 模型应使用密集架构还是专家混合（MoE）架构以更好地支持生成和理解这两个目标。我们进一步提供了构建统一模型的几种可能策略，并分析了它们的潜在优势和劣势。我们还总结了现有的多模态大规模数据集，以期在未来更好地进行模型预训练。最后，本文提出了几个具有挑战性的未来研究方向，我们相信这些方向将有助于推动多模态生成式人工智能的持续发展。

发布时间: 9/24/2024

查看原文