逻辑阅读理解是一项具有挑战性的任务,它要求理解文本的潜在语义并应用推理来得出正确答案。先前的研究主要通过思维链(Chain-of-Thought, CoT)或数据增强来提升逻辑推理能力。然而,以往构建思维链理由的工作主要集中在分析正确选项上,忽略了错误选项。此外,早期通过改变上下文进行数据增强的努力依赖于基于规则的方法,导致生成的上下文缺乏多样性和连贯性。为了解决这些问题,我们提出了一种前提导向的数据增强(Premise-Oriented Data Augmentation, PODA)框架。该框架能够生成包含正确和错误选项分析的CoT理由,同时从错误候选选项中构建多样且高质量的反事实上下文。我们将总结前提和识别每个选项的前提纳入理由中。随后,我们使用识别出的前提进行多步提示,以构建反事实上下文。为了增强模型区分每个选项相关推理过程的能力,我们引入了一种新的思维路径对比学习方法,该方法比较原始样本和反事实样本之间的推理路径。在三个代表性的大型语言模型(LLMs)上的实验结果表明,我们的方法在两个具有挑战性的逻辑推理基准(ReClor和LogiQA 2.0)上显著提升了基线水平。数据和代码已在https://github.com/lalalamdbf/TPReasoner发布。
arXiv:2409.14488v1 公告类型: 交叉 摘要: 将大型语言模型 (LLMs) 与自动驾驶 (AD) 系统结合的兴趣日益增长。然而,AD 系统在对象检测和跟踪 (ODT) 功能方面容易受到攻击。不幸的是,我们对四款近期 LLM 代理在 ODT 攻击下的评估显示,这些攻击在导致它们崩溃或违反交通规则方面成功率高达 63.26%,原因包括 (1) 误导性记忆模块为决策提供过往经验,(2) 提示在识别不一致性方面的局限性,以及 (3) 依赖于地面真实感知数据。本文介绍了 Hudson,一种扩展了先前基于 LLM 的驾驶系统的驾驶推理代理,旨在在感知攻击期间实现更安全的决策,同时在良性条件下保持有效性。Hudson 通过首先对 AD 软件进行检测,收集驾驶场景中的实时感知结果和上下文信息,然后将这些数据形式化为特定领域语言 (DSL) 来实现这一目标。为了指导 LLM 在 ODT 攻击期间检测并做出安全控制决策,Hudson 将 DSL 转换为自然语言,并附带一组自定义攻击检测指令。在查询执行后,Hudson 分析 LLM 的控制决策以理解其因果推理过程。我们使用专有 LLM (GPT-4) 和两款开源 LLM (Llama 和 Gemma) 在各种对抗性驾驶场景中评估了 Hudson 的有效性。GPT-4、Llama 和 Gemma 的平均攻击检测准确率分别为 83.3%、63.6% 和 73.6%。因此,它们在 86.4%、73.9% 和 80% 的攻击中做出了安全控制决策。我们的研究结果,紧随将 LLMs 整合到 AD 系统中的日益增长兴趣,突显了 LLMs 的优势及其在检测和缓解 ODT 攻击方面的潜力。
非刚性点云配准是计算机视觉中的一个关键任务。评估非刚性点云配准方法需要一个包含大变形、噪声、异常值和不完整性等挑战的数据集。尽管存在多个用于变形点云配准的数据集,但由于缺乏包含所有挑战的综合基准,不同方法之间的公平评估变得困难。本文介绍了SynBench,这是一个使用SimTool创建的新型非刚性点云配准数据集,SimTool是Flex和Unreal Engine中用于软体模拟的工具集。SynBench提供了两个点集之间对应点的真实值,并涵盖了关键的配准挑战,包括不同程度的变形、噪声、异常值和不完整性。据作者所知,与现有数据集相比,SynBench具有三个独特特点:(1)它是首个为非刚性点云配准提供多种挑战的基准;(2)SynBench涵盖了不同难度的挑战;(3)它包括变形前后的真实对应点。作者认为,SynBench使未来的非刚性点云配准方法能够公平地比较其成果。SynBench已公开发布,链接为:https://doi.org/10.11588/data/R9IKCF。
arXiv:2409.14459v1 公告类型: 交叉 摘要: 大型语言模型 (LLMs) 的探查技术主要集中在英语上,忽视了世界上绝大多数语言。本文将这些探查方法扩展到多语言环境中,研究 LLMs 在不同语言中的行为。我们对多个开源 LLM 模型进行了实验,分析了探查准确性、跨层趋势以及多语言探查向量之间的相似性。我们的主要发现包括: (1) 高资源语言和低资源语言之间存在一致的性能差距,高资源语言的探查准确性显著更高; (2) 层级准确性趋势的分化,高资源语言在深层表现出与英语类似的显著改善; (3) 高资源语言之间的表示相似性较高,而低资源语言之间的相似性较低,且与高资源语言的相似性也较低。这些结果突显了 LLMs 多语言能力的显著差异,并强调了改进低资源语言建模的必要性。
arXiv:2409.14446v1 公告类型: 交叉 摘要: 肺部疾病是一个需要准确和快速诊断技术的公共卫生问题。本文提出了一种基于卷积神经网络(CNN)、数据增强、ResNet50和视觉变换器(ViT)的方法,用于从医学图像中检测肺部病理。使用了一个包含不同肺部疾病(如癌症、肺炎、结核病和纤维化)患者的X光片和CT扫描图像的数据集。通过与现有其他方法的比较,使用准确率、敏感性、特异性和ROC曲线下面积等性能指标评估了所提出方法的结果。结果表明,所提出的方法在所有指标上均优于其他方法,准确率达到98%,ROC曲线下面积达到99%。结论是,所提出的方法是一种有效的、有前途的工具,可用于通过医学影像诊断肺部病理。
arXiv:2409.14439v1 公告类型: 交叉 摘要: 结合机器学习的恶意软件可视化分析已被证明是提升不同平台安全防御的有前景的解决方案。在本研究中,我们提出了一种集成框架,旨在解决机器学习用户在开发恶意软件检测系统时遇到的常见问题。具体而言,我们设计了一个带有扩展功能的图形展示系统,通过将每个变量编码为二进制数字并映射为黑白像素,来保留良性/恶性样本的身份。采用基于条件生成对抗网络的模型生成合成图像,以缓解类别不平衡问题。通过在包含和不包含人工样本的数据集上训练卷积神经网络架构的检测模型来验证性能。结果显示,在这两种训练场景下,准确率分别为98.51%和97.26%。
arXiv:2409.14436v1 公告类型: 交叉 摘要: 通过专利分析来规划汽车创新的过程对于研发团队至关重要。它有助于理解创新趋势、技术进步以及竞争对手的最新技术。传统上,这一过程需要大量的人工努力。然而,随着大型语言模型(LLMs)的出现,现在可以实现自动化,从而实现更快、更高效的专利分类和创新概念提取。这种自动化可以帮助各种研发团队从庞大的专利数据库中提取相关信息。本文介绍了一种基于提示工程的方法,用于提取规划所需的关键信息。这些信息包括专利所解决的问题、所使用的技术以及车辆生态系统中的创新领域(如安全、高级驾驶辅助系统等)。结果展示了如何使用这种方法,利用开源专利数据创建燃料电池技术的规划。这种方法提供了燃料电池技术当前状态的全面概述,为该领域的未来研究和开发提供了宝贵的见解。
我们提出了Pomo3D,这是一个3D肖像操作框架,通过分解和重组肖像和配饰,实现自由的配饰搭配。它使虚拟形象能够同时佩戴多个配饰,达到分布外的外观效果。现有方法在这方面仍面临挑战,无法提供如此明确和精细的编辑;它们要么无法在给定的肖像上生成额外的对象,要么在生成配饰时导致肖像的改变(例如,身份转变)。这种限制在虚拟世界中创造多样化且时尚的外观时,构成了显著的障碍。我们的方法为这一较少被关注的问题提供了有效的解决方案。我们进一步引入了Scribble2Accessories模块,使Pomo3D能够根据用户绘制的配饰草图创建3D配饰。此外,我们设计了一个具有偏见意识的映射器,以减轻现实世界数据集中存在的偏见关联。除了上述对象级别的操作外,Pomo3D还提供了广泛的肖像编辑选项,包括几何和纹理的全局或局部编辑以及虚拟形象的风格化,将神经肖像的3D编辑提升到一个更全面的水平。
机器学习正在渗透到每一个可想象的领域,以促进数据驱动的决策支持。重点通常放在先进的黑箱模型上,因为它们被认为具有性能优势,而可解释模型则往往与较差的预测质量相关联。然而,最近提出了一代新的广义加性模型(GAMs),它们在捕捉复杂、非线性模式的同时,仍然保持完全可解释,具有良好的前景。为了揭示这些模型的优缺点,本研究在一组二十个表格基准数据集的基础上,比较了七种不同的GAMs与七种常用机器学习模型的预测性能。为了确保公平和稳健的模型比较,进行了广泛的参数搜索和交叉验证,共进行了68,500次模型运行。此外,本研究还定性地检查了模型的视觉输出,以评估其可解释性水平。基于这些结果,本文驳斥了只有黑箱模型才能实现高精度的误解,证明了对于表格数据,预测性能和模型可解释性之间并不存在严格的权衡。此外,本文还讨论了GAMs作为信息系统领域中强大的可解释模型的重要性,并从社会技术角度推导出未来工作的启示。
arXiv:2409.14424v1 公告类型: 交叉 摘要: 姿态驱动的人体图像动画技术取得了巨大进展,能够仅从一张照片生成生动逼真的人体视频。然而,这也加剧了图像滥用的风险,因为攻击者可能利用一张可用图像制作涉及政治、暴力和其他非法内容的视频。为了应对这一威胁,我们提出了Dormant,一种专门针对姿态驱动人体图像动画技术的新型防护方法。Dormant对一张人体图像应用保护性扰动,保持与原始图像的视觉相似性,但导致视频生成质量低下。保护性扰动经过优化,旨在诱导图像外观特征的错误提取,并在生成的视频帧之间产生不一致性。我们在8种动画方法和4个数据集上的广泛评估表明,Dormant优于6种基线防护方法,导致生成的视频中身份错位、视觉失真、明显伪影和不一致帧。此外,Dormant在6个现实世界的商业服务上显示出有效性,即使在完全黑盒访问的情况下也是如此。