本文介绍了一种新方法,称为“哈希法”,该方法通过用类似哈希的无意义标识符屏蔽大型语言模型 (LLM) 中可能诱导偏差的词语来减少认知偏差和对外部知识的依赖。该方法在三个实验集中进行了测试,共涉及 490 个提示。使用卡方检验的统计分析表明,在所有测试场景中都有显著改进,这些场景涵盖了 LLama、ChatGPT、Copilot、Gemini 和 Mixtral 模型。在第一个实验中,哈希法降低了修改版“琳达问题”(旨在评估对认知偏差的敏感性)中的谬误率。在第二个实验中,它提高了 LLM 在频繁项集提取任务中的结果。在第三个实验中,我们发现即使将“琳达问题”以表格形式而不是文本形式呈现,哈希法仍然有效,这表明该技术适用于各种输入表示。总的来说,该方法被证明可以提高偏差减少和外部知识的整合。尽管减少了偏差,但在不同类型的 LLM 模型中,幻觉率却并不一致地降低。这些发现表明,屏蔽诱导偏差的术语可以提高 LLM 的性能,尽管其有效性取决于模型和任务。
自动放射学报告生成 (R2Gen) 已取得显著进展,但其复杂性也带来了准确评估的挑战。传统的指标往往依赖于严格的词语匹配或仅关注病理实体,导致与人工评估结果不一致。为了弥合这一差距,我们引入了 ER2Score,这是一种专门为 R2Gen 设计的自动评估指标。我们的指标利用奖励模型,该模型由我们的基于边际的奖励强化损失引导,并结合量身定制的训练数据设计,使评估标准能够根据用户定义的需求进行定制。它不仅根据用户指定的标准对报告进行评分,还提供详细的子评分,从而增强可解释性,并允许用户调整报告不同方面之间的标准。利用 GPT-4,我们设计了一个易于使用的数据生成管道,使我们能够基于两个不同的评分系统生成大量的训练数据,每个系统都包含不同质量的报告以及相应的评分。然后,通过我们的配对规则将这些 GPT 生成的报告配对为接受和拒绝样本,以训练 LLM 朝向我们细粒度的奖励模型,该模型为高质量的报告分配更高的奖励。我们的奖励控制损失使该模型能够同时输出多个与评估标准数量相对应的单个奖励,其总和作为我们的最终 ER2Score。我们的实验表明,与传统指标相比,ER2Score 与人工判断的相关性更高,并且在模型选择方面具有更好的性能。值得注意的是,我们的模型既提供整体分数,也为每个评估项目提供个体分数,从而增强了可解释性。我们还证明了其在各种评估系统中的灵活训练能力。
图变换器 (GTs) 在将各种图结构信息(例如,长程结构依赖性)融入图表示学习方面表现出了卓越的性能。然而,GTs 的核心模块——自注意力机制——仅保留图特征上的低频信号,只保留捕捉连接节点之间相似特征的同质模式。因此,它在建模复杂的节点标签模式(例如,同质模式的反面——异质模式)方面能力不足。一些改进型的 GTs 通过学习多项式滤波器或在一次图谱上进行自注意力来解决这个问题。然而,这些 GTs 要么忽略了整个谱中包含的丰富信息,要么忽略了高阶谱信息,导致其谱滤波器的灵活性有限,频率响应不足。为了解决这些挑战,我们提出了一种新颖的 GT 网络,即图傅里叶 Kolmogorov-Arnold 变换器 (GrokFormer),以超越 GTs 中的自注意力机制。GrokFormer 利用在 K 阶图谱中的可学习激活函数通过傅里叶级数建模来 i) 学习针对特征值的滤波器函数,生成可学习的基,能够灵活地捕捉广泛的频率信号;以及 ii) 自适应地提取一阶和高阶图谱信息。通过这样做,GrokFormer 可以有效地捕捉隐藏在不同阶数和频率信号级别上的复杂模式,学习表达性强、阶数和频率自适应的图表示。在 10 个跨不同领域、规模和图异质性水平的节点分类数据集以及 5 个图分类数据集上进行的综合实验表明,GrokFormer 的性能优于最先进的 GTs 和其他高级图神经网络。
元启发式优化技术在处理复杂的优化问题方面越来越受到重视。近年来,人们开发了许多受自然现象启发的优化技术。最近,新型冠状病毒的传播给公共卫生系统带来了沉重的负担,导致许多人死亡。疫苗接种、佩戴口罩和保持社交距离是为最大限度地减少致命冠状病毒传播而采取的主要措施。考虑到利用社交距离来对抗冠状病毒疫情,本文提出了一种新的生物启发元启发式优化模型,称为社交距离诱导冠状病毒优化算法 (COVO)。保持社交距离确实可以减缓冠状病毒的传播速度。本文使用十三个基准函数来评估 COVO 在离散、连续和复杂问题上的性能,并将 COVO 模型的性能与其他著名的优化算法进行了比较。COVO 优化的主要动机是通过解决复杂问题并加快收敛速度来获得各种应用的全局解决方案。最后,验证结果表明,所提出的 COVO 优化具有合理且可接受的性能。
AI生成内容(AIGC)图像在各个领域广泛应用,但常常存在伪影和非自然纹理等质量问题。虽然一些专用模型旨在预测缺陷区域热力图,但面临两大挑战:(1)缺乏可解释性,无法对细微缺陷给出原因和分析;(2)无法利用常识和逻辑推理,导致泛化能力差。多模态大型语言模型(MLLM)有望实现更好的理解和推理能力,但也面临自身挑战:(1)由于捕捉微小细节的能力有限,难以进行细粒度的缺陷定位;(2)难以生成像素级输出,而像素级输出对于精确的热力图生成是必要的。为了解决这些挑战,我们提出了一种新颖的基于MLLM的分层可解释图像不可信度评估器HEIE。我们引入了基于思维链(CoT)的可解释三位一体评估器,它整合了热力图、分数和解释输出,利用CoT将复杂任务分解成难度递增的子任务,并增强可解释性。我们的自适应分层不可信度映射器将低层次图像特征与来自LLM的高层次映射器标记相结合,通过基于不确定性的自适应标记方法,实现精确的局部到全局的分层热力图预测。此外,我们提出一个新的数据集:Expl-AIGI-Eval,旨在促进对AIGC图像的可解释不可信度评估。我们的方法通过大量的实验验证了其最先进的性能。
检测和量化啮齿动物微型CT扫描中的骨骼变化是临床前药物开发研究中的一项常见任务。然而,这项任务是人工进行的,费时费力,且存在观察者间和观察者内的变异性。2024年,匿名公司组织了一项内部挑战赛,旨在开发用于自动骨骼量化的模型。我们准备并标注了一个高质量的数据集,其中包含来自83只小鼠的3D μCT骨骼扫描图像。这项挑战赛吸引了来自全球80多名人工智能科学家,他们组成了23个团队。参赛者的任务是开发一种解决方案来识别骨骼生长发生的平面,这对于完全自动分割骨小梁骨骼至关重要。结果,开发了六种计算机视觉解决方案,可以准确识别生长板平面的位置。在测试集上,这些解决方案与真实值的平均绝对误差为1.91±0.87个平面,其精度水平可被放射科医生实际使用。已公开发布标注的3D扫描数据集以及六种解决方案和源代码,为研究人员提供了开发和基准测试自己方法的机会。代码、训练好的模型和数据将被共享。
我们提出了一种名为APT的先进大型语言模型(LLM)驱动框架,使自主智能体能够在Minecraft环境中构建复杂而富有创意的结构。与主要关注基于技能的开放世界任务或依赖于基于图像的扩散模型生成基于体素的结构的先前方法不同,我们的方法利用了LLM固有的空间推理能力。通过采用链式思维分解以及多模态输入,该框架生成详细的建筑布局和蓝图,智能体可以在零样本或少样本学习场景下执行这些蓝图。我们的智能体结合了记忆和反思模块,以促进终身学习、自适应改进和在整个构建过程中的错误纠正。为了严格评估智能体在这个新兴研究领域的性能,我们引入了一个综合基准,其中包含各种建筑任务,旨在测试创造力、空间推理能力、对游戏规则的遵守以及多模态指令的有效整合。使用各种基于GPT的LLM后端和智能体配置的实验结果表明,智能体能够准确解释涉及众多物品、其位置和方向的冗长指令。智能体成功地构建了复杂的结构,其中包括Redstone动力系统等内部功能。A/B测试表明,包含记忆模块可以显著提高性能,强调了其在实现持续学习和重用积累经验方面的作用。此外,智能体意外出现的脚手架行为凸显了未来LLM驱动智能体利用子程序规划和利用LLM的涌现能力自主开发类似人类的解决问题技术的潜力。
人脸表情识别在社交机器人、医疗保健、驾驶员疲劳监测以及许多其他实际场景中具有广阔的应用前景。计算机视觉研究界对人脸表情的自动识别进行了广泛的研究。但现实世界中的人脸表情识别仍然是一项具有挑战性的任务,部分原因在于数据集的长尾分布。许多最近的研究都使用数据增强来处理长尾识别任务。在本文中,我们提出了一种新颖的语义增强方法。通过在VAE-GAN的潜在空间中引入源数据的编码随机性,生成新的样本。然后,针对RAF-DB数据集中的面部表情识别,我们使用我们的增强方法来平衡长尾分布。我们的方法不仅可以用于FER任务,还可以用于更多数据匮乏的场景。
我们提出了一种名为“缓冲区随时可用”的框架,用于从视频中估计深度图和法线图(我们称之为几何缓冲区),该框架无需配对的视频-深度和视频-法线训练数据。我们没有依赖大规模标注的视频数据集,而是通过利用单图像先验信息和时间一致性约束,展示了高质量的视频缓冲区估计。我们的零样本训练策略结合了基于光流平滑性的最先进图像估计模型,通过轻量级的时间注意架构实现混合损失函数。应用于Depth Anything V2和Marigold-E2E-FT等领先的图像模型,我们的方法显著提高了时间一致性,同时保持了精度。实验表明,我们的方法不仅优于基于图像的方法,而且在没有使用任何配对视频数据的情况下,也取得了与在大型配对视频数据集上训练的最先进视频模型相当的结果。
生成模型,例如扩散模型,已经在最先进的图像和文本任务中取得了显著成功。最近,基于分数的扩散模型将其成功扩展到图像生成之外,在图像分类任务中展现出与判别式方法相媲美的性能。然而,它们在图域中的分类应用仍然未被充分探索,图域存在着诸如复杂拓扑结构等独特的挑战。我们展示了如何将图扩散模型应用于图分类。我们发现,为了获得具有竞争力的分类精度,基于分数的图扩散模型应该使用针对图分类定制的新型训练目标进行训练。在使用基于采样的推理方法进行的实验中,我们的判别式训练目标实现了最先进的图分类精度。