arXiv 论文列表

作者: Mete Ismayilzada, Debjit Paul, Antoine Bosselut, Lonneke van der Plas

创造力是产生新颖、有用和令人惊讶的想法的能力，一直被广泛研究视为人类认知的关键方面。另一方面，机器创造力长期以来一直是一个挑战。随着先进生成式人工智能的兴起，人们对人工智能的创造能力重新燃起了兴趣并展开了辩论。因此，必须重新审视人工智能中创造力的现状，并找出关键进展和剩余挑战。在这项工作中，我们调查了研究人工智能系统创造能力的领先作品，重点关注创造性问题解决、语言、艺术和科学创造力。我们的综述表明，虽然最新的 AI 模型在很大程度上能够产生语言和艺术上的创造性输出，例如诗歌、图像和乐曲，但它们难以完成需要创造性问题解决、抽象思维和组合性的任务，并且它们的生成缺乏多样性、原创性，存在长程不连贯和幻觉问题。我们还讨论了与生成模型相关的版权和作者身份问题的关键问题。此外，我们强调需要对创造力进行全面的评估，这种评估应以过程为导向，并考虑创造力的多个维度。最后，我们提出了改进人工智能输出创造力的未来研究方向，从认知科学和心理学中汲取灵感。

发布时间: 10/23/2024

查看原文

用于推理和规划的语言模型非近视生成

作者: Chang Ma, Haiteng Zhao, Junlei Zhang, Junxian He, Lingpeng Kong

大型语言模型在将复杂问题分解成一系列步骤方面展现了卓越的推理和规划能力。尽管它们在数学问题求解和编码等各个领域取得了成功，但由于其自回归解码固有的短视性，大型语言模型在确保可靠和最佳规划方面面临挑战。本文从最优控制的角度重新审视大型语言模型的推理，提出了一种新方法——预测解码，该方法利用模型预测控制来提高规划精度。通过基于前瞻轨迹重新加权大型语言模型的分布，预测解码旨在减轻早期错误并促进非短视规划。我们的实验表明，在数学、编码和智能体等各种任务中都有显著改进。此外，预测解码还展现出计算效率，在减少计算资源的情况下优于基于搜索的基线方法。这项研究为优化大型语言模型的规划能力提供了见解。

发布时间: 10/23/2024

查看原文

基于结构条件类别扩散的蛋白质逆折叠强化学习

作者: Yasha Ektefaie, Olivia Viessmann, Siddharth Narayanan, Drew Dresser, J. Mark Kim, Armen Mkrtchyan

蛋白质逆折叠——即预测会折叠成所需 3D 结构的氨基酸序列——是基于结构的蛋白质设计中的一个重要问题。基于机器学习的逆折叠方法通常使用恢复原始序列作为优化目标。然而，逆折叠是一个多对一问题，其中多个序列可以折叠成相同的结构。此外，对于许多实际应用，通常需要多个不同的序列折叠成目标结构，因为它允许为下游优化提供更多候选序列。在这里，我们证明了尽管最近的逆折叠方法显示出增加的序列恢复率，但它们的“可折叠多样性”（即它们生成多个不相似序列的能力，这些序列折叠成与目标一致的结构）并没有增加。为了解决这个问题，我们提出了 RL-DIF，这是一种用于逆折叠的分类扩散模型，它在序列恢复方面进行了预训练，并通过强化学习对结构一致性进行了微调。我们发现，RL-DIF 在序列恢复和结构一致性方面达到了与基准模型相当的水平，但显示出更大的可折叠多样性：实验表明，RL-DIF 在 CATH 4.2 上可以实现 29% 的可折叠多样性，而使用相同数据集训练的模型则为 23%。PyTorch 模型权重和采样代码可在 GitHub 上获取。

发布时间: 10/23/2024

查看原文

可信赖的XAI及其应用

作者: MD Abdullah Al Nasim, Parag Biswas, Abdur Rashid, Angona Biswas, Kishor Datta Gupta

当今最具意义和变革性的技术之一是快速发展的领域——人工智能 (AI)。人工智能被定义为模拟人类认知过程的计算机系统，它存在于我们日常生活的许多方面，从路上的自动驾驶汽车到智能手机中的虚拟助手。然而，由于某些人工智能系统极其复杂且不透明，因此对人工智能的信任度受到质疑。这些系统——特别是深度神经网络——拥有数百万个参数和层，使得人类难以理解其决策过程，从而引发了关于问责制、偏见和正义的问题。人工智能具有巨大的潜力，但也伴随着许多挑战和伦理困境。在可解释人工智能 (XAI) 的背景下，信任至关重要，因为它确保人工智能系统以一致、公平且符合道德的方式运行。本文探讨了可解释人工智能 (XAI)、可靠的可解释人工智能以及可靠的可解释人工智能的若干实际应用。此外，我们回顾了我们认为在此背景下相关的可解释人工智能的三个主要组成部分：透明度、可解释性和可信赖性。我们概述了最近在各个应用领域采用可信赖可解释人工智能的科学研究。最终，可信赖性对于建立和维持人与人工智能系统之间的信任至关重要，这有助于将人工智能系统集成到各种应用和领域中，造福社会。

发布时间: 10/23/2024

查看原文

图组合优化问题的置换图像

作者: Yimeng Min

本文提出一个框架，使用基于排列的表示方法来表述广泛的图组合优化问题。这些问题包括旅行商问题、最大独立集问题、最大割问题以及其他各种相关问题。这项工作有可能为神经组合优化算法的设计开辟新的途径，弥合离散和连续优化技术之间的差距。

发布时间: 10/23/2024

查看原文

深度记忆搜索：一种优化启发式搜索的元启发式方法

作者: Abdel-Rahman Hedar, Alaa E. Abdel-Hakim, Wael Deabes, Youseef Alotaibi, Kheir Eddine Bouazza

元启发式搜索方法已被证明是解决复杂优化问题的必要工具，但其全部潜力往往受到传统算法框架的限制。本文介绍了一种名为深度启发式搜索（DHS）的新方法，该方法将元启发式搜索建模为一个记忆驱动的过程。DHS采用多层搜索和基于记忆的探索-利用机制来导航大型动态搜索空间。通过利用无模型的记忆表示，DHS增强了遍历时间轨迹的能力，而无需依赖概率转移模型。该方法在各种启发式优化问题中都显示出显著的搜索效率和性能改进。

发布时间: 10/23/2024

查看原文

跨不同评价群体多模态安全感知中分歧模式的洞察

作者: Charvi Rastogi, Tian Huey Teh, Pushkar Mishra, Roma Patel, Zoe Ashwood, Aida Mostafazadeh Davani, Mark Diaz, Michela Paganini, Alicia Parrish, Ding Wang, Vinodkumar Prabhakaran, Lora Aroyo, Verena Rieser

人工智能系统严重依赖人工评级，但这些评级往往会被聚合，从而掩盖了现实世界现象中固有的观点多样性。在评估生成式 AI 的安全性时，这一点尤其令人担忧，因为感知和相关的危害会在不同的社会文化背景下发生显著变化。虽然最近的研究已经研究了人口统计差异对文本标注的影响，但人们对这些主观差异如何影响生成式 AI 的多模态安全性的理解有限。为了解决这个问题，我们进行了一项大规模研究，对来自人口统计学多样化评级者群体（630 名评级者，在年龄、性别和种族方面平衡分布于 30 个交叉群体）的约 1000 个文本到图像 (T2I) 生成进行了高度并行的安全性评级。我们的研究表明：(1) 不同人口统计群体（包括交叉群体）之间在评估危害严重程度方面存在显著差异，而这些差异在不同类型的安全违规行为中有所不同；(2) 多样化的评级者群体捕捉到的标注模式与接受过特定安全策略培训的专家评级者大相径庭；(3) 我们在 T2I 安全性中观察到的差异与先前记录的基于文本的安全任务中的群体层面差异不同。为了进一步理解这些不同的观点，我们对评级者提供的开放式解释进行了定性分析。这项分析揭示了不同群体感知 T2I 生成危害的原因的核心差异。我们的研究结果强调了将不同视角纳入生成式 AI 安全性评估的迫切需要，以确保这些系统真正具有包容性，并反映所有用户的价值观。

发布时间: 10/23/2024

查看原文

用于增强片剂成型能力的新型共晶体设计的混合生成式人工智能

作者: Nina Gubina, Andrei Dmitrenko, Gleb Solovev, Lyubov Yamshchikova, Oleg Petrov, Ivan Lebedev, Nikita Serov, Grigorii Kirgizov, Nikolay Nikitin, Vladimir Vinogradov

共晶是控制有机晶体理化特性的有效途径，在生物医学领域具有广泛应用。本研究提出了一种用于共晶设计的生成式方法（GEMCODE），这是一种基于深度生成模型和进化优化相结合的新型自动化共晶筛选流程，用于更广泛地探索目标化学空间。GEMCODE能够快速设计具有目标压片性能的新型共晶，这对于药物研发至关重要。通过一系列实验研究，包括验证和发现案例，我们证明了GEMCODE即使在实际计算约束下也具有有效性。此外，我们探索了语言模型在共晶生成中的潜力。最后，我们展示了GEMCODE预测的许多以前未知的共晶，并讨论了其在加速药物研发中的潜力。

发布时间: 10/23/2024

查看原文

AI之眼：利用计算机图形学问题评估GPT-4o的视觉感知能力和几何推理能力

作者: Tony Haoran Feng (University of Auckland), Paul Denny (University of Auckland), Burkhard C. W\"unsche (University of Auckland), Andrew Luxton-Reilly (University of Auckland), Jacqueline Whalley (Auckland University of Technology)

计算机图形学（CG）是计算机科学（CS）的一个热门领域，但许多学生发现这个主题很难，因为它需要大量的技能，例如数学、编程、几何推理和创造力。近年来，研究人员一直在研究如何利用生成式人工智能（GenAI）的力量来改进教学。在计算机科学领域，许多研究都集中在入门计算方面。最近一项评估大型语言模型（LLM）GPT-4（仅文本）在CG问题上的性能的研究表明，其性能较差，并且依赖于对图像内容的详细描述，这通常需要用户有相当的洞察力才能获得合理的结果。到目前为止，还没有研究调查大型多模态模型（LMM）或多模态LLM解决CG问题的能力以及这些能力如何用于改进教学。在本研究中，我们构建了两个CG问题数据集，这些问题需要不同程度的视觉感知能力和几何推理能力，并在这两个数据集上评估了当前最先进的LMM GPT-4o。我们发现，尽管GPT-4o在独立解决包含视觉信息的问题方面表现出巨大的潜力，但在生成结果的准确性和质量方面仍然存在重大局限性。我们针对CG教育者提出了几种新颖的方法，以将GenAI融入CG教学中，尽管存在这些局限性。我们希望我们的指南能够进一步鼓励CG课堂的学习和参与。

发布时间: 10/23/2024

查看原文

顺序为王：探索多模态大型语言模型中的顺序敏感性

作者: Zhijie Tan, Xu Chu, Weiping Li, Tong Mo

多模态大型语言模型（MLLM）利用文本、图像或视频组成的多模态上下文来解决各种多模态任务。然而，我们发现改变多模态输入的顺序会导致模型的性能在先进性能和随机猜测之间波动。这种现象存在于单模态（仅文本或仅图像）和混合模态（图像文本对）上下文中。此外，我们证明流行的MLLM特别关注某些多模态上下文位置，特别是开头和结尾。利用这种特殊关注，我们将关键视频帧和重要的图像/文本内容放置在上下文中的特殊位置，并将它们提交给MLLM进行推理。这种方法使视频字幕匹配任务的平均性能提高了14.7%，视觉问答任务的平均性能提高了17.8%。此外，我们提出了一种新的指标，即位置不变精度（PIA），以解决MLLM评估中的顺序偏差问题。我们的研究结果有助于更好地理解多模态上下文学习（MMICL），并为提高MLLM性能提供切实可行的策略，而无需增加计算成本。

发布时间: 10/23/2024

查看原文