摘要
arXiv:2504.19912v1 宣告类型: 新
摘要:人工智能的迅速发展,特别是基于大型语言模型(LLMs)的自主代理系统,为通过改进基于计算的药物发现模型并减少对昂贵实验的依赖提供了新的机会。当前的基于代理的AI系统在解决编程挑战和进行研究方面表现出色,这表明它们具有开发能够解决复杂问题(如制药设计和药物发现)软件的潜在能力。本文介绍了DO挑战,这是一个基准测试,旨在评估AI代理在单个复杂问题上的决策能力,该问题类似于虚拟筛选场景。该基准测试挑战系统独立开发、实施和执行从大量数据集中识别有希望的分子结构的有效策略,同时导航化学空间、选择模型并在多目标背景下管理有限资源。我们还讨论了基于提出的基准测试的DO挑战2025比赛,展示了参赛的人类选手探索的各种策略。此外,我们介绍了Deep Thought多代理系统,该系统在基准测试中表现出色,超过了大多数人类团队。在测试的语言模型中,Claude 3.7 Sonnet、Gemini 2.5 Pro和o3在主要代理角色中表现最佳,而GPT-4o和Gemini 2.0 Flash在辅助角色中表现有效。尽管取得了一定的成果,但该系统的性能仍然低于专家设计的解决方案,并且显示出高不稳定性,这凸显了AI驱动方法在转变药物发现和更广泛科学研究方面的潜力和当前局限性。