由 NVIDIA 等企业赋能的一家初创公司推出了基于 NVIDIA GPU 模型的新型蛋白质研究方案。
基于提示的代码生成技术让生成式 AI 彻底革新了软件开发领域,接下来蛋白质设计领域也将迎来变革。
EvolutionaryScale 于 6 月 25 日发布了第三代 ESM 模型 ESM3,该模型可同时对蛋白质的序列、结构和功能进行推理,为蛋白质研发工程师提供了一个可编程的平台。
这家初创公司源自 Meta 公司的基础 AI 研究(FAIR)部门,最近获得了由 Lux Capital、Nat Friedman 和 Daniel Gross 领投以及 NVIDIA 和亚马逊参投的融资。
EvolutionaryScale 处于可编程生物学的最前沿,可以帮助研究人员设计蛋白质,从而帮助找到癌细胞的靶点、寻找有害塑料的替代品、推动环境保护等等。
通过 ESM3 模型的规模化开发,EvolutionaryScale 开拓了可编程生物学的前沿,让 ESM3 成为有史以来算力最高的生物基础模型。980 亿参数的 ESM3 模型比其前身 ESM2 多使用了大约 25 倍的浮点运算和 60 倍的数据。
EvolutionaryScale 整理了一个包含 20 多亿个蛋白质序列的数据库用于训练 AI 模型,它提供的技术可以为药物开发、疾病根除以及药物研发人员服务。
通过 ESM3 加速计算机生物学研究
借助大量训练数据,EvolutionaryScale 希望通过 ESM3 加速蛋白质研发。
该模型采用了从生物体和生物群落中采样的近 28 亿个蛋白质序列进行训练,使科学家能够提示该模型识别和验证新的蛋白质,并不断提升精度。
与之前的版本相比,ESM3 带来了重大更新。这是一个原生的生成式模型,也是一个 “all to all” 模型,意味着结构和功能注解可以作为输入信息,而不仅仅是输出信息。
该模型公开上线后,科学家们就可以对其进行微调,基于自己的专有数据构建专用模型。ESM3 通过大量数据进行大规模生成式训练,加强了蛋白质设计能力,为计算机生物研究提供了一台时光机。
通过 NVIDIA BioNeMo
推动下一个重大突破
ESM3 为生物学家和蛋白质设计师提供了增强的生成式 AI,帮助他们更好地设计和理解蛋白质。通过简单的提示,它可以根据提供的蛋白质骨架生成新的蛋白质,根据反馈自我改进蛋白质设计,以及根据用户指定的功能设计蛋白质。这些功能能够以任意组合串联使用,以提供思维链蛋白质设计,就好像用户在给一位“研究人员”发信息一样,而这位“研究人员”已经记住了人类已知的每一个蛋白质序列的复杂三维含义,并且已经流利地掌握了这种语言,使用户能够来回迭代。
EvolutionaryScale 联合创始人兼工程副总裁 Tom Sercu 表示:“在我们的内部测试中,ESM3 能够创造性地响应各种复杂提示,这给我们留下了深刻的印象。它曾解决了一个极其困难的蛋白质设计问题,创造出一种新型的绿色荧光蛋白。我们希望 ESM3 帮助科学家加快工作进展,开辟新的可能性——期待着看到它为未来的生命科学研究做出重要贡献。”
EvolutionaryScale 已于 6 月 25 日开放 API 接口进行封闭测试,提供小型 ESM3 开放版本的代码和权重,供非商业用途使用。这个版本即将在NVIDIA BioNeMo上发布,后者是一个用于药物发现的生成式 AI 平台。完整的 ESM3 系列模型将很快以NVIDIA NIM微服务的形式提供给指定客户,该服务在与 NVIDIA 合作下进行了运行时优化,并由 NVIDIA AI Enterprise 软件许可证支持,可在 ai.nvidia.com 上进行测试。
训练这些模型所需的算力呈指数级增长。ESM3 使用 Andromeda 集群进行训练,该集群配备了NVIDIA Quantum-2 InfiniBand网络。
ESM3 模型将在指定合作伙伴的平台上提供,包括 Amazon Bedrock、Amazon Sagemaker、AWS HealthOMICs 和 NVIDIA BioNeMo。
全部0条评论
快来发表一下你的评论吧 !