【论文阅读】AlphaFold3 unedited version 通读 + 服务器使用总结

2024-06-19 服务器 0

省流：

AlphaFold3能做什么：预测蛋白质、DNA、RNA与允许的配体/离子/共价修饰的复合物结构

为什么要用AlphaFold3：有强大的泛化性和准确率，除了RNA结构略差于AIchemy_RNA2外，预测精度高于现有方法（包括Vina和RosettaFold-All-Atom）

AlphaFold3怎么用：代码不开源，网站https://alphafoldserver.com/需注册使用，每日限制提交任务（2024/05/17为每日20次提交）

- 论文阅读
- - 置信度指标
  - - pLDDT
    - PAE
    - pTM和ipTM
    - 指标相关性
  - 性能比较
  - - Protein-ligand
    - Protein-nucleic
    - Covalent modifications
    - Protein complex/monomer
  - 缺陷
  - 模型架构
- Server使用
- - 输入
  - - 可输入的大分子
    - 可输入的修饰
    - 输入限制
    - 糖基化
  - 输出
  - - summary confidences.json
    - full data.json:
  - Term of use
- Reference

论文阅读

置信度指标

mini-rollout: Several of the heads require predicted coordinates, therefore at training time we do a short rollout of the Diffusion Module from pure noise with 20 steps. 用这里提取的结构来训练 confidence head。

pLDDT

衡量什么：Predicted local distance difference test，预测仅考虑到聚合物距离的 LDDT 分数，值越高表示置信度越高。对于配体原子，仅考虑配体原子与聚合物之间的误差，而不是配体原子之间的其他误差。
怎么算：对于原子 $l$ ， $/operatorname{lddt}_l=/sum_{m /in R} /frac{1}{4} /sum_{c /in/{0.5,1,2,4/}} d_{l m}<c$

$d_{l m}$ ：原子 $l$ 和原子 $m$ 的距离in the mini-rollout prediction。 $m$ 需要满足以下要求：
- 如果 $m$ 是DNA/RNA，真实结构中原子 $l$ 和原子 $m$ 的距离应小于30Å；蛋白则是15Å。
- Only atoms in polymer chains
- One atom per token
多高算好：pLDDT 大于 90 被视为最高精度类别，在这种情况下，蛋白主链和侧链通常都能被高精度预测。相反，pLDDT 大于 70 通常对应着主链预测正确但部分侧链位置错误的情况。
为什么会低：
1. 该区域天然高度灵活或内在无序,因此没有任何确定的结构。
  结构域的连接链往往更加可变、结构性较差、灵活性更高。对于这种天然无序区域，无法预测其具体结构，因此 AlphaFold会给出较低的置信度评估。
2. 该区域虽然有可预测的结构，但 AlphaFold缺乏足够信息来高置信度地预测。

PAE

衡量什么：Predicted aligned error，预测结构中两个token之间的相对位置和方向的误差（the error of one token when aligned according to the frame of another）
怎么算： $/operatorname{PAE}_{i j}=/sum_{b=1}^{64} /Delta_b p_{i j}^b$

$/Delta_b$ : distance bin centers

对于蛋白质和核酸，PAE 评分本质上与 AlphaFold2 相同，其中误差是相对于由蛋白质主链构建的框架来测量的。对于小分子和翻译后修饰，从参考构象异构体的最邻近原子为每个原子构建框架。
多高算好：值越高表示预测误差越高，因此置信度越低。

pTM和ipTM

衡量什么：预测模板建模 (pTM) 分数和界面预测模板建模 (ipTM) 分数均源自TM score。
多高算好：pTM 得分高于 0.5 意味着复合物的总体预测折叠可能与真实结构相似，ipTM 高于 0.8 的值表示有信心的高质量预测，而低于 0.6 的值表示预测可能失败。
为什么会低：TM 评分对于小型结构或短链非常严格，因此当涉及的分子少于 20 个时，pTM 的值小于 0.05；此时 PAE 或 pLDDT 可能更能说明预测质量。

指标相关性

通过将预测得到的ipTM分数进行分箱处理，并统计每个分数区间内的样本数量，发现ipTM分数与蛋白质-蛋白质对接的DockQ、蛋白质-核酸对接的iLDDT以及蛋白质-配体对接的成功率之间存在显著的正相关性
pLDDT分数与上述三个模型预测的准确性之间存在正相关性
7T82案例中，相互作用界面的DockQ与模型预测的PAE矩阵之间存在一致性

性能比较

Protein-ligand

对比其他模型：AutoDock Vina，RosettaFold-All-Atom

指标：% of pocket-aligned ligand RMSD < 2Å

数据集：

PoseBusters数据集上进行了160项评估，该数据集由 428个蛋白质-配体结构组成，其中161个在2021年以后加入到PDB。
PoseBusters V1: August 2023 release, PoseBusters V2: November 6th 2023 release。除Extended Data Figure 4b-f 使用V2外，文中主要在V1上进行比较
在更早的训练集训练了单独的AF3 2019（保证无数据泄露）。

比较结果：

AF3大大优于Vina和RFAA。
使用口袋信息后，优于无信息AF3，优于holo已知的EquiBind、TankBind、DiffDock，优于 pocket residues已知的Vina on AF-M 2.3、DeepDock、Uni-Mol、UMol、Gold、Vina、Uni-Mol Docking V2。
AF3在非Natural小分子成功率会低一些。Natural小分子定义为在PDB数据库出现超过100次。
与DiffDock在V2上比较分子有效性，除Tetrahedral chirality外都更优。

Protein-nucleic

对比其他模型：RoseTTAFold2NA（RFAA精度低于RoseTTAFold2NA），AIchemy_RNA2（the best AI-based submission in CASP15)

指标：针对复合物是iterface LDDT，单体RNA仅为LDDT

数据集：PDB数据库中蛋白-RNA，蛋白-dsDNA；CSAP15比赛的RNA单体

比较结果：

AF3优于RoseTTAFold2NA，但是没有达到人类专家辅助的 AIchemy_RNA2 的性能。
在单独核酸DNA/RNA上评估LDDT，AF3优于RoseTTAFold2NA。

Covalent modifications

指标：% of pocket-aligned ligand RMSD < 2Å

数据集：Recent PDB

比较结果：在磷酸化 (SEP、TPO、PTR、NEP、HIP)场景，有PTM建模结果更好

Protein complex/monomer

对比其他模型：AlphaFold-Multimer v2.3

指标：% DockQ > 0.23 for protein-protein and protein-antibody interfaces，LDDT for Protein monomers

数据集：Recent PDB

比较结果：

AF3相对于 AlphaFold-Multimer v2.3提高了蛋白质复合物准确度，抗体蛋白质相互作用预测尤其显示出显着的改善。蛋白质单体的 LDDT也有改善。
AF3对MSA深度的依赖性与AF-M 2.3非常相似；具有浅MSA 的蛋白质的预测精度较低。

复合物任务完整汇总见Extended Data Table 1

缺陷

stereochemistry
1. 输入为正确手性分子，输入可能为错误手性：a chirality violation rate of 4.4% in the benchmark
2. overlapping (“clashing”) atoms: 冲突主要发生在核苷酸总数超过 100 个且残基总数超过 2,000 个的蛋白质-核酸复合物中。
  - multiple seeds 多跑几遍
spurious structural order (hallucinations) in disordered regions：主要是具有非常低pLDDT和预测中位置不一致的虚假α螺旋，缺乏AlphaFold 2在无序区域产生的典型丝带状外观。

- use distillation training from AlphaFold 2 predictions

- add a ranking term to encourage results with more solvent accessible surface area

- 无序区域的存在影响附近的pLDDT，去除无序尾部可以更清晰地显示有序区域的置信度。
static：无法区分构象转变

- MSA resampling
引入更多model seeds可以提升预测结果：模型置信度输出与预测准确性相关，并且相关性的强度因分子类型而异。在某些情况下，只有通过运行多个种子并选取排名靠前的样本才能实现最佳模型性能；抗体-抗原相互作用尤其如此。

模型架构

AlphaFold3对protein和RNA进行了Genetic search，但是AlphaFold3中的MSA模块比AlphaFold2小得多（仅有四个块）。不再保留MSA表示，所有处理都基于成对表示。Template search仅针对单个蛋白链，不提供多链模版，模型最多使用4个结果。
Pairformer模块替换了AlphaFold2中的Evoformer模块。基本保留AF2中的pair processing and the number of blocks (48) 。
Diffusion模块替换了AlphaFold2中的IPA架构模型。relatively standard diffusion approach提供了结构的分布，而不是单个带有不确定性的结构，避免了基于扭转的参数化和结构的violation losses。
所有transition block中的激活函数由ReLU改为SwiGLU，atom attention中保留ReLU。

Server使用

输入

可输入的大分子

Protein、 DNA 、RNA: 输入序列
Ligand: ATP, ADP, AMP, GTP, GDP, FAD, NADP, NADPH, NDP, 血红素, 血红素C, 肉豆蔻酸, 油酸, 棕榈酸, 柠檬酸, 叶绿素A和B, 细菌叶绿素A和B
Ion: Ca²⁺, Co²⁺, Cu²⁺, Fe³⁺, K⁺, Mg²⁺, Mn²⁺, Na⁺, Zn²⁺, Cl⁻

可输入的修饰

生物常见的氨基酸残基的翻译后修饰（PTMs）
- 苏氨酸、酪氨酸、组氨酸的磷酸化
- 赖氨酸的乙酰化
- 赖氨酸和精氨酸的甲基化
- 半胱氨酸的马来酰化
- 脯氨酸、赖氨酸和天冬酰氨酸的羟基化
- 半胱氨酸的棕榈酰化
- 天冬酰氨酸的琥珀酰化
- 半胱氨酸的S-硝基化
- 色氨酸的甲酰化
- 赖氨酸的乌洛托品化
- 赖氨酸和精氨酸的桂氨酸化
- 由某些糖组成的糖链（包括支链）：α/β-D-葡萄糖, α/β-D-甘露糖, α-L-岩藻糖, β-D-半乳糖, N-乙酰-β-D-葡糖胺
生物常见的核酸化学修饰：
- DNA
  - 胞嘧啶、鸟嘌呤和腺嘌呤的甲基化
  - 胞嘧啶的羧基化
  - 鸟嘌呤的氧化
  - 胞嘧啶的甲酰化
- RNA
  - 胞嘧啶、鸟嘌呤、腺嘌呤和尿嘧啶的甲基化
  - 尿嘧啶异构化为伪尿嘧啶
  - 胞嘧啶的甲酰化

输入限制

每个蛋白质链和核苷酸链必须至少包含4个氨基酸或核苷酸
仅支持标准氨基酸/核酸。可以用适合您特定情况的标准残基或核苷酸代替，通常，建议进行以下替代：
- 蛋白质：用丙氨酸（A）替换未知的蛋白质残基
- DNA：用多聚T（T）替换未知的核苷酸，但其他核苷酸也适用
- RNA：用多聚U（U）替换未知的核苷酸，但其他核苷酸也适用
作业的总大小受到结构中“token”数量的限制——限制为5000个token。换句话说，所有分子长度+修饰<5000。
AlphaFold服务器不支持上述分子列表部分之外的配体、离子和修饰。此外，AlphaFold服务器无法预测水分子或氢原子，并且不知道膜蛋白的膜平面。
目前限制来自少数病毒病原体的序列。

糖基化

要描述糖链，使用与相应糖链相对应的3字母CCD代码（PDB中的化学组分）。请注意，立体异构体由不同的CCD代码描述，例如，甘露糖可以描述为MAN用于α-D-甘露糖和BMA用于β-D-甘露糖。

网站支持以下糖链残基附着到蛋白质残基：

N (天冬酰胺)：BGC, BMA, GLC, MAN, NAG
T (苏氨酸)：BGC, BMA, FUC, GLC, MAN, NAG
S (丝氨酸)：BGC, BMA, FUC, GLC, MAN, NAG

支持的糖链可以以树的形式构建，每个糖链有一个或两个下游连接，附着在蛋白质残基上。总共支持多达8个糖链残基。

糖链 - 糖链连接也应该是化学上有效的。例如，GLC(NAG)(MAN)不是有效的分支糖链，因为NAG和MAN不能与GLC形成糖苷键。

网站假定糖苷键是在PDB中类似键中出现频率最高的位置之间形成的——这可能导致模型结构中的键位置与预期不同。目前不支持指定糖苷键的确切原子。

输出

网站每次运行返回五个预测。结果页面显示排名最高的预测，并且所有样本及其相关的置信度都可通过“下载”按钮以zip文件形式下载。

对于每个预测样本，提供两个JSON文件。

summary confidences.json

chain_iptm, chain_pair_iptm, chain_pair_pae_min, chain_ptm, iptm, ptm
fraction_disordered: 0-1 范围内的标量，预测结构中无序部分的比例
has_clash: True or False，指示结构是否具有大量冲突原子（超过链的 50%，或具有超过 100 个冲突原子的链）
ranking_score: 0.8 × ipTM + 0.2 × pTM + 0.5 × disorder − 100 × has_clash
num_recycles

full data.json:

atom_chain_ids, token_chain_ids, token_res_ids
atom_plddts
contact_probs: predicted probability that token i and token j are in contact（代表原子之间距离 8Å）
pae

Term of use

禁止使用模型输出：

代表任何商业组织或商业活动
任何预测蛋白结合底物或多肽的自动系统，包括但不限于AutoDock/Glide对接等工具
训练机器学习模型或类似技术，来进行类AlphaFold的生物分子结构预测。
无明显通知/引用下发表或修改结果，或提供衍生物
MISINFORM, MISREPRESENT OR MISLEAD：
1. 歪曲与 Google 的关系
2. 歪曲输出或衍生品的来源；
3. 散布误导性的专业知识或能力主张，特别是在敏感领域（例如健康）
4. 在影响物质或个人权利或福祉的领域（例如医疗保健）做出决策。
进行或协助危险、非法或恶意活动，