PDB (.pdb)

背景

    • MIME 类型:chemical/x-pdb
    • 蛋白质数据库 PDB 文件.
    • 三维分子模型文件.
    • 用于生物信息应用程序以及用于存储和交换分子模型的网页.
    • PDB 是 Protein Data Bank(蛋白质数据库)的缩写.
    • 纯文本格式.
    • 存储大生物分子,例如蛋白质与核酸等的结构信息.
    • 不存储化学键信息.
    • 于1971年在布鲁克海文国家实验室(Brookhaven National Laboratory)开发.
    • 由结构生物信息学研究合作实验室(RCSB)维护.

Import 与 Export

  • Import["file.pdb"] 创建一个 PDB 文件并返回蛋白质的程式化渲染.
  • Wolfram 语言对大分子提供各种三维渲染样式.
  • Export["file.pdb",expr] 从一个分子的三维模型中创建一个 PDB 文件.
  • Import["file.pdb"] 返回一个 Graphics3D 对象.
  • Import["file.pdb",elem] 从 PDB 文件中导入指定的参数.
  • Import["file.pdb",{elem,suba,subb,}] 导入一个子参数.
  • Import["file.pdb",{{elem1,elem2,}}] 导入多个参数.
  • 导入格式可以用 Import["file","PDB"]Import["file",{"PDB",elem,}] 指定.
  • Export["file.pdb",{elem1->expr1,elem2->expr2,}] 使用规则制定要导出的参数.
  • 请到以下参考页面了解完整的基本信息:
  • Import, Export从文件导入或导出到文件
    CloudImport, CloudExport从云对象导入或导出到云对象
    ImportString, ExportString从字符串导入或导出到字符串
    ImportByteArray, ExportByteArray从字节数组导入或导出到字节数组

Import 参数

  • Import 通用参数:
  • "Elements" 该文件可用的参数和选项列表
    "Summary"文件摘要
    "Rules"所有可用参数的规则列表
  • 默认情况下,Export 使用 "Rules" 参数.
  • 图形参数:
  • "Graphics3D"PDB 文件被渲染为 Graphics3D 对象
  • 默认情况下,对于 PDB 格式,Import 使用 "Graphics3D" 参数.
  • 数据表示的参数:
  • "AdditionalAtoms"不是链的成分的原子
    "AdditionalCoordinates"附加原子的三维坐标
    "AdditionalIndex"VertexCoordinatesVertexTypes 中附加原子的指标
    "AdditionalResidues"以三个字母缩写数组表示的附加残基序列
    "ResidueAtoms"残基原子列表
    "Molecule"分子模型的象征性表示
    "ResidueChainLabels"链标签列表
    "ResidueCoordinates"残基原子的三维坐标
    "ResidueIndex"VertexCoordinatesVertexTypes 中残基原子的指标
    "ResidueRoles"残基原子的功能角色
    "Residues"以三个字母缩写数组表示的残基序列
    "Resolution"模型坐标的空间分辨率,以皮米为单位
    "SecondaryStructure"描写一条链的大型结构的规则
    "Sequence"以字符串列表形式表示的残基序列
    "VertexCoordinates"原子坐标,一般以皮米为单位
    "VertexTypes"构成分子的所有原子或基团,一般以化学元素缩写的列表形式表示
  • 当从 PDB 读取一个不完全的链,其缺少一个或多个残基,Wolfram 语言将以单个子链的序列表示它.
  • Wolfram 语言对氨基酸残基使用标准的 IUB/IUPAC:
  • A丙氨酸(Ala)
    C半胱氨酸(Cys)
    D天门冬氨酸(Asp)
    E谷氨酸(Glu)
    F苯丙氨酸(Phe)
    G甘氨酸(Gly)
    H组氨酸(His)
    I异亮氨酸(Ile)
    K赖氨酸(Lys)
    L亮氨酸(Leu)
    M蛋氨酸(Met)
    N天门冬酰胺(Asn)
    P脯氨酸(Pro)
    Q谷氨酰胺(Gln)
    R精氨酸(Arg)
    S丝氨酸(Ser)
    T苏氨酸(Thr)
    V缬氨酸(Val)
    W色氨酸(Trp)
    Y酪氨酸(Tyr)
    X未指定或未知氨基酸(Unk)
  • 以下缩写用于表示核酸:
  • A腺苷
    C胞苷
    G鸟苷
    I肌苷
    T胸苷
    U尿苷
    X未指定或未知核酸
  • 当导入一个用多个三维模型描述同样分子的 PDB 文件时,可以使用以下 Import 参数读取所有模型的几何形状:
  • "ResidueCoordinatesList"每个模型的残基坐标
    "AdditionalCoordinatesList"每个模型附加原子的三维坐标
    "VertexCoordinatesList"每个模型的原子坐标,一般以皮米为单位
  • 元信息参数:
  • "Authors"文件中引用的作者信息
    "Comments"以一个字符串列表表示的注解和说明
    "DepositionDate"文件是什么时候加入数据库的
    "Organism"出现蛋白质的有机体
    "PDBClassification"文件头的 PDB 分类
    "PDBIDPDB 结构识别字符串
    "References"以规则列表形式给出的书目参考
    "Title"文档标题

选项

  • 通用渲染选项:
  • ImageSizeAutomatic指定图形显示的整体尺寸
    BackgroundWhite指定使用何种背景颜色
    ColorFunctionAutomatic确定二级结构可视化颜色的函数
    ViewPointAutomatic观看三维模型的空间点
  • 默认设置为 ViewPoint->Automatic,Wolfram 语言自动计算导入分子模型的最优观察角度.
  • 选择一个渲染样式:
  • "Rendering""Structure"指定可视化方法
  • "Rendering"可能的设置为:
  • "BallAndStick"以球棍模型显示原子和化学键
    "Structure"蛋白质骨架的程式化渲染
    "Spacefilling"显示为重叠球的原子
    "Wireframe"以线渲染的化学键

范例

基本范例  (6)

从 RCSB 蛋白质数据库网页导入一个大型 PDB 文件:

获取该 PDB 文件的标题:

导入上面分子每个链的标签:

显示样本文件中可用的 Import 参数:

获取该文件中引用的有机体名称:

导入文件中的参考书目:

将结构作为 Molecule 对象导入:

获得分子量并转换为千道尔顿(kilodaltons):

导入残基序列:

以下以单个字符缩写的字符串形式给出同样的序列:

获取关于该分子的结构信息:

以程式化形式显示蛋白质骨架:

使用每个残基的标准颜色显示同样的蛋白质:

以下用球棍图形导入样本文件:

以线框模型显示同样的蛋白质:

导入残基数据:

导入样本文件,把原子渲染为空间填充的球体:

导入一个 DNA 模型:

从文件中导入 RNA 和 DNA 序列:

从一个 PDB 文件中读取所有数据,并把它导回到 PDB:

从一个 MOL 文件中导入简单的三维模型,并把它导出到 PDB:

把由此产生的 PDB 文件导入为一个三维图形:

Molecule 对象导出为 PDB 字符串: