GenBank (.gb, .gbk)

背景

    • MIME 类型:chemical/seq-na-genbank
    • GenBank 分子生物学格式.
    • 美国国家生物技术信息中心(US National Center for Biotechnology Information,NCBI)数据库的原始格式.
    • 用于存储和交换注释的 DNA 序列的标准格式.
    • 纯文本格式.
    • 作为 NIH GenBank 项目的一部分,开发于1982.

Import 与 Export

  • Import["file.gb"] 从一个 GenBank 文件中导入一个 DNA 序列.
  • Import["file.gb"] 返回一个代表存储在文件中的序列的字符串.
  • Import["file.gb",elem] 从一个 GenBank 文件中导入指定的参数.
  • Import["file.gb",{elem,suba,subb,}] 导入一个子参数.
  • Import["file.gb",{{elem1,elem2,}}] 导入多个参数.
  • 导入格式可以由 Import["file","GenBank"]Import["file",{"GenBank",elem,}] 指定.
  • 请到以下参考页面了解完整的基本信息:
  • Import从文件导入
    CloudImport从云对象导入
    ImportString从字符串导入
    ImportByteArray从字节数组导入

导入参数

  • Import 的通用参数:
  • "Elements" 该文件可用的参数和选项列表
    "Summary"文件摘要
    "Rules"所有可用参数的规则列表
  • 表示数据的参数:
  • "Features"所有注释序列,以规则的列表形式给出
    "Sequence"字符串形式的 DNA 或蛋白质序列
    "Plaintext"格式化文本形式的序列
    "Comment"关于序列的各种评价
  • 对于 GenBank 格式,默认情况下,Import 使用"Sequence"参数.
  • 元信息参数:
  • "Locus"轨迹描述
    "Definition"GenBank 文件标题
    "NCBIAccession"NCBI 登录号
    "NCBIAccessionVersion"具有版本号的 NCBI 登录号
    "GenBankID"GenBank 数据库识别符
    "Project"序列项目的名称
    "Keywords"关键字列表
    "Organism"文件中被引用的源生物体
    "Segment"序列段,如果被分为多个 GenBank 文件
    "Source"源生物体
    "Reference"数目参考,以规则列表的形式给出
    "Comments"存储在文件中的注解,以字符串的列表形式给出

范例

基本范例  (6)

以下返回一个样本 GenBank 文件中可用的参数:

文件标题:

基本的轨迹信息:

导入关于源生物体的信息:

提取登录号与 GenBank 识别符:

读取 DNA 序列的首字母:

导入序列的纯文本版本:

读取书目参考列表并提取第一个: