FASTA (.fasta, .fa, .fna, .fsa, .mpfa)

背景

    • MIME 类型:chemical/seq-aa-fasta, chemical/seq-na-fasta
    • FASTA 分子生物学格式.
    • 用于存储和交换 DNA 和蛋白序列的标准格式.
    • 纯文本格式.
    • 把核酸或蛋白序列存储为字符串.
    • 使用各种常规代表元信息.
    • 由 William Pearson 和 David Lipman 于1988年开发,作为 FASTA 序列排比软件的一部分.

Import 与 Export

  • Import["file.fasta"] 从一个 FASTA 文件中导入 DNA 或蛋白质序列.
  • Export["file.fasta",expr] 把一个序列或序列列表导出至 FASTA 格式.
  • Import["file.fasta"] 返回一个代表存储在文件中的序列的字符串列表.
  • Export["file.fasta",str] 把一个代表 DNA 序列的字符字符串导出至 FASTA.
  • Export["file.fasta",{str1,str2,}] 导出多个 DNA 序列.
  • Import["file.fasta",elem] 从一个 FASTA 文件中导入指定的参数.
  • Import["file.fasta",{elem,suba,subb,}] 导入一个子参数.
  • Import["file.fasta",{{elem1,elem2,}}] 导入多个参数.
  • 导入格式可以用 Import["file","FASTA"]Import["file",{"FASTA",elem,}] 指定.
  • Export["file.fasta",expr,elem] 通过把 expr 作为指定参数 elem 创建一个 FASTA 文件.
  • Export["file.fasta",{expr1,expr2,},{{elem1,elem2,}}] 把每一个 expri 指定为相应的 elemi.
  • Export["file.fasta",expr,opt1->val1,] 导出具有指定值的指定选项参数的 expr.
  • Export["file.fasta",{elem1->expr1,elem2->expr2,},"Rules"] 使用规则指定要导出的参数.
  • 请到以下参考页面了解完整的基本信息:
  • Import, Export从文件导入或导出到文件
    CloudImport, CloudExport从云对象导入或导出到云对象
    ImportString, ExportString从字符串导入或导出到字符串
    ImportByteArray, ExportByteArray从字节数组导入或导出到字节数组

导入参数

  • Import 的通用参数:
  • "Elements" 该文件可用的参数和选项列表
    "Summary"文件摘要
    "Rules"所有可用参数的规则列表
  • 表示数据的参数:
  • "Header"原始标头行
    "Sequence"字符串列表形式的 DNA 或蛋白序列
    "Plaintext"作为格式化文本的序列
  • 对于 FASTA 格式,默认情况下,Import 使用"Sequence"参数.
  • 其他数据参数:
  • "Data""Header""Sequence"参数组成的列表
    "LabeledData"用于每个存储在文件中的序列的规则列表
  • 标头行元信息:
  • "Accession"每个序列的 NCBI 登录号
    "Description"每个序列基因座描述文本
    "GenBankID"GenBank 数据库标识符
    "Length"整数列表,表示每个序列的长度
  • Wolfram 语言对核酸使用标准的 IUB/IUPAC 缩写:
  • A腺苷(adenosine)
    C胞苷(cytidine)
    G鸟嘌呤(guanine)
    T胸苷(thymidine)
    U尿嘧啶(uracil)
    R嘌呤(purine)(G 或 A)
    Y嘧啶(pyrimidine)(T 或 C)
    K酮(ketone)(G 或 T)
    M氨基酸组(amino group)(A 或 C)
    S强相互作用(strong interaction)(G 或 C)
    W弱相互作用(weak interaction)(A 或 T)
    BC 或 G 或 T
    DA 或 G 或 T
    HA 或 C 或 T
    VA 或 C 或 G
    N任何核酸(nucleic acid)(A 或 C 或 G 或 T)
    -不定长度的间距
  • 表示氨基酸的代码:
  • A丙氨酸(alanine)(Ala)
    B天门冬氨酸(aspartic acid)或天冬酰胺( asparagine)
    C半胱氨酸(cysteine)(Cys)
    D天门冬氨酸(aspartic acid)(Asp)
    E谷氨酸(glutamic acid)(Glu)
    F苯丙氨酸(phenylalanine)(Phe)
    G甘氨酸(glycine)(Gly)
    H组氨酸(histidine)(His)
    I异亮氨酸(isoleucine)(Ile)
    K赖氨酸(lysine)(Lys)
    L亮氨酸(leucine)(Leu)
    M蛋氨酸(methionine)(Met)
    N天门冬酰胺(asparagine)(Asn)
    P脯氨酸(proline)(Pro)
    Q谷氨酰胺(glutamine)(Gln)
    R精氨酸(arginine)(Arg)
    S丝氨酸(serine)(Ser)
    T苏氨酸(threonine)(Thr)
    U硒代半胱氨酸(selenocysteine)
    V缬氨酸(valine)(Val)
    W色氨酸(tryptophan)(Trp)
    Y酪氨酸(tyrosine)(Tyr)
    Z谷氨酸(glutamic acid)或谷氨酰胺(glutamine)
    X任何氨基酸(amino acid)
    *翻译(translation)停止
    -不定长度的间距

选项

  • Import 选项:
  • "HeaderFormat"Automatic指定标头的格式
    "ToUpperCase"True是否使序列为大写
  • Import 使用 FASTA 格式的常见变体中标头格式规范中的大型内置库.
  • 通过把"HeaderFormat"设置为文字字符串列表和元信息参数名称,任何标头行格式可以在 Import 中指定.
  • "HeaderFormat"->{"gi|","DatabaseIndex","|gb|","Accession","|","Description"} 是 NCBI FASTA 文件的典型设置.
  • 高级的 Export 选项:
  • "LineWidth"70一行中的最大字符数
    "ToUpperCase"True是否使序列为大写

范例

基本范例  (7)

以下从一个样本 FASTA 文件中读取原始标头行:

提取登录号字符串:

解析 GenBank 数据库密钥以及标头行的描述字符串:

读取 DNA 序列的第一个字母:

把一个短序列转换成一个 FASTA 格式,自动增加默认标头信息:

以下导出两个序列:

以下导出一对标头和序列:

使用"Data"参数导入上面的输出,给出原始标头和序列:

导入为一个规则列表: