FASTA (.fasta, .fa, .fna, .fsa, .mpfa)

MIME 类型:chemical/seq-aa-fasta, chemical/seq-na-fasta
FASTA 分子生物学格式.
用于存储和交换 DNA 和蛋白序列的标准格式.
纯文本格式.
把核酸或蛋白序列存储为字符字符串.
使用各种常规代表元信息.
由 William Pearson 和 David Lipman 于1988年开发,作为 FASTA 序列排比软件的一部分.
  • ImportExport 支持 FASTA 文件格式的所有常见变体.

Import 与 ExportImport 与 Export

  • Import["file.fasta"] 从一个 FASTA 文件中导入 DNA 或蛋白质序列.
  • Export["file.fasta", expr] 把一个序列或序列列表导出至 FASTA 格式.
  • Import["file.fasta"] 返回一个代表存储在文件中的序列的字符串列表.
  • Export["file.fasta", str] 把一个代表 DNA 序列的字符字符串导出至 FASTA.
  • Export["file.fasta", {str1, str2, ...}] 导出多个 DNA 序列.
  • Import["file.fasta", elem] 从一个 FASTA 文件中导入指定的参数.
  • Import["file.fasta", {elem, suba, subb, ...}] 导入一个子参数.
  • Import["file.fasta", {{elem1, elem2, ...}}] 导入多个参数.
  • 导入格式可以用 Import["file", "FASTA"]Import["file", {"FASTA", elem, ...}] 指定.
  • Export["file.fasta", expr, elem] 通过把 expr 作为指定参数 elem 创建一个 FASTA 文件.
  • Export["file.fasta", {expr1, expr2, ...}, {{elem1, elem2, ...}}] 把每一个 指定为相应的 .
  • Export["file.fasta", expr, opt1->val1, ...] 导出具有指定值的指定选项参数的 expr.
  • Export["file.fasta", {elem1->expr1, elem2->expr2, ...}, "Rules"] 使用规则指定要导出的参数.
  • ImportExport 的完整信息请见参考页.
  • ImportStringExportString 支持 FASTA 格式.

参数参数

  • Import 的通用参数:
  • "Elements"该文件可用的参数和选项列表
    "Rules"每个参数和选项的完整规则列表
    "Options"选项、属性和设置的规则列表
  • 表示数据的参数:
  • "Header"原始标头行
    "Sequence"字符串列表形式的 DNA 或蛋白序列
    "Plaintext"作为格式化文本的序列
  • 对于 FASTA 格式,默认情况下,Import 使用参数.
  • 其他数据参数:
  • "Data"参数组成的列表
    "LabeledData"用于每个存储在文件中的序列的规则列表
  • 标头行元信息:
  • "Accession"每个序列的 NCBI 登录号
    "Description"每个序列基因座描述文本
    "GenBankID"GenBank 数据库标识符
    "Length"整数列表,表示每个序列的长度
  • Mathematica 对核酸使用标准的 IUB/IUPAC 缩写:
  • A腺苷(adenosine)
    C胞苷(cytidine)
    G鸟嘌呤(guanine)
    T胸苷(thymidine)
    U尿嘧啶(uracil)
    R嘌呤(purine)(G 或 A)
    Y嘧啶(pyrimidine)(T 或 C)
    K酮(ketone)(G 或 T)
    M氨基酸组(amino group)(A 或 C)
    S强相互作用(strong interaction)(G 或 C)
    W弱相互作用(weak interaction)(A 或 T)
    BC 或 G 或 T
    DA 或 G 或 T
    HA 或 C 或 T
    VA 或 C 或 G
    N任何核酸(nucleic acid)(A 或 C 或 G 或 T)
    -不定长度的间距
  • 表示氨基酸的代码:
  • A丙氨酸(alanine)(Ala)
    B天门冬氨酸(aspartic acid)或天冬酰胺( asparagine)
    C半胱氨酸(cysteine)(Cys)
    D天门冬氨酸(aspartic acid)(Asp)
    E谷氨酸(glutamic acid)(Glu)
    F苯丙氨酸(phenylalanine)(Phe)
    G甘氨酸(glycine)(Gly)
    H组氨酸(histidine)(His)
    I异亮氨酸(isoleucine)(Ile)
    K赖氨酸(lysine)(Lys)
    L亮氨酸(leucine)(Leu)
    M蛋氨酸(methionine)(Met)
    N天门冬酰胺(asparagine)(Asn)
    P脯氨酸(proline)(Pro)
    Q谷氨酰胺(glutamine)(Gln)
    R精氨酸(arginine)(Arg)
    S丝氨酸(serine)(Ser)
    T苏氨酸(threonine)(Thr)
    U硒代半胱氨酸(selenocysteine)
    V缬氨酸(valine)(Val)
    W色氨酸(tryptophan)(Trp)
    Y酪氨酸(tyrosine)(Tyr)
    Z谷氨酸(glutamic acid)或谷氨酰胺(glutamine)
    X任何氨基酸(amino acid)
    *翻译(translation)停止
    -不定长度的间距

选项选项

  • Import 选项:
  • "HeaderFormat"Automatic指定标头的格式
    "ToUpperCase"True是否使序列为大写
  • Import 使用 FASTA 格式的常见变体中标头格式规范中的大型内置库.
  • 通过把设置为文字字符串列表和元信息参数名称,任何标头行格式可以在 Import 中指定.
  • 是 NCBI Fasta 文件的典型设置.
  • 高级的 Export 选项:
  • "LineWidth"70一行中的最大字符数

范例范例打开所有单元关闭所有单元

基本范例 (7)基本范例 (7)

以下从一个样本 FASTA 文件中读取原始标头行:

In[1]:=
Click for copyable input
Out[1]=

提取登录号字符串:

In[1]:=
Click for copyable input
Out[1]=

解析 GenBank 数据库密钥以及标头行的描述字符串:

In[1]:=
Click for copyable input
Out[1]=

读取 DNA 序列的第一个字母:

In[1]:=
Click for copyable input
Out[1]=

把一个短序列转换成一个 FASTA 格式,自动增加默认标头信息:

In[1]:=
Click for copyable input
Out[1]=

以下导出两个序列:

In[1]:=
Click for copyable input
Out[1]=

以下导出一对标头和序列:

In[1]:=
Click for copyable input
Out[1]=

使用参数导入上面的输出,给出原始标头和序列:

In[2]:=
Click for copyable input
Out[2]=

导入为一个规则列表:

In[3]:=
Click for copyable input
Out[3]=
版本 6 的新功能 | 版本 9 修改功能
New to Mathematica? Find your learning path »
Have a question? Ask support »