SFF (.sff)

背景

    • MIME 类型:chemical/seq-na-sff
    • SFF 分子生物学的格式.
    • 用于存储和交换具有基本特性的 DNA 序列的标准 flowgram 格式.
    • 常被用于 454 生命科学 DNA 焦磷酸测序技术平台(Life Sciences DNA pyrosequencing platform).
    • 二进制格式.
    • 把核酸序列和基质分别存储为字符字符串和列表.
    • 在文件中存储关于序列运行的元信息.

Import 与 Export

  • Import["file.sff"] 从 SFF 文件中导入 DNA 序列数据.
  • Import["file.sff"] 返回一个存储在文件中表示序列数据的数组.
  • Import["file.sff",elem] 从 SFF 文件中导入指定的参数.
  • Import["file.sff",{{elem1,elem2,}}] 导入多个参数.
  • 导入格式可以用 Import["file","SFF"]Import["file",{"SFF",elem,}] 指定.
  • 请到以下参考页面了解完整的基本信息:
  • Import从文件导入
    CloudImport从云对象导入
    ImportString从字符串导入
    ImportByteArray从字节数组导入

Import 参数

  • Import 的通用参数:
  • "Elements" 该文件可用的参数和选项列表
    "Summary"文件摘要
    "Rules"所有可用参数的规则列表
  • 文件元数据:
  • "Header"以规则列表形式给出的文件标头
    "XMLManifest"XML 显现为一个 XML 对象
  • 读取每个序列的数据表示参数:
  • "Sequence"以字符串列表表示的 DNA 序列
    "Qualities"以列表的列表形式表示的基本特性
    "FlowgramValues"以列表的列表形式表示的 flowgram 值
    "FlowIndexPerBase"以列表的列表形式表示的流索引
    "ClipQualities"质量修剪序列的坐标,表示为一数组
    "ClipAdapter"适配器修剪序列的坐标,表示为一数组
    "ReadName"读取的名称,表示为字符串的列表
  • 其他数据参数:
  • "Data"所有数据表示参数组合成一列表形式
    "LabeledData"存储在文件中每个序列的规则列表
  • 对于 SFF 格式,默认情况下,Import 使用 "Data" 参数.
  • 对于核酸,Wolfram 语言使用标准的 IUB/IUPAC 缩写:
  • A腺苷
    C胞苷
    G鸟嘌呤
    T胸苷
    U尿嘧啶
    R嘌呤 (G 或 A)
    Y嘧啶 (T 或 C)
    K(G 或 T)
    M氨基酸组 (A 或 C)
    S强相互作用 (G 或 C)
    W弱相互作用 (A 或 T)
    BC 或 G 或 T
    DA 或 G 或 T
    HA 或 C 或 T
    VA 或 C 或 G
    N任何核酸(A 或 C 或 G 或 T)
    -不定长度的间隔
  • Wolfram 语言对于基质使用整数.

范例

打开所有单元关闭所有单元

基本范例  (5)

从样本 SFF 文件中读取文件标头:

读取 DNA 序列:

读取具有质、flowgram 等值的 DNA 序列:

导入文件中的读名:

根据名字恢复序列:

恢复文件中序列运行的 XML 表示并提取分析名称:

范围  (3)

根据质修剪坐标修剪序列:

把 SFF 文件转换为 FASTQ 文件,对质分加 64 以便字符编码:

绘制 flowgram 密度值: