FASTQ (.fastq,.fq)

予備知識

    • MIMEタイプ:chemical/seq-na-fastq
    • FASTQ分子生物学形式.
    • ベースクオリティ付きDNA配列の保管と交換の標準形式.
    • プレーンテキスト形式.
    • 核酸の配列と塩基品質を文字列で保管する.
    • メタ情報を表すために多くの表記方法が使われている.

ImportとExport

  • Import["file.fastq"]はDNA配列をFASTQファイルからインポートする.
  • Export["file.fastq",expr]は配列または配列のリストをFASTQ形式にエキスポートする.
  • Import["file.fastq"]はファイルに保管されている配列を表す文字列のリストを返す.
  • Export["file.fastq",{seq,qual}]はDNAの配列を表している文字列と塩基品質をFASTAにエキスポートする.
  • Export["file.fastq",{{seq1,seq2,},{qual1,qual2,}}]は複数のDNA配列と塩基品質をエキスポートする.
  • Import["file.fastq",elem]はFASTQファイルから指定の要素をインポートする.
  • Import["file.fastq",{{elem1,elem2,}}]は複数の要素をインポートする.
  • インポート形式はImport["file","FASTQ"]またはImport["file",{"FASTQ",elem,}]で指定できる.
  • Export["file.fastq",expr,elem]expr が要素 elem を指定してるとしてFASTQファイルを作成する.
  • Export["file.fastq",{expr1,expr2,},{{elem1,elem2,}}]は各 expri が対応する elemi を指定しているとして扱う.
  • Export["file.fastq",expr,opt1->val1,]は指定の値を持つ指定のオプション要素で expr をエキスポートする.
  • Export["file.fastq",{elem1->expr1,elem2->expr2,},"Rules"]は規則を使ってエキスポートする要素を指定する.
  • ImportExportについての一般的な全情報は,関数ページを参照のこと.
  • ImportStringExportStringはFASTQ形式をサポートする.
  • 一般的な情報は,以下の関数ページを参照のこと.
  • Import, Exportファイルからインポートする,あるいはファイルへエキスポートする
    CloudImport, CloudExportクラウドオブジェクトからインポートする,あるいはクラウドオブジェクトへエキスポートする
    ImportString, ExportString文字列からインポートする,あるいは文字列へエキスポートする
    ImportByteArray, ExportByteArrayバイト配列からインポートする,あるいはバイト配列へエキスポートする

Import要素

  • 一般的なImport要素:
  • "Elements" ファイル中の有効な要素とオプションのリスト
    "Summary"ファイルの概要
    "Rules"使用可能なすべての要素の規則のリスト
  • データ表現要素:
  • "Header"生のヘッダ行
    "Sequence"文字列のリストで表されたDNA配列
    "Qualities"文字列のリストで表された塩基品質
  • ImportはデフォルトではFASTQ形式に"Sequence"要素を使用する.
  • その他のデータ要素:
  • "Data""Header""Sequence""Qualities"要素がまとめられたリスト
    "LabeledData"ファイルに保管された各配列の規則のリスト
  • Wolfram言語は核酸に標準IUB/IUPAC省略形を使用する:
  • Aアデノシン
    Cシチジン
    Gグアニン
    Tチミジン
    Uウラシル
    Rプリン(GまたはA)
    Yピリミジン(TまたはC)
    Kケトン(GまたはT)
    Mアミノ基(AまたはC)
    S強い相互作用(GまたはC)
    W弱い相互作用(AまたはT)
    BCまたはGまたはT
    DAまたはGまたはT
    HAまたはCまたはT
    VAまたはCまたはG
    N任意の核酸(AまたはCまたはGまたはT)
    -不明な長さのギャップ
  • Wolfram言語は塩基品質にASCII文字を使用する.

オプション

  • 高度なExportオプション:
  • "LineWidth"701行あたりの最大文字数

例題

  (6)

サンプルのFASTQファイルからヘッダラインを直接読む:

DNA配列を読む:

DNA配列と塩基品質を読む:

短い配列にデフォルトのヘッダ情報を加えて,FASTQに変換する:

2つの配列をエキスポートする:

ヘッダと配列のペアをエキスポートする:

"Data"要素を使って前の出力をインポートすると,生のヘッダと配列が得られる:

規則のリストをインポートする: