FASTA (.fasta,.fa,.fna,.fsa,.mpfa)

予備知識

    • MIMEタイプ:chemical/seq-aa-fasta,chemical/seq-na-fasta
    • FASTA分子生物学形式.
    • DNAと蛋白質の配列の保管と交換の標準形式.
    • プレーンテキスト形式.
    • 核酸と蛋白質の配列を文字列で保管する.
    • メタ情報を表すために多くの表記方法が使われている.
    • 1988年にWilliam Pearson とDavid LipmanによりFASTAシーケンスアライメントソフトウエアの一部として開発された.

ImportとExport

  • Import["file.fasta"]はDNAまたは蛋白質配列をFASTAファイルよりインポートする.
  • Export["file.fasta",expr] は配列または配列のリストをFASTA形式にエキスポートする.
  • Import["file.fasta"]はファイルに保管されている配列を表す文字列のリストを返す.
  • Export["file.fasta",str]はDNAの配列を表している文字列をFASTAにエキスポートする.
  • Export["file.fasta",{str1,str2,}]は複数のDNA配列をエキスポートする.
  • Import["file.fasta",elem]は指定された要素をFASTAファイルよりインポートする.
  • Import["file.fasta",{elem,suba,subb,}]はサブ要素をインポートする.
  • Import["file.fasta",{{elem1,elem2,}}]は複数の要素をインポートする.
  • インポート形式はImport["file","FASTA"]あるいはImport["file",{"FASTA",elem,}]として指定できる.
  • Export["file.fasta",expr,elem]expr が要素,elem を指定するものとして扱うことにより,FASTAファイルを作成する.
  • Export["file.fasta",{expr1,expr2,},{{elem1,elem2,}}]では,それぞれのexpri が対応するelemiを指定するものとして扱われる.
  • Export["file.fasta",expr,opt1->val1,]expr を特別の値を持つオプションが指定されたものとしてエキスポートする.
  • Export["file.fasta",{elem1->expr1,elem2->expr2,},"Rules"]は規則を使い,エキスポートされる要素を指定する.
  • 一般的な情報は,以下の関数ページを参照のこと.
  • Import, Exportファイルからインポートする,あるいはファイルへエキスポートする
    CloudImport, CloudExportクラウドオブジェクトからインポートする,あるいはクラウドオブジェクトへエキスポートする
    ImportString, ExportString文字列からインポートする,あるいは文字列へエキスポートする
    ImportByteArray, ExportByteArrayバイト配列からインポートする,あるいはバイト配列へエキスポートする

Import要素

  • 一般的なImport要素:
  • "Elements" ファイル中の有効な要素とオプションのリスト
    "Summary"ファイルの概要
    "Rules"使用可能なすべての要素の規則のリスト
  • データ表現要素:
  • "Header"ヘッダラインそのもの
    "Sequence"文字列のリストとしてのDNAまたは蛋白質の配列
    "Plaintext"書式化されたテキストとしての配列
  • Importはデフォルトでは"Sequence"要素をFASTA形式で使う.
  • 追加的データ要素:
  • "Data"リストでの"Header""Sequence"要素の組合せ
    "LabeledData"この保管されている個々の配列のための規則のリスト
  • ヘッダラインメタ情報:
  • "Accession"それぞれの配列のNCBI アクセッション番号
    "Description"それぞれの配列で位置説明のテキスト
    "GenBankID"GenBankデータベース識別子
    "Length"個々の配列の長さを表す整数のリスト
  • Wolfram言語はIUB/IUPAC規定を核酸の省略形に使う:
  • Aアデノシン
    Cシチジン
    Gグアニン
    Tチミジン
    Uウラシル
    Rプリン (GまたはA)
    Yピリミジン (TまたはC)
    Kケトン (GまたはT)
    Mアミノ基 (AまたはC)
    S強い結合 (GまたはC)
    W弱い結合 (AまたはT)
    BCまたはGまたはT
    DAまたはGまたはT
    HAまたはCまたはT
    VAまたはCまたはG
    N任意の核酸 (AまたはCまたはGまたはT)
    -不明な長さのギャップ
  • アミノ酸を表すコード:
  • Aアラニン(Ala)
    Bアスパラギン酸 もしくは アスパラギン
    Cシステイン(Cys)
    Dアスパラギン酸(Asp)
    Eグルタミン酸(Glu)
    Fフェニルアラニン(Phe)
    Gグリシン(Gly)
    Hヒスチジン(His)
    Iイソロイシン(Ile)
    Kリシン(Lys)
    Lロイシン(Leu)
    Mメチオニン(Met)
    Nアスパラギン(Asn)
    Pプロリン(Pro)
    Qグルタミン(Gln)
    Rアルギニン(Arg)
    Sセリン(Ser)
    Tスレオニン(Thr)
    Uセレノシステイン
    Vバリン(Val)
    Wトリプトファン(Trp)
    Yチロシン(Tyr)
    Zグルタミン酸 もしくは グルタミン
    X任意アミノ酸
    *翻訳終止
    -不明な長さのギャップ

オプション

  • Importオプション:
  • "HeaderFormat"Automaticヘッダのフォーマットを指定
    "ToUpperCase"True配列を大文字にするかどうか
  • ImportはFASTA形式で使われるヘッダフォーマットの一般的な指定のものの大規模な組込みライブラリを使う.
  • "HeaderFormat"を文字列またはメタ情報要素のリストに設定することにより,任意のヘッダラインフォーマットをImportで指定することができる.
  • "HeaderFormat"->{"gi|","DatabaseIndex","|gb|","Accession","|","Description"}はNCBI FASTAファイルの典型的な設定である.
  • 高度なExportオプション:
  • "LineWidth"70行の最大文字数
    "ToUpperCase"True配列を大文字にするかどうか

例題

  (7)

サンプルのFASTAファイルからヘッダラインを直接読む:

アクセッション文字列を抽出する:

GenBankデータベースキーと説明テキストをヘッダラインより解析する:

DNA配列の最初の方を読む:

短い配列をFASTAを形式に変換して自動的にデフォルトのヘッダ情報を加える:

2つの配列をエキスポートする:

ヘッダと配列のペアをエキスポートする:

"Data"要素を使い,前の結果をインポートし,そのままのヘッダと配列を与える:

規則のリストをインポートする: