FASTA (.fasta,.fa,.fna,.fsa,.mpfa)

MIMEタイプ:chemical/seq-aa-fasta,chemical/seq-na-fasta
FASTA分子生物学形式.
DNAと蛋白質の配列の保管と交換の標準形式.
プレーンテキスト形式.
核酸と蛋白質の配列を文字列で保管する.
メタ情報を表すために多くの表記方法が使われている.
1988年にWilliam Pearson とDavid LipmanによりFASTAシーケンスアライメントソフトウエアの一部として開発された.
  • ImportExport は一般的なFASTA ファイル形式すべてをサポートしている.

ImportとExportImportとExport

  • Import["file.fasta"]はDNAまたは蛋白質配列をFASTAファイルよりインポートする.
  • Export["file.fasta",expr] は配列または配列のリストをFASTA形式にエキスポートする.
  • Import["file.fasta"]はファイルに保管されている配列を表す文字列のリストを返す.
  • Export["file.fasta",str]はDNAの配列を表している文字列をFASTAにエキスポートする.
  • Export["file.fasta",{str1,str2,}]は複数のDNA配列をエキスポートする.
  • Import["file.fasta",elem]は指定された要素をFASTAファイルよりインポートする.
  • Import["file.fasta",{elem,suba,subb,}]は子要素をインポートする.
  • Import["file.fasta",{{elem1,elem2,}}]は複数の要素をインポートする.
  • インポート形式はImport["file","FASTA"]あるいはImport["file",{"FASTA",elem,}]として指定できる.
  • Export["file.fasta",expr,elem]expr が要素,elem を指定するものとして扱うことにより,FASTAファイルを作成する.
  • Export["file.fasta",{expr1,expr2,},{{elem1,elem2,}}]では,それぞれの が対応するを指定するものとして扱われる.
  • Export["file.fasta",expr,opt1->val1,]expr を特別の値を持つオプションが指定されたものとしてエキスポートする.
  • Export["file.fasta",{elem1->expr1,elem2->expr2,},"Rules"]は規則を使い,エキスポートされる要素を指定する.
  • ImportExportについての一般的な情報は,関数ページを参照のこと.
  • ImportStringExportStringはFASTA形式をサポートしている.

要素要素

  • 一般的なImport要素:
  • "Elements"ファイル中の有効な要素とオプションのリスト
    "Rules"要素とオプションのそれぞれの規則のリスト
    "Options"オプション,属性,設定の規則
  • データ表現要素:
  • "Header"ヘッダラインそのもの
    "Sequence"文字列のリストとしてのDNAまたは蛋白質の配列
    "Plaintext"書式化されたテキストとしての配列
  • Importはデフォルトでは要素をFASTA形式で使う.
  • 追加的データ要素:
  • "Data"リストでの要素の組合せ
    "LabeledData"この保管されている個々の配列のための規則のリスト
  • ヘッダラインメタ情報:
  • "Accession"それぞれの配列のNCBI アクセッション番号
    "Description"それぞれの配列で位置説明のテキスト
    "GenBankID"GenBankデータベース識別子
    "Length"個々の配列の長さを表す整数のリスト
  • Wolfram言語はIUB/IUPAC規定を核酸の省略形に使う:
  • Aアデノシン
    Cシチジン
    Gグアニン
    Tチミジン
    Uウラシル
    Rプリン (GまたはA)
    Yピリミジン (TまたはC)
    Kケトン (GまたはT)
    Mアミノ基 (AまたはC)
    S強い結合 (GまたはC)
    W弱い結合 (AまたはT)
    BCまたはGまたはT
    DAまたはGまたはT
    HAまたはCまたはT
    VAまたはCまたはG
    N任意の核酸 (AまたはCまたはGまたはT)
    -不明な長さのギャップ
  • アミノ酸を表すコード:
  • Aアラニン(Ala)
    Bアスパラギン酸 もしくは アスパラギン
    Cシステイン(Cys)
    Dアスパラギン酸(Asp)
    Eグルタミン酸(Glu)
    Fフェニルアラニン(Phe)
    Gグリシン(Gly)
    Hヒスチジン(His)
    Iイソロイシン(Ile)
    Kリシン(Lys)
    Lロイシン(Leu)
    Mメチオニン(Met)
    Nアスパラギン(Asn)
    Pプロリン(Pro)
    Qグルタミン(Gln)
    Rアルギニン(Arg)
    Sセリン(Ser)
    Tスレオニン(Thr)
    Uセレノシステイン
    Vバリン(Val)
    Wトリプトファン(Trp)
    Yチロシン(Tyr)
    Zグルタミン酸 もしくは グルタミン
    X任意アミノ酸
    *翻訳終止
    -不明な長さのギャップ

オプションオプション

  • Importオプション:
  • "HeaderFormat"Automaticヘッダのフォーマットを指定
    "ToUpperCase"True配列を大文字にするかどうか
  • ImportはFASTA形式で使われるヘッダフォーマットの一般的な指定のものの大規模な組込みライブラリを使う.
  • を文字列またはメタ情報要素のリストに設定することにより,任意のヘッダラインフォーマットをImportで指定することができる.
  • はNCBI FASTAファイルの典型的な設定である.
  • 高度なExportオプション:
  • "LineWidth"70行の最大文字数
    "ToUpperCase"True配列を大文字にするかどうか

例題例題すべて開くすべて閉じる

  (7)  (7)

サンプルのFASTAファイルからヘッダラインを直接読む:

In[1]:=
Click for copyable input
Out[1]=

アクセッション文字列を抽出する:

In[1]:=
Click for copyable input
Out[1]=

GenBankデータベースキーと説明テキストをヘッダラインより解析する:

In[1]:=
Click for copyable input
Out[1]=

DNA配列の最初の方を読む:

In[1]:=
Click for copyable input
Out[1]=

短い配列をFASTAを形式に変換して自動的にデフォルトのヘッダ情報を加える:

In[1]:=
Click for copyable input
Out[1]=

2つの配列をエキスポートする:

In[1]:=
Click for copyable input
Out[1]=

ヘッダと配列のペアをエキスポートする:

In[1]:=
Click for copyable input
Out[1]=

"Data"要素を使い,前の結果をインポートし,そのままのヘッダと配列を与える:

In[2]:=
Click for copyable input
Out[2]=

規則のリストをインポートする:

In[3]:=
Click for copyable input
Out[3]=
2007年に導入
(6.0)
| 2012年に修正
(9.0)