Wolfram Research製品ご購入サービスとリソース会社概要その他のWolframサイト
Mathematica > インポートとエキスポート >
Import/Export フォーマット

FASTA (.fasta, .fa, .fsa, .mpfa)

MIME type: chemical/seq-aa-fasta, chemical/seq-na-fasta
FASTA分子生物学形式.
DNAと蛋白質の配列の保管と交換の標準形式.
プレーンテキスト形式.
核酸と蛋白質の配列を文字列で保管する.
メタ情報を表すために多くの表記方法が使われている.
1988年にWilliam Pearson とDavid LipmanによりFASTAシーケンスアライメントソフトウエアの一部として開発された.
  • ImportExport は一般的なFASTA ファイル形式すべてをサポートしている.
  • Import["file.fasta"]はDNAまたは蛋白質配列をFASTAファイルよりインポートする.
  • Export["file.fasta", expr] は配列または配列のリストをFASTA形式にエキスポートする.
  • Import["file.fasta"] はファイルに保管されている配列を表す文字列のリストを返す.
  • Export["file.fasta", str]はDNAの配列を表している文字列をFASTAにエキスポートする.
  • Export["file.fasta", {str1, str2, ...}]は複数のDNA配列をエキスポートする.
  • Import["file.fasta", elem]は指定された要素をFASTAファイルよりインポートする.
  • Import["file.fasta", {elem, suba, subb, ...}]は子要素をインポートする.
  • Import["file.fasta", {{elem1, elem2, ...}}]は複数の要素をインポートする.
  • インポート形式はImport["file", "FASTA"]あるいはImport["file", {"FASTA", elem, ...}]として指定できる.
  • Export["file.fasta", expr, elem]expr が要素,elem を指定するものとして扱うことにより,FASTAファイルを作成する.
  • Export["file.fasta", {expr1, expr2, ...}, {{elem1, elem2, ...}}]では,それぞれのexpri が対応するelemiを指定するものとして扱われる.
  • Export["file.fasta", expr, opt1->val1, ...]expr を特別の値を持つオプションが指定されたものとしてエキスポートする.
  • Export["file.fasta", {elem1->expr1, elem2->expr2, ...}, "Rules"]は規則を使い,エキスポートされる要素を指定する.
  • ImportExportについての一般的な情報は,関数ページを参照のこと.
"Elements"ファイル中の有効な要素とオプションのリスト
"Rules"要素とオプションのそれぞれの規則のリスト
"Options"オプション,属性,設定の規則
  • データを表現する要素:
"Header"ヘッダーラインそのもの
"Sequence"文字列のリストとしてのDNAまたは蛋白質の配列
"Plaintext"書式か化されたテキストとしての配列
  • Importはデフォルトでは"Sequence"をFASTA形式で使う.
  • 追加的データ要素:
"Data"リストでの"Header" と"Sequence" 要素の組合せ
"LabeledData"この保管されている個々の配列のための規則のリスト
  • ヘッダーラインメタ情報:
"Accession"それぞれの配列のNCBI アクセッション番号
"Description"それぞれの配列で位置説明のテキスト
"GenBankID"GenBankデータベース識別子
"Length"個々の配列の長さを表す整数のリスト
  • Mathematica は IUB/IUPAC規定を核酸の省略形に使う:
Aアデノシン
Cシチジン
Gグアニン
Tチミジン
Uウラシル
Rプリン (GまたはA)
Yピリミジン (TまたはC)
Kケトン (GまたはT)
Mアミノ基 (AまたはC)
S強い結合 (GまたはC)
W弱い結合 (AまたはT)
BCまたはGまたはT
DAまたはGまたはT
HAまたはCまたはT
VAまたはCまたはG
N任意の核酸 (AまたはCまたはGまたはT)
-不明な長さのギャップ
  • アミノ酸を表すコード:
Aアラニン(Ala)
Bアスパラギン酸 もしくは アスパラギン
Cシステイン(Cys)
Dアスパラギン酸(Asp)
Eグルタミン酸(Glu)
Fフェニルアラニン(Phe)
Gグリシン(Gly)
Hヒスチジン(His)
Iイソロイシン(Ile)
Kリシン(Lys)
Lロイシン(Leu)
Mメチオニン(Met)
Nアスパラギン(Asn)
Pプロリン(Pro)
Qグルタミン(Gln)
Rアルギニン(Arg)
Sセリン(Ser)
Tスレオニン(Thr)
Uセレノシステイン
Vバリン(Val)
Wトリプトファン(Trp)
Yチロシン(Tyr)
Zグルタミン酸 もしくは グルタミン
X任意アミノ酸
*翻訳終止
-不明な長さのギャップ
"HeaderFormat"Automaticヘッダーのフォーマットを指定
  • ImportはFASTA形式で使われるヘッダフォーマットの一般的な指定のものの大規模な組込みライブラリを使う.
  • "HeaderFormat"を文字列またはメタ情報要素のリストに設定することにより,任意のヘッダラインフォーマットをImportで指定することができる.
  • "HeaderFormat"->{"gi|", "DatabaseIndex", "|gb|", "Accession", "|", "Description"}はNCBI FASTAファイルの典型的な設定である.
  • 高度なExportオプション:
"LineWidth"70行の最大文字数