GenBank (.gb,.gbk)

予備知識

    • MIMEタイプ:chemical/seq-na-genbank
    • GenBank分子生物学形式.US NCBI(National Center for Biotechnology Information;全米バイオテクノロジー情報センター)データベースのネイティブ形式.
    • 注釈付きDNA配列の保管と交換のための標準形式.
    • テキスト形式.
    • 1982年にNIH GenBankプロジェクトの一部として開発された.

ImportとExport

  • Import["file.gb"]はDNA配列あるいはタンパク質配列をGenBankファイルからインポートする.
  • Import["file.gb"]はファイル内に保持された配列を表す文字列を返す.
  • Import["file.gb",elem]は指定された要素をGenBankファイルからインポートする.
  • Import["file.gb",{elem,suba,subb,}]はサブ要素をインポートする.
  • Import["file.gb",{{elem1,elem2,}}]は複数の要素をインポートする.
  • インポートの形式はImport["file","GenBank"] あるいはImport["file",{"GenBank",elem,}]で指定することができる.
  • ImportExportについての完全な一般情報は関数ページを参照のこと.
  • ImportStringはGenBank形式をサポートする.
  • 一般的な情報は,以下の関数ページを参照のこと.
  • Importファイルからインポートする
    CloudImportクラウドオブジェクトからインポートする
    ImportString文字列からファイルからインポートする
    ImportByteArrayバイト配列からインポートする

Import要素

  • 一般的なImport要素:
  • "Elements" ファイル中の有効な要素とオプションのリスト
    "Summary"ファイルの概要
    "Rules"使用可能なすべての要素の規則のリスト
  • データ表現要素:
  • "Features"すべての処理注釈情報(規則のリストとして与えられる)
    "Sequence"文字列としてのDNA配列あるいはタンパク質配列
    "Plaintext"フォーマットされたテキストとしての配列
    "Reference"関連する参考文献のリスト
    "Comment"配列に関するさまざまなコメント
  • Import"Sequence"要素をデフォルトでGenBank形式に使う.
  • メタ情報要素:
  • "Locus"ローカスの記述
    "Definition"GenBankファイルタイトル
    "NCBIAccession"NCBI Accession Number
    "NCBIAccessionVersion"バージョン付きNCBI Accession Number
    "Accession"配列についての主要受入番号
    "GenBankID"GenBankデータベース識別子
    "Project"解読計画の名前
    "Keywords"キーワードのリスト
    "Organism"ファイルで参照されているSource Organism
    "Segment"配列セグメント(複数のGenBankファイルに分割されている場合)
    "Source"由来生物
    "Reference"書誌参照(規則のリストとして与えられる)
    "Comments"ファイルに保持されたコメント(文字列のリストとして与えられる)

例題

  (6)

以下はサンプルのGenBankファイルで使用可能な要素を返す:

ファイルタイトル:

基本的なローカス情報:

Source Organismについての情報をインポートする:

Accession NumberとGenBank IDを抽出する:

DNA配列の最初の文字を読み取る:

列のテキストバージョンをインポートする:

参考文献のリストを読み込み,最初の項目を抽出する: