Wolfram 语言与系统参考资料中心

FASTA (.fasta, .fa, .fna, .fsa, .mpfa)

参见
- 函数
- Import
- Export
- CloudExport
- CloudImport
- 格式
- FASTQ
- MOL
- PDB
- XYZ
- SFF
相关指南
- 参见
  - 函数
  - Import
  - Export
  - CloudExport
  - CloudImport
  - 格式
  - FASTQ
  - MOL
  - PDB
  - XYZ
  - SFF
- 相关指南

FASTA (.fasta, .fa, .fna, .fsa, .mpfa)

Import 与 Export 支持 FASTA 文件格式的所有常见变体.

背景

- MIME 类型：chemical/seq-aa-fasta, chemical/seq-na-fasta
- FASTA 分子生物学格式.
- 用于存储和交换 DNA 和蛋白序列的标准格式.
- 纯文本格式.
- 把核酸或蛋白序列存储为字符串.
- 使用各种常规代表元信息.
- 由 William Pearson 和 David Lipman 于1988年开发，作为 FASTA 序列排比软件的一部分.

Import 与 Export

Import["file.fasta"] 从一个 FASTA 文件中导入 DNA 或蛋白质序列.
Export["file.fasta",expr] 把一个序列或序列列表导出至 FASTA 格式.
Import["file.fasta"] 返回一个代表存储在文件中的序列的字符串列表.
Export["file.fasta",str] 把一个代表 DNA 序列的字符字符串导出至 FASTA.
Export["file.fasta",{str₁,str₂,…}] 导出多个 DNA 序列.
Import["file.fasta",elem] 从一个 FASTA 文件中导入指定的参数.
Import["file.fasta",{elem,sub_a,sub_b,…}] 导入一个子参数.
Import["file.fasta",{{elem₁,elem₂,…}}] 导入多个参数.
导入格式可以用 Import["file","FASTA"] 或 Import["file",{"FASTA",elem,…}] 指定.
Export["file.fasta",expr,elem] 通过把 expr 作为指定参数 elem 创建一个 FASTA 文件.
Export["file.fasta",{expr₁,expr₂,…},{{elem₁,elem₂,…}}] 把每一个 expr_i 指定为相应的 elem_i.
Export["file.fasta",expr,opt₁->val₁,…] 导出具有指定值的指定选项参数的 expr.
Export["file.fasta",{elem₁->expr₁,elem₂->expr₂,…},"Rules"] 使用规则指定要导出的参数.
请到以下参考页面了解完整的基本信息：

	Import, Export	从文件导入或导出到文件
	CloudImport, CloudExport	从云对象导入或导出到云对象
	ImportString, ExportString	从字符串导入或导出到字符串
	ImportByteArray, ExportByteArray	从字节数组导入或导出到字节数组

导入参数

Import 的通用参数：
"Elements" 该文件可用的参数和选项列表

"Summary" 文件摘要

"Rules" 所有可用参数的规则列表
表示数据的参数：
"Header" 原始标头行

"Sequence" 字符串列表形式的 DNA 或蛋白序列

"Plaintext" 作为格式化文本的序列
对于 FASTA 格式，默认情况下，Import 使用"Sequence"参数.
其他数据参数：
"Data" "Header"与"Sequence"参数组成的列表

"LabeledData" 用于每个存储在文件中的序列的规则列表
标头行元信息：

	"Accession"	每个序列的 NCBI 登录号
	"Description"	每个序列基因座描述文本
	"GenBankID"	GenBank 数据库标识符
	"Length"	整数列表，表示每个序列的长度

Wolfram 语言对核酸使用标准的 IUB/IUPAC 缩写：

	A	腺苷（adenosine）
	C	胞苷（cytidine）
	G	鸟嘌呤（guanine）
	T	胸苷（thymidine）
	U	尿嘧啶（uracil）
	R	嘌呤（purine）（G 或 A）
	Y	嘧啶（pyrimidine）（T 或 C）
	K	酮（ketone）（G 或 T）
	M	氨基酸组（amino group）（A 或 C）
	S	强相互作用（strong interaction）（G 或 C）
	W	弱相互作用（weak interaction）（A 或 T）
	B	C 或 G 或 T
	D	A 或 G 或 T
	H	A 或 C 或 T
	V	A 或 C 或 G
	N	任何核酸（nucleic acid）（A 或 C 或 G 或 T）
	-	不定长度的间距

表示氨基酸的代码：

	A	丙氨酸（alanine）（Ala）
	B	天门冬氨酸（aspartic acid）或天冬酰胺（ asparagine）
	C	半胱氨酸（cysteine）（Cys）
	D	天门冬氨酸（aspartic acid）（Asp）
	E	谷氨酸（glutamic acid）（Glu）
	F	苯丙氨酸（phenylalanine）（Phe）
	G	甘氨酸（glycine）（Gly）
	H	组氨酸（histidine）（His）
	I	异亮氨酸（isoleucine）（Ile）
	K	赖氨酸（lysine）（Lys）
	L	亮氨酸（leucine）（Leu）
	M	蛋氨酸（methionine）（Met）
	N	天门冬酰胺（asparagine）（Asn）
	P	脯氨酸（proline）（Pro）
	Q	谷氨酰胺（glutamine）（Gln）
	R	精氨酸（arginine）（Arg）
	S	丝氨酸（serine）（Ser）
	T	苏氨酸（threonine）（Thr）
	U	硒代半胱氨酸（selenocysteine）
	V	缬氨酸（valine）（Val）
	W	色氨酸（tryptophan）（Trp）
	Y	酪氨酸（tyrosine）（Tyr）
	Z	谷氨酸（glutamic acid）或谷氨酰胺（glutamine）
	X	任何氨基酸（amino acid）
	*	翻译（translation）停止
	-	不定长度的间距

选项

Import 选项：
"HeaderFormat" Automatic 指定标头的格式

"ToUpperCase" True 是否使序列为大写
Import 使用 FASTA 格式的常见变体中标头格式规范中的大型内置库.
通过把"HeaderFormat"设置为文字字符串列表和元信息参数名称，任何标头行格式可以在 Import 中指定.
"HeaderFormat"->{"gi|","DatabaseIndex","|gb|","Accession","|","Description"} 是 NCBI FASTA 文件的典型设置.
高级的 Export 选项：
"LineWidth" 70 一行中的最大字符数

"ToUpperCase" True 是否使序列为大写

范例

基本范例 (7)

以下从一个样本 FASTA 文件中读取原始标头行：

提取登录号字符串：

解析 GenBank 数据库密钥以及标头行的描述字符串：

读取 DNA 序列的第一个字母：

把一个短序列转换成一个 FASTA 格式，自动增加默认标头信息：

以下导出两个序列：

以下导出一对标头和序列：

使用"Data"参数导入上面的输出，给出原始标头和序列：

导入为一个规则列表：

Top

更多学习资源

技术支持

Wolfram 解决方案

Wolfram 的教育解决方案

开始

提高你的技能

与我们合作

成人教育计划

青少年教育计划

欢迎阅读

FASTA (.fasta, .fa, .fna, .fsa, .mpfa)

背景

Import 与 Export

导入参数

选项

范例

基本范例 (7)

	"Elements"	该文件可用的参数和选项列表
	"Summary"	文件摘要
	"Rules"	所有可用参数的规则列表

	"Header"	原始标头行
	"Sequence"	字符串列表形式的 DNA 或蛋白序列
	"Plaintext"	作为格式化文本的序列

	"Data"	"Header"与"Sequence"参数组成的列表
	"LabeledData"	用于每个存储在文件中的序列的规则列表

	"HeaderFormat"	Automatic	指定标头的格式
	"ToUpperCase"	True	是否使序列为大写

FASTA (.fasta, .fa, .fna, .fsa, .mpfa)

背景

Import 与 Export

导入参数

选项

范例

基本范例 (7)

参见

相关指南

历史