生物分子序列
BioSequence 是具有链式一级结构的生物分子基于字符串的表示. 这类生物分子包括 DNA、RNA、肽和其他序列,其在维持遗传信息和承担细胞工作中起着重要的生物学角色. 此表示由识别、比较、音译和进一步的操作函数所支持. 简并 (Degenerate) 的字母处理也集成在这些操作中. 与实体系统的交互允许分析基因和蛋白序列以及自定义序列和其行为的基本定义. BioSequence 与现存的 String 功能相集成,以实现新颖的生物分子序列处理.
生物序列表示
BioSequence — 链生物分子(例如 DNA)的基于字符串的表示
Molecule — 生物分子序列的分子表示
BioSequenceQ — 测试有效的生物分子序列
生物序列转换
BioSequenceComplement — 获取 DNA 序列 (A↔T, C↔G) 的互补
BioSequenceReverseComplement — 反向和补充 DNA 序列
BioSequenceTranscribe — 将 DNA 序列转录为 RNA 或反向
BioSequenceTranslate — 将 DNA/RNA 序列翻译为肽
BioSequenceBackTranslateList — 将肽反向翻译为 DNA 序列
BioSequenceInstances — 生成已解析通配符(例如,S、N)的实例列表
RandomInstance — 从带有通配符的序列中生成随机实例的列表
生物序列可视化
BioSequencePlot — 带有自动布局的二维示意图
生物序列比较
SequenceAlignment — 确定两个序列间的最佳得分比对
Diff — 计算两个序列的差
SmithWatermanSimilarity — 计算最佳局部比对中的一元匹配
NeedlemanWunschSimilarity — 计算最佳全局比对中的一元匹配
EditDistance ▪ DamerauLevenshteinDistance ▪ HammingDistance
SimilarityRules — 指定对元素对的相似度如何进行评分
生物序列计算
LongestCommonSequence — 查找最长的共享毗连或不相交序列
LongestCommonSequencePositions — 查找最长公共序列的位置
LongestCommonSubsequence — 查找最长共享毗连序列
LongestCommonSubsequencePositions — 查找最长公共子序列的位置
Subsequences — 生成给定序列的所有子序列
作为字符串的生物序列
StringLength — 生物序列字符串中的字母数
StringPart ▪ StringTake ▪ StringDrop ▪ StringInsert
StringReverse — 反转生物序列字符串中的字母
StringRotateLeft ▪ StringRotateRight
StringPadLeft ▪ StringPadRight
StringPartition ▪ StringJoin ▪ StringSplit
StringPosition — 生物序列中子字符串(包括通配符)的位置
StringCases — 生物序列中字符串模式的所有情况
StringCount — 计算生物序列中字符串模式出现的次数
StringContainsQ ▪ StringFreeQ ▪ StringMatchQ
StringReplace — 替换生物序列中子字符串或字符串模式
StringReplacePart — 替换生物序列中指定位置的子字符串
生物序列修改
BioSequenceModify — 以各种方式修改生物序列
生物序列实体
Gene— 已知的人类基因和其他基因
Protein— 已知的人类蛋白质和其他蛋白质
序列类型和遗传密码
BioSequenceType— 生物序列的类型("DNA"、"RNA"、"Peptide"、......)
GeneticTranslationTable— 核酸与氨基酸之间的翻译表