Transposableelements转座元件占真核生物基因组很大一部分,对转座元件的精确注释有助于研究其生物学特性,揭示基因组的进化过程。 Dfam数据库对多个真核生物的转座元件进行多序列比对,构建了转座元件的家族信息。官网如下 http:www。dfam。org 目前最新版本为Dfam2。0,对于每个家族,以DF编号唯一标识,示意图如下 Dfam同时还提供了一个隐马尔可夫模型,可以用于序列比对,下载地址如下 http:www。dfam。orgwebdownloadReleaseDfam2。0 和Dfam类似,还有一个DfamConsensus数据库,该数据库对基因组上的重复序列进行了详细分类,链接如下 http:www。dfamconsensus。orgpublicteclasses LowComplexity代表低复杂度序列,指的是富含某些碱基,比如富含AT的序列;TandemRepeat代表串联重复序列,motif长度为210bp的串联重复序列称为SimpleRepeat,也叫做简单串联重复序列或者为微卫星序列,motif长度在几百bp左右的串联重复序列,叫做Satellite,卫星DNA序列。 InterspersedRepeat代表散落在基因组多个地方的重复序列,比如转座子,假基因等序列。 RepeatMasker会利用这个数据库的数据去分析基因组上的重复序列。该数据库提供了重复元件的序列信息,可以下载。