NCBI (National Center for Biotechnology Information) 由美国国立卫生研究院(NIH)于1988年创办,创办NCBI的初衷是为了给分子生物学家提供一个信息储存和处理的系统。除了建有GenBank核酸序列数据库(该数据库的数据资源来自全球几大DNA数据库,其中包括日本DNA数据库DDBJ、欧洲分子生物学实验室数据库EMBL以及其它几个知名科研机构)之外,NCBI还可以提供众多功能强大的数据检索与分析工具。其中NCBI提供的BLAST工具相信访问过NCBI的每个科学研究人员都用过该序列比对工具,但是在使用BLAST工具进行序列比对时,往往都要选择一个Database进行比对,那如何选择呢?
BLAST工具一:Nucleotide BLAST
Nucleotide BLAST是核苷酸与核苷酸比对工具,进行比对时,选择Standard database中具体哪一种database进行比对呢?每种database都包含哪些序列信息呢?
- Nucleotide collection(nr/nt)
Database描述:包含了除EST,STS,GSS,WGS,TSA,patent,HTGS以及长度超过100Mb序列以外的包含在GenBank,EMBL,DDBJ,PDB,RefSeq中的所有序列。
使用环境:未知序列,在不清楚序列物种,序列来源,序列类型的情况下可优先考虑
序列类型:mixed DNA
更新时间:2019/10/03
序列数量:55908648
- Reference RNA sequences(refseq_rna)
Database描述:包含了refseq数据库中的NM_,NR_,XM_,XR_序列记录,区别于Refseq mRNA。
使用环境:知道序列对应的基因名称,可以考虑选择该Database进行序列比对
序列类型:cDNA
更新时间:2019/09/26
序列数量:33713514
- RefSeq Representative Genome Database
Database描述:该数据库以最小冗余度建立,包含了从NCBI Refseq基因组数据库中选择的参考和代表性基因组,其结果是该数据库中的基因组是NCBI提供的质量好的基因组序列信息。对于真核生物,每个生物仅包含一个基因组。但是,对于其他生物,可能包括来自同一生物(例如大肠杆菌)的不同分离株的多个基因组。
使用环境:判断序列大概有几个外显子组成,或者某段序列在基因组中的位置,方向等
序列类型:Genomic
更新时间:2015/09/30
序列数量:13454918
- RefSeq Genome Database(refseq_genomes)
Database描述:包含了所有分类物种的NCBI Refseq基因组序列。它仅包含顶层(top-level)序列,即仅包含代表基因组任何给定部分的最长序列。虽然包含组装的染色体序列,但用于组装此染色体序列的任何较短序列,例如重叠群(contigs)不包括在内。
使用环境:判断序列大概有几个外显子组成,或者某段序列在基因组中的位置,方向等
序列类型:Genomic
更新时间:2016/12/14
序列数量:33120025
BLAST工具二:Primer-BLAST
对于Standard database的介绍就到这里,NCBI中还有一类特殊比对工具,这里主要介绍Primer-BLAST比对工具中的各Database的区别。
- nr(Nucleotide collection)
Database描述:包含了除EST,STS,GSS,WGS,TSA,patent,HTGS以及长度超过100Mb序列以外的包含在GenBank,EMBL,DDBJ,PDB,RefSeq中的所有序列。
2、Refseq mRNA
Database描述:只包含了NCBI Refseq 数据库中编码蛋白质的mRNA。.
3、Refseq RNA
Database描述:包含了NCBI Refseq 数据库中编码蛋白质的mRNA和非编码RNA。
Refseq mRNA和Refseq RNA区别:举例NCBI human GLYR1(Gene ID: 84656)有5个NM号,6个NR号,7个XM号,4个XR号。在使用AGTCGTCTCAACCTGCGACAT和GCCGCTAAGATCACCAACATC这对qPCR引物进行比对,结果为:
如果选择Refseq mRNA比对,只能比对到5个NM号和7个XM号;
如果选择Refseq RNA比对,比对到5个NM号,6个NR号,7个XM号,4个XR号。
4、Refseq representative genomes
Database描述:该数据库以最小冗余度建立,包含了从NCBI Refseq基因组数据库中选择的参考和代表性基因组,其结果是该数据库中的基因组是NCBI提供的质量好的基因组序列信息。
- Genomes for selected organisms (primary reference assembly only)
Database描述:包含了来自主要染色体装配的完整或接近完整的基因组序列,可以选择限定的物种有:apis mellifera,bos taurus ,danio rerio,dog,drosophila melanogaster,gallus gallus,human,mouse,pan troglodytes,pig,rat。
Refseq representative genomes与Genomes for selected organisms (primary reference assembly only)的区别:前者完全包含后者,后者Genomes for selected organisms (primary reference assembly only)不包含替代基因组,因此比Refseq representative genomes数据库具有更少的冗余。如果您不考虑替代基因组或者线粒体序列,建议在进行qPCR引物特异性比对时推荐使用Genomes for selected organisms (primary reference assembly only)。
总结:选择正确的,合适的Database能够让我们非常容易的分析结果,另外,Database选择不合适可能会导致错误的判读哦,后面大家在使用BLAST工具时如果碰到此种情况,建议更换Database重新比对试试。