NCBI 中Gl 我在查询NCBI,发现查询的结果中有类似这样的标号:NP_001044802.1 GI:115441045,

来源:学生作业帮助网 编辑:作业帮 时间:2024/05/05 16:57:22
NCBI 中Gl 我在查询NCBI,发现查询的结果中有类似这样的标号:NP_001044802.1 GI:115441045,

NCBI 中Gl 我在查询NCBI,发现查询的结果中有类似这样的标号:NP_001044802.1 GI:115441045,
NCBI 中Gl
我在查询NCBI,发现查询的结果中有类似这样的标号:NP_001044802.1 GI:115441045,

NCBI 中Gl 我在查询NCBI,发现查询的结果中有类似这样的标号:NP_001044802.1 GI:115441045,
NP_001044802.1是登录号;115441045是叫GI号.从你自己例子里体现了两者的一个基本差别:GI号完全是数字,登录号是字母与数字的组合,通常字母代表一定的含义.关于gi与登录号的区别可以参考下面给出的链接.
这里主要讨论一下登录号的样式:
1)用户递交序列号,这些登录号通常不含下划线.
首先我们讨论一下locus name,它不是登录号,但在NCBI的发展中占据一定的地位.在NCBI的genbank记录中,locus关键字下包括许多信息,其中之一就是locus name.位点名称设计之初是用来帮助研究人员归并相似序列.名称命名规则是[A-Z][0-9]{1,5}.首字母通常为物种名的首字母.locus概念最适合基因突变数据的收集,所以突变数据的最初都是按照locus概念设计的.
随着Genbank数据的扩大,6个数据明显不能适应数据的增长,于是增加到8位,也就是登录号,其编码规则[A-Z][A-Z][0-9]{1,6}.前两个字母是物种拉丁名首字母(不是很确定),后面是6个序号.因此登录号也就代替了locus名称.
2)RefSeq序列
由于Genbank开埠之初,并不控制序列质量,所以会有许多的冗余.因此NCBI就通过利用计算机算法把一致的序列归并在一起,这些人工生成的序列都是用类似NP_xxxxx的格式编码,严格的编码规则是[ANXYZ][CPGMPRTWZS]_([A-Z]{1,4})?[0-9]{1,9}.下面的登录号样例就是用这个正则表达式提取的,供参考.
AC_123456
AP_123456
NC_123456
NG_123456
NM_123456
NM_123456789
NP_123456
NP_123456789
NR_123456
NT_123456
NW_123456
NW_123456789
NZ_ABCD12345678
XM_123456
XM_123456789
XP_123456
XP_123456789
XR_123456
YP_123456
YP_123456789
ZP_12345678
NS_123456
最后补充一点的是序列后的“点数字”代表不同的版本,详参参考链接.